Разные полезные процедурки лингвистического анализа. Особо полезные функции выделены шрифтом.Пространство имен: Pullenti.Ner.Core
Синтаксис
Методы
Имя | Тип значения | Описание | |
---|---|---|---|
![]() ![]() | CanBeEqualCyrAndLatSS | bool | Проверка на возможную эквивалентность русского и латинского написания одного и того же слова. Например, ИКЕЯ ? IKEA |
![]() ![]() | CanBeEqualCyrAndLatTS | bool | Проверка на возможную эквивалентность русского и латинского написания одного и того же слова |
![]() ![]() | CanBeEqualCyrAndLatTT | bool | Проверка на возможную эквивалентность русского и латинского написания одного и того же слова. Например, ИКЕЯ ? IKEA |
![]() ![]() | CanBeEquals | bool | Сравнение 2-х строк на предмет равенства с учётом морфологии и пунктуации (то есть инвариантно относительно них). Функция довольно трудоёмка, не использовать без крайней необходимости. ВНИМАНИЕ! Вместо этой функции теперь используйте CanBeEqualsEx. |
![]() ![]() | CanBeEqualsEx | bool | Сравнение 2-х строк на предмет равенства с учётом морфологии и пунктуации (то есть инвариантно относительно них). Функция довольно трудоёмка, не использовать без крайней необходимости. |
![]() ![]() | CanBeStartOfSentence | bool | Проверка того, может ли здесь начинаться новое предложение. Для проверки токена конца предложения используйте CanBeStartOfSentence(t.Next) проверку на начало следующего в цепочке токена. |
![]() ![]() | CheckAbbreviation | bool | Проверить аббревиатуру |
![]() ![]() | CheckImage | Token | Проверка картинки - конструкции вида [КартинкаXXX] |
![]() ![]() | CheckNumberPrefix | Token | Проверка различных способов написания ключевых слов для номеров (ном., №, рег.номер и пр.) |
![]() ![]() | CheckPureVerb | bool | Проверка, что в данном диапазоне есть глагол такой, что данный фрагмент не является наименованием, а является законченным предложением. |
![]() ![]() | ConvertFirstCharUpperAndOtherLower | string | Преобразовать строку, чтобы первая буква стала большой, остальные маленькие |
![]() ![]() | ConvertLatinWordToRussianVariants | List<string> | Преобразовать слово, написанное по латыни, в варианты на русском языке. Например, "Mikhail" -> "Михаил" |
![]() ![]() | ConvertRussianWordToLatinVariants | List<string> | Преобразовать слово, написанное в кириллице, в варианты на латинице. |
![]() ![]() | CreateCyrLatAlternative | string | Попытка через транслитеральную замену сделать альтернативное написание строки Например, А-10 => A-10 (здесь латиница и кириллица). |
![]() ![]() | FindEndOfSentence | Token | Переместиться на конец предложения |
![]() ![]() | GetAbbreviation | string | Сделать аббревиатуру для строки из нескольких слов |
![]() ![]() | GetAbsoluteNormalValue | string | Получение абсолютного нормализованного значения (с учётом гласных, удалением невидимых знаков и т.п.). Используется для сравнений различных вариантов написаний. Преобразования: гласные заменяются на *, Щ на Ш, Х на Г, одинаковые соседние буквы сливаются, Ъ и Ь выбрасываются. Например, ХАБИБУЛЛИН - Г*Б*Б*Л*Н |
![]() ![]() | GetPureReferentToken | MetaToken | Для сущности вычислить точное подмножество вхождения. Дело в том, что для некоторых сущностей в диапазон вхождения (ReferentToken) включаются и другие дополнительные сущности. Например, для персоны её атрибуты, должности и т.п., а также контактные даннные за ней, для организации это адреса, реквизиты и пр. Через эту функцию можно получить точное подмножество диапазона, содержащее только эту сущность. Например, для "председатель правления ВТБ Иван Пупкин, +7-905-234-43-21" эта функция вернёт диапазон "Иван Пупкин". |
![]() ![]() | GetTextMorphVarByCaseAndNumberEx | string | Корректировка числа и падежа строки. Например, GetTextMorphVarByCaseAndNumberEx("год", MorphCase.Nominative, MorphNumber.Undefined, "55") = "лет". |
![]() ![]() | GetTextMorphVarBySample | string | Преобразовать строку в нужный род, число и падеж (точнее, преобразуется первая именная группа), регистр определяется соответствующими символами примера. Морфология определяется по первой именной группе примера. Фукнция полезна при замене по тексту одной комбинации на другую с учётом морфологии и регистра. |
![]() ![]() | GetTextMorphVariant | string | Преобразовать строку к нужному падежу и числу. Преобразуется только начало строки, содержащее именную группу или персону. |
![]() ![]() | GetTextValue | string | Получить текст, задаваемый диапазоном токенов. Текст корректируется в соответствии с атрибутами. |
![]() ![]() | GetTextValueOfMetaToken | string | Получить текст, покрываемый метатокеном. Текст корректируется в соответствии с атрибутами. |
![]() ![]() | HasVowel | bool | Проверка, что текстовой токен имеет хотя бы одну гласную |
![]() ![]() | IsExistsInDictionary | bool | Проверка, что хотя бы одно из слов внутри заданного диапазона находится в морфологическом словаре |
![]() ![]() | IsNotMoreThanOneError | bool | Сравнение, чтобы не было больше одной ошибки в написании. Ошибка - это замена буквы или пропуск буквы. |
![]() ![]() | IsTokenAnimate | bool | Проверка, что токен - "одушевлённая" словоформа |
![]() ![]() | TestAcronym | bool | Проверка акронима, что из первых букв слов диапазона может получиться проверяемый акроним. Например, РФ = Российская Федерация, ГосПлан = государственный план |
![]() ![]() | TryAttachWordByLetters | Token | Проверить написание слова вразбивку по буквам (например: П Р И К А З) |