Разные полезные процедурки лингвистического анализа. Особо полезные функции выделены шрифтом.

Пространство имен: pullenti.ner.core

Expand
	imageСинтаксис

Методы

  Имя Тип значения Описание
Public method Staticcan_be_equal_cyr_and_latssboolПроверка на возможную эквивалентность русского и латинского написания одного и того же слова. Например, ИКЕЯ ? IKEA
Public method Staticcan_be_equal_cyr_and_lattsboolПроверка на возможную эквивалентность русского и латинского написания одного и того же слова
Public method Staticcan_be_equal_cyr_and_latttboolПроверка на возможную эквивалентность русского и латинского написания одного и того же слова. Например, ИКЕЯ ? IKEA
Public method Staticcan_be_equalsboolСравнение 2-х строк на предмет равенства с учётом морфологии и пунктуации (то есть инвариантно относительно них). Функция довольно трудоёмка, не использовать без крайней необходимости. ВНИМАНИЕ! Вместо этой функции теперь используйте can_be_equals_ex.
Public method Staticcan_be_equals_exboolСравнение 2-х строк на предмет равенства с учётом морфологии и пунктуации (то есть инвариантно относительно них). Функция довольно трудоёмка, не использовать без крайней необходимости.
Public method Staticcan_be_start_of_sentenceboolПроверка того, может ли здесь начинаться новое предложение. Для проверки токена конца предложения используйте can_be_start_of_sentence(t.next0_) проверку на начало следующего в цепочке токена.
Public method Staticcheck_abbreviationboolПроверить аббревиатуру
Public method Staticcheck_imageTokenПроверка картинки - конструкции вида [КартинкаXXX]
Public method Staticcheck_number_prefixTokenПроверка различных способов написания ключевых слов для номеров (ном., №, рег.номер и пр.)
Public method Staticcheck_pure_verbboolПроверка, что в данном диапазоне есть глагол такой, что данный фрагмент не является наименованием, а является законченным предложением.
Public method Staticconvert_first_char_upper_and_other_lowerstrПреобразовать строку, чтобы первая буква стала большой, остальные маленькие
Public method Staticconvert_latin_word_to_russian_variantslistПреобразовать слово, написанное по латыни, в варианты на русском языке. Например, "Mikhail" -> "Михаил"
Public method Staticconvert_russian_word_to_latin_variantslistПреобразовать слово, написанное в кириллице, в варианты на латинице.
Public method Staticcreate_cyr_lat_alternativestrПопытка через транслитеральную замену сделать альтернативное написание строки Например, А-10 => A-10 (здесь латиница и кириллица).
Public method Staticfind_end_of_sentenceTokenПереместиться на конец предложения
Public method Staticget_abbreviationstrСделать аббревиатуру для строки из нескольких слов
Public method Staticget_absolute_normal_valuestrПолучение абсолютного нормализованного значения (с учётом гласных, удалением невидимых знаков и т.п.). Используется для сравнений различных вариантов написаний. Преобразования: гласные заменяются на *, Щ на Ш, Х на Г, одинаковые соседние буквы сливаются, Ъ и Ь выбрасываются. Например, ХАБИБУЛЛИН - Г*Б*Б*Л*Н
Public method Staticget_pure_referent_tokenMetaTokenДля сущности вычислить точное подмножество вхождения. Дело в том, что для некоторых сущностей в диапазон вхождения (ReferentToken) включаются и другие дополнительные сущности. Например, для персоны её атрибуты, должности и т.п., а также контактные даннные за ней, для организации это адреса, реквизиты и пр. Через эту функцию можно получить точное подмножество диапазона, содержащее только эту сущность. Например, для "председатель правления ВТБ Иван Пупкин, +7-905-234-43-21" эта функция вернёт диапазон "Иван Пупкин".
Public method Staticget_text_morph_var_by_case_and_number_exstrКорректировка числа и падежа строки. Например, get_text_morph_var_by_case_and_number_ex("год", MorphCase.NOMINATIVE, MorphNumber.UNDEFINED, "55") = "лет".
Public method Staticget_text_morph_var_by_samplestrПреобразовать строку в нужный род, число и падеж (точнее, преобразуется первая именная группа), регистр определяется соответствующими символами примера. Морфология определяется по первой именной группе примера. Фукнция полезна при замене по тексту одной комбинации на другую с учётом морфологии и регистра.
Public method Staticget_text_morph_variantstrПреобразовать строку к нужному падежу и числу. Преобразуется только начало строки, содержащее именную группу или персону.
Public method Staticget_text_valuestrПолучить текст, задаваемый диапазоном токенов. Текст корректируется в соответствии с атрибутами.
Public method Staticget_text_value_of_meta_tokenstrПолучить текст, покрываемый метатокеном. Текст корректируется в соответствии с атрибутами.
Public method Statichas_vowelboolПроверка, что текстовой токен имеет хотя бы одну гласную
Public method Staticis_exists_in_dictionaryboolПроверка, что хотя бы одно из слов внутри заданного диапазона находится в морфологическом словаре
Public method Staticis_not_more_than_one_errorboolСравнение, чтобы не было больше одной ошибки в написании. Ошибка - это замена буквы или пропуск буквы.
Public method Staticis_token_animateboolПроверка, что токен - "одушевлённая" словоформа
Public method Statictest_acronymboolПроверка акронима, что из первых букв слов диапазона может получиться проверяемый акроним. Например, РФ = Российская Федерация, ГосПлан = государственный план
Public method Statictry_attach_word_by_lettersTokenПроверить написание слова вразбивку по буквам (например: П Р И К А З)