Разные полезные процедурки лингвистического анализа. Особо полезные функции выделены шрифтом.

Пространство имен: pullenti.ner.core

Синтаксис

Python
class MiscHelper

Методы

Имя	Тип значения	Описание
can_be_equal_cyr_and_latss	bool	Проверка на возможную эквивалентность русского и латинского написания одного и того же слова. Например, ИКЕЯ ? IKEA
can_be_equal_cyr_and_latts	bool	Проверка на возможную эквивалентность русского и латинского написания одного и того же слова
can_be_equal_cyr_and_lattt	bool	Проверка на возможную эквивалентность русского и латинского написания одного и того же слова. Например, ИКЕЯ ? IKEA
can_be_equals	bool	Сравнение 2-х строк на предмет равенства с учётом морфологии и пунктуации (то есть инвариантно относительно них). Функция довольно трудоёмка, не использовать без крайней необходимости. ВНИМАНИЕ! Вместо этой функции теперь используйте can_be_equals_ex.
can_be_equals_ex	bool	Сравнение 2-х строк на предмет равенства с учётом морфологии и пунктуации (то есть инвариантно относительно них). Функция довольно трудоёмка, не использовать без крайней необходимости.
can_be_start_of_sentence	bool	Проверка того, может ли здесь начинаться новое предложение. Для проверки токена конца предложения используйте can_be_start_of_sentence(t.next0_) проверку на начало следующего в цепочке токена.
check_abbreviation	bool	Проверить аббревиатуру
check_false_newline	bool	Проверка, что на самом деле с токена не новая строка, а фальшивка (отрыжка PDF)
check_image	Token	Проверка картинки - конструкции вида [КартинкаXXX]
check_number_prefix	Token	Проверка различных способов написания ключевых слов для номеров (ном., №, рег.номер и пр.)
check_pure_verb	bool	Проверка, что в данном диапазоне есть глагол такой, что данный фрагмент не является наименованием, а является законченным предложением.
convert_first_char_upper_and_other_lower	str	Преобразовать строку, чтобы первая буква стала большой, остальные маленькие
convert_latin_word_to_russian_variants	list	Преобразовать слово, написанное по латыни, в варианты на русском языке. Например, "Mikhail" -> "Михаил"
convert_russian_word_to_latin_variants	list	Преобразовать слово, написанное в кириллице, в варианты на латинице.
create_cyr_lat_alternative	str	Попытка через транслитеральную замену сделать альтернативное написание строки Например, А-10 => A-10 (здесь латиница и кириллица).
find_end_of_sentence	Token	Переместиться на конец предложения
get_abbreviation	str	Сделать аббревиатуру для строки из нескольких слов
get_absolute_normal_value	str	Получение абсолютного нормализованного значения (с учётом гласных, удалением невидимых знаков и т.п.). Используется для сравнений различных вариантов написаний. Преобразования: гласные заменяются на , Щ на Ш, Х на Г, одинаковые соседние буквы сливаются, Ъ и Ь выбрасываются. Например, ХАБИБУЛЛИН - ГББЛ*Н
get_pure_referent_token	MetaToken	Для сущности вычислить точное подмножество вхождения. Дело в том, что для некоторых сущностей в диапазон вхождения (ReferentToken) включаются и другие дополнительные сущности. Например, для персоны её атрибуты, должности и т.п., а также контактные даннные за ней, для организации это адреса, реквизиты и пр. Через эту функцию можно получить точное подмножество диапазона, содержащее только эту сущность. Например, для "председатель правления ВТБ Иван Пупкин, +7-905-234-43-21" эта функция вернёт диапазон "Иван Пупкин".
get_text_morph_var_by_case_and_number_ex	str	Корректировка числа и падежа строки. Например, get_text_morph_var_by_case_and_number_ex("год", MorphCase.NOMINATIVE, MorphNumber.UNDEFINED, "55") = "лет".
get_text_morph_var_by_sample	str	Преобразовать строку в нужный род, число и падеж (точнее, преобразуется первая именная группа), регистр определяется соответствующими символами примера. Морфология определяется по первой именной группе примера. Фукнция полезна при замене по тексту одной комбинации на другую с учётом морфологии и регистра.
get_text_morph_variant	str	Преобразовать строку к нужному падежу и числу. Преобразуется только начало строки, содержащее именную группу или персону.
get_text_value	str	Получить текст, задаваемый диапазоном токенов. Текст корректируется в соответствии с атрибутами.
get_text_value_of_meta_token	str	Получить текст, покрываемый метатокеном. Текст корректируется в соответствии с атрибутами.
has_vowel	bool	Проверка, что текстовой токен имеет хотя бы одну гласную
is_exists_in_dictionary	bool	Проверка, что хотя бы одно из слов внутри заданного диапазона находится в морфологическом словаре
is_not_more_than_one_error	bool	Сравнение, чтобы не было больше одной ошибки в написании. Ошибка - это замена буквы или пропуск буквы.
is_token_animate	bool	Проверка, что токен - "одушевлённая" словоформа
test_acronym	bool	Проверка акронима, что из первых букв слов диапазона может получиться проверяемый акроним. Например, РФ = Российская Федерация, ГосПлан = государственный план
try_attach_word_by_letters	Token	Проверить написание слова вразбивку по буквам (например: П Р И К А З)