Базовый класс для всех токенов. Наследные классы -
TextToken (конечная словоформа) и
MetaToken (связный фрагмент других токенов).
Пространство имен: pullenti.ner
Синтаксис
Свойства (get/set)
|
Имя |
Тип |
Описание |
 | begin_char | int | Позиция в тексте начального символа |
 | end_char | int | Позиция в тексте конечного символа |
 | is_and | bool | Это соединительный союз И (на всех языках) |
 | is_comma | bool | Это запятая |
 | is_comma_and | bool | Это запятая или союз И |
 | is_hiphen | bool | Это символ переноса |
 | is_ignored | bool | Игнорировать токен при обработке |
 | is_letters | bool | Признак того, что это буквенный текстовой токен (TextToken) |
 | is_newline_after | bool | Элемент заканчивает строку.
Для последнего элемента всегда true. |
 | is_newline_before | bool | Элемент начинается с новой строки.
Для 1-го элемента всегда true. |
 | is_or | bool | Это соединительный союз ИЛИ (на всех языках) |
 | is_table_control_char | bool | Это спец-символы для табличных элементов (7h, 1Eh, 1Fh) |
 | is_whitespace_after | bool | Наличие пробельных символов после |
 | is_whitespace_before | bool | Наличие пробельных символов перед |
 | length_char | int | Длина в текстовых символах |
 | morph | MorphCollection | Морфологическая информация |
 | newlines_after_count | int | Количество переходов на новую строку перед |
 | newlines_before_count | int | Количество переходов на новую строку перед |
 | next0_ | Token | Следующий токен в цепочке токенов |
 | previous | Token | Предыдущий токен в цепочке токенов |
 | whitespaces_after_count | int | Количество пробелов перед, переход на новую строку = 10, табуляция = 5 |
 | whitespaces_before_count | int | Количество пробелов перед, переход на новую строку = 10, табуляция = 5 |
Методы
|
Имя |
Тип значения |
Описание |
 | get_morph_class_in_dictionary | MorphClass | Проверка, что слово есть в словаре соответствующего языка |
 | get_normal_case_text | str | Получить связанный с токеном текст в именительном падеже |
 | get_referent | Referent | Получить ссылку на сущность (не null только для ReferentToken) |
 | get_referents | list | Получить список ссылок на все сущности, скрывающиеся под элементом.
Дело в том, что одни сущности могут накрывать другие (например, адрес накроет город). |
 | get_source_text | str | Получить фрагмент исходного текста, связанный с токеном |
 | is_char | bool | Токен состоит из конкретного символа |
 | is_char_of | bool | Токен состоит из одного символа, который есть в указанной строке |
 | is_value | bool | Проверка конкретного значения слова (с учётом морф.вариантов) |
 | is_value2 | bool | Проверка двух подряд идущих слов (с учётом морф.вариантов) |
 | is_value3 | bool | Проверка трёх подряд идущих слова (с учётом морф.вариантов) |
Поля
|
Имя |
Тип |
Описание |
 | chars | CharsInfo | Информация о символах |
 | kit | AnalysisKit | Аналитический контейнер |
 | tag | object | Используется произвольным образом |