Анализируемый текст, точнее, обёртка над ним
Пространство имен: pullenti.ner
Синтаксис
Python |
class SourceOfAnalysis |
Конструкторы
|
Имя |
|
Описание |
 | SourceOfAnalysis | | Создать контейнер на основе плоского текста.
При создании будут автоматически сделаны транслитеральные замены, если они будут найдены. |
Свойства (get/set)
|
Имя |
Тип |
Описание |
 | tag | object | Используется произвольным образом |
 | text | str | Исходный плоский текст |
Методы
|
Имя |
Тип значения |
Описание |
 | substring | str | Извлечь фрагмент из исходного текста. Переходы на новую строку заменяются пробелами. |
Поля
|
Имя |
Тип |
Описание |
 | clear_dust | bool | Игнорировать сбойные участки (это участки с неправильной кодировкой,
мусором и т.п.) |
 | correction_dict | dict | Словарь корректировки типовых ошибок.
Ключ - ошибочное написание, Значение - правильное.
Ключи и значения должны быть в верхнем регистре и без Ё. |
 | create_number_tokens | bool | Создавать автоматически NumberToken |
 | crlf_corrected_count | int | Количество исправлений переходов на новую строку |
 | do_word_correction_by_morph | bool | Пытаться ли делать коррекцию слов, не попавших в словарь. |
 | do_words_merging_by_morph | bool | Объединять соседние слова, не попавшие в словарь, если при объединении получается слово из словаря
(очень полезно для текстов из PDF) |
 | ignored_begin_char | int | Начало фрагмента текста, игнорируемого большинством анализаторов при анализе.
Используется для поверхностной обработки больших текстов. |
 | ignored_end_char | int | Окончание фрагмента текста, игнорируемого большинством анализаторов при анализе.
Используется для поверхностной обработки больших текстов.
По умолчанию, 0 - текст обрабатывается целиком. |
 | user_params | str | Строка с доп. параметрами (зависят от анализаторов)
Например, для адресов параметр-строка ADDRESS обозначает, что анализируемый текст есть чистый адрес,
что даёт некоторые доп. улучшения при анализе (слова в нижнем регистре) |