Анализируемый текст, точнее, обёртка над ним

Пространство имен: pullenti.ner

Expand
	imageСинтаксис

Конструкторы

  Имя   Описание
Public constructorSourceOfAnalysis Создать контейнер на основе плоского текста. При создании будут автоматически сделаны транслитеральные замены, если они будут найдены.

Свойства (get/set)

  Имя Тип Описание
Public propertytagobjectИспользуется произвольным образом
Public propertytextstrИсходный плоский текст

Методы

  Имя Тип значения Описание
Public methodsubstringstrИзвлечь фрагмент из исходного текста. Переходы на новую строку заменяются пробелами.

Поля

  Имя Тип Описание
Public fieldclear_dustboolИгнорировать сбойные участки (это участки с неправильной кодировкой, мусором и т.п.)
Public fieldcorrection_dictdictСловарь корректировки типовых ошибок. Ключ - ошибочное написание, Значение - правильное. Ключи и значения должны быть в верхнем регистре и без Ё.
Public fieldcreate_number_tokensboolСоздавать автоматически NumberToken
Public fieldcrlf_corrected_countintКоличество исправлений переходов на новую строку
Public fielddo_word_correction_by_morphboolПытаться ли делать коррекцию слов, не попавших в словарь.
Public fielddo_words_merging_by_morphboolОбъединять соседние слова, не попавшие в словарь, если при объединении получается слово из словаря (очень полезно для текстов из PDF)
Public fieldignored_begin_charintНачало фрагмента текста, игнорируемого большинством анализаторов при анализе. Используется для поверхностной обработки больших текстов.
Public fieldignored_end_charintОкончание фрагмента текста, игнорируемого большинством анализаторов при анализе. Используется для поверхностной обработки больших текстов. По умолчанию, 0 - текст обрабатывается целиком.
Public fielduser_paramsstrСтрока с доп. параметрами (зависят от анализаторов) Например, для адресов параметр-строка ADDRESS обозначает, что анализируемый текст есть чистый адрес, что даёт некоторые доп. улучшения при анализе (слова в нижнем регистре)