Включая защищенные члены
Включая унаследованные члены

Include .NET Framework Members
Include .NET Compact Framework Members
Include XNA Framework Members

SDK Pullenti programming reference for Python

SourceOfAnalysis - класс

Анализируемый текст, точнее, обёртка над ним

Пространство имен: pullenti.ner

Синтаксис

Конструкторы

	Имя		Описание
	SourceOfAnalysis		Создать контейнер на основе плоского текста. При создании будут автоматически сделаны транслитеральные замены, если они будут найдены.

Свойства (get/set)

	Имя	Тип	Описание
	styles	bytearray	Это если есть информация о стилях символов, то можно её закодировать здесь. styles.Length = text.Length. Бит 0 - bold, бит 1 - italic. Пока используется только при анализе структуры НПА
	tag	object	Используется произвольным образом
	text	str	Исходный плоский текст

Методы

	Имя	Тип значения	Описание
	substring	str	Извлечь фрагмент из исходного текста. Переходы на новую строку заменяются пробелами.

Поля

	Имя	Тип	Описание
	clear_dust	bool	Игнорировать сбойные участки (это участки с неправильной кодировкой, мусором и т.п.)
	correction_dict	dict	Словарь корректировки типовых ошибок. Ключ - ошибочное написание, Значение - правильное. Ключи и значения должны быть в верхнем регистре и без Ё.
	create_number_tokens	bool	Создавать автоматически NumberToken
	crlf_corrected_count	int	Количество исправлений переходов на новую строку
	do_word_correction_by_morph	bool	Пытаться ли делать коррекцию слов, не попавших в словарь.
	do_words_merging_by_morph	bool	Объединять соседние слова, не попавшие в словарь, если при объединении получается слово из словаря (очень полезно для текстов из PDF)
	ignored_begin_char	int	Начало фрагмента текста, игнорируемого большинством анализаторов при анализе. Используется для поверхностной обработки больших текстов.
	ignored_end_char	int	Окончание фрагмента текста, игнорируемого большинством анализаторов при анализе. Используется для поверхностной обработки больших текстов. По умолчанию, 0 - текст обрабатывается целиком.
	user_params	str	Строка с доп. параметрами (зависят от анализаторов) Например, для адресов параметр-строка ADDRESS обозначает, что анализируемый текст есть чистый адрес, что даёт некоторые доп. улучшения при анализе (слова в нижнем регистре)