Включая защищенные члены
Включая унаследованные члены

Include .NET Framework Members
Include .NET Compact Framework Members
Include XNA Framework Members

SDK Unitext programming reference for Python 3

CreateDocumentParam - класс

Параметры создания документа UnitextDocument функцией create_document

Пространство имен: pullenti.unitext

Синтаксис

Методы

	Имя	Тип значения	Описание
	progress	нет	В наследной функции можно переопределить это для получения бегунка (используется для PDF, когда он очень большой, то прогресс обработки страниц)

Поля

	Имя	Тип	Описание
	correct_params	CorrectDocumentParam	Параметры корректировки результата (по умолчанию, корректировать всё). Если нужно что-либо отключать, то явно задавайте здесь флажки.
	dont_generate_items_id	bool	Не генерировать Id для элементов. По умолчанию false, то есть генерировать.
	extract_page_image_content	bool	Извлекать ли картинки для страниц тексто-графических форматов (PDF, DJVU). Используется для OCR распознаваний
	ignore_inner_documents	bool	Для архивов не извлекать файлы, для почтовых форматов игнорировать вложения
	ignore_word6	bool	Не разбирать документы формата Word6 и ранее (иначе выделяет из него только текст, и то не всегда правильно)
	load_document_structure	bool	Загружать ли структуру документа, если есть, оформляя её через UnitextDocblock. Сейчас поддержано только для HTML и FB2.
	max_image_size	int	При установке картинки с содержимым большего размера будут игнорироваться
	max_table_rows	int	Можно поставить ограничитель на число строк таблиц (больше этого порога будут отбрасываться)
	only_for_pure_text	bool	Признак того, что создание предназначено только для последующего выделения плоского текста. То есть картинки и пр. можно игнорировать.
	set_formula_as_image	bool	Представлять формулы MS Word картинками UnitextImage (но без содержимого)
	split_table_rows	bool	Разбивать ли слипшиеся строки таблиц на отдельные строки (когда в ячейках таблицы строки моделируются переходами на новую строку)