Параметры создания документа UnitextDocument функцией create_document

Пространство имен: pullenti.unitext

Expand
	imageСинтаксис

Методы

  Имя Тип значения Описание
Public methodprogressнетВ наследной функции можно переопределить это для получения бегунка (используется для PDF, когда он очень большой, то прогресс обработки страниц)

Поля

  Имя Тип Описание
Public fieldcorrect_paramsCorrectDocumentParamПараметры корректировки результата (по умолчанию, корректировать всё). Если нужно что-либо отключать, то явно задавайте здесь флажки.
Public fielddont_generate_items_idboolНе генерировать Id для элементов. По умолчанию false, то есть генерировать.
Public fieldextract_page_image_contentboolИзвлекать ли картинки для страниц тексто-графических форматов (PDF, DJVU). Используется для OCR распознаваний
Public fieldignore_inner_documentsboolДля архивов не извлекать файлы, для почтовых форматов игнорировать вложения
Public fieldignore_word6boolНе разбирать документы формата Word6 и ранее (иначе выделяет из него только текст, и то не всегда правильно)
Public fieldload_document_structureboolЗагружать ли структуру документа, если есть, оформляя её через UnitextDocblock. Сейчас поддержано только для HTML и FB2.
Public fieldmax_image_sizeintПри установке картинки с содержимым большего размера будут игнорироваться
Public fieldmax_table_rowsintМожно поставить ограничитель на число строк таблиц (больше этого порога будут отбрасываться)
Public fieldonly_for_pure_textboolПризнак того, что создание предназначено только для последующего выделения плоского текста. То есть картинки и пр. можно игнорировать.
Public fieldset_formula_as_imageboolПредставлять формулы MS Word картинками UnitextImage (но без содержимого)
Public fieldsplit_table_rowsboolРазбивать ли слипшиеся строки таблиц на отдельные строки (когда в ячейках таблицы строки моделируются переходами на новую строку)