Параметры создания документа
UnitextDocument функцией
create_documentПространство имен: pullenti.unitext
Синтаксис
| Python |
class CreateDocumentParam |
Методы
| |
Имя |
Тип значения |
Описание |
 | progress | нет | В наследной функции можно переопределить это для получения бегунка
(используется для PDF, когда он очень большой, то прогресс обработки страниц) |
Поля
| |
Имя |
Тип |
Описание |
 | correct_params | CorrectDocumentParam | Параметры корректировки результата (по умолчанию, корректировать всё).
Если нужно что-либо отключать, то явно задавайте здесь флажки. |
 | dont_generate_items_id | bool | Не генерировать Id для элементов. По умолчанию false, то есть генерировать. |
 | extract_page_image_content | bool | Извлекать ли картинки для страниц тексто-графических форматов (PDF, DJVU).
Используется для OCR распознаваний |
 | ignore_inner_documents | bool | Для архивов не извлекать файлы, для почтовых форматов игнорировать вложения |
 | ignore_word6 | bool | Не разбирать документы формата Word6 и ранее (иначе выделяет из него только текст, и то не всегда правильно) |
 | load_document_structure | bool | Загружать ли структуру документа, если есть, оформляя её через UnitextDocblock.
Сейчас поддержано только для HTML и FB2. |
 | max_image_size | int | При установке картинки с содержимым большего размера будут игнорироваться |
 | max_table_rows | int | Можно поставить ограничитель на число строк таблиц (больше этого порога будут отбрасываться) |
 | only_for_pure_text | bool | Признак того, что создание предназначено только для последующего
выделения плоского текста. То есть картинки и пр. можно игнорировать. |
 | set_formula_as_image | bool | Представлять формулы MS Word картинками UnitextImage (но без содержимого) |
 | split_table_rows | bool | Разбивать ли слипшиеся строки таблиц на отдельные строки (когда в ячейках таблицы строки
моделируются переходами на новую строку) |