Параметры создания документа
UnitextDocument функцией
CreateDocumentПространство имен: Pullenti.Unitext
Синтаксис
CSharp |
public class CreateDocumentParam |
Методы
|
Имя |
Тип значения |
Описание |
 | Progress | нет | В наследной функции можно переопределить это для получения бегунка
(используется для PDF, когда он очень большой, то прогресс обработки страниц) |
Поля
|
Имя |
Тип |
Описание |
 | CorrectParams | CorrectDocumentParam | Параметры корректировки результата (по умолчанию, корректировать всё).
Если нужно что-либо отключать, то явно задавайте здесь флажки. |
 | DontGenerateItemsId | bool | Не генерировать Id для элементов. По умолчанию false, то есть генерировать. |
 | ExtractPageImageContent | bool | Извлекать ли картинки для страниц тексто-графических форматов (Pdf, DjVu).
Используется для OCR распознаваний |
 | IgnoreInnerDocuments | bool | Для архивов не извлекать файлы, для почтовых форматов игнорировать вложения |
 | IgnoreWord6 | bool | Не разбирать документы формата Word6 и ранее (иначе выделяет из него только текст, и то не всегда правильно) |
 | LoadDocumentStructure | bool | Загружать ли структуру документа, если есть, оформляя её через UnitextDocblock.
Сейчас поддержано только для HTML и FB2. |
 | MaxImageSize | int | При установке картинки с содержимым большего размера будут игнорироваться |
 | MaxTableRows | int | Можно поставить ограничитель на число строк таблиц (больше этого порога будут отбрасываться) |
 | OnlyForPureText | bool | Признак того, что создание предназначено только для последующего
выделения плоского текста. То есть картинки и пр. можно игнорировать. |
 | SetFormulaAsImage | bool | Представлять формулы MS Word картинками UnitextImage (но без содержимого) |
 | SplitTableRows | bool | Разбивать ли слипшиеся строки таблиц на отдельные строки (когда в ячейках таблицы строки
моделируются переходами на новую строку) |