Универсальное структурно-текстовое представление документа

Классы

  Имя Описание
Public classCorrectDocumentParamПараметры корректировки (оптимизации) представления в параметрах создания CreateDocumentParam.CorrextParams.
Public classCreateDocumentParamПараметры создания документа UnitextDocument функцией CreateDocument
Public classGetHtmlParamПараметры генерации HTML функциями GetHtml и GetHtmlString
Public classGetPlaintextParamПараметры генерации плоского текста функциями GetPlaintext и GetPlaintextString
Public classUnilayPageСтраница тексто-графического слоя
Public classUnilayRectangleПрямоугольник тексто-графического слоя
Public classUnitextCommentПримечание (аннотация). Оформляется двумя такими объектами - для начальной позиции и конечной позиции.
Public classUnitextContainerКонтейнер других элементов
Public classUnitextDocblockCтруктурирующий блок из заголовочной части, тела, окончания и приложений. Выделяется только для некоторых форматов, если задать LoadDocumentStructure = true в параметрах создания. Но этот элемент активно используется на других этапах анализа, когда структура документа восстанавливается по плоскому тексту, а затем их иерархия оформляется этими элементами. Например, для нормативных актов это главы, статьи, части, пункты и подпункты.
Public classUnitextDocumentUnitext - документ
Public classUnitextFootnoteСноска
Public classUnitextHyperlinkГиперссылка
Public classUnitextImageКартинка
Public classUnitextItemБазовый класс для всех элементов Unitext: UnitextPlaintext, UnitextContainer, UnitextTable, UnitextTablecell, UnitextList, UnitextListitem, UnitextNewline, UnitextPagebreak, UnitextFootnote, UnitextImage, UnitextHyperlink, UnitextComment, UnitextDocblock и UnitextMisc.
Public classUnitextListСписок
Public classUnitextListitemЭлемент списка
Public classUnitextMiscРазные нетекстовые элементы
Public classUnitextNewlineПереход на новую строку
Public classUnitextPagebreakРазрыв страниц
Public classUnitextPagesectionИнформация о страницах и колонтитулах.
Public classUnitextPagesectionItemЭлемент сегмента страниц
Public classUnitextPlaintextФрагмент плоского текста.
Public classUnitextServiceСервис поддержки технологии Unitext
Public classUnitextStyleПредставление стилей. Реализовано пока только для формата DOCX.
Public classUnitextStyledFragmentФрагмент, с которым связаны стили UnitextStyle (если их выделение реализовано для входного формата). Представляет собой иерархию.
Public classUnitextTableТаблица, представляет собой матрицу из клеток. Ячейки могут заполнять прямоугольные области из клеток. Ячейки не могут пересекаться друг с другом.
Public classUnitextTablecellЯчейка таблицы

Перечисления

  Имя Описание
Public enumFileFormatФормат файла
Public enumFileFormatClassКласс формата
Public enumGetHtmlParamFootnoteOutTypeТип вывода сносок при генерации HTML
Public enumUnitextContainerTypeТип контейнера элементов
Public enumUnitextDocblockTypeТип структурирующего блока
Public enumUnitextMiscTypeТип нетекстового элемента
Public enumUnitextPagesectionItemPagesСтраницы, на которые распространяется элемент сегмента
Public enumUnitextPlaintextTypeТип плоского текста
Public enumUnitextStyledFragmentTypeТипы стилевых фрагментов UnitextStyledFragment
Public enumWhitespaceTypeТип Newline или Pagebreak (например, в случае PDF некоторые переходы ошибочны)