Unitext - документ

Пространство имен: pullenti.unitext

Expand imageИерархия наследования

Expand
	imageСинтаксис

Свойства (get/set)

  Имя Тип Описание
Public propertycontent_itemslistПолучить список всех элементов (включая и сам документ как элемент). Порядок последовательный, как они входят в дерево и в какой последовательности генерируется плоский текст. Колонтитулы не включаются.

Методы

  Имя Тип значения Описание
Public methoddeserializeнетВосстановить документ из байтового потока, полученного функцией serialize(). Если что не так, то выдаст Exception.
Public methodfind_by_idUnitextItemНайти элемент по его идентификатору
Public methodfrom_xmlнетДесериализовать из XML, полученный функцией get_xml().
Public methodgenerate_idsнетСгенерировать внутренние идентификаторы у элементов. Если у элемента Id установлен, то он не меняется. У колонтитулов Id не устанавливается. По умолчанию, Id генерируются при создании документа.
Public methodget_htmlнетСгенерировать HTML
Public methodget_html_stringstrСгенерировать HTML
Public methodget_plaintextнетСгенерировать плоский текст
Public methodget_plaintext_stringstrСгенерировать плоский текст
Public methodget_xmlнетСериализовать в XML. Потом можно восстановить фукнцией from_xml().
Public methodimplantateboolВстроить контейнер в дерево элементов. ВНИМАНИЕ! Встраивание возможно только после вызова get_plaintext(), когда значения BeginChar и EndChar установлены у всех элементов, и встраивание происходит относительно этих значений. Идентификатор у встраиваемого контейнера устанавливать самим, если нужно потом производить к нему навигацию в HTML.
Public methodimplantate_blockUnitextDocblockВстроить в дерево структурирующий блок UnitextDocblock. Его идентификатор Id нужно устанавливать самим, если нужно.
Public methodimplantate_hyperlinkboolВстроить гиперссылку в дерево элементов. ВНИМАНИЕ! Встраивание возможно только после вызова get_plaintext(), когда значения BeginChar и EndChar установлены у всех элементов, и встраивание происходит относительно этих значений. Идентификатор у встраиваемого контейнера устанавливать самим, если нужно потом производить к нему навигацию в HTML.
Public methodmerge_withнетОбъединить содержимое с содержимым другого документа
Public methodrefresh_content_by_pagesнетПосле OCR-распознавания обновить СТП (content) на основе нового ТГП (pages)
Public methodremove_all_hyperlinksintУдалить все гиперссылки, сделав их обычными текстами
Public methodremove_item_by_idboolУдалить элемент по его идентификатору Id. Сейчас работает только для тех элементов, которые были встроены через implantate
Public methodserializebytearrayПреобразовать в байтовый поток (со сжатием). Восстанавливать потом функцией deserialize().

Поля

  Имя Тип Описание
Public fieldattrsdictНекоторые дополнительные атрибуты (зависят от формата)
Public fieldcontentUnitextItemСодержимое (тело) структурно-текстового представления (СТП)
Public fielderror_messagestrСообщение об ошибке, формируемое при обработке исходного файла (например, что файл зашифрован)
Public fieldhtml_stylesstrЭто дополнительные определения стилей для вывода полноценного документа в HTML (содержимое секции styles)
Public fieldinner_documentslistВнутренние документы (например, для архива его разархивированные файлы или вложения для писем)
Public fieldpageslistПоследовательность страниц UnilayPage с расположенными на них прямоугольниками с текстами и картинками. Тексто-графическое представление (ТГП) - для форматов PDF, DJVU
Public fieldsectionslistИнформация о страницах и колонтитулах
Public fieldsource_file_namestrИмя исходного файла (если есть)
Public fieldsource_file_pagesstrСтраницы исходного файла (это когда файл PDF разбивается на несколько документов)
Public fieldsource_formatFileFormatФормат исходного документа
Public fieldsource_plain_textstrЕсли документ получен функцией CreateFromText, то это входной текст, причём никак не корректированный. Функция get_plaintext возвращает его независимо от настроек параметров генерации.
Public fieldstyleslistСтили текста и абзацев