Unitext - документ

Пространство имен: Pullenti.Unitext

Expand imageИерархия наследования

Expand
	imageСинтаксис

Свойства (get/set)

  Имя Тип Описание
Public propertyContentItemsList<UnitextItem>Получить список всех элементов (включая и сам документ как элемент). Порядок последовательный, как они входят в дерево и в какой последовательности генерируется плоский текст. Колонтитулы не включаются.

Методы

  Имя Тип значения Описание
Public methodDeserializeнетВосстановить документ из байтового потока, полученного функцией Serialize(). Если что не так, то выдаст Exception.
Public methodFindByIdUnitextItemНайти элемент по его идентификатору
Public methodFromXmlнетДесериализовать из XML, полученный функцией GetXml().
Public methodGenerateIdsнетСгенерировать внутренние идентификаторы у элементов. Если у элемента Id установлен, то он не меняется. У колонтитулов Id не устанавливается. По умолчанию, Id генерируются при создании документа.
Public methodGetHtmlнетСгенерировать HTML
Public methodGetHtmlStringstringСгенерировать HTML
Public methodGetPlaintextнетСгенерировать плоский текст
Public methodGetPlaintextStringstringСгенерировать плоский текст
Public methodGetXmlнетСериализовать в XML. Потом можно восстановить фукнцией FromXml().
Public methodImplantateboolВстроить контейнер в дерево элементов. ВНИМАНИЕ! Встраивание возможно только после вызова GetPlaintext(), когда значения BeginChar и EndChar установлены у всех элементов, и встраивание происходит относительно этих значений. Идентификатор у встраиваемого контейнера устанавливать самим, если нужно потом производить к нему навигацию в Html.
Public methodImplantateBlockUnitextDocblockВстроить в дерево структурирующий блок UnitextDocblock. Его идентификатор Id нужно устанавливать самим, если нужно.
Public methodImplantateHyperlinkboolВстроить гиперссылку в дерево элементов. ВНИМАНИЕ! Встраивание возможно только после вызова GetPlaintext(), когда значения BeginChar и EndChar установлены у всех элементов, и встраивание происходит относительно этих значений. Идентификатор у встраиваемого контейнера устанавливать самим, если нужно потом производить к нему навигацию в Html.
Public methodMergeWithнетОбъединить содержимое с содержимым другого документа
Public methodRefreshContentByPagesнетПосле OCR-распознавания обновить СТП (Content) на основе нового ТГП (Pages)
Public methodRemoveAllHyperlinksintУдалить все гиперссылки, сделав их обычными текстами
Public methodRemoveItemByIdboolУдалить элемент по его идентификатору Id. Сейчас работает только для тех элементов, которые были встроены через Implantate
Public methodRemoveItemsintУдалить элементы определённого типа
Public methodSerializebyte[]Преобразовать в байтовый поток (со сжатием). Восстанавливать потом функцией Deserialize().

Поля

  Имя Тип Описание
Public fieldAttrsDictionary<string, string>Некоторые дополнительные атрибуты (зависят от формата)
Public fieldContentUnitextItemСодержимое (тело) структурно-текстового представления (СТП)
Public fieldErrorMessagestringСообщение об ошибке, формируемое при обработке исходного файла (например, что файл зашифрован)
Public fieldHtmlStylesstringЭто дополнительные определения стилей для вывода полноценного документа в Html (содержимое секции styles)
Public fieldInnerDocumentsList<UnitextDocument>Внутренние документы (например, для архива его разархивированные файлы или вложения для писем)
Public fieldPagesList<UnilayPage>Последовательность страниц UnilayPage с расположенными на них прямоугольниками с текстами и картинками. Тексто-графическое представление (ТГП) - для форматов PDF, DjVu
Public fieldSectionsList<UnitextPagesection>Информация о страницах и колонтитулах
Public fieldSourceFileNamestringИмя исходного файла (если есть)
Public fieldSourceFilePagesstringСтраницы исходного файла (это когда файл PDF разбивается на несколько документов)
Public fieldSourceFormatFileFormatФормат исходного документа
Public fieldSourcePlainTextstringЕсли документ получен функцией CreateFromText, то это входной текст, причём никак не корректированный. Функция GetPlaintext возвращает его независимо от настроек параметров генерации.
Public fieldStylesList<UnitextStyle>Стили текста и абзацев