Различные утилитки работы с текстамиПространство имен: pullenti.util
Синтаксис
Методы
Имя | Тип значения | Описание | |
---|---|---|---|
![]() ![]() | compare_texts | TextHelper.ComapreTextsResult | Проверка совпадения строк, пробелы игнорируются |
![]() ![]() | correct_newlines_for_paragraphs | str | Исправиление ситуации, когда текстографический формат для размещения слитного фрагмента текста разбивает его на строки (например, для PDF). Производится анализ таких ситуаций и замена переносов на пробелы. |
![]() ![]() | correct_whitespaces | str | Получение текста из текстового файла, при этом автоматически определяется кодировка Windows-1251 или DOS и осуществляется соответствующее преобразование (английский текст не изменяется). Также корректируются переходы на новую строку, чтобы везде были бы \r\n . |
![]() ![]() | extract_text | str | Выделить текст из всех форматов, какие только поддерживаются (кроме архивов) |
![]() ![]() | get_words | list | Преобразовать текст в список слов (разделителем является любой пробельный символ) |
![]() ![]() | read_string_from_file | str | Считывание текста из текстового файла. Кодировка файла определяется префиксом. Поддерживаются такие префиксы: EF BB BF - для UTF8 FF FE или FE FF - для Unicode, младний байт раньше Если префикс не задан, то подразумевается Windows-1251 |
![]() ![]() | write_string_to_file | нет | Сохранение текста в файл. Формат UTF-8, вставляется префикс EF BB BF. |
![]() ![]() | write_string1251to_file | нет | Сохранить строку в файле в кодировке Windows-1251 |