КРАТКИЙ FAQ ПО КОНВЕРТАЦИИ ИЗ ФОРМАТОВ
WORD-А (DOC, RTF) И HTML В ФОРМАТ TXT
v1.0a
Требования: наличие FAR (желательно поновее), Word, IE.
--------------------------------------------------------------------------
Q: Как правильно сконвертировать текст из Word-а в формат TXT?
A: Перво-наперво - забыть напрочь и бесповоротно про сохранение из
Word-а в режимах "текст с форматированием" и "текст с форматированием
MS-DOS". Присутствует глюк Word-а начиная по крайней мере с Office 97 и
заканчивая Office XP. Как результат - с определенным интервалом в
сохраненном тексте портится первое слово в строке. Восстановить подобный
текст впоследствии однако все же можно.
1. Выделить весь текст в Word-е.
2. Через меню Word-а Сервис/Язык/Выбрать язык - выбрать русский язык.
(иначе в некоторых случаях могут быть запорчены начала некоторых абзацев).
3. В некоторых текстах вместо многоточия "...", состоящего из трех
точек, используется символ (вызываемый, по крайней мере в Office XP
комбинацией клавиш "Alt+Ctrl+.") Крайне рекомендуется заменить при помощи
поиска с заменой этот символ на 3 обычных точки. (иначе вместо многоточия
после конвертирования получим ":")
Кроме этого, например, в текстах с сайта
www.bestlibrary.ru
присутствует последовательность символов "..," которую было бы неплохо
заменять на "..."
4. Убрать из текста переносы (если есть). Тут возможны несколько
вариантов.
Если использовалась автоматическая расстановка переносов:
В меню "Сервис" выделите пункт "Язык", а затем выберите команду
"Расстановка переносов". Снимите флажок "Автоматическая расстановка
переносов".
Если расстановка переносов производилась вручную:
Выберите команду "Заменить" в меню "Правка".
Если в диалоговом окне не видна кнопка "Специальный", нажмите кнопку
"Больше".
Нажмите кнопку "Специальный", а затем выберите пункт "Мягкий
перенос".
Поле "Заменить на" не заполняйте.
Нажмите кнопку "Найти далее", "Заменить" или "Заменить все".
Чтобы прервать начатый поиск, нажмите клавишу ESC.
5. Проверить наличие в тексте таблиц и картинок. Что с ними делать -
вопрос щекотливый. Конечно, таблицы - вещь нужная. Поэтому нужно
попытаться как-нибудь сохранить их после конвертирования. Хотя бы и при
помощи построения рамки из каких-либо символов. Псевдографику, однако,
использовать крайне не рекомендуется.
О картинках. Тут все зависит от того, как она была вставлена в текст.
Если картинки были импортированы в Word, к примеру, из Photoshop-а, то для
выдергивания картинок из текста оный Photoshop и будет собственно нужен.
Хотя в отсутствие Photoshop-а мне однажды помог плугин к FAR-у FAR DocFile
Browser Plugin v1.00 Beta 4 - позволяющий входить в документы Offic-а как
в архивы. Внутри документа был найден файл content, скопирован наружу и
переименован с расширением .psd. После чего был просмотрен и
сконвертирован через ACDSee. Иногда может помочь следующее: скопировать
выделенную в Word-е картинку в буфер и вставить ее потом в ACDSee.
6. Выделить весь текст в Word-е.
7. Скопировать его в буфер обмена.
8. Создать в FAR-е новый файл в кодировке DOS и вставить в него
содержимое буфера обмена.
Как результат - получаем файл в кодировке DOS, где каждый абзац
вытянут в одну строку.
Если начала абзаца предваряются последовательностью пробелов, можно
удалить ее при помощи поиска с заменой.
9. Форматировать полученный текст с помощью утилиты, к примеру, Славы
Алексеева PRK-TEXT v 2.0 - в режиме "разбить на строки". Из недостатков
утилиты (хотя возможно и достоинств ;)) - утилита не выравнивает текст по
правому краю, и заменяет символы "<", ">" на кавычки, что не всегда
полезно (к примеру, в тексте встречаются комментарии, заключенные именно в
треугольные скобки).
Я же, например, пользуюсь для форматирования текста утилитой by LLeo
WORD_LST.COM (
http://www.aha.ru/~lleo). К тому же утилиту LLeo можно
вызывать из bat-файла, что бывает полезно при массовой обработке файлов
(об этом ниже).
Не помешает проконтролировать в полученном файле символ "ё" (йо),
тире в начале строки, кавычки.
Этот способ поможет избежать геморроя с конверторами различных
кодировок.
10. Отформатировать при желании названия глав, частей и т.д. вручную.
--------------------------------------------------------------------------
Q: Как сконвертировать из HTML в формат TXT?
A: Принцип в общих чертах такой же, как и для Word-а. Выделяем в окне
Internet Explorer-а весь текст и вставляем его в редакторе Far-а. Если
html-файлов много, можно воспользоваться утилитой LLeo HTML_LST.COM,
вызываемой из bat-файла в цикле. Правда кодировка html должна быть Win.
--------------------------------------------------------------------------
Q: Как переформатировать текст DOS?
A: Бывают случаи когда требуется переформатировать уже
отформатированный текст DOS. Например, чтобы убрать переносы. Или изменить
число символов в строке. Или подготовить текст для загрузки в Word.
В этих случаях я пользуюсь утилитой by LLeo PREWORD.COM
(
http://www.aha.ru/~lleo).
Так же может вызываться из bat-файла.
Что делает утилита - вытягивает абзацы в одну строку, корректно
убирает переносы и конвертирует текст в кодовую страницу Windows.
Единственная неприятная особенность этой утилиты - не все тексты
конвертируются корректно. Для устранения чего и пришлось ее пропатчить
(sorry, LLeo), путем отключения конвертора. Теперь, при подготовке текста
для загрузки в Word, придется сначала прогнать его через PREWORD.COM, а
потом сменить кодировку.
Если в файле абзацы разделяются пустыми строками - я пользуюсь
утилитой того же LLeo - ENTER.COM.
Также есть новая неплохая утилита - Background Text Editor
(
http://mitglied.lycos.de/alonzo999/t...t/TextEdit.rar)
Довольно неплохие возможности по конвертации/форматированию текста.
Но она у меня почему-то убирала дефисы в середине слов. А переносы
обрабатывает неплохо.
--------------------------------------------------------------------------
Q: Как сменить кодировку текста?
A: Для смены кодировок я пользуюсь утилитой XLAT. Поддерживает очень
много кодировок. Хотя подобных утилит есть огромное множество. В том числе
и уже упомянутая утилита Алексеева PRK-TEXT v 2.0. Главное - проверить
правильность конвертирования некоторых символов (тире, кавычки, буквы "ё"
(йо))
--------------------------------------------------------------------------
Q: Как обработать несколько файлов за один раз?
A: При больших количествах обрабатываемых файлов можно использовать
пакетную обработку файлов.
В частности это может помочь при смене кодовой страницы, при
перепаковке из одного типа архива в другой и т.д..
Пример для конвертации из win кодировки в dos:
создаем файл win2dos.bat с содержимым:
md result
for %%f in (*.txt) do call win2dos1.bat %%f
создаем файл win2dos1.bat с содержимым:
xlat /win2dos %1 result\%1
При запуске win2dos.bat для каждого файла с расширением .txt будет
запущена утилита xlat c ключом /win2dos и результат будет помещен в
директорию result.
--------------------------------------------------------------------------
Автор данного текста приветствует любые добавления к faq
Шлите вопросы и ответы которые вы хотите включить сюда на
home_library(at)chat.ru
Крайне будут приветствоваться также ссылки на разные полезные утилиты
по обработке текста, методики OCR и т.д.
(c)
Home Library 2002