Форум » Вопросы по сайту » Секреты распознавания. » Ответить

Секреты распознавания.

Thietmar: Не легкая это дело – распознавать сканы, особенно, если они имеют дефекты (грязь, черные полосы, бледный текст, сжатость и т.д.) Но не будем унывать. Можно и облегчить работу. Нам нужно будет PhotoShop, начиная с версии 6.0. по 1х.0 (или другой полноценный графический редактор) и ABBYY FineReader 9.0. Photoshop устранит те дефекты, которые присущи сканам. (Ведь часто бывает, что человек, который сканирует книги не думает о человеке, который будет их распознавать. ИМХО!) Файнридер 9.0 - быстро и хорошо распознает сканы и покажет орфографические ошибки и исправит их, что ускорит нашу работу. И конечно (желательно) хороший комп с большой оперативной памятью - 1, а лучше 2 Гб. Очень часто сканы сжаты, да к тому же и текст бывает бледный, что приводит к плохому качеству распознавания и большим орфографическим ошибкам даже в Файнридере 9.0, если распознавать как есть. Особенно если сканы «убитые». 1. Итак открываем первый скан в Фотошопе. Чтоб убыстрить редактирование сканов в Фотошопе - создаем Скрипт (Action) – на панели выбираем меню «Window” -> «Action”. При создании Скрипта (сначала создается папка, а в папке сам файл Скрипт (action) – при его создании он сразу входит в режим записи (record). Как только Скрипт в режиме записи выбираем в панели меню «Image» -> выбираем «Mode» -> «Grayscale» - оставляем «1». Затем снова меню «Image» -> «Image Size». Тут выбирает разрешение (dpi) скана - ставим 500. Если убитый скан - 600. В меню «File» - сохраняем (Save) скан и закрываем (Close) его. Теперь останавливаем Скрипт - (stop). Закрываем этот скан. Теперь можно эти изменения распространить сразу на все сканы в рабочей папке. Входим в меню «File» -> «Automate» -> «Batch». В «Batch» выбираем наш Скрипт и папку со сканами и нажимаем на «ОК». - Фотошоп сам отредактирует все сканы в рабочей папке без вашего участия. Если скан бледный или много грязи - уж тут лучше каждый скан отредактировать отдельно Бледность скана исправляется в меню «Image» -> «Adjustments» -> «Curves» или «Brightness/Contrast». Если текст в скане достаточно крив из-за не лучшего сканирования, то надо его вернуть в первоначальный вид - меню «Edit» -> «Transform» -> «Rotate» На редактирование уйдет меньше времени, чем потом исправлять многочисленные орфографические ошибки или вбивать самому текст в Файнридер 9.0. Конечно, Файнридер 9.0. обещает, что он сам исправит последние вышеприведенные огрехи скана, но пускай он выполняет свою основную работу – распознавание скана. А Фотошоп лучше справится со своей работой. Один минус - каждый файл может увеличиться в размере с 12 до 25 Мб. Но с современным компом это пустяк. 2. Теперь открываем отредактированные в Фотошопе сканы в Файнридере 9.0. Даже такие большие сканы (500-600 dpi, размер - 25 Мб) Файнридер 9.0 откроет быстро и быстро распознает при соответствующем компе. Чтобы Файнридер 9.0 в тексте, который набран дореволюционным способом, ставил знак переноса (повернутое «г») после не законченного слова, переходящего на другую строку, нужно поставить языки для распознавания (меню «Сервис» -> «Редактор языков»): «Русский и «Русский старый», а если есть и латинские буквы, например французские слова, то прибавить и «Французский» - «Французский, Русский, Русский старый». Конечно, не всегда Файнридер поставит знак переноса после распознавания скана, но его можно скопировать и вставить там, где стоит тире «-». Как только распознан скан, входим в окно редактирования текста - «Текст». Сначала сознаем новый стиль для текста - выбираем меню «Сервис» -> «Редактор стилей» и создаем новый - ставим в параметрах шрифт «Time New Roman», размер шрифта – от 8 до 10 в зависимости от размера шрифта в скане. Это будет полезно, когда будете перекидывать текст из Офиса в HTML-редактор или сохранять текст как html-файл - меньше мусора. Теперь выделяем весь текст на странице - выбираем вами созданный «стиль» и выбираем язык «Русский». И желательно выравнивание текста – в ширину. Теперь в окне «Текст» можно исправлять орфографические ошибки, которые нашел Файнридер 9.0. Как только вы готовы текст в документе Файнридера 9.0 перекинуть в Офис, то на панели окна «Текст» меняем «Точная копия» на «Форматированный текст» и перекидываем текст в Офис. 3. Для тех кто хочет помочь ускорить опубликование распознанной статьи (книги) на сайте, тому нужно установить, например, Microsoft Office 97. Скинутый из Файнридера текст сохраняете как html-файл. Данная версия Офиса отличается от последующих тем, что в html-файле нету того «мусора», которые появляется в большом количестве в последующих версиях Офиса.

Ответов - 53, стр: 1 2 3 4 All



полная версия страницы