Секреты распознавания.

Форум » Вопросы по сайту » Секреты распознавания. » Ответить

Секреты распознавания.

Thietmar: Не легкая это дело – распознавать сканы, особенно, если они имеют дефекты (грязь, черные полосы, бледный текст, сжатость и т.д.) Но не будем унывать. Можно и облегчить работу. Нам нужно будет PhotoShop, начиная с версии 6.0. по 1х.0 (или другой полноценный графический редактор) и ABBYY FineReader 9.0. Photoshop устранит те дефекты, которые присущи сканам. (Ведь часто бывает, что человек, который сканирует книги не думает о человеке, который будет их распознавать. ИМХО!) Файнридер 9.0 - быстро и хорошо распознает сканы и покажет орфографические ошибки и исправит их, что ускорит нашу работу. И конечно (желательно) хороший комп с большой оперативной памятью - 1, а лучше 2 Гб. Очень часто сканы сжаты, да к тому же и текст бывает бледный, что приводит к плохому качеству распознавания и большим орфографическим ошибкам даже в Файнридере 9.0, если распознавать как есть. Особенно если сканы «убитые». 1. Итак открываем первый скан в Фотошопе. Чтоб убыстрить редактирование сканов в Фотошопе - создаем Скрипт (Action) – на панели выбираем меню «Window” -> «Action”. При создании Скрипта (сначала создается папка, а в папке сам файл Скрипт (action) – при его создании он сразу входит в режим записи (record). Как только Скрипт в режиме записи выбираем в панели меню «Image» -> выбираем «Mode» -> «Grayscale» - оставляем «1». Затем снова меню «Image» -> «Image Size». Тут выбирает разрешение (dpi) скана - ставим 500. Если убитый скан - 600. В меню «File» - сохраняем (Save) скан и закрываем (Close) его. Теперь останавливаем Скрипт - (stop). Закрываем этот скан. Теперь можно эти изменения распространить сразу на все сканы в рабочей папке. Входим в меню «File» -> «Automate» -> «Batch». В «Batch» выбираем наш Скрипт и папку со сканами и нажимаем на «ОК». - Фотошоп сам отредактирует все сканы в рабочей папке без вашего участия. Если скан бледный или много грязи - уж тут лучше каждый скан отредактировать отдельно Бледность скана исправляется в меню «Image» -> «Adjustments» -> «Curves» или «Brightness/Contrast». Если текст в скане достаточно крив из-за не лучшего сканирования, то надо его вернуть в первоначальный вид - меню «Edit» -> «Transform» -> «Rotate» На редактирование уйдет меньше времени, чем потом исправлять многочисленные орфографические ошибки или вбивать самому текст в Файнридер 9.0. Конечно, Файнридер 9.0. обещает, что он сам исправит последние вышеприведенные огрехи скана, но пускай он выполняет свою основную работу – распознавание скана. А Фотошоп лучше справится со своей работой. Один минус - каждый файл может увеличиться в размере с 12 до 25 Мб. Но с современным компом это пустяк. 2. Теперь открываем отредактированные в Фотошопе сканы в Файнридере 9.0. Даже такие большие сканы (500-600 dpi, размер - 25 Мб) Файнридер 9.0 откроет быстро и быстро распознает при соответствующем компе. Чтобы Файнридер 9.0 в тексте, который набран дореволюционным способом, ставил знак переноса (повернутое «г») после не законченного слова, переходящего на другую строку, нужно поставить языки для распознавания (меню «Сервис» -> «Редактор языков»): «Русский и «Русский старый», а если есть и латинские буквы, например французские слова, то прибавить и «Французский» - «Французский, Русский, Русский старый». Конечно, не всегда Файнридер поставит знак переноса после распознавания скана, но его можно скопировать и вставить там, где стоит тире «-». Как только распознан скан, входим в окно редактирования текста - «Текст». Сначала сознаем новый стиль для текста - выбираем меню «Сервис» -> «Редактор стилей» и создаем новый - ставим в параметрах шрифт «Time New Roman», размер шрифта – от 8 до 10 в зависимости от размера шрифта в скане. Это будет полезно, когда будете перекидывать текст из Офиса в HTML-редактор или сохранять текст как html-файл - меньше мусора. Теперь выделяем весь текст на странице - выбираем вами созданный «стиль» и выбираем язык «Русский». И желательно выравнивание текста – в ширину. Теперь в окне «Текст» можно исправлять орфографические ошибки, которые нашел Файнридер 9.0. Как только вы готовы текст в документе Файнридера 9.0 перекинуть в Офис, то на панели окна «Текст» меняем «Точная копия» на «Форматированный текст» и перекидываем текст в Офис. 3. Для тех кто хочет помочь ускорить опубликование распознанной статьи (книги) на сайте, тому нужно установить, например, Microsoft Office 97. Скинутый из Файнридера текст сохраняете как html-файл. Данная версия Офиса отличается от последующих тем, что в html-файле нету того «мусора», которые появляется в большом количестве в последующих версиях Офиса.

Ответов - 53, стр: 1 2 3 4 All

Strori: Интересно, чего творит с текстом опенофис, если потом просмотреть его можно только в браузере... В блокноте виндовом такие сочные каракули, что диву даешься.

Thietmar: Опенофис действительно с майрософтофскими изделями крайне мало совместим.

Игорь Ф.: Интересно, чего творит с текстом опенофис, если потом просмотреть его можно только в браузере... В блокноте виндовом такие сочные каракули, что диву даешься. Просто блокнот не знает других кодировок, кроме мелкомягких. К счастью, это не единственный редактор :) Хотя надо признать, что самый полный шрифт для юникода- майкрософтовский.

Strori: Вообще-то это был не стандартный виндовый блокнот. :) Каюсь. Спецблокнот для кодинга.

Владислав: Итак, я тут попытался исправлять ошибки в фанридере 7. ошибок было очень много, и после второй страницы все это дело мне порядком надоело. Интересночто далеко не все ошибки фанридер принимал за таковые, ну к примеру слово "последн1й", он никак не отмечал за ошибку. Я сделал вывод что ошибкой файнридер считает только те слова в которых он прираспозновании засомневался. В итоге я бросил эту идею и опять перешел на ворд,.. Даже если предположить, что время затраченное на исправление ошибок в FR быдут меньше, сам процесс меня сильно напряг. И даже если я пересилю себя и все исправлю.. то возможно возникнит жуткое нежелание заниматься этим и дальше.

Strori: Камрад, щас тебе скажут, что 7 файнридер отстой. Надо пользовать девятый, там все круто.

Benderod: Я не хамлю! Но когда говорят : "Комплекс - как раз в файнридере работать, ибо это сильно замедляет вычитку текста." - это что истина в последней инстанции ?! Никогда не соглашусь! "1. Увеличивать DPI скана по-моему бесполезно. Очертания букв от этого четче не становятся. А вот распознавание с обучением помогает." - А по моему опыта как раз улучшает. И не надо никакого "обучения". "Камрад, щас тебе скажут, что 7 файнридер отстой. Надо пользовать девятый, там все круто" - Как вы угадали ?!!! Но для Stori я вижу хватит и версией 4.0. Предлагаю Thietmar удалить эту тему вообще.

Thietmar: Я бы удалил только личные выпады, а полезные советы оставил.

Strori: Benderod, тебе сколько лет?

Владислав: Strori пишет: И не надо никакого "обучения". Трудно мне с вам спорить конечно, весь мой опыт это работа в 7 FR, опытки установить 9, пок ане увенчались успехом. Но функция обучения в FR мне кажеться очень полезной. например в прошлом тексте c которым я работал, большинство букв "и", выглядело ка кдве волнистые вертикальные черты с утолщениями сверху (направой) и снизу (на левой черте), специально заметил около дюжины слов в которых были ошибки, после обучения (на других страницах), в этих словах мой FR неправильно распознал лишь 2 знака. Так что создание пользовательского эталона для распознования считаю очень целесообразным для исправления ошибок, особенно если речь идет о низкокачественных в типографском смысле источниках.

Владислав: блин простите за ошибки, печатаю быстро

Strori: Это где я такое писал???

Владислав: Странно, ничего не понял... это писал Benderod и ему я и отвечал.. наеврно я как всегда куда-нибудь не туда нажал. Кстати FR 9 я установил... Первое вппечатление - слишком мудро для такого просто парня как я. Может быть привыкну. Но интерфес 7го, уютный и понятный, мне нравился больше. А на счет ошибок, тоя сразу сдела проверку. Пока разницы конкрено в распозновании не отметил... Правдо и картинки я подсунул плохие. И еще при автоматическом распозновании заметил такую особенность что 9й принимал ксераксные пятна за текст гораздо активнее 7й версии. А это может создать немного неудобств когда сканов будет много. Я тут слышал что существует доп. словарь к FR "Русский старый", но у меня он не установлен, я так понимаю его надо где-нибудь найти и установить... Но вот вопрос ГДЕ?

Владислав: Думаю я продолжу эксперементы... Но все же думаю что процесс совершенствования и уменьшения количества ошибок лежим все-таки где-то в сфере ВЕЛИКОГО ФОТОШОПА

Halgar: Владислав пишет: Я тут слышал что существует доп. словарь к FR "Русский старый", но у меня он не установлен, я так понимаю его надо где-нибудь найти и установить... Но вот вопрос ГДЕ? В моем 7-м он указывался в базовой установке. Можно ли доустановить - надо проверять экспериментально...

полная версия страницы