Форум » Вопросы по сайту » Секреты распознавания. » Ответить

Секреты распознавания.

Thietmar: Не легкая это дело – распознавать сканы, особенно, если они имеют дефекты (грязь, черные полосы, бледный текст, сжатость и т.д.) Но не будем унывать. Можно и облегчить работу. Нам нужно будет PhotoShop, начиная с версии 6.0. по 1х.0 (или другой полноценный графический редактор) и ABBYY FineReader 9.0. Photoshop устранит те дефекты, которые присущи сканам. (Ведь часто бывает, что человек, который сканирует книги не думает о человеке, который будет их распознавать. ИМХО!) Файнридер 9.0 - быстро и хорошо распознает сканы и покажет орфографические ошибки и исправит их, что ускорит нашу работу. И конечно (желательно) хороший комп с большой оперативной памятью - 1, а лучше 2 Гб. Очень часто сканы сжаты, да к тому же и текст бывает бледный, что приводит к плохому качеству распознавания и большим орфографическим ошибкам даже в Файнридере 9.0, если распознавать как есть. Особенно если сканы «убитые». 1. Итак открываем первый скан в Фотошопе. Чтоб убыстрить редактирование сканов в Фотошопе - создаем Скрипт (Action) – на панели выбираем меню «Window” -> «Action”. При создании Скрипта (сначала создается папка, а в папке сам файл Скрипт (action) – при его создании он сразу входит в режим записи (record). Как только Скрипт в режиме записи выбираем в панели меню «Image» -> выбираем «Mode» -> «Grayscale» - оставляем «1». Затем снова меню «Image» -> «Image Size». Тут выбирает разрешение (dpi) скана - ставим 500. Если убитый скан - 600. В меню «File» - сохраняем (Save) скан и закрываем (Close) его. Теперь останавливаем Скрипт - (stop). Закрываем этот скан. Теперь можно эти изменения распространить сразу на все сканы в рабочей папке. Входим в меню «File» -> «Automate» -> «Batch». В «Batch» выбираем наш Скрипт и папку со сканами и нажимаем на «ОК». - Фотошоп сам отредактирует все сканы в рабочей папке без вашего участия. Если скан бледный или много грязи - уж тут лучше каждый скан отредактировать отдельно Бледность скана исправляется в меню «Image» -> «Adjustments» -> «Curves» или «Brightness/Contrast». Если текст в скане достаточно крив из-за не лучшего сканирования, то надо его вернуть в первоначальный вид - меню «Edit» -> «Transform» -> «Rotate» На редактирование уйдет меньше времени, чем потом исправлять многочисленные орфографические ошибки или вбивать самому текст в Файнридер 9.0. Конечно, Файнридер 9.0. обещает, что он сам исправит последние вышеприведенные огрехи скана, но пускай он выполняет свою основную работу – распознавание скана. А Фотошоп лучше справится со своей работой. Один минус - каждый файл может увеличиться в размере с 12 до 25 Мб. Но с современным компом это пустяк. 2. Теперь открываем отредактированные в Фотошопе сканы в Файнридере 9.0. Даже такие большие сканы (500-600 dpi, размер - 25 Мб) Файнридер 9.0 откроет быстро и быстро распознает при соответствующем компе. Чтобы Файнридер 9.0 в тексте, который набран дореволюционным способом, ставил знак переноса (повернутое «г») после не законченного слова, переходящего на другую строку, нужно поставить языки для распознавания (меню «Сервис» -> «Редактор языков»): «Русский и «Русский старый», а если есть и латинские буквы, например французские слова, то прибавить и «Французский» - «Французский, Русский, Русский старый». Конечно, не всегда Файнридер поставит знак переноса после распознавания скана, но его можно скопировать и вставить там, где стоит тире «-». Как только распознан скан, входим в окно редактирования текста - «Текст». Сначала сознаем новый стиль для текста - выбираем меню «Сервис» -> «Редактор стилей» и создаем новый - ставим в параметрах шрифт «Time New Roman», размер шрифта – от 8 до 10 в зависимости от размера шрифта в скане. Это будет полезно, когда будете перекидывать текст из Офиса в HTML-редактор или сохранять текст как html-файл - меньше мусора. Теперь выделяем весь текст на странице - выбираем вами созданный «стиль» и выбираем язык «Русский». И желательно выравнивание текста – в ширину. Теперь в окне «Текст» можно исправлять орфографические ошибки, которые нашел Файнридер 9.0. Как только вы готовы текст в документе Файнридера 9.0 перекинуть в Офис, то на панели окна «Текст» меняем «Точная копия» на «Форматированный текст» и перекидываем текст в Офис. 3. Для тех кто хочет помочь ускорить опубликование распознанной статьи (книги) на сайте, тому нужно установить, например, Microsoft Office 97. Скинутый из Файнридера текст сохраняете как html-файл. Данная версия Офиса отличается от последующих тем, что в html-файле нету того «мусора», которые появляется в большом количестве в последующих версиях Офиса.

Ответов - 53, стр: 1 2 3 4 All

Strori: По-моему вычивать текст в Ворде гораздо приятнее чем в файнридере. По п. 3. Мусор в коде можно удалить, есть софт соответствующий. Вообще думаю, распознавателю не надо заморачиваться с html вариантами. Его задача выдать чистый текст, пригодный к изготовлению сетевой версии. Тут внимание надо акцентировать на самых простейших функциях ворда. НЕ НАДО химичить со спецвозможностями типа комментариев и ссылок на них. Только текст.

Владислав: дейсвтительно я согласен что вычитывать текст в Ворде приятнее. Исправлять ошибки в Ворде мне тоже сподручнее. Особенно нравиться функция замены одного слова другим (в фанридере эта функция наверно тоже есть). То есть взял "вЪ" ,"съ" и "къ" и заменил на в,с и к. а еще такой вотвопрос, зависит ли количество ошибок от того что текст отсканирован был криво?

Strori: Скорее от качества самого текста (источника).


Владислав: Кстати в файнридере я с успехом применил функцию "распознать с обучением" для дореволюционных источников, успех конечно относительный. У меня файнридер седьмой и словаря "Русский старый" на нем не установлено. Так вот я научил файнридер самостоятельно заменять "i" на "и". И "еть", так кажеться наываеться эта буква на "е". ошибок стало гораздо меньше. как писал выше, твердый (или мягкий знак,как иногда ставил мне файнридер) после предлогов я легко заменил в ворде. Единственная пробелма с которой я ни как не могу справиться это буквы "Н,П,И". Какое бы не было качество сканов, какие бы ухищрения я бы не применял. Если в изночальном документе горизонтальной черточки нет, то и файнридер ставит то что ему вздумаеться. Обучение тут непомогает, и по сути бессмысленно и только увеличивает количество ошибок.

Владислав: Интересен такой вопрос какие приемущества дает файнридер 9 по сравнению в седьмой версией?

Benderod: Господа. Автор статьи - я. Начнем с исправлением ошибок: Файнридер 9.0 в отличии от Ворда 2007 исправляет орфографические ошибки в словах, даже если их (ошибок) две. Попробуйте, чтоб Ворд сам исправил орфо. ошибки, если в слове их две, - только если одна. Насчет "вЪ" ,"съ" и "къ" , "i" на "и". "еть" на"е" - всё это легко можно исправить в Файнридере 9.0. Ну как же проще (и быстрее) исправлять ошибки в Ворде, если вам придется переключаться с Ворда к скану и обратно, чтоб проверить как правильно пишется слово, а если оно сложное или латинское ? Всё время запоминать? Ну как дети малые. Насчёт мусора HTML. - Я делаю сетевые версии статей в НТМЛ для Титмара. Файнридер 9 по сравнению в седьмой версией? В отношении редактирования текста и его офро. ошибок - как небо и земля.

Benderod: Я работал и в Файнридере 7.0. и 8.0. Я считаю (по опыту), что Файнридер 9.0. получше распознает скан.

Benderod: К вышесказанному посту хочу ещё посоветовать: ставьте нумерацию страниц ([555]) в самом документе Файнридера. Это вам уменьшит время на оформление статьи (книги) в Ворде. Ведь часто бывает, что не сразу находишь конец страницы в Ворде. Всё что я написал (3 поста плюс этот) - ТОЛЬКО для тех, кто хочет быстрее отправить Админу готовую БЕЗ ОШИБОК распознаную статью (книгу).

Halgar: 9-й ридер, действительно, лучше распознает... но все остальное делает хуже. Та же расстановка страниц - почему нельзя обвести номер на скане зеленой рамочкой и уже в ворде его оформить? Потому, что 9-й ридер его понимает как колонтитул и в текст не вставляет...

Владислав: Владислав пишет: Ну как же проще (и быстрее) исправлять ошибки в Ворде, если вам придется переключаться с Ворда к скану и обратно, чтоб проверить как правильно пишется слово, а если оно сложное или латинское ? Всё время запоминать? Ну как дети малые. Я говорил что не проще , а приятнее , а отсюда и сподручнее. На счет исправления нескольких ошибок то я это тоже заметил... Но если в арспознаном тексте ошибок не так много (терпимо) и можно его нормально читать, то исправлятьошибки в Ворде мне приятнее.. занятие не превращаеться в монотонное истезание... Одовременно читаешь и исправляешь... к скану я обращаюсь когда естьсомнения на счет фамилий и населенных пунктов. Окошко для ошибок в файнридере очень маленькое... С другой стороны если скан убитый. У меня был такой случай.. Все пробовал, все что писали тут пробовал, делал разные форматы, редактировал в фотошопе, но ничего толкого так и не получилось (конечно, признаю, наеврно из-за моей неопытности). Но если в оригинале все 80% букв П, И,Н это две вертикальные черты, то обучать файнридер не имеет смысла. В итоге пришлось тупо набивать текст от руки... Благо тут на помощь пришла техника печатать в слепую...

Benderod: Halgar, а у мя вставляет. Только щас проверил. Но и это не нужно. С точки экономии времени, лучше поставить в Файнридере в конец страницы номер следующей страницы, особенно полезно когда последнее слово разрывается и переходит на следующую страницу ("[500] за-"). Иначе в Ворде тебе надо будет двигать номер страницы к началу этого слова, ставить квадратные кавычки по бокам каждого номера, делать жирным текстом и придавать нужный цвет.

Benderod: Владислав, у меня нет времени "Одовременно читаешь и исправляешь..." Я бегло читаю текст. Сразу видно что тебе некуда спешить. Теперь понятно почему Админы говорят , что у них медленно пополняются статьи на сайте. Если я действовал также как ты, то я бы и половину статей из томов "Исторического Вестника" не сделал бы на сегоднеший день для сайта Титмара. "к скану я обращаюсь когда есть сомнения на счет фамилий и населенных пунктов." - поздравляю тебя, ты знаешь и латынь, и вообще латинские языки и греческий или у тебя они не встречались статьи. "Но если в оригинале все 80% букв П, И,Н это две вертикальные черты" - если другие буквы в слове "понятны" Файнридеру, то он не ставит чёртышки, а вставляет "п, и " или "н" сам, без обучения. "Окошко для ошибок в файнридере очень маленькое... " - у меня тоже было такое сначала. Сейчас у меня такого "комплекса" нет

Halgar: Владислав пишет: Но если в арспознаном тексте ошибок не так много (терпимо) и можно его нормально читать, то исправлятьошибки в Ворде мне приятнее.. занятие не превращаеться в монотонное истезание... Одовременно читаешь и исправляешь... к скану я обращаюсь когда естьсомнения на счет фамилий и населенных пунктов. +1 Benderod пишет: С точки экономии времени, лучше поставить в Файнридере в конец страницы номер следующей страницы, особенно полезно когда последнее слово разрывается и переходит на следующую страницу ("[500] за-"). Иначе в Ворде тебе надо будет двигать номер страницы к началу этого слова, ставить квадратные кавычки по бокам каждого номера, делать жирным текстом и придавать нужный цвет. Гым. Жирным и цветом, если надо выделять (я обычно не - только в тех, которые Титмару) выделять придется в любом случае. А набивать его в ридере или в ворде - с тзр расходов времени разницы не вижу... Benderod пишет: Сразу видно что тебе некуда спешить. Мы куда-то торопимся?

Владислав: Benderod пишет: Я бегло читаю текст. Сразу видно что тебе некуда спешить. Теперь понятно почему Админы говорят , что у них медленно пополняются статьи на сайте. Если я действовал также как ты, то я бы и половину статей из томов "Исторического Вестника" не сделал бы на сегоднеший день для сайта Титмара. "к скану я обращаюсь когда есть сомнения на счет фамилий и населенных пунктов." - поздравляю тебя, ты знаешь и латынь, и вообще латинские языки и греческий или у тебя они не встречались статьи. "Но если в оригинале все 80% букв П, И,Н это две вертикальные черты" - если другие буквы в слове "понятны" Файнридеру, то он не ставит чёртышки, а вставляет "п, и " или "н" сам, без обучения. "Окошко для ошибок в файнридере очень маленькое... " - у меня тоже было такое сначала. Сейчас у меня такого "комплекса" нет Я со многими вашими словами согласен, и спорить не буду что файнридер гораздо более нацелен именно на исправление ошибок... но факт есть факт... скучно... чисто, так сказать, человеческий фактор. Окошко все-таки маленькое, надеюсь что вы правы и в будущем этот комплекс пройдет. касательно латыни, топока мне ее встречалось мало, и конечно прихоидось смотреть в оригинал. но по сравнению с именами это было ничто. Который я всегда держу рядом в формате pdf. Но если ошибок чресчур много... и фанридер никак не хочет нормально распозновать текст (у меня было такое я говорил и в принципе понимаю фанридер, и читать то мне было текст очень тяжело)... может быть вообще лучше не исправлять ошибки в файнридере а изначально задать функцию РАСПОЗНОВАТЬ с ОБУЧЕНИЕМ... может быть это еще более сэкономит время?

Владислав: Benderod пишет: Benderod пишет: quote: Сразу видно что тебе некуда спешить. Мы куда-то торопимся? +1



полная версия страницы