Секреты распознавания.

Форум » Вопросы по сайту » Секреты распознавания. » Ответить

Секреты распознавания.

Thietmar: Не легкая это дело – распознавать сканы, особенно, если они имеют дефекты (грязь, черные полосы, бледный текст, сжатость и т.д.) Но не будем унывать. Можно и облегчить работу. Нам нужно будет PhotoShop, начиная с версии 6.0. по 1х.0 (или другой полноценный графический редактор) и ABBYY FineReader 9.0. Photoshop устранит те дефекты, которые присущи сканам. (Ведь часто бывает, что человек, который сканирует книги не думает о человеке, который будет их распознавать. ИМХО!) Файнридер 9.0 - быстро и хорошо распознает сканы и покажет орфографические ошибки и исправит их, что ускорит нашу работу. И конечно (желательно) хороший комп с большой оперативной памятью - 1, а лучше 2 Гб. Очень часто сканы сжаты, да к тому же и текст бывает бледный, что приводит к плохому качеству распознавания и большим орфографическим ошибкам даже в Файнридере 9.0, если распознавать как есть. Особенно если сканы «убитые». 1. Итак открываем первый скан в Фотошопе. Чтоб убыстрить редактирование сканов в Фотошопе - создаем Скрипт (Action) – на панели выбираем меню «Window” -> «Action”. При создании Скрипта (сначала создается папка, а в папке сам файл Скрипт (action) – при его создании он сразу входит в режим записи (record). Как только Скрипт в режиме записи выбираем в панели меню «Image» -> выбираем «Mode» -> «Grayscale» - оставляем «1». Затем снова меню «Image» -> «Image Size». Тут выбирает разрешение (dpi) скана - ставим 500. Если убитый скан - 600. В меню «File» - сохраняем (Save) скан и закрываем (Close) его. Теперь останавливаем Скрипт - (stop). Закрываем этот скан. Теперь можно эти изменения распространить сразу на все сканы в рабочей папке. Входим в меню «File» -> «Automate» -> «Batch». В «Batch» выбираем наш Скрипт и папку со сканами и нажимаем на «ОК». - Фотошоп сам отредактирует все сканы в рабочей папке без вашего участия. Если скан бледный или много грязи - уж тут лучше каждый скан отредактировать отдельно Бледность скана исправляется в меню «Image» -> «Adjustments» -> «Curves» или «Brightness/Contrast». Если текст в скане достаточно крив из-за не лучшего сканирования, то надо его вернуть в первоначальный вид - меню «Edit» -> «Transform» -> «Rotate» На редактирование уйдет меньше времени, чем потом исправлять многочисленные орфографические ошибки или вбивать самому текст в Файнридер 9.0. Конечно, Файнридер 9.0. обещает, что он сам исправит последние вышеприведенные огрехи скана, но пускай он выполняет свою основную работу – распознавание скана. А Фотошоп лучше справится со своей работой. Один минус - каждый файл может увеличиться в размере с 12 до 25 Мб. Но с современным компом это пустяк. 2. Теперь открываем отредактированные в Фотошопе сканы в Файнридере 9.0. Даже такие большие сканы (500-600 dpi, размер - 25 Мб) Файнридер 9.0 откроет быстро и быстро распознает при соответствующем компе. Чтобы Файнридер 9.0 в тексте, который набран дореволюционным способом, ставил знак переноса (повернутое «г») после не законченного слова, переходящего на другую строку, нужно поставить языки для распознавания (меню «Сервис» -> «Редактор языков»): «Русский и «Русский старый», а если есть и латинские буквы, например французские слова, то прибавить и «Французский» - «Французский, Русский, Русский старый». Конечно, не всегда Файнридер поставит знак переноса после распознавания скана, но его можно скопировать и вставить там, где стоит тире «-». Как только распознан скан, входим в окно редактирования текста - «Текст». Сначала сознаем новый стиль для текста - выбираем меню «Сервис» -> «Редактор стилей» и создаем новый - ставим в параметрах шрифт «Time New Roman», размер шрифта – от 8 до 10 в зависимости от размера шрифта в скане. Это будет полезно, когда будете перекидывать текст из Офиса в HTML-редактор или сохранять текст как html-файл - меньше мусора. Теперь выделяем весь текст на странице - выбираем вами созданный «стиль» и выбираем язык «Русский». И желательно выравнивание текста – в ширину. Теперь в окне «Текст» можно исправлять орфографические ошибки, которые нашел Файнридер 9.0. Как только вы готовы текст в документе Файнридера 9.0 перекинуть в Офис, то на панели окна «Текст» меняем «Точная копия» на «Форматированный текст» и перекидываем текст в Офис. 3. Для тех кто хочет помочь ускорить опубликование распознанной статьи (книги) на сайте, тому нужно установить, например, Microsoft Office 97. Скинутый из Файнридера текст сохраняете как html-файл. Данная версия Офиса отличается от последующих тем, что в html-файле нету того «мусора», которые появляется в большом количестве в последующих версиях Офиса.

Ответов - 53, стр: 1 2 3 4 All

Владислав: Benderod пишет: Сразу видно что тебе некуда спешить. Теперь понятно почему Админы говорят , что у них медленно пополняются статьи на сайте. Если я действовал также как ты, то я бы и половину статей из томов "Исторического Вестника" не сделал бы на сегоднеший день для сайта Титмара. теперь понятно почему на сайте Титмара, так много классных текстов... :)

Владислав: Benderod пишет: Теперь понятно почему Админы говорят , что у них медленно пополняются статьи на сайте. Если я действовал также как ты, то я бы и половину статей из томов "Исторического Вестника" не сделал бы на сегоднеший день для сайта Титмара. Теперьпонятно почему на сайте Титмара так много классных текстов :)

Thietmar: Halgar пишет: Мы куда-то торопимся? И очень сильно. А ну как помрем ?

Владислав: Thietmar пишет: И очень сильно. А ну как помрем ? У меня такой вопрос вы не пробовали обращаться в какие-нибудь гос. организации.. Сейчас много грантов выходит... конечно трудно до них добраться... Может быть в РАН, или еще куда-нибудь. Дело то святое. Неужели никто не может помочь... К тому же это уже готовые проект с громадным научно-образовательным потенциалом... У нас в области например на такую хер....ю деньги дают, аж противно. Причем дают не по блату. Пришли из центра деньги .. а освоить их комитет по образованию не может... вот и швыряет направо и налево.

Thietmar: Владислав пишет: У меня такой вопрос вы не пробовали обращаться в какие-нибудь гос. организации.. Это уже обсуждалось на форуме не единожды. Обращаться можно сколько угодно и к кому угодно. Будет много переписки - но текстов на сайте в итоге совершенно не прибавится.

Владислав: Да, хорошо не буду трогать эту тему к тому же на этой ветке. Просто скажу, повторю еще раз.. вы знаимаетесь хорошим делом, не побоюсь сказать благородным. Желаю успехов и удачи вашему сайту... Сам тоже в меру моих студенческих сил буду всячески участвовать. Надо доказать людям что Интернет это не мусорка. Вернусь к вопросу распознования... Если с файнридером все более или менее понятно.. точнее виден горизонт непонятного, что позволяет наметить пути усовершенствования... :) То вот с фотошопом не все так гладко. Инструмент то на самом деле архисложный и архимощнейший... Какие есть практические способы для улучшения качества сканов? Может быть существуют какие-нибудь дополнительные фильтры и так далее? Механизм с автоматическим расширением файлов я удачно освоил. Но честно говоря прок от этого оказался не таким как я ожидал (хотя повторюсь опыта у меян мало)

Halgar: Thietmar пишет: И очень сильно. А ну как помрем ? Думаю, тогда мы сможем пообщаться непосредственно с авторами :D

Thietmar: Halgar пишет: Думаю, тогда мы сможем пообщаться непосредственно с авторами :D Хочется все же сейчас.

Strori: Хотеть не вредно. Сколько распознаю тексты, торопливость никогда - подчеркиваю красным - никогда к хорошему не приводила. А правка текста в файнридере есть нонсенс. Окно маленькое, текст мелкий из-за этого, глазы из орбит вылазят. Я обычно распознаю страницу, копирую в ворд и читаю. Обращение к файну происходит только на именах собственных, географических названиях и иностранных текстах. Номер страницы в ворде копируется с предыдущей (со всеми жирностями и цветностями) и меняется одна цифра. Иногда сверяется со страницами в сканах. Все. Титмар, пока бабки платить за распознавание не начнем - нихера быстрее не будет. А не начнем пока меценаты не объявятся. А не объявятся они никогда - потому что мало кому это надо. Тестовая система образования - она источников не требует.

Thietmar: Strori пишет: А не начнем пока меценаты не объявятся. Нефтяную вышку бы надобно..

Benderod: Обмельчал народ. За идею уже не работают как стахановцы. Ну появятся меценаты и что ? Strori будет быстрее редактировать распознанный текст и его оформлять ? Ни хрена! Для него: "тише едешь - дальше будет". А слова "А правка текста в файнридере есть нонсенс." - это комплекс, который о временем исчезает у тех, кто хочет меньше прыгать с скана в Ворд и обратно, да вообще быстрее исправить орфо. ошибки.

Strori: Benderod пишет: Обмельчал народ. За идею уже не работают как стахановцы. Стаханов работал далеко не за идею, если вы не в курсе. Бабло рубил нехилое. А гражданам мозг засрали за его идейность - до сих пор не проходит. Даю справку: все, участвующие в работе сайта - работают за идею. В отличие от Стаханова. Benderod пишет: Ну появятся меценаты и что ? Если будет возможность платить деньги за сканы - можно будет за это и спрашивать. А пока вы получаете к конверту то, что получаете. Сделанное хер пойми как и с косяками. Потому что бесплатно. Benderod пишет: Strori будет быстрее редактировать распознанный текст и его оформлять ? Ни хрена! Для него: "тише едешь - дальше будет". В среднем Strori распознает и оформляет 20 отсканированных страниц в день (ситуации когда лень или есть другие дела, понятно, не рассматриваются). После чего конвертит их и выкладывает на сайт. При этом успевает еще и другими вопросами по сайту заниматься. Вы это к какой категории относите? Тихо ехать или дальше быть? Benderod пишет: А слова "А правка текста в файнридере есть нонсенс." - это комплекс, который о временем исчезает у тех, кто хочет меньше прыгать с скана в Ворд и обратно, да вообще быстрее исправить орфо. ошибки. Чтобы править "орфо. ошибки" мне файнридер не нужен. Головы хватает. Вы где нашли про "орфо. ошибки" в моем предыдущем посте? Или, как сейчас у многих принято, в написанном видите не то, что написано, а то, что хочется видеть? Что касается правки текста в файнридере повторю еще раз - это нонсенс. Думаю со мной согласятся многие распознаватели этого сайта. Комплекс - как раз в файнридере работать, ибо это сильно замедляет вычитку текста. PS: И хамить не надо, гражданин Benderod.

Thietmar: Спокойнее, граждане.. Без Strori сайта в его настоящем дизайне просто бы не существовало.

Владислав: Strori пишет: Что касается правки текста в файнридере повторю еще раз - это нонсенс. Думаю со мной согласятся многие распознаватели этого сайта. Комплекс - как раз в файнридере работать, ибо это сильно замедляет вычитку текста. Я от своих предыдуших слов не октазываюсь , про Ворд, но с тем что файнридер быстрее и функциональнее распознает ошибки тоже от части соглашусь. Это например касаеться текстов где количество ошибок минимально... Недавно столкнулся с одним таким. Алфавит современный, шрифт компьютерный, сканы средней паршивости.. Интерес сам текст для меня не представлял.... и вот в этом конкретном случае, действительно шелкать на ЕНТЕР мне было проще... распозновал я не для сайта а по работе своей. страниц было 70, сделал все за 1 - 1,5 часа.

Игорь Ф.: 1. Увеличивать DPI скана по-моему бесполезно. Очертания букв от этого четче не становятся. А вот распознавание с обучением помогает. 2. Про маленькое окно не понял. Браузер сканов располагаем внизу, окна "Изображение" и "Текст" друг под другом и увеличиваем масштаб до желаемого. Или монитор совсем маленький? Вычитываю текст именно в Файнридере, т.к. перед глазами и текст и скан. Распознав весь текст, экспортирую его в Ворд. По привычке в Ворде удаляю все переносы и задаю единый размер и тип шрифта. Дальше проверяю орфографию в Опеноффисе. Во-первых и в главных потому что работаю в линуксе, а во вторых ОО имеет возможность создавать, подключать и редактировать собственные словари, что очень полезно для русских документов, приведенных к современному написанию (слово "велеможнейшаго" обычный спеллчекер посчитает ошибкой). Отловить все ошибки во время распознавания у меня никогда не получалось. Ничего на этом этапе не выделяю, но расставляю скобки у номеров страниц. Дальше экспортирую в хтмл и загружаю в текстовый редактор. Мусорные теги в редакторе удаляются поиском и заменой, ей же добавляю жирность и цвет номерам страниц (тут конечно желательно квадратные скобки использовать только для этих номеров).

полная версия страницы