Форум » Вопросы по форуму » Краткое руководство по обработке сканов » Ответить

Краткое руководство по обработке сканов

Bewerr: Итак, есть готовые сканы. (дополнено 2007.01.07) Формат сканов - TIFF G4. Внесены значительные изменения - 2007.10.29 Это могут быть сканы одной страницы или же разворота из двух страниц; они могут быть ориентированы правильно или же повернуты на 90 градусов. Если сканы будут использоваться для распознавания, то простейшие операции по их повороту (и автоматически - выравниванию и очистке от мусора) будут выполнены в OCR-софте. Если же требуется сделать сканы доступными, не тратя время на их распознавание, то требуется предварительная обработка сканов для их дальнейшего экспорта в какой-либо широко распространенный и удобный формат (pdf или djvu). Это не так принципиально, в какой именно. На данном этапе задача обработки графических фалов (сканов) может быть сведена к следующим операциям: - Обрезать черные края - Выровнять сканированный текст параллельно верхней кромке листа - Очистить сканы от "мусора" - Сделать листы одинаковыми, эстетически приемлемыми для восприятия при чтении (выровнять поля, прменить сглаживание). В рунете существует множество в большей или меньшей степени подробных технологий предварительной обработки сканов. Технологии разной степени сложности, основываются на разном софте. Перед тем, как привести описание еще одной технологии, я хотел бы изложить свою точку зрения на созадние технологий вообще. Можно сделать максимально эффективную технологию, использовав максимально эффективный софт. Но она будет очень сложна для освоения, софт будет сложным с точки зрения дружественности пользовательского интерфейса и при этом размеры софта будут иногда неприятно удивлять. Можно не делать никакой технологии, пользоваться тем, что знакомо. Тогда к делу можно приступать буквально сразу - но процесс будет низкоэффективным при обработке уже хотя бы нескольких книг. Я не могу сказать, что ниже приведенная технология максимально проста. Не могу также сказать, что она максимально эффективна. Я искал некий компромисс, "золотую середину", оцененную по своему разумению. Пытался создать технологию, простую для освоения и вместе с тем достаточно эффективную с точки зрения потраченного времени и полученного качества. IMHO, вроде нашел :). Естественно, никто не обязывает ею пользоваться, но в то же время прошу критиковать эту технологию, лишь опробовав и сравнив с другими опробованными. === Сначала - необходимый софт: 1) Able Fax Tif View 1.9.11 (версии постоянно обновляются). Доступна для скачивания Trial версия. При желании и возможности не жаль и купить, инструмент хороший, и запрашиваемых денег стоит. Разработчик: http://www.graphicregion.com/download.htm Скачивать: http://www.graphicregion.com/faxtifview.htm?clickfrom=faxtifview_1.9.11.27 Достоинства этой программы: - Пакетная обработка(File>Batch process...) есть и отлично работает. - Deskew(выравнивание) работает без нареканий. За 800 файлов один(или два) сбоя, и то при таблице, расположенной "боком вверх". Сбой с рисунком не считаю - там как раз программа выровняла страницу по первой сплошной диагональной линии в рисунке :) - Despeckle(чистка "мусора") настраиваемый по площади "Isolated pixel". - Переход к следующему файлу стрелкой на тулбаре. - Сохранение в один клик. - Eraser ("ластик") есть и при этом его площадь настраивается. - Конвертор RGB>GreyScale>B/W есть, и при этом с кучей параметров. - Tiff'ы G4 корректные. Можно было бы улучшить, но и так нормально: - Crop("Вырезать") на тулбар вывести нельзя, но можно присвоить комбинацию горячих клавиш. Правый клик на тулбаре>Customize>Hot keys Надо улучшить: - Инструмент "Auto Crop Edge Space". При чистых сканах работает без нареканий. Правильно определяет границы текста, отрезает поля. Следующая операция - "Add Margins" - и... был бы результат, но проблема в том, что "Auto Crop Edge Space" не всегда работает корректно. Может "споткнуться" на любой точке между текстом и краем листа, приняв эту точку за текст. Пока что этим инструментом можно пользоваться лишь с большими оговорками. К несомненным достоинствам программы следует отнести широкий выбор инструментов в батче. User filters при грамотной настройке позволяют сделать текст заметно четче, "зарастить" пустые места в буквах. Черно-белый Remove Noise - это просто супер! 2) XnView 1.90 Разработчик: www.xnview.com Скачивать: http://perso.orange.fr/pierre.g/xnview/endownloadwin32.html Этот софт умеет все, глючит в меру, лицензия Freeware для некоммерческого использования. Ни в коем случае нельзя пользоваться всеми предложенными опциями без их предварительного тестирования, поскольку, повторюсь, глюков достаточно и при этом самых неожиданных. Достоинства этой программы: - пакетное переименование файлов - много опций - работа с неимоверным количеством форматов - временами очень хорошо продуманный интерфейс Недостатки: - как уже упоминалось, глюки; - неизвестно, будут ли появляться новые версии. Актуальная версия выпущена достаточно давно. Примечание: из фриварных просмотрщиков графики многим больше нравится IrfanView. Смотрите, сравнивайте ;). С точки зрения поставленной специфической задачи обработки сканов XnView пока смотрится предпочтительнее. Но несомненный плюс IrfanView в том, что он развивается, и корректно работает с форматом TIFF G4. Например, после обработки сканов в XnView их надо пересохранить в тот же TIFF G4 в Irfan'e. Конвертор дежавю не будет ругаться ;). 3) Графический редактор. Многие пользуются Adobe Photoshop. Я считаю применение этого софта для обработки сканов нецелесообразным. Я пользуюсь GIMP'ом. GIMP в паре с XnView - вполне самодостаточное решение. Сайт разработчиков: http://www.gimp.org/ Скачать: http://www.gimp.org/downloads/ Примечание: по большому счету, можно и чем-то вроде примитивного Paintbrush'а обойтись и полученные файлы в XnView конвертировать - не рисуем же и не фотки же обрабатываем ;). ==== Итак, софт есть. Имеется: папка "А" со сканами в Tiff G4, нумерация(условно) от 001.tif до, предположим, 250.tif; папка "B" со сканами рисунков и фотографий в серых джепегах. 1) В XnView делаем поворот на 90 градусов (если необходимо) и конвертацию в B/W (после поворота) для всех файлов сразу (иначе после поворота фалы из черно-белых будут преобразованы в серые). 2) Скопировать все сканы в другую папку А1. 3) Переименовать сканы в одной директории как четные страницы, в другой - как нечетные. В XnView есть небольшой глюк - при переименовании от 1 до 100 и больше забывает поставить два нуля перед файлами с 1 по 9 и нуль перед 10-99. Поэтому я переименовываю, начиная с 100 номера. Не забываем шаг переименовывания - 2, чтобы номера файлов соответствовали номерам страниц. У Irfan'а глюк - первый файл становится последним по нумерации. Естественно, можно использовать и любой другой софт для переименования батчем, например, ReNamer by den4b. 4) Копируем содержимое папки "А1" в "А". Папку "А1" можно удалять. В итоге у нас по два одинаковых файла подряд - например, один и тот же файл под номером 016 и 017. Это нужно для следующей операции. 5) Дальше - ручная резка. Если сканы можно резать пакетно (батчем) - то XnView или IrfanView. Но, если есть кривые страницы, то на автомате лучше не резать. Я использую XnView - отметил поле, режу кнопкой "Crop"(выведена на тулбар), Ctrl+S, Enter. Как сделать все страницы одинаковыми при ручной обработке инструментом "Crop". XnView: Выделяем область, которая, как нам кажется по одной странице:), будет одинаково хороша для всех остальных. Внимательно смотрим на поля, чтобы результат выглядел приемлемо. Edit> Set selection size> Save selection as custom. Если надо сменить шаблон - Edit> Set selection ratio> Free , и потом сохраняем новую рамку Edit> Set selection size> Save selection as custom. Глючновато, нелогично - но работает! Шаблон вызывается горячей клавишей "С". Это очень удобно. Переход к следующему файлу, левой рукой "С", мышью шаблон устанавливается на область текста, , мышью на кнопку "Crop", левой рукой CTRL+S, Мышью - "ОК", переход к следующему файлу. Это быстрее сделать, чем описать :). 7) После всех операций открываем итоговую папку "А", выбираем вид с превьюшками (Thumbnails). Windows их делает достаточно долго, требуется подождать несколько минут. Просматриваем и проверяем результат всех предыдущих преобразований. Делаем бэкап - копируем папку "А" в другое место на жестком диске. Вдруг пригодится :). 8) Если надо сделать страницы с картинками. Открываю черно-белый тифф из папки "А" и серый или цветной джепег из папки "В" в двух окнах в GIMP'e. Выделяю и копирую серую картинку в страницу с черно-белым текстом. К серой картинке как правило требуется применить Gaussian Blur, параметры надо подобрать по факту, попробовав несколько раз сконвертировать "размытую" в той или иной степени картинку в djvu. Сохраняю как Tiff LZW в папку "А" поверх старого файла. В данном случае текст хоть и "серый" или "цветной" по битам, но по существу он остался черным. Анализаторам при создании DJVU работать с такой страницей будет несравненно проще, чем если бы вся страница(и рисунки, и текст) была сканирована в сером. Размер такой страницы достаточно большой - иногда и около 4-5 мегов, но на размере итогового дежавю это практически никак не сказывается. 9) Готово к экспорту. Обработка 100-150 сканов, т.е. 200-300 страниц, по такой технологии занимает от 40 минут до часа.

Ответов - 1

Bewerr: Выравнивание и очистка сканов: Требуется софт для пакетного "Deskew" + графический редактор для обработки одиночных файлов с большим количеством "грязи". Например, изредка попадаются страницы с множеством пометок, сделанных карандашом. Такие пометки не всегда убираются полностью даже при правильном выборе порога Threshold. Приходится чистить их вручную. В качестве иллюстрации приведу пример проприетарного софта, выполняющего выравнивание и очистку сканов в TIFF G4 батчем: http://download.support.xerox.com/pub/drivers/WF_6204/utils/winxp/en/WideFormatScanServiceVer1.0.2.1_XC.zip Лицензионное соглашение предусматривает "просто" наличие у пользователя широкоформатного сканера Xerox, других ограничений нет. Despeckling работает отлично. Deskewing - из 780 файлов примерно в полутора-двух десятках сканов выравнивание было сделано с разными ошибками (от немного кривых до сильно кривых). В программе прерасно реализована функция просмотра "превьюшек" - работает потрясающе быстро, при этом превьюшки превосходного качества и больших размеров. По ним очень легко визуально проверить, насколько правильно выполнена операция выравнивания. Остается надеяться, что будет создана и подобная фриварная программа.



полная версия страницы