Форум » Вопросы по сайту » OCR: различные технические моменты » Ответить

OCR: различные технические моменты

Bewerr: Babek wrote: <...> ( в виде PDF файла ~85 mb.). <...> Не представляю как Word сможет открыть файл такого размера. Bewerr: Размер файла говорит о том, что, скорее всего, это не пдф-документ со встроенными шрифтами и возможностью скопировать из него текст (например, в Adobe Reader эта функция есть начиная с версии 5.0), а пдф лишь как оболочка для инкорпорированных в него растровых изображений (сканов). Такие пдф-ы могут быть и бОльшими - мне встречались по 120-130 мегов. Получаются они двумя путями: либо сканировали сразу в мультистраничный пдф посредством программного обеспечения, идущего в комплекте со сканером, либо отсканированные изображения потом преобразовали в пдф с помощью пдф-конвертера/редактора. Проверить очень просто - пытаетесь скопировать текст или же ищете в пдф-е какое-либо слово (Ctrl+F). Если не получилось, то в этом случае требуется распознать текст. Из пдф-а с текстом получить doc-файл можно двумя путями - пытаться конвертировать с помощью какого-либо проприетарного программного обеспечения сразу в doc, или же копировать текст в любой текстовый редактор. Собственно doc-файл для публикации в интернете совершенно не нужен. На выходе нужен html-файл, текст для которого может быть подготовлен в формате rtf, в некоторых простых случаях - даже txt, можно работать и в других форматах, но это уже на любителя либо при особо специфичных распознаваемых материалах. Если в книге есть рисунки или фотографии, то их обработка для публикации в интернете требует некоторых навыков. Это отдельная тема.

Ответов - 26, стр: 1 2 All



полная версия страницы