Форум » Вопросы по сайту » Перевод текста из старой орфографии в современную » Ответить

Перевод текста из старой орфографии в современную

vladlen666: Доброго времени суток! Задался вопросом о существовании способов перевода текста из дореволюционной орфографии в современную. 1. Существует версия программы AfterScan - AfterScan Antique Программа платная (стоит 2500). В отличие от другой версии AfterScan Express лечния, да и самого дистрибутива не нашел. Может у кого есть? 2. С помощью скрипта на ресурсе [url=http://ru.wikisource.org/wiki/MediaWiki:Gadget-Deyatificator.js]Викитека[/url] Кто им уже пользовался, интересно узнать мнение. Для того чтобы им воспользоваться как мне объяснили надо 1) распознать текст в Fine Reader, включив язык распознавания «русский (дореволюционная орфография)» 2) желательно вычитать текст в ДО 3) зарегистрируйтесь в Викитеке (обязательно) 4) войдите в свою учётную запись. Зайдите в раздел настройки (ссылка должна быть вверху справа), там в раздел «Гаджеты» и поставьте галочку на пункте «Деятификатор». Нажмите кнопку «Сохранить» 5) создайте любую страницу, лучше в собственном пространстве имён, но можно просто зайти на страницу [url=http://ru.wikisource.org/wiki/Викитека:Песочница]Песочница[/url] и нажмите кнопку Править (вверху). Сотрите всё что там будет (кроме заголовка «{{/Шапка}}») и вставьте туда свой текст, скопированный из FineReader. 6) Нажмите кнопку деятификатора (должна быть сверху окна редактирования такого вида: Ѣ→Е) 7) Текст переведётся в новую орфографию, можно проверить его прямо в вашем браузере, если там есть проверка орфографии или в Word и т.п P.S. Форумчанин A-U-L предлагает Скрипт для MS Word, но как я понял скрипт работает не с дореволюционной орфографией а со стандартными ошибками вызванными распознаванием дореволюционного текста как современного. Если кто знает другие способы, прошу поделиться.

Ответов - 9

Thietmar: Слишком сложно. Намного проще научить шаблон в ФР.

vladlen666: Скрипт на викитеки опробовал. работает очень хорошо, ограничений по тексту нет. Главное он действует по всем правилам. Проблема только в том что текст после распознавания и переж использованием скрипта должен включать как можно меньше ошибок. На счет шаблона в ФР вы имеет в виду эталон? То есть используя встроенный в FR русский язык и заставить FR распознавать например "ять", как е? Кажется слово шаблон в FR относиться только к шаблону областей. Это эмпирический подход. Все-таки по логике дореволюционную орфографию надо распознавать как дореволюционную орфографию, а затем с помощью специализированных инструментов переводить в современную.

Thietmar: Эталон распознает дорев. текст - как дорев. текст. Потом ять меняется на е автозаменой. Дорев. текст частенько бывает с нестандартизованными оборотами, поэтому доверять его скрипту я бы не хотел.


vladlen666: Ну а твердый знак на конце, к примеру. Эту проблему автозаменой не решить. Скрипт как я понял делался и оттачивался группой специалистов. Хорошо бы протестировать скрипт в том числе и на нестандартизированных оборотах. Которые этот скрипт вряд ли заменит на стандартные. К тому же на такие вещи при распознавании все равно приходиться обращать внимание и сравнивать с оригиналом.

Thietmar: Твердый знак (ТЗ) на конце решается тремя автозаменами: ТЗ с пробелом на пробел, ТЗ с точкой - на точку, и ТЗ с запятой - на запятую. После этого в тексте остается такое исчезающе малое количество ТЗ что их прокликать пара пустяков. Никакой скрипт этого не заменит, очень уж была жива и нестандартизирована речь у дорев. писателей.

vladlen666: То есть в словах где твердый знак нужен он будет удален. К тому же есть все эти окончания, приставки, дефисы. Их много. В любом случае если не скрипт, то нужен созданный опытным филологом алгоритм автозамены. Алгоритм который сведущий в скриптах человек сможет свести в соответствующий инструмент.

Thietmar: "Твердый знак (ТЗ) на конце решается тремя автозаменами: ТЗ с пробелом на пробел, ТЗ с точкой - на точку, и ТЗ с запятой - на запятую. " В новой орфографии с 1918 года твердый знак нигде не стоит перед пробелом, точкой или запятой. Остальное прокликивается на "найти", а не на "заменить". Все окончания - я делаю небольшим количеством замен и контрольных прокликиваний.

vladlen666: Да да простите точно точно. С ТЗ тоже все ясно. Теперь хорошо бы найти или написать коллективный алгоритм на автозамены. Помниться у меня при автозаменах в дореволюционых книгах всегда что-нибудь терялось и проподалось.

Thietmar: Заменяйте только буквы, остальное я заменю сам.



полная версия страницы