Форум » Исторические вопросы » Источники-оригиналы » Ответить

Источники-оригиналы

Carlos de Almansa: Появилась такая идея. Почему бы не создать сайт, на котором будут храниться средневековые источники на оригинальных языках? Речь идет даже не об OCR. Было бы хорошо (даже предпочтительно, по-моему) иметь копии книг в форматах djvu, pdf. В последнее время в интернете появилось немало таких книг-первоисточников. Но это лишь крупица. Да и хранится это все на разных сайтах. Приходится бегать по интернету в поисках того или иного текста. Конечно, бумажный вариант всегда лучше, но для этого надо иметь доступ в хорошую библиотеку, но не у всех есть такая возможность. Я довольно часто заказываю книги по межбиблиотечному обмену, но каждый такой заказ обходится мне в $30, что на самом деле не так уж и много, учитывая, что книги порой приходят из-за океана. Как вам такая идея, господа историки? Есть предложения, идеи?

Ответов - 63, стр: 1 2 3 4 5 All

Bewerr: Целиком "за". Вижу два пути реализации такого проекта: 1) Делаем на форуме ветку и выкладываем в ней все линки на оригинальные источники. Кто-то один берет на себя координацию деятельности и в случае, если линк "умер", выкладывает источник повторно на свой премиум-аккаунт на рапиде. Стоимость реализации = стоимости премиума + время. К тому же рапида иногда почему-то удаляет файлы со сканами тех книг, которые перешли в общественное достояние. Жаловаться бесполезно. Иногда по ошибке может заодно и прикрыть аккаунт. Такое случается крайне редко, но все же бывает. 2) Свой физический сервер. Я бы такой вариант не рассматривал, поскольку это будет стоить долларов 300 в месяц (размещение+техобслуживание+аммортизация+настройка).

Thietmar: Bewerr пишет: Делаем на форуме ветку и выкладываем в ней все линки на оригинальные источники Я когда-то пытался сделать что-то подобное: http://vostlit.borda.ru/?1-2-0-00000028-000-0-0-1176297062

Carlos de Almansa: 2Bewerr А третий вариант? Создается сайт, на котором ничего храниться не будет, а будут ссылки на файлообменники. Но сайт должен поддерживать поиск. Примером может послужить хорошо известный Вам натахаус.ру.


Carlos de Almansa: 2Thietmar Такой вариант хорош в качестве промежуточного. Кстати, если мы уж заговорили о сайтах, то, если не секрет, во сколько обходится Вам содержание Востлита?

Thietmar: Carlos de Almansa пишет: во сколько обходится Вам содержание Востлита? То есть ? Сколько стоит хостинг или суммарные траты ?

Carlos de Almansa: Ага. Хостинг.

Bewerr: Thietmar пишет: Я когда-то пытался сделать что-то подобное: http://vostlit.borda.ru/?1-2-0-00000028-000-0-0-1176297062 Знаю. Но рук одного человека не хватает на всё, поэтому требуется доброволец, который занимался бы только линками.

Thietmar: Carlos de Almansa пишет: Ага. Хостинг. Хостинг стоит 88 долларов в год. Но хостинг - одна из самых незначительных трат...

Carlos de Almansa: А какие есть еще траты? И как это отражается на кошельке?

Thietmar: Carlos de Almansa пишет: А какие есть еще траты? И как это отражается на кошельке? Интернет - 44 евра/месяц, читательский 25/год, Сканер 90/единоразово, ксерокс книг которые не дают на дом - по разному, минимум 6 центов/копия. На кошельке это сказывается по-разному, но всегда отрицательно.

a_e_g: Ссылки на другие сайты - это не всегда хорошо. Например, на Books Google очень много таких книг в PDF, но у них обычно нет оглавлений в Bookmarks, что не очень удобно. Да и нумерация страниц в Pdf и в бумажном варианте не соответствуют: в оригинале часто предисловие нумеруется римскими цифрами, а текст источника - арабскими. Так что лучше их скачать, привести в приличный вид и перезалить в другое место. Неплохо бы иметь и в текстовом виде (HTML или XML), так как при цитировании проще копировать, чем возиться с отсканированным и нераспознанным PDF. А начать можно с создания рубрик и их заполнения названиями и (если есть) ссылками на тексты. Можно русской версией Википедии воспользоваться - заодно и ссылки сделать на статью о сайте ВЛ :)

a_e_g: И не только средневековые, но и античные. Античные латинские тексты в формате RTF у меня уже готовы - примерно мегабайт 110 получилось, сейчас делаю греческие (античные и византийские). А средневековые латинские оставил на потом, их очень много и требуется OCR. Пожалуй, сканировать почти не придётся - большая часть текстов у меня есть, я проверял по списку.

Thietmar: У меня тоже есть немало отсканированных источников на иностранных языках. И исследований на них же - стирать жалко а пользоваться исследоваиями некому. Я бы эти исследования с удовольствием кому-нибудь слил.

Bewerr: С гугльбукса одних исследований и источников на русском по периоду до 19 века набралось уже около 20 гигов. Сколько будет, если добавить туда иностранные - подумать страшно... измерять придется в терабайтах. Правда, если оставить только источники и исследования, содержащие источники в виде приложений, то получится меньше. По крайней мере сопоставимо с размером харда в 75-150 гигов. Сосканировать тоже можно довольно много, был бы спрос и возможность разместить где-либо. Установка и содержание мало-мальски приличного сервера будет стоить: Единоразовая плата за сервер - примерно 1000-1500 долларов, если считать сервером какой-нибудь простенький десктоп на Conroe + миррор из двух WD-шек Raptor + памяти 4-8 GB. Ежемесячный хостинг - 100-200 долларов в зависимости от страны расположения. Первоначальная настройка ОС и установка готового движка - зависит от расценок программера. Сам движок сайта - ??? зависит от того, есть ли что-то готовое, сколько надо вложить труда в переделку под конкретные нужды проекта - от "0" до 2000-5000 тыс.долларов. Самая расплывчатая строка сметы. Ежемесячная техподдержка - энтузиаст, разместивший сервер, периодически ездит к нему и меняет вышедшие из строя харды и другое железо. Т.е. это все дорого и хлопотно, пока нет нефтяной вышки. Проще складировать линки на рапиду. Тот же гугльбукс, кстати, не имеет ничего против использования книг в некорыстных целях, что нас полностью устраивает.

Thietmar: Bewerr пишет: Проще складировать линки на рапиду. Вот тебе и сольем исследования..

Bewerr: Thietmar пишет: Вот тебе и сольем исследования.. А у меня такого аккаунта нету

Bewerr: Без приколов - такой аккаунт надо купить тому, кто займется координацией работы по сбору линков. Сам собирает, сам контролирует, сам перезаливает "умершие" линки на рапиду.

a_e_g: Её слишком часто приходится перезаливать. Да и ограничения там без премиума по скачиванию - приходится их обходить. Лучше подобрать что-то другое.

Carlos de Almansa: Господа, я перечитал все сообщения. Думаю, сделать можно таким образом. Открываем сайт (если стоимость его будет такой же, как и стоимость Востлита, то могу взять это на себя), даём ссылки на рапиду. Да, я согласен, что это порой неудобно, но это лучший вариант из имеющихся, ибо свой сервер я не потяну по деньгам. Что касается OCR, то я, конечно, согласен с a_e_g, что rtf (или doc, html) лучше djvu или pdf, но это дело практически неподъемное, да и доверять OCR не могу - иди знай, кто этим занимался, как он вычитал текст. Это же не русский текст, где мы легко поймем, что имеем перед собой описку. Думаю, тут предпочтительнее копии книги "так, как они" (т.е. djvu или pdf). Проблема заключается в том, что надо найти человека, который построит сайт. Примером может послужить, как я уже писал, natahaus.ru, поддерживающий поиск и позволяющий сортировать материал.

Bewerr: a_e_g пишет: Лучше подобрать что-то другое. По мне так хоть линки на все существующие файлообменники. Хватило бы времени на заливку... a_e_g пишет: Её слишком часто приходится перезаливать. Аккаунт премиум? Почему часто?

Bewerr: Carlos de Almansa пишет: Примером может послужить, как я уже писал, natahaus.ru, поддерживающий поиск и позволяющий сортировать материал. Такой движок как раз и потянет как минимум на 2-3 тыс. долларов. Strori меня поправит, если я написал слишком маленькую сумму.

Carlos de Almansa: Bewerr пишет: Такой движок как раз и потянет как минимум на 2-3 тыс. долларов. Strori меня поправит, если я написал слишком маленькую сумму. Боюсь показаться тупым, но почему так дорого? Что там такого крутого?

Bewerr: Carlos de Almansa пишет: Боюсь показаться тупым, но почему так дорого? Что там такого крутого? 500-1000 долларов - это стоимость обычного красивого сайта, рекламирующего какой-нибудь проект по недвижимости. HTML+Flash Здесь требуется: - База данных (т.н. движок) - Юзерская форма для отсылки информации - Админка для принимающего информацию (может быть детерминированным вариантом админки супервизора) - Админка для супервизора - Новостные ленты - ЛС - - - Тестирование !!! и Форум (другая БД + интерфейс) - можно брать какой-то готовый.

Thietmar: Bewerr пишет: А у меня такого аккаунта нету Нет - так будет. Главное - поставить себе цель.

Strori: Вполне потянет на такую сумму. Плюс дизайн и плюс обслуживание, его точно будет делать тот же человек что писал движок. Чего-то где-то поменять в коде - платите. Кроме того - такой проект это прежде всего база данных. Кому-то надо ее вести. Времени и так не фонтан, плюс трафик. Это надо отдельного человека сажать и платить ему бабло. Как зарплату. Кто такое потянет? А если что-то простенькое, там БД+поиск - это можно и тут сделать. Если опять же кто-то будет это вести и этим заниматься. БД надо заполнить чем-то, мы тут-то плаваем, по востлиту базу сделать - проблема.

Bewerr: Thietmar пишет: Нет - так будет. Главное - поставить себе цель. Что значит "будет"? У кого? Мне купят такой аккаунт и железной рукой погонят к счастью? Я же не гекатонхейр и не могу заниматься одновременно столь обширным кругом дел и обязанностей ...

Thietmar: Bewerr пишет: Что значит "будет"? У кого? Мне купят такой аккаунт и железной рукой погонят к счастью? Я же не гекатонхейр и не могу заниматься одновременно столь обширным кругом дел и обязанностей ... Тогда пропадут пропадом высказанные выше прекрасные теории, что надо делать и где складировать. Кому этим еще заняться..

Carlos de Almansa: 2Bewerr А если отказаться от всего этого (или почти всего) и взять готовый движок (MediaWiki, например)?

Carlos de Almansa: Thietmar пишет: Тогда пропадут пропадом высказанные выше прекрасные теории, что надо делать и где складировать. Кому этим еще заняться.. А у Вас есть список того, что уже отсканировано? Я мог бы взяться за некоторые вещи. Особенно первоисточники. Правда, я бы переводил их в djvu, OCR не стал бы делать. Зато ничего бы не пропало.

Thietmar: Carlos de Almansa пишет: А у Вас есть список того, что уже отсканировано? Я мог бы взяться за некоторые вещи. Особенно первоисточники. Правда, я бы переводил их в djvu, OCR не стал бы делать. Зато ничего бы не пропало. Перевести их в дежавю через дежавю-плагин - не проблема. Проблема именно - где выставить, чтобы они там были упорядочены и - что самое главное - систематизированы. Это при количестве источников более чем сто станет огромной проблемой. Где вы хотите их размещать ? Список вот: http://vostlit.info/common/Vostlit_estj.xls Там указаны и латиноязычные источники.

a_e_g: Bewerr пишет: По мне так хоть линки на все существующие файлообменники. Хватило бы времени на заливку... Без зеркала всё равно не обойтись. Хотя бы еще 1-2 к Рапиде. Bewerr пишет: Аккаунт премиум? Почему часто? Премиум нет, конечно :)

a_e_g: Carlos de Almansa пишет: Что касается OCR, то я, конечно, согласен с a_e_g, что rtf (или doc, html) лучше djvu или pdf, но это дело практически неподъемное, да и доверять OCR не могу - иди знай, кто этим занимался, как он вычитал текст. Это же не русский текст, где мы легко поймем, что имеем перед собой описку. Греческие-латинские достаточно надёжные RTF (можно и HTML сделать) у меня есть. А преобразовать их в PDF не проблема. Лучше и то, и другое. PDF/Дежавю - обязательно, а RTF/HTML - если есть приличный (вычитанный) текст - и непременно с указанием источника (какое издание). regards, aeg

a_e_g: Список первоисточников у меня есть (какие названия вообще существуют, а не то, что у меня есть). Надо их только по регионам, периодам, жанрам распределить. Вероятно, потребуются еще краткие описания источников. И ссылки на переводы, в том числе на ВЛ. Для части названий я текстов ещё не нашёл. Можно будет пока поставить одни названия, без ссылки, чтобы понятно было, что ещё искать. Найдём, чем заполнить. regards, aeg

Carlos de Almansa: a_e_g пишет: Лучше и то, и другое. PDF/Дежавю - обязательно, а RTF/HTML - если есть приличный (вычитанный) текст - и непременно с указанием источника (какое издание). Согласен. Это было бы идеальным решением.

Carlos de Almansa: Thietmar пишет: Проблема именно - где выставить, чтобы они там были упорядочены и - что самое главное - систематизированы. Это при количестве источников более чем сто станет огромной проблемой. Где вы хотите их размещать ? Это действительно проблема. Надо думать. У меня тоже накопилось немало текстов. Хотелось бы поделиться, да так, чтоб это не пропало зря. Иными словами, нужно специальное место для этого. А систематизация источников - это отдельная проблема. Мне кажется, тут мало систематизации по сериям и томам. Надо думать. Список вот: http://vostlit.info/common/Vostlit_estj.xls Там указаны и латиноязычные источники. Список впечатляет. Жаль, если это пропадет.

Thietmar: Carlos de Almansa пишет: Список впечатляет. Жаль, если это пропадет. Конечно жаль.. Самый простой вариант - купить премиум аккаунт на рапиде (80 долл/год) заливать туда файлы, а ссылки ставить на отдельном сайте например на народ.ру (0 долл/год). Все остальное, вся сортировка, систематизация и т.д./т.п - придут потом. В процессе. Это я к тому, что теоретические выкладки о движках и серверах можно вести вечно.

Bewerr: Thietmar пишет: Тогда пропадут пропадом высказанные выше прекрасные теории, что надо делать и где складировать. Кому этим еще заняться.. Тому, кто имеет к этому тягу и соответствующие знания. А я из латыни лишь пару крылатых фраз знаю плюс несколько наваний лекарств

Bewerr: Thietmar пишет: Конечно жаль.. Самый простой вариант - купить премиум аккаунт на рапиде (80 долл/год) заливать туда файлы, а ссылки ставить на отдельном сайте например на народ.ру (0 долл/год). Все остальное, вся сортировка, систематизация и т.д./т.п - придут потом. В процессе. Что и предлагалось с самого начала как, пожалуй, единственное реальное решение.

Carlos de Almansa: Bewerr пишет: Тому, кто имеет к этому тягу и соответствующие знания. Таких, думаю, найдется несколько человек. Было бы время. :-( Bewerr пишет: А я из латыни лишь пару крылатых фраз знаю плюс несколько наваний лекарств Выучив и осознав IN VINO VERITAS, можно смело говорить, что главное уже позади. :-)

Bewerr: Carlos de Almansa пишет: IN VINO VERITAS Этот этап познания латыни уже пройден. Сейчас актуально: errare humanum est, stultum est in errore perseverare

Thietmar: Carlos de Almansa пишет: Таких, думаю, найдется несколько человек. Было бы время Остается только ждать, пока они найдутся.

Shangry: Есть еще один вариант: соблазнить на такую выкладку одну из больших библиотек. В Москве вполне можно подкинуть идею Иностранке (тем паче, что это ее "родной" профиль), Историчке или МГУшникам. Если у кого-то есть контакты с библиотекарями или их начальством, стоило бы попробовать.

Carlos de Almansa: Shangry пишет: Есть еще один вариант: соблазнить на такую выкладку одну из больших библиотек. В Москве вполне можно подкинуть идею Иностранке (тем паче, что это ее "родной" профиль), Историчке или МГУшникам. Если у кого-то есть контакты с библиотекарями или их начальством, стоило бы попробовать. Идея, конечно, хорошая. Я даже пробовал, но без успехов. Да и зависеть от кого-то не хочется.

Bewerr: Carlos de Almansa пишет: Идея, конечно, хорошая. Я даже пробовал, но без успехов. Да и зависеть от кого-то не хочется. Всё верно. И насчет идеи, и насчет безрезультатности подобных попыток, и насчет зависимости от них.

Thietmar: Shangry пишет: соблазнить на такую выкладку одну из больших библиотек. В Москве вполне можно подкинуть идею Иностранке (тем паче, что это ее "родной" профиль), Историчке или МГУшникам. Если у кого-то есть контакты с библиотекарями или их начальством, стоило бы попробовать. Я пробовал. Это мертворожденная идея. В конечном итоге все сводится к тому, что ты делаешь тексты а библиотека пишет на своем сайте что "сотрудничает" с тобой. С таким же успехом я могу делать тексты и без этой записи о сотрудничестве.

Carlos de Almansa: А меня университетская библиотека просто отфутболила с формулировкой "все равно когда-нибудь кто-нибудь это сделает".

a_e_g: Да, лучше просто баннерами обменяться с ними :) Неясно, нам-то какая польза от такого сотрудничества? Если бы они могли и умели, то давно бы сделали. Тут надо не только с начальством говорить. Оно-то может и заинтересуется, отправит идею вниз, где ей благополучно отфутболят. Вот привлечь кого-нибудь из библиографов, это мысль. Может у Лены Мельниковой bgraf-а позаимствовать?

a_e_g: Да скорее всего они и не поняли, что от них требуется и что они получат взамен. Отсканировать и выложить тексты - не велика премудрость. Библиотекам надо что-то уже готовое показывать. К новому проекту они интереса не проявят, только к развитию уже процветающего 8)

Shangry: Thietmar В конечном итоге все сводится к тому, что ты делаешь тексты а библиотека пишет на своем сайте что "сотрудничает" с тобой. Если не считать того, что библиотека предоставляет рабочую "площадку" (часть сайта, канал доступа, техобслуживание сайта), то выглядит именно так. Но тогда надо определиться - а что вообще требуется в данном случае? Из предыдущего разговора я понял так, что нужна именно "площадка" плюс доброжелательное сотрудничество с ее хозяевами. a_e_g Да скорее всего они и не поняли, что от них требуется и что они получат взамен. Собственно с этого надо и планировать обсуждение: "Мы предлагаем вам следующую идею и рабочий материал для нее. Вы получите от ее реализации то-то и то-то". Иначе же любой разговор в тупик зайдет :-).

Carlos de Almansa: Shangry пишет: Собственно с этого надо и планировать обсуждение: "Мы предлагаем вам следующую идею и рабочий материал для нее. Вы получите от ее реализации то-то и то-то". Иначе же любой разговор в тупик зайдет :-). Именно так я и сделал. Я даже заручился поддержкой нескольких профессоров, но успеха не имел. Конечно, может, в других библиотеках идея создания сайта с источниками приживется.

Thietmar: Shangry пишет: В конечном итоге все сводится к тому, что ты делаешь тексты а библиотека пишет на своем сайте что "сотрудничает" с тобой. Если не считать того, что библиотека предоставляет рабочую "площадку" (часть сайта, канал доступа, техобслуживание сайта), то выглядит именно так. Но тогда надо определиться - а что вообще требуется в данном случае? Из предыдущего разговора я понял так, что нужна именно "площадка" плюс доброжелательное сотрудничество с ее хозяевами. Мне не нужна была "площадка". Мне нужны были сканы книг.

Shangry: Сколько я понял предыдущее обсуждение: Carlos de Almansa : "В последнее время в интернете появилось немало таких книг-первоисточников. Но это лишь крупица. Да и хранится это все на разных сайтах. Приходится бегать по интернету в поисках того или иного текста." Thietmar: "У меня тоже есть немало отсканированных источников на иностранных языках. И исследований на них же - стирать жалко а пользоваться исследоваиями некому. Я бы эти исследования с удовольствием кому-нибудь слил.", "Проблема именно - где выставить, чтобы они там были упорядочены и - что самое главное - систематизированы." заметная часть проблемы - это именно поиск места, где "складировать" уже имеющееся. После чего уже можно думать и о пополнении коллекции, т.е. о новых сканах. Именно в этом смысле я и высказался про какой-нибудь библиотечный сайт, как вполне естественное место для подобной коллекции. Попытался даже забросить удочку начальству" "А не стоит ли у нас?". Но выяснилось, что официальная позиция нашей библиотеки - выкладывать литературу только на русском. Ну плюс еще пара-другая языков бывших республик - из относительно распостраненных Так что не вышло :-(.

Bewerr: Shangry пишет: заметная часть проблемы - это именно поиск места, где "складировать" уже имеющееся. Это очень заметная часть проблемы. Особенно если учесть, что, чем меньше люди делают, тем выше у них требования к результатам труда других. Я не удивлюсь, если те же библиотеки одним из условий поставят "600 dpi, greyscale" или "сканировать книгу полностью, включая обложку", даже если она появилась у книги спустя 50 лет. Требования к форматам, обработке. Как будто нельзя читать в 150 dpi или обрабатывать скан в B/W, или читать сам текст без обложки. Трудно с ними наладить сотрудничество, даже в перспективе. На сегодня - практически невозможно.

a_e_g: Разве сложно прилепить к сканам обложку? Или искусственно поставить любое разрешение при помощи Файнридера? Как можно без цифровой подписи такое обнаружить?

Bewerr: a_e_g пишет: Разве сложно прилепить к сканам обложку? Несложно, но это если она есть в наличии. a_e_g пишет: Или искусственно поставить любое разрешение при помощи Файнридера? Да хоть с помощью чего угодно. Все в конечном итоге будет зависеть от квалификации принимающих работу Но я изначально не приемлю такую ущербную позицию - "вот мы, и соизвольте мол делать так и так". Пример - гугльбукс. Читали их требования к сканам? При этом сотрудничают они только с официальными библиотеками. А что они получают в результате? Сканируется всё абы как, неизвестно кем и бессовестно криво. Лишь редкие универы сканируют как надо. Совесть есть у Стокгольмской библиотеки (королевской?), у Гуверовского универа. Мичиган заметно кривее, но все же их сканы еще как-то терпимы... Есть там рекордсмен по криворукости и раззвездяйству - стэнфордский университет. К величайшему сожалению, они же и рекордсмены по кол-ву отсканированных книг на русском. В отдельных книгах из-за чудовищных ошибок при сканировании (или фотосканировании) из 500-600 страниц через фильтры живыми удалось пробраться от силы сотне-двум. И переделывать никто не будет. Поставили "птицу" - книга сделана, и пошли дальше. А сколько отдельных мутных страниц, срезанных полей... И попробуйте при этом обратиться к гугльбуксу с предложением взять сканы в 300 dpi! Сама постановка вопроса - сотрудничество только с официальными организациями - по умолчанию подразумевает, что все "частники" априори криворуки и безалаберны, и никакого качества от них не дождешься. А на деле всё чуть ли не зеркально противоположно.

a_e_g: Да, Гугльбокс действительно кривой. Хотя ручками обычно можно всё поправить. Очень часто у них лежит по несколько экземпляров одного и того же скана и собрать из них нормальный в Акробате можно. Как рудник ГБ вполне годится :) С классификацией у них слабовато. И вроде бы списка обновлений нет (что изменено и что впервые выложено). А требования 600 dpi вполне понятны. Они хотели полную замену бумажной книги. Чтобы и фактура бумаги была видна, и водяные знаки. Но увы, часто и текст невозможно читать - отсутствуют/перепутаны страницы, плохо отсканировано. И распознанные тексты (используются при поиска) они на старых изданиях не вычитывают. А новые у них под копирайтом и не полностью. В общем, я у Карлоса на форуме кое-что написал, что надо делать. Присоединяйтесь :) regards, aeg

Игорь: Shangry пишет: Есть еще один вариант: соблазнить на такую выкладку одну из больших библиотек. Carlos de Almansa пишет: Идея, конечно, хорошая. Я даже пробовал, но без успехов. Carlos de Almansa пишет: А меня университетская библиотека просто отфутболила с формулировкой "все равно когда-нибудь кто-нибудь это сделает". Как вы не понимаете - книги на сайтах это смерть библиотек, а кому же хочется ускорять собственную смерть?

Bewerr: a_e_g пишет: Да, Гугльбокс действительно кривой. Хотя ручками обычно можно всё поправить. Очень часто у них лежит по несколько экземпляров одного и того же скана и собрать из них нормальный в Акробате можно. Как рудник ГБ вполне годится :) С классификацией у них слабовато. И вроде бы списка обновлений нет (что изменено и что впервые выложено). А требования 600 dpi вполне понятны. Они хотели полную замену бумажной книги. Чтобы и фактура бумаги была видна, и водяные знаки. Но увы, часто и текст невозможно читать - отсутствуют/перепутаны страницы, плохо отсканировано. И распознанные тексты (используются при поиска) они на старых изданиях не вычитывают. А новые у них под копирайтом и не полностью. У них, ЕМНИП, требование 400 dpi. Несколько вариантов - к сожалению, далеко не всегда. Из 1500 скачанных книг по два варианта хорошо если с полсотни наберется. По поводу фактуры и т.п. - они жмут пдф-ы чем-то подобным алгоритму конвертации djvu, и фон там размывается. Распознают они чудовищно. Текст сильно смазывают и потом делают чудовищный деспеклинг - иногда буквы "н" словно две палки, без перемычки... Словом, а ну их... рудник - это точно.

Carlos de Almansa: Игорь пишет: Как вы не понимаете - книги на сайтах это смерть библиотек, а кому же хочется ускорять собственную смерть? Ну, есть правда в Ваших словах. Хотя BNF вон какой проект забацала. Сканы, правда, паршивые. Но зато какой размах! Впрочем, чем ждать милости от библиотек, лучше самому начать работу. Можно, конечно, скачать или сделать самому копии книг и никому их не давать, но я не придерживаюсь этой точки зрения.

a_e_g: С библиотеками плохо ещё дело иметь, так как они из-за копирайта выкладывают только очень старые издания. Хотя это можно было обойти, выложив не полную копию современного издания, а текст (причём обязательно распознанный) отдельно, историко-филологический аппарат и историографические работы - отдельно. В старых изданиях текст обычно приемлем, а вот комментарии могут и устареть.

Shangry: Игорь Как вы не понимаете - книги на сайтах это смерть библиотек, а кому же хочется ускорять собственную смерть? Пропускная способность хорошего Book-Scaner'а - три-четыре книги объемом около 400 страниц за рабочий день. Планшетники в этом смысле я уже и не поминаю :-). Посчитайте сколько можно таким образом сделать за год и сравните с объемами текущего книгоиздания. А еще ведь и старые фонды есть... Так что говорить в этом смысле о смерти библиотек - IMHO все равно, что Байкал чайной чашкой вычерпывать :-). a_e_g С библиотеками плохо ещё дело иметь, так как они из-за копирайта выкладывают только очень старые издания. Поскольку обсуждаемые издания всякого рода юридическим благоглупостям не подлежат по определению, то вопрос только в том, чтобы найти желающего вообще. Кроме того на "Закон об авторских правах" кое-какая управа есть. "Закон о библиотечном деле", например. И в рамках этого закона вполне допустимо сканирование книг и выкладка - правда только в пределах локальной сети библиотеки. Но зато никто не мешает библиотекам объединяться в рамках такого сканировани/выкладывания плюс налаживать систему взаимопомощи и обмен отсканированными изданиями.

Shangry: Прикинул, что в качестве временного паллиатива могут предложить следующее: создать FTP-ящик (у нас на сервере) и выкладывать там книги, по запросам от желающих. А на форуме, или еще где, оставить адрес для запросов. Основной ограничитель - дневной объем выкладки. Обработать много писем за день не смогу просто физически. Да и сетевики ворчать будут на излишний расход трафика. А так, вполне привычное дело. Мы уже не раз таким образом отсылали заказчикам отсканированные материалы.

a_e_g: Договориться с Гумером . У них висит такое объявление: Объявление: предлагаем бесплатный хостинг для размещения сайтов со сходной тематикой ( религиозные, научно-познавательные, учебные, электронные библиотеки и т.д.) Технические возможности: php, ftp, любые скрипты (с установкой и поддержкой) Объем до 1 Gb. Доменное имя типа - http://имя.gumer.info/ пишите - договоримся Наши контактные адреса Ринат (гл. редактор) - libgumer@yandex.ru Сергей (вебмастер) - master.sergey@gmail.com Для распознанных текстов объём вполне нормальный. regards, aeg



полная версия страницы