Как искать документы на вашем "сайте"?

Форум » Вопросы по сайту » Как искать документы на вашем "сайте"? » Ответить

Как искать документы на вашем "сайте"?

centurion: Спасибо за ценнейшие материалы, которые мне удалось найти на вашем сайте http://www.vostlit.info/, но только толку от них немного, так как ориентироваться среди документов невозможно. Сайт просто никакой. Вернее сказать, сайта просто нет, есть огромная куча сваленных как попало документов, среди которых найти нужные практически невозможно. Например, на дневники Джеймса Кука я выхожу через google поиском по вашему сайту. Как выйти на страницу, где были бы ссылки на документы, относящиеся к путешествиям Кука? Как вообще ориентироваться на этом "сайте"? Извините за резкий тон, просто впервые вижу ресурс с такой ценной информацией и такой скверной ее организацией.

Ответов - 22, стр: 1 2 All

Thietmar: Очень просто. Поиск делится на два этапа. Первый - смотрите по алфавиту среди больших исторических сочинений (хроник и т.д.), если там нет - тогда второй этап: смотрите в разделе документы в той стране которую с наибольшей степенью вероятности описывал автор. Авторы путешествовавшие по морям, как, например Кук, расположены в разделе "Путешествия".

centurion: Нашел я Кука на этой странице в разделе путешествия: http://www.vostlit.info/common/doc_cat.phtml?id=106 Что делать дальше? По-человечески было бы сделать гиперссылку, нажав на которую можно было бы перейти сразу на документ... Но вы похоже легких путей не ищете :). Дальше тыкаем на букву К вверху (так как первая буква К) и получаем вот этот список: http://www.vostlit.info/haupt-Dateien/index-Dateien/K.phtml?id=2051 и тут Кука тоже нет! Пожалуйста, дайте на примере Кука how-to, как пользоваться этим чудо-сайтом :). Или хотя бы просто дайте ссылку на все материалы о Куке. Вот попал я на эту страницу-введение: http://www.vostlit.info/Texts/Dokumenty/Reisen/XVIII/1760-1780/Kuk_1/vved.phtml?id=2896 Как мне прочитать следующую главу? Почему нет ссылки с этой страницы на следующую или на оглавление? PS С подобной организацией материала ваш сайт популярным не станет. Советую сделать хотя бы поиск по сайту работающим.

centurion: Такой совет - взять бы вам лучше движок от википедии, чем писать свои кривые велосипеды. Википедия как раз делалась для организации подобных статей.

centurion: Слава богу, не прошло недели, нашел кажется. Вы про это говорили? http://www.vostlit.info/Texts/Dokumenty/reisen.html

Thietmar: centurion пишет: Слава богу, не прошло недели, нашел кажется. Вы про это говорили? http://www.vostlit.info/Texts/Dokumenty/reisen.html Совершенно верно. Большие источники по средневековью и новому времени лежат на алфавитных страницах, остальные - в разделах "Документы" в соответствующих странах. Это - http://www.vostlit.info/common/doc_cat.phtml?id=106 - всего лишь простой список, без гиперссылок. Их мы там делать не стали из-за трудоемкости.

centurion: Thietmar, спасибо. По поводу трудоемкости - это из-за неправильной архитектуры сайта. Вы не используете описания ресурсов. Оптимально было бы использовать XML для хранения документов и описания заголовков, а потом с помощью XSLT-преобразования получать XHTML и его как раз отображать. То есть данные (документы) описывались бы только один раз, в одном месте, потом по мере необходимости вы бы просто отображали с помощью запросов нужные документы. Второй вариант - традиционно с использованием баз данных (у вас должен быть на хосте MySQL) и PHP для запроса и отображения, то есть хранить документы в базе данных и отображать с помощью php нужные. По мере увеличения числа документов, вы окончательно потеряете контроль над сайтом, советую прямо сейчас озаботиться этой проблемой.

Thietmar: centurion пишет: Оптимально было бы использовать XML для хранения документов и описания заголовков, а потом с помощью XSLT-преобразования получать XHTML Боюсь, Вы серьезно переоцениваете мои возможности...

Strori: centurion 1. Хранить тексты в базе данных - нереально. Ибо во-первых размер базы будет просто катастрофичен (сайт весит больше гигабайта уже), а во-вторых, текст, выдираемый из базы при отображении нужно форматировать. А для этого, в свою очередь, необходимо чтобы он был стандартизирован в плане кода. Этого нет. Приводить к некоему единому знаменателю более 20000 файлов - это в дурдом. 2. Для корректного поиска конкретного автора/документа - необходима база данных этих самых автров/документов. Её нет. Времени на ее создание тоже нет. 3. Поиск по сайту работать перестал. Яндекс сменил условия размещения поиска, похоже. Будем смотреть. Спасибо за сигнал.

centurion: Strori 1. Размер базы не имеет никакого значения. Гигабайт, так гигабайт, движок СУБД с этим справится намного лучше, чем файловая система вашего сервера. Но если стоит вопрос по поводу размера базы данных - в базе можно хранить просто имя файла документа, например. Чем не вариант? Форматировать ничего не нужно, в базе данных можно хранить все тот же html, который хранится на файловой системе. Но повторюсь, не хотите хранить тексты в б.д., храните просто имена файлов. 2. База данных авторов не обязательна. Тут не нужно особенно ничего придумывать: завести три таблицы. 1 таблица - категории в виде иерархий. Поля: идентификатор категории, название категории (Путешествия например), ссылка на родительскую категорию (например "Документы"). Вторая таблица - описания документов, поля: идентификатор документов, название документа (например, "Путешествие на "Индеворе"), название автора (в виде текстового поля, не обязательно ссылка, например, "Кук, Джеймс"), ссылка на категорию. Третья таблица - собственно, файлы документов (части документов). Поля: идентификатор части, ссылка на документ, которому принадлежит часть (в данном случае на документ с названием "Путешествие на "Индеворе"), название части (например, "Введение Ч. 1"), имя файла, где хранится часть (например, "text13.phtml"). 3. Поиск можно будет потом сделать по автору или названию документа, что гораздо лучше, чем полнотекстовый поиск от яндекс, который у вас был. При этом сделать полнотекстовый поиск в придачу никто не мешает. Советую использовать поиск от google.

Strori: 1. Базу необходимо периодически сохранять себе на комп на всякий случай. Тут нет желающих ежемесячно выкладывать по 2 руб./метр за трафик. Реже не получится, ибо каждый месяц база документов серьезно пополняется. По поводу форматирования - эта проблема есть уже сейчас. Ибо в разных документах одни и те же вещи в коде по разному оформлены. :) В силу того, что работа над сайтом идет с 2001 года. Порой весьма смешно получается. Пока править не начнешь. 2. Вообще-то, вами описанное - это и есть база авторов/источников. :) Только кроме этих полей есть еще и другие, которые неплохо бы ввести: описываемая в произведении страна и временной период прозведения. А вот с этим проблема. 3. А что за поиск от гугл? Ссылку можно - ознакомится?

centurion: Strori пишет: Базу необходимо периодически сохранять себе на комп на всякий случай. Тут нет желающих ежемесячно выкладывать по 2 руб./метр за трафик. Скорее всего, ваш хостер уже делает бекап, хотя только на него полагаться тоже конечно не стоит. Тогда храните просто наименования файлов. Strori пишет: Вообще-то, вами описанное - это и есть база авторов/источников. :) Не совсем, это база документов, при этом отдельную таблицу авторов можно и не иметь (т.к. это в самом деле может оказаться более трудоемко). Strori пишет: Только кроме этих полей есть еще и другие, которые неплохо бы ввести: описываемая в произведении страна и временной период прозведения. А вот с этим проблема. Со страной нет проблем - таблица для стран и связь один к одному или вообще текстовое поле. Что касается описываемого периода, то тут тоже просто - два поля, начало периода startdate и конец периода enddate. Потом можно будет по этим полям делать выборки. Например, вот так получаем список документов, которые относятся к Англии с 1650 по 1850 год: select * from documents where name = 'Англия' and startdate between 1650 AND 1850 and enddate between 1650 AND 1850 (диалект Oracle) Strori пишет: А что за поиск от гугл? Ссылку можно - ознакомится? Можно сделать по простому, с использованием поисковых шаблонов: для того, чтобы найти на вашем сайте слово Кук, можно использовать такой поисковый запрос: site:http://www.vostlit.info/ Кук. Соответственно составляете соотвествующий поисковый URL для google. А еще можно вроде взять у них жаваскриптовый элемент для поиска и разместить на вашем сайте.

centurion: Можете сюда глянуть: https://www.google.com/adsense/login/ru/?utm_campaign=ru&&utm_source=ru_en-ha-emea-ru-sk-adsense_ru_global&utm_medium=ha&utm_term=%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%20%D0%B4%D0%BB%D1%8F%20%D1%81%D0%B0%D0%B9%D1%82%D0%B0

centurion: А вот как сделать ручками: http://slava.khersoncity.com/pub/google-form.php

Strori: За поиск спасибо. По поводу временного и территориального деления - я имел ввиду трудность классификации источников по этим признакам. Ибо зачастую в произведении описывается много стран и разные временные периоды. Причем страны, на данный момент бывает и не существуют уже. :)

centurion: Strori пишет: По поводу временного и территориального деления - я имел ввиду трудность классификации источников по этим признакам. Ибо зачастую в произведении описывается много стран и разные временные периоды. Причем страны, на данный момент бывает и не существуют уже. :) Эта трудность с технической или с принципиальной стороны? Технически это не проблема в рамках обычной реляционной модели, связь один ко многим. Лучше всего завести таблицу "периодика" с полями: страна, startdate, enddate, между ней и таблицей документы будет связь один ко многим, таким образом это прекрасно описывается. Если же имеется ввиду принципиальная сложность выделить периоды - сейчас как-то же их выделяете?

Strori: Алфавитые - никак в общем. :) Есть по документам разбивка, но тоже не везде. Условно все в целом.

Thietmar: Вот, судя по всему, и закончилась очередная история. Которую можно свести к небольшому диалогу: (М) - мы и (Ж) - желающий улучшения. Ж.: "У вас то-то не работает". М.: "Знаем, но руки не доходят/объем большой/не знаем как делать". Ж.: "Ну это из-за неправильной архитектуры сайта" М.: "А сделать то как ?" Ж.: "Технически это не проблема. Возьмите синхрофазотрон загрузите его в сверхмалый коллайдер и используйте форастрийским флипом." М.: "Э-ээ... А сделать-то это как ? Поможете ?". Ж.: "Ладно, помогу". После чего (Ж) бесследно растворяется во мраке времен.

a_e_g: Скачать весь сайт и превратить его Acrobat-ом в один большой PDF. Затем PDF проиндексировать и расставить закладки. И чего человек мучался :) ?

Bewerr: a_e_g пишет: Скачать весь сайт и превратить его Acrobat-ом в один большой PDF. Затем PDF проиндексировать и расставить закладки. И чего человек мучался :) ? И так каждый месяц .

vmenkov: Опять та же огромная благодарность создателям сайта за его наличие - и вместе с тем, то же замечание, что и от первого выступавшего, об отстутсвии необходимейших средств навигации. То есть, "сверху вниз" еще что-то можно найти, но чтобы пройти "снизу вверх", читателю остается лишь применять разного рода догадки. К настоящему времени я их уже более или менее освоил, но для нового человека они были бы далеко неочевидны. Скажем, нашёл и при помощи какого-то сетевого поиска по ключевым словам статью (A) http://www.vostlit.info/Texts/Dokumenty/Russ/XVII/1640-1660/Poljakov/pred.htm ; вижу что это часть чего-то; пытаюсь найти остальные части. Так... в этом документе никакикх гиперссылок ни на что нет. Ладно... пытаюсь идти выше уровнем - на (B) http://www.vostlit.info/Texts/Dokumenty/Russ/XVII/1640-1660/Poljakov/ ан нет, нельзя просмотреть. Ещё выше - тот же результат. Что делать? В конце концов, иду на главную страницу сайта, делаю догадки, в каком каталоге этот документ может быть перечислен, и наконец нахожу (C) http://www.vostlit.info/Texts/Dokumenty/Russ/xvii.htm , откуда действительно есть ссылки на статью (A) и на ее "сёстры" (другие части публикации) То есть, после некоторого ознакомления со структурой сайта пользователь может решить задачу, но мягко говоря, далеко не прямым методом. Я понимаю, что создатели сайта очень заняты обработкой новых данных - но. с моей точки зрения, не менее важно сделать существующие материалы более находимы. Некоторые элементарные предложения: (1) Статьи типа (A) всегда должны содержать ссылку, на каталог, в котором они находятся (т е (C)) (2) Если простановка таких ссылок слишком трудоемка, то по крайней мере сконфигурируйте сервер так, чтобы запрос URL типа (B) - http://www.vostlit.info/Texts/Dokumenty/Russ/XVII/1640-1660/Poljakov/ http://www.vostlit.info/Texts/Dokumenty/Russ/XVII/1640-1660/ http://www.vostlit.info/Texts/Dokumenty/Russ/XVII/ http://www.vostlit.info/Texts/Dokumenty/Russ/ вместо "запрета видеть список страниц" давал читателю либо переход на страницу каталога типа (C) (напр , соответственно, http://www.vostlit.info/Texts/Dokumenty/Russ/xvii.htm http://www.vostlit.info/Texts/Dokumenty/russ.htm ) либо по крайней мере содержание директории (список файлов и поддиректоий) - чтобы пользователь мог искать по дереву. С уважением, -Владимир

Thietmar: Наступили на больную мозоль.. С этим действительно проблемс..

Strori: Со временем и Россию добавим в базу. Не надо думать, что процесс стоит. Поиск по базе документов уже работает. База наполняется, но это не быстро. Поиск по базе http://www.vostlit.info/bin/find_doc.php Так же есть ссылка с любой из центральных страниц.

полная версия страницы