Как искать документы на вашем "сайте"?

Форум » Вопросы по сайту » Как искать документы на вашем "сайте"? » Ответить

Как искать документы на вашем "сайте"?

centurion: Спасибо за ценнейшие материалы, которые мне удалось найти на вашем сайте http://www.vostlit.info/, но только толку от них немного, так как ориентироваться среди документов невозможно. Сайт просто никакой. Вернее сказать, сайта просто нет, есть огромная куча сваленных как попало документов, среди которых найти нужные практически невозможно. Например, на дневники Джеймса Кука я выхожу через google поиском по вашему сайту. Как выйти на страницу, где были бы ссылки на документы, относящиеся к путешествиям Кука? Как вообще ориентироваться на этом "сайте"? Извините за резкий тон, просто впервые вижу ресурс с такой ценной информацией и такой скверной ее организацией.

Ответов - 22, стр: 1 2 All

Thietmar: Очень просто. Поиск делится на два этапа. Первый - смотрите по алфавиту среди больших исторических сочинений (хроник и т.д.), если там нет - тогда второй этап: смотрите в разделе документы в той стране которую с наибольшей степенью вероятности описывал автор. Авторы путешествовавшие по морям, как, например Кук, расположены в разделе "Путешествия".

centurion: Нашел я Кука на этой странице в разделе путешествия: http://www.vostlit.info/common/doc_cat.phtml?id=106 Что делать дальше? По-человечески было бы сделать гиперссылку, нажав на которую можно было бы перейти сразу на документ... Но вы похоже легких путей не ищете :). Дальше тыкаем на букву К вверху (так как первая буква К) и получаем вот этот список: http://www.vostlit.info/haupt-Dateien/index-Dateien/K.phtml?id=2051 и тут Кука тоже нет! Пожалуйста, дайте на примере Кука how-to, как пользоваться этим чудо-сайтом :). Или хотя бы просто дайте ссылку на все материалы о Куке. Вот попал я на эту страницу-введение: http://www.vostlit.info/Texts/Dokumenty/Reisen/XVIII/1760-1780/Kuk_1/vved.phtml?id=2896 Как мне прочитать следующую главу? Почему нет ссылки с этой страницы на следующую или на оглавление? PS С подобной организацией материала ваш сайт популярным не станет. Советую сделать хотя бы поиск по сайту работающим.

centurion: Такой совет - взять бы вам лучше движок от википедии, чем писать свои кривые велосипеды. Википедия как раз делалась для организации подобных статей.

centurion: Слава богу, не прошло недели, нашел кажется. Вы про это говорили? http://www.vostlit.info/Texts/Dokumenty/reisen.html

Thietmar: centurion пишет: Слава богу, не прошло недели, нашел кажется. Вы про это говорили? http://www.vostlit.info/Texts/Dokumenty/reisen.html Совершенно верно. Большие источники по средневековью и новому времени лежат на алфавитных страницах, остальные - в разделах "Документы" в соответствующих странах. Это - http://www.vostlit.info/common/doc_cat.phtml?id=106 - всего лишь простой список, без гиперссылок. Их мы там делать не стали из-за трудоемкости.

centurion: Thietmar, спасибо. По поводу трудоемкости - это из-за неправильной архитектуры сайта. Вы не используете описания ресурсов. Оптимально было бы использовать XML для хранения документов и описания заголовков, а потом с помощью XSLT-преобразования получать XHTML и его как раз отображать. То есть данные (документы) описывались бы только один раз, в одном месте, потом по мере необходимости вы бы просто отображали с помощью запросов нужные документы. Второй вариант - традиционно с использованием баз данных (у вас должен быть на хосте MySQL) и PHP для запроса и отображения, то есть хранить документы в базе данных и отображать с помощью php нужные. По мере увеличения числа документов, вы окончательно потеряете контроль над сайтом, советую прямо сейчас озаботиться этой проблемой.

Thietmar: centurion пишет: Оптимально было бы использовать XML для хранения документов и описания заголовков, а потом с помощью XSLT-преобразования получать XHTML Боюсь, Вы серьезно переоцениваете мои возможности...

Strori: centurion 1. Хранить тексты в базе данных - нереально. Ибо во-первых размер базы будет просто катастрофичен (сайт весит больше гигабайта уже), а во-вторых, текст, выдираемый из базы при отображении нужно форматировать. А для этого, в свою очередь, необходимо чтобы он был стандартизирован в плане кода. Этого нет. Приводить к некоему единому знаменателю более 20000 файлов - это в дурдом. 2. Для корректного поиска конкретного автора/документа - необходима база данных этих самых автров/документов. Её нет. Времени на ее создание тоже нет. 3. Поиск по сайту работать перестал. Яндекс сменил условия размещения поиска, похоже. Будем смотреть. Спасибо за сигнал.

centurion: Strori 1. Размер базы не имеет никакого значения. Гигабайт, так гигабайт, движок СУБД с этим справится намного лучше, чем файловая система вашего сервера. Но если стоит вопрос по поводу размера базы данных - в базе можно хранить просто имя файла документа, например. Чем не вариант? Форматировать ничего не нужно, в базе данных можно хранить все тот же html, который хранится на файловой системе. Но повторюсь, не хотите хранить тексты в б.д., храните просто имена файлов. 2. База данных авторов не обязательна. Тут не нужно особенно ничего придумывать: завести три таблицы. 1 таблица - категории в виде иерархий. Поля: идентификатор категории, название категории (Путешествия например), ссылка на родительскую категорию (например "Документы"). Вторая таблица - описания документов, поля: идентификатор документов, название документа (например, "Путешествие на "Индеворе"), название автора (в виде текстового поля, не обязательно ссылка, например, "Кук, Джеймс"), ссылка на категорию. Третья таблица - собственно, файлы документов (части документов). Поля: идентификатор части, ссылка на документ, которому принадлежит часть (в данном случае на документ с названием "Путешествие на "Индеворе"), название части (например, "Введение Ч. 1"), имя файла, где хранится часть (например, "text13.phtml"). 3. Поиск можно будет потом сделать по автору или названию документа, что гораздо лучше, чем полнотекстовый поиск от яндекс, который у вас был. При этом сделать полнотекстовый поиск в придачу никто не мешает. Советую использовать поиск от google.

Strori: 1. Базу необходимо периодически сохранять себе на комп на всякий случай. Тут нет желающих ежемесячно выкладывать по 2 руб./метр за трафик. Реже не получится, ибо каждый месяц база документов серьезно пополняется. По поводу форматирования - эта проблема есть уже сейчас. Ибо в разных документах одни и те же вещи в коде по разному оформлены. :) В силу того, что работа над сайтом идет с 2001 года. Порой весьма смешно получается. Пока править не начнешь. 2. Вообще-то, вами описанное - это и есть база авторов/источников. :) Только кроме этих полей есть еще и другие, которые неплохо бы ввести: описываемая в произведении страна и временной период прозведения. А вот с этим проблема. 3. А что за поиск от гугл? Ссылку можно - ознакомится?

centurion: Strori пишет: Базу необходимо периодически сохранять себе на комп на всякий случай. Тут нет желающих ежемесячно выкладывать по 2 руб./метр за трафик. Скорее всего, ваш хостер уже делает бекап, хотя только на него полагаться тоже конечно не стоит. Тогда храните просто наименования файлов. Strori пишет: Вообще-то, вами описанное - это и есть база авторов/источников. :) Не совсем, это база документов, при этом отдельную таблицу авторов можно и не иметь (т.к. это в самом деле может оказаться более трудоемко). Strori пишет: Только кроме этих полей есть еще и другие, которые неплохо бы ввести: описываемая в произведении страна и временной период прозведения. А вот с этим проблема. Со страной нет проблем - таблица для стран и связь один к одному или вообще текстовое поле. Что касается описываемого периода, то тут тоже просто - два поля, начало периода startdate и конец периода enddate. Потом можно будет по этим полям делать выборки. Например, вот так получаем список документов, которые относятся к Англии с 1650 по 1850 год: select * from documents where name = 'Англия' and startdate between 1650 AND 1850 and enddate between 1650 AND 1850 (диалект Oracle) Strori пишет: А что за поиск от гугл? Ссылку можно - ознакомится? Можно сделать по простому, с использованием поисковых шаблонов: для того, чтобы найти на вашем сайте слово Кук, можно использовать такой поисковый запрос: site:http://www.vostlit.info/ Кук. Соответственно составляете соотвествующий поисковый URL для google. А еще можно вроде взять у них жаваскриптовый элемент для поиска и разместить на вашем сайте.

centurion: Можете сюда глянуть: https://www.google.com/adsense/login/ru/?utm_campaign=ru&&utm_source=ru_en-ha-emea-ru-sk-adsense_ru_global&utm_medium=ha&utm_term=%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%20%D0%B4%D0%BB%D1%8F%20%D1%81%D0%B0%D0%B9%D1%82%D0%B0

centurion: А вот как сделать ручками: http://slava.khersoncity.com/pub/google-form.php

Strori: За поиск спасибо. По поводу временного и территориального деления - я имел ввиду трудность классификации источников по этим признакам. Ибо зачастую в произведении описывается много стран и разные временные периоды. Причем страны, на данный момент бывает и не существуют уже. :)

centurion: Strori пишет: По поводу временного и территориального деления - я имел ввиду трудность классификации источников по этим признакам. Ибо зачастую в произведении описывается много стран и разные временные периоды. Причем страны, на данный момент бывает и не существуют уже. :) Эта трудность с технической или с принципиальной стороны? Технически это не проблема в рамках обычной реляционной модели, связь один ко многим. Лучше всего завести таблицу "периодика" с полями: страна, startdate, enddate, между ней и таблицей документы будет связь один ко многим, таким образом это прекрасно описывается. Если же имеется ввиду принципиальная сложность выделить периоды - сейчас как-то же их выделяете?

полная версия страницы