Технология поиска документальной информации в Интернет
Категория реферата: Рефераты по информатике, программированию
Теги реферата: конфликт реферат, сочинение тарас бульбо
Добавил(а) на сайт: Волгарев.
Предыдущая страница реферата | 1 2 3 4 5 6 7 | Следующая страница реферата
База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных.
Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако, основные принципы определения релевантности следующие:
1. Количество слов запроса в текстовом содержимом документа.
2. Тэги, в которых эти слова располагаются.
3. Местоположение искомых слов в документе.
4. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.
База данных выводит ранжированный подобным образом список документов с
HTML и возвращает его человеку, сделавшему запрос.
Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.
Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.
3.2. Сравнительный обзор поисковых систем. Структура запроса.
В сети существуют различные способы поиска информации. Конечно же, если имеется справочник, в котором можно найти местонахождение интересующего вас источника конкретной информации, то, без всякого сомнения, следует этим и воспользоваться. Однако, к сожалению, такие издания далеко не всегда доступны. Кроме того, сеть является постоянно обновляющейся системой и поэтому находится в курсе всего нового с помощи периодики, а тем более с помощью литературы, не всегда представляется возможным. Для поисковых целей в Internet существуют специальные поисковые машины, располагающие значительными базами данных и имеющие связь с себе подобными.
Существенно полезными возможностями у них является наличие системы поиска, которая строится по принципу: от общего - к конкретному. Задавая общее понятие (в виде ключевого слова, нескольких слов или фразы, - в зависимости от сервисных услуг конкретной машины), а затем, с каждым новым поиском всё более и более конкретизируя его, можно получить интересующий результат. Поэтому далее будут рассмотрены несколько основных поисковых систем, использование которых весьма эффективно.
Исторически сложилось, что первой такой поисковой машиной являлась
Alta Vista, поэтому с неё и начнём рассмотрение.
AltaVista. Наиболее интересная возможность AltaVista - это расширенный поиск. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.
Lycos. Как и большинство систем, Lycos дает возможность применять
простой запрос и более изощренный метод поиска. В простом запросе в
качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так
называемые stop-слова, и только после этого приступает к его выполнению.
Почти сразу выдается информация о количестве документов на каждое слово, а
позже и список ссылок на формально релевантные документы. В списке против
каждого документа указывается его мера близости запросу, количество слов из
запроса, попавших в документ, и оценочная мера близости, которая может быть
больше или меньше формально вычисленной.
Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом.
Yahoo. Данная система появилась в Сети одной из первых, и сегодня
Yahoo сотрудничает со многими производителями средств информационного
поиска, а на различных ее серверах используется различное программное
обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через
пробел, они соединяются связкой “and” либо “or”.
При выдаче не указывается степень соответствия документа запросу, а
только подчеркиваются слова из запроса, которые встретились в документе.
При этом не производится нормализация лексики и не проводится анализ на
«общие» слова. Хорошие результаты поиска получаются только тогда, когда
пользователь знает, что в базе данных Yahoo информация есть наверняка.
Ранжирование производится по числу терминов запроса в документе.
Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.
OpenText. Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер документа.
Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.
Infoseek. Система Infoseek обладает довольно развитым информационно- поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков «+» - термин обязан быть в документе, и «-» - термин должен отсутствовать в документе.
Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что, используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке.
Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске.
WAIS. WAIS является одной из наиболее изощренных поисковых систем
INTERNET. В ней не реализованы лишь поиск по нечетким множествам и
вероятностный поиск. В отличие от многих поисковых машин, система позволяет
строить не только вложенные булевые запросы, считать формальную
релевантность по различным мерам близости, взвешивать термины запроса и
документа, но и осуществлять коррекцию запроса по релевантности. Система
также позволяет использовать усечения терминов, разбиение документов на
поля и ведение распределенных индексов.
Рекомендуем скачать другие рефераты по теме: сочинения 4, реферат влияние на человека реферат древняя культура.
Предыдущая страница реферата | 1 2 3 4 5 6 7 | Следующая страница реферата