Вопросы по информатике
Категория реферата: Рефераты по информатике, программированию
Теги реферата: бесплатные рассказы, философские рефераты
Добавил(а) на сайт: Мусорин.
Предыдущая страница реферата | 4 5 6 7 8 9 10 11 12 13 14 | Следующая страница реферата
Наиболее значимые предложения, которые либо начинают, либо заканчивают абзац или раздел.
Исключаются вопросительные предложения, несмотря на их положение в абзаце.
К значимым относятся предложения, содержащие слова – подсказки. Например: “ данная (слово-подсказка) работа выполнена по такому – то плану и т.д.”
Из значимых исключаются те предложения, в которых есть ссылки на рисунки, таблицы, цитаты и т.д.
19.Цепочечные текстовые файлы.
К самой БД добавляется справочник, который имеет следующую структуру:
Ключ – значимое слово, характеризующее тот или иной документ. Рядом пишется адресная ссылка на тот текстовый файл, который имеет данный ключ в качестве значимого термина. И к этой подстроке добавляются собственно текстовые файлы.
Цепочечная модель: сколько индексных терминов в тексте выделено столько и должно быть ссылок.
Преимущества:
Максимальная длина поиска определяется самой длинной цепочкой;
Новые записи (тексты) можно ставить в начало цепи, что упрощает её корректировку.
Недостатки:
Цепи могут быть длинными, если некоторые ключи используются довольно часто;
Необходимость выделения памяти для хранения адресных ссылок в самих текстах;
Если справочник очень велик, он значительно усложняет работу с текстами и требует организации дополнительного доступа к себе самому.
20.Инвертированные текстовые файлы.
Получаются из цепочечных файлов, когда в справочник включаются адресные ссылки на все тексты, имеющие соответствующий ключ в качестве индексационного термина.
Недостаток: переменное число адресов в справочнике.
Достоинство: быстрый поиск релевантных документов, так как их адреса находятся сразу в справочнике, обработку которого можно организовать в оперативной памяти.
21.Рассредоточенные текстовые файлы.
Весь массив документов разбивается на группы файлов, ключевые термины которых связаны некоторым математическим соотношением. Тогда поиск в справочнике заменяется вычислительной процедурой, которая называется хешированием, рандомизацией или перемешиванием.
Здесь нет справочника, а существует вычислительная процедура, т.е. блок, называемый блоком рандомизации, который по ключу (поисковому термину) на основании вычислительной процедуры определяет адрес, по которому находится текст.
Ключ адрес этот участок
{ключ} памяти
называется
бакетом
В этой области памяти находится несколько текстов, каждый из которых характеризуется по своему в векторе документов. Т.е. адрес получается по вычислительной процедуре.
Рекомендуем скачать другие рефераты по теме: сочинения по русскому языку, управление персоналом реферат.
Предыдущая страница реферата | 4 5 6 7 8 9 10 11 12 13 14 | Следующая страница реферата