Стратегия поиска в автоматизированных информационных системах
Категория реферата: Рефераты по информатике, программированию
Теги реферата: курсовая работа по психологии, скачать доклад на тему
Добавил(а) на сайт: Булгаков.
Предыдущая страница реферата | 1 2 3 4 5 6 7 8 | Следующая страница реферата
++ прюнинг (pruning) – отсечение заведомо нерелевантных документов при поиске с целью ускорения выполнения запроса
++ прямой поиск – поиск непосредственно по тексту документов, без предварительной обработки (без индексирования)
++ псевдо-обратная связь – см. обратная связь
++ различительная сила слова (term specificity, term discriminating power, контрастность, различительная сила) – степень ширины или узости слова. Слишком широкие термины в поиске приносят слишком много информации, при это существенная часть ее бесполезна. Слишком узкие термины помогают найти слишком мало документов, хотя и более точных.
++ регулярное выражение (regualr expression, pattern, «шаблон», реже
«трафарет», «маска») – способ записи поискового предписания, позволяющий
определять пожелания к искомому слову, его возможные написания, ошибки и
т.д. В широком смысле – язык, позволяющий задавать запросы неограниченной
сложности
++ релевантность (relevance, relevancy) – соответствие документа запросу
++ сигнатура (signature, подпись) – множество хеш-значений слов некоторого блока текста. При поиске по методу сигнатур все сигнатуры всех блоков коллекции просматриваются последовательно в поисках совпадений с хеш- значениями слов запроса
++ словоизменение (inflection) – образование формы определенного
грамматического значения, обычно обязательного в данном грамматическом
контексте, принадлежащей к фиксированному набору форм (парадигме), характерного для слов данного типа. В отличие от словообразования никогда
не приводит к смене типа и порождает предсказуемое значение. Словоизменение
имен называют склонением (declension), а глаголов – спряжением
(conjugation)
++ словообразование (derivation) – образование слова или основы из другого слова или основы. Чаще приводит к смене типа и к образованию слов, имеющих идеосинкразическое значение
++ смыслоразличительный – см. различительная сила
++ спам поисковых систем (spam, спамдексинг, накрутка поисковых систем)
– попытка воздействовать на результат информационного поиска со стороны
авторов документов
++ статическая популярность – см. PageRank
++ стемминг – поцесс выделения основы слова
++ стоп-слова (stop-words) – те союзы, предлоги и другие частотные слова, которые данная поисковая система исключила из процесса индексирования и поиска для повышения своей производительности и/или точности поиска
++ суффиксные деревья, суффиксные массивы (suffix trees, suffix arrays,
PAT-arrays) – индекс, основанный на представлении всех значимых суффиксов
текста в структуре данных, известной как бор (trie). Суффиксом в этом
индексе называю любую «подстроку», начинающуюся с некоторой позиции текста
(текст рассматривается как одна непрерывная строка) и продолжающуюся до его
конца. В реальных приложениях длина суффиксов ограничена, а индексируются
только значимые позиции – например, начала слов. Этот индекс позволяет
выполнять более сложные запросы, чем индекс, построенный на инвертированных
файлах
++ токенизация (tokenization, lexical analysis, графематический анализ, лексический анализ) – выделение в тексте слов, чисел, и иных токенов, в том числе, например, нахождение границ предложений
++ точность (precision) - доля релевантного материала в ответе поисковой системы
++ хеш-значение (hash-value) – значение хеш-функции (hash-function), преобразующей данные произвольной длины (обычно, строчку) в число фиксированного порядка
++ частота (слова) в документах (document frequency, встречаемость в документах, документная частота) – число документов в коллекции, содержащих данное слово
++ частота термина (term frequency, TF) – частота употреблений слова в документе
++ шингл – (shingle) – хеш-значение непрерывной последовательности слов текста фиксированной длины
++ PageRank – алгоритм расчета статической (глобальной) популярности
страницы в интернете, назван в честь одного из авторов - Лоуренса Пейджа.
Соответствует вероятности попадания пользователя на страницу в модели
случайного блуждания
++ TF*IDF – численная мера соответствия слова и документа в векторной модели; тем больше, чем относительно чаще слово встретилось в документе и относительно реже в коллекции
--------------------
[1] В отечественной литературе алгебраические модели часто называют
линейными
[2] Gerard Salton (Sahlman) 1927-1995. Он же Селтон, он же Залтон и даже
Залман, он же Жерар, Герард, Жерард или даже Джеральд в зависимости от
вкуса переводчика и допущенных опечаток
http://www.cs.cornell.edu/Info/Department/Annual95/Faculty/Salton.html
http://www.cs.virginia.edu/~clv2m/salton.txt
Рекомендуем скачать другие рефераты по теме: антикризисное управление предприятием, реферат на тему образование.
Предыдущая страница реферата | 1 2 3 4 5 6 7 8 | Следующая страница реферата