Вопросы по информатике
Категория реферата: Рефераты по информатике, программированию
Теги реферата: бесплатные рассказы, философские рефераты
Добавил(а) на сайт: Мусорин.
Предыдущая страница реферата | 1 2 3 4 5 6 7 8 9 10 11 | Следующая страница реферата
Fk = сумма (i=1 – n) fik
Шум k –го символа рассчитывается:
Nk = сумма(i=1 – n) fik / Fk * log (Fk / fik)
Сигнал k – го символа:
Sk = log Fk – Nk
Шум является максимальным, если термин имеет равномерное распределение в n документах. Шум является минимальным и равномерным, когда термин имеет неравномерное распределение, например, когда он встречается только в одном документе, с частотой Fk, тогда:
Nk = сумма (i=1 – n) fik / Fk * log Fk / fik = 0, в этом случае сигнал имеет максимальное значение:
Sk = log Fk – Nk = log Fk
С учётом этих параметров, для определения веса используется отношение сигнала к шуму k –го термина: Sk / Nk. Чем больше это отношение, тем больший вес назначается. Строится однозначная таблица.
8.Использование распределения частоты термина при индексировании.
Использование распределения частоты термина (уклонения).
Уклонение рассчитывается:
U = (сумм (fik – fk)) / (n-1)
fk – средняя частота термина k в наборе из n документов.
fk = Fk / n
Для оценки веса термина используется не уклонение, а формула Fk* U/ fk
Чем больше это отношение, тем больший вес назначается термину.
9.Использование при индексировании параметров, основанных на способности термина различать документы набора.
Исходные данные – набор из n документов и множество S коэффициентов подобия всех пар документов из множества n: { S ( Di , Dj ) }. Эти коэффициенты подобия рассчитываются на основании векторов документов. Способ расчета разный, а принцип: S ( Di , Dj ) = 1, если вектора идентичны.
S ( Di , Dj ) = 0 , если в векторах нет ни одного общего документа.
По S рассчитывают средний коэффициент подобия: S = C * сумм (i= 1 – n) S ( Di , Dj ), С – коэффициент усреднения, может быть любым, в частности C = 1 / n.
Далее из векторов документов удаляют некоторый k – й термин и рассчитывают средний коэффициент по парного подобия, но с удалённым k –м термином: Sk( т.е. в векторах документа не участвуют веса k –го термина). Если Sk возрастает относительно S, то термину k присваивается положительный вес. Чем больше эта разница, тем больший вес присваивается термину k. Если Sk уменьшается, то k либо вообще не рассматривается как возможный индекс, либо ему присваивается отрицательный вес.
10.Динамическая информативность как метод индексирования.
Всем терминам первоначально присваиваются одинаковый вес, затем пользователь формирует запрос, и выдаются документы и пользователь определяет релевантность, система сама уменьшает или увеличивает вес документа, в соответствии с потребностями пользователя, т.е. предусматривается некоторая программа обучения системы.
5 Назначение и основные методы индексации.
Задача создания вектора документа называется индексированием.
Методы автоматического индексирования. Задачи этих методов – построить векторы документов {(tik , wik)}. Исходные данные – массив документов. Нужно выделить те термины, которые раскрывают текст документа tik и присвоить вес wik.
Методы:
Рекомендуем скачать другие рефераты по теме: сочинения по русскому языку, управление персоналом реферат.
Предыдущая страница реферата | 1 2 3 4 5 6 7 8 9 10 11 | Следующая страница реферата