Вопросы по информатике

Категория реферата: Рефераты по информатике, программированию
Теги реферата: бесплатные рассказы, философские рефераты
Добавил(а) на сайт: Мусорин.

Предыдущая страница реферата | 1 2 3 4 5 6 7 8 9 10 11 | Следующая страница реферата

Fk = сумма (i=1 – n) fik

Шум k –го символа рассчитывается:

Nk = сумма(i=1 – n) fik / Fk * log (Fk / fik)

Сигнал k – го символа:

Sk = log Fk – Nk

Шум является максимальным, если термин имеет равномерное распределение в n документах. Шум является минимальным и равномерным, когда термин имеет неравномерное распределение, например, когда он встречается только в одном документе, с частотой Fk, тогда:

Nk = сумма (i=1 – n) fik / Fk * log Fk / fik = 0, в этом случае сигнал имеет максимальное значение:

Sk = log Fk – Nk = log Fk

С учётом этих параметров, для определения веса используется отношение сигнала к шуму k –го термина: Sk / Nk. Чем больше это отношение, тем больший вес назначается. Строится однозначная таблица.

8.Использование распределения частоты термина при индексировании.

Использование распределения частоты термина (уклонения).

Уклонение рассчитывается:

U = (сумм (fik – fk)) / (n-1)

fk – средняя частота термина k в наборе из n документов.

fk = Fk / n

Для оценки веса термина используется не уклонение, а формула Fk* U/ fk

Чем больше это отношение, тем больший вес назначается термину.

9.Использование при индексировании параметров, основанных на способности термина различать документы набора.

Исходные данные – набор из n документов и множество S коэффициентов подобия всех пар документов из множества n: { S ( Di , Dj ) }. Эти коэффициенты подобия рассчитываются на основании векторов документов. Способ расчета разный, а принцип: S ( Di , Dj ) = 1, если вектора идентичны.

S ( Di , Dj ) = 0 , если в векторах нет ни одного общего документа.

По S рассчитывают средний коэффициент подобия: S = C * сумм (i= 1 – n) S ( Di , Dj ), С – коэффициент усреднения, может быть любым, в частности C = 1 / n.

Далее из векторов документов удаляют некоторый k – й термин и рассчитывают средний коэффициент по парного подобия, но с удалённым k –м термином: Sk( т.е. в векторах документа не участвуют веса k –го термина). Если Sk возрастает относительно S, то термину k присваивается положительный вес. Чем больше эта разница, тем больший вес присваивается термину k. Если Sk уменьшается, то k либо вообще не рассматривается как возможный индекс, либо ему присваивается отрицательный вес.

10.Динамическая информативность как метод индексирования.

Всем терминам первоначально присваиваются одинаковый вес, затем пользователь формирует запрос, и выдаются документы и пользователь определяет релевантность, система сама уменьшает или увеличивает вес документа, в соответствии с потребностями пользователя, т.е. предусматривается некоторая программа обучения системы.

5 Назначение и основные методы индексации.

Задача создания вектора документа называется индексированием.

Методы автоматического индексирования. Задачи этих методов – построить векторы документов {(tik , wik)}. Исходные данные – массив документов. Нужно выделить те термины, которые раскрывают текст документа tik и присвоить вес wik.

Методы:

Рекомендуем скачать другие рефераты по теме: сочинения по русскому языку, управление персоналом реферат.

Предыдущая страница реферата | 1 2 3 4 5 6 7 8 9 10 11 | Следующая страница реферата

Рефераты | Рефераты по информатике, программированию | Вопросы по информатике

Вопросы по информатике

8.Использование распределения частоты термина при индексировании.

9.Использование при индексировании параметров, основанных на способности термина различать документы набора.

10.Динамическая информативность как метод индексирования.

Поделитесь этой записью или добавьте в закладки

Категории:

Разделы сайта