Вопросы по информатике
Категория реферата: Рефераты по информатике, программированию
Теги реферата: бесплатные рассказы, философские рефераты
Добавил(а) на сайт: Мусорин.
Предыдущая страница реферата | 1 2 3 4 5 6 7 8 9 10 11 | Следующая страница реферата
1. Частотный метод – по каждому термину, входящему в документ подсчитывается частота вхождения терминов в документ fik, i – номер документа, k – термин. Эта частота абсолютная. Затем документы упорядочиваются в соответствии с возрастанием или убыванием частоты.
Если термин имеет большую частоту, то это, скорее всего общеупотребительный термин, не раскрывающий конкретную предметную область (будет много документов).
Если термин имеет малую частоту, то он существенно отражает содержание, даже если его включить в дескрипторы (ключевые слова), то он , скорее всего будет использоваться в холостую. Поэтому эти 2 простейших документа исключают из списка.
Терминам с большей частотой присваивают меньший вес, с меньшей частотой – больший вес.
2. Использование соотношения “ сигнал – шум “. Здесь исключается ещё одна частота: суммарная или общая частота появления термина k в наборе из n документов и рассчитывается:
Fk = сумма (i=1 – n) fik
Шум k –го символа рассчитывается:
Nk = сумма(i=1 – n) fik / Fk * log (Fk / fik)
Сигнал k – го символа:
Sk = log Fk – Nk
Шум является максимальным, если термин имеет равномерное распределение в n документах. Шум является минимальным и равномерным, когда термин имеет неравномерное распределение, например, когда он встречается только в одном документе, с частотой Fk, тогда:
Nk = сумма (i=1 – n) fik / Fk * log Fk / fik = 0, в этом случае сигнал имеет максимальное значение:
Sk = log Fk – Nk = log Fk
С учётом этих параметров, для определения веса используется отношение сигнала к шуму k –го термина:
Sk / Nk. Чем больше это отношение, тем больший вес
Назначается. Строится однозначная таблица.
1.Использование распределения частоты термина (уклонения).
Уклонение рассчитывается:
U = (сумм (fik – fk)) / (n-1)
Fk – средняя частота термина k в наборе из n документов.
Fk = Fk / n
Для оценки веса термина используется не уклонение, а формула Fk* U/ fk
Чем больше это отношение, тем больший вес назначается термину.
2.Параметры, основанные на способности термина различать документы набора. Исходные данные – набор из n документов и множество S коэффициентов подобия всех пар документов из множества n: { S ( Di , Dj ) }. Эти коэффициенты подобия рассчитываются на основании векторов документов. Способ расчета разный, а принцип: S ( Di , Dj ) = 1, если вектора идентичны.
S ( Di , Dj ) = 0 , если в векторах нет ни одного общего документа.
Рекомендуем скачать другие рефераты по теме: сочинения по русскому языку, управление персоналом реферат.
Предыдущая страница реферата | 1 2 3 4 5 6 7 8 9 10 11 | Следующая страница реферата