Вопросы по информатике
Категория реферата: Рефераты по информатике, программированию
Теги реферата: бесплатные рассказы, философские рефераты
Добавил(а) на сайт: Мусорин.
Предыдущая страница реферата | 2 3 4 5 6 7 8 9 10 11 12 | Следующая страница реферата
15.Постановка задачи улучшения точности поиска в текстовой базе данных и основные методы ее решения.
Задача - как можно точнее получать нужные документы.
2 способа:
а). Использование наиболее узких терминов.
б). Использование словосочетаний для индексирования документов. Для определения словосочетаний используются статистический и лингвистический подходы.
Статистический подход (СП):
В соответствии со СП словосочетание – такая комбинация терминов, частота совместного появления которых в массивах документов велика относительно частот появления отдельных терминов этого словосочетания. Связность терминов определяется коэффициентом связности:
Сik = Fkj / ( Fk * Fj ) * N – это связность 2-х терминов, хотя может быть и больше (до 4-х).
Fk , Fj – частные частоты терминов k и j. Вопрос 15(окончание).
Fkj – частота совместного появления терминов.
N – число слов в массиве.
После расчёта этих значений и коэффициента связности (КС) в словосочетании отбирают такие термины, для которых Сjк и Fkj больше порогового значения, которое устанавливается эмпирически. Пороговые значения: Сjк >= 20 и Fkj >= 3.
Если эти характеристики для термов, включённых в словосочетание поддерживаются, то получаются хорошие выборки.
Недостаток:
не учитывается порядок слов в словосочетаниях;
метод позволяет считать идентичными даже словосочетания с одинаковым порядком следования термина.
Лингвистические методы – используют упрощённые синтаксические разборы предложений, причём, как правило, предложений из заголовков текстов.
Алгоритм анализа упрощённых фраз:
Образуются предводительные словосочетания путём проставления скобок перед предлогами, числительными, неопределёнными местоимениями и т.д.
Устанавливаются связи справа и/или слева от слов, выделенных в первом пункте между различными структурами.
Из структуры исключаются количественные числительные, вспомогательные глаголы, местоимения и т.д. Остаются лишь индексационные словосочетания. В результате должны остаться связи или комбинации вида: сущ. – сущ. (прил. - прил.).
Пример: (Some investigations)(in computer science)(which can lead)(to the creation)(of artificial intelligence). В результате имеем:
Computer science - >investigations -> artificial intelligence -> creation.
16.Статистический метод образования словосочетаний в задаче улучшения точности поиска в текстовой базе данных.
В соответствии со СП словосочетание – такая комбинация терминов, частота совместного появления которых в массивах документов велика относительно частот появления отдельных терминов этого словосочетания. Связность терминов определяется коэффициентом связности:
Сik = Fkj / ( Fk * Fj ) * N – это связность 2-х терминов, хотя может быть и больше (до 4-х).
Fk , Fj – частные частоты терминов k и j.
Рекомендуем скачать другие рефераты по теме: сочинения по русскому языку, управление персоналом реферат.
Предыдущая страница реферата | 2 3 4 5 6 7 8 9 10 11 12 | Следующая страница реферата