Разработка программных средств конвертирования HTML-текстов в семантические сети
Категория реферата: Рефераты по информатике, программированию
Теги реферата: характеристика реферата, шпаргалки по химии
Добавил(а) на сайт: Lobza.
Предыдущая страница реферата | 1 2 3 4 5 6 7 8 9 10 11 | Следующая страница реферата
Решение этой проблемы в настоящее время связано с использованием двух подходов. Первый подход предполагает, что семантическая разметка документа выполняется вручную его автором на основе специальных метатегов, а второй подход связан с автоматическим или полуавтоматическим преобразованием исходного текста в специальное семантическое представление. Целесообразно конвертировать HTML-тест в более удобную форму представления для дальнейшей обработки.
TextAnalyst 2.0 – персональная система автоматического анализа текста
TextAnalyst разработан в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности:
. анализ содержания текста с автоматическим формированием семантической сети с гиперссылками - получение смыслового портрета текста в терминах основных понятий и их смысловых связей;
. анализ содержания текста с автоматическим формированием тематического древа с гиперссылками - выявление семантической структуры текста в виде иерархии тем и подтем;
. смысловой поиск с учетом скрытых смысловых связей слов запроса со словами текста;
. автоматическое реферирование текста - формирование его смыслового портрета в терминах наиболее информативных фраз;
. кластеризация информации - анализ распределения материала текстов по тематическим классам;
. автоматическая индексация текста с преобразованием в гипертекст;
. ранжирование всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования;
. автоматическое/автоматизированное формирование полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации.
Рассмотрим на нашем примере работу этой программы. После запуска
TextAnalyst, необходимо открыть текстовый файл, в котором расположен HTML-
документ нашего примера. Программа выполняет анализ предложенного текста и
выдает результаты (см. рисунок)
Изучив предложенный текст, TextAnalyst формирует сеть наиболее значимых
понятий, содержащихся в данном тексте. В такую включены те термины текста, которые несут основную смысловую нагрузку. Т.о. сеть позволяет отбросить
несущественную информацию и представить содержание текста в сжатом виде.
Каждое понятие, появляющееся множество раз в различных частях текста, в
сети представлено единственным узлом. Различные формы слов для отображения
в один узел сети представляются к общей грамматической форме.
[pic]
Каждый элемент сети характеризуется числовой оценкой – смысловым весом.
Связи между понятиями также характеризуются весами. Значение смыслового
веса (от 1 до 100) показывает, насколько важную роль играет понятие для
смысла всего текста, т.е. как много информации в тексте касается данного
понятия. Максимальное значение, равное 100, говорит о том, что понятие
является ключевым и представляет важнейшую тему текста. Маленькое, близкое
к единице значение показывает, что соответствующая тема лишь вскользь
упомянута в тексте и в нем очень мало информации, относящейся к данному
понятию. Второе число, стоящее перед смысловым весом, ближе к раскрытому
узлу, представляет вес связи от понятия в вершине раскрытого списка к
данному. Большое значение веса связи (близкое к 100) указывает на то, что
подавляющая часть информации в тексте, касающаяся первого, касается в то же
время и второго понятия. Малое (близкое к 1) значение означает, что первое
понятие слабо связано со вторым и очень мало информации по первой теме
касается в тоже время и второй.
По умолчанию на экране отображаются понятия с весом не менее 5. Вид сети на экране можно настраивать, изменяя количество отображаемых понятий и связей, а также способ их сортировки.
TextAnalyst предоставляет услугу автоматического реферирования.
Формируемый реферат содержит список наиболее информативных предложений
текста. Это позволяет быстро ознакомиться с содержанием текста. Подробность
реферата можно настраивать, изменяя количество формирующих его предложений.
Каждое предложение характеризуется относительной степенью значимости во
всем тексте.
В нашем примере реферат выглядит таким образом:
98 анализа содержания текста с автоматическим формированием семантической
сети с гиперссылками - получения смыслового портрета текста в терминах
основных понятий и их смысловых связей;
98 анализа содержания текста с автоматическим
формированием тематического древа с гиперссылками - выявления семантической
структуры текста в виде иерархии тем и подтем;
Цифры показывают степень значимости предложений в тексте. Значение веса, близкое к 100, означает, что данное предложение представляет важнейшую информацию, касающуюся главных понятий текста. Эти понятия в реферате выделяются цветом.
По умолчанию на экране отображаются предложения реферата с весами не менее 90.
Для рассматриваемого выше примераHTML-текста описания страницы
Analyst.ru фрагменты семантической сети выглядят следующим образом:
[pic]
Принцип работы HTML-конвертора
Рассмотрим в качестве примера следующее подмножество HTML-языка, которое может быть задано следующими определениями:
Рекомендуем скачать другие рефераты по теме: тезис, дипломы бесплатно.
Предыдущая страница реферата | 1 2 3 4 5 6 7 8 9 10 11 | Следующая страница реферата