Машины, которые говорят и слушают
Категория реферата: Рефераты по кибернетике
Теги реферата: мировая торговля, эффективность реферат
Добавил(а) на сайт: Чупров.
Предыдущая страница реферата | 1 2 3 4 5 6 7 | Следующая страница реферата
Для испытания системы была проделана серия опытов, которые должны были определять наилучшую структуру СПР подобного типа. Было испытано 16 экспериментальных систем, которые дали точность интерпретации высказываний от 46,7 до 73,3%, причем если итерировать несущественные оаибки распознавания, то точность (для наилучшей конфигурации системы) возрастает до 81,7%. В [1в2~ отмечается, что наиболее эффективной помощью при реализации речевого диалога оказались использование и проверка контекста.
Начиная с 1976 г. начали появляться работы о построении СПР в
Западной Европе (Франция, Италия, ФРГ), Японии и СССР.Уровень исследований
по СПР в этих странах (объем словаря,сложность языка) пока ниже, чем работ, выполненных в США по проекту arpa. Сяедует, впрочем, отметить, что
разработка "малых" СПР производится в соответствии с тенденцией [145] , которая заклта-в»оя в том, чтобы "заполнить пропасть" между практическими
сис-^мами распознавания слов и относительно громоздкими СПР, выполнившимися
по проекту arpa.
В С142]приведена таблица, которая, по мнению автора, характеризует действительное состояние и будущее развитие коммерческих систем распознавания/ понимания речи до 3000 г.:
431982 - БИС для системы распознавания речи.
1985 - Высокоточные системы распознавания изолированных слов с большими словарями.
1990 - Системы автоматической диктовки с ограниченным словарем, управляемые синтаксисом языка.
I&95 - Системы понимания речи с неограниченным словарем, но с ограничениями на синтаксис.
2000 - Системы распознавания слитной речи с неограниченным словарем и без ограничений на синтаксис.
§ 1.4. Системы автоматического речевого ответа
1.4.1. Коммерческие системы автоматического синтеза речи. В системах
автоматического речевого общения "человек-ЭВМ" важную роль играет
автоматический речевой вывод, позволяющий человеку получать необходимую
ему информацию в привычной форме речевого сигнала. Проблема
автоматического речевого вывода считается более простой, чем автоматическое
распознавание речи (в первом случае речь воспринимает человеческий мозг,
-; а во втором - автомат). Поэтому работы по построению систем
автоматического речевого ответа (САРО) промышленность получила раньше, чем
работы по автоматическому распознаванию/ пониманию речи. Синтезаторы
речи,являющиеся главными узлами таких систем, уже изготовляются
промышленностью США, Японии и некоторых других стран [30, 46, 51, 52,
100, 142] . В саязи с появлением микропроцессоров и специализированных БИС, а также в связи с тем, что пользователи потребовали, чтобы информационные, управляющие и другие подобные системы, основанные .на использовании ЭВМ,
"говорили", фирмы, выпускающие ЭВМ или отдельные узлы ЭВМ, начали выпуск
оборудования дея систем речевого ответа. Построены первые промышленные
системы, который обеспечивают одновременное автоматическое распознавание
(автоматический речеэой запрос" с использованием ограниченного лексикона) и
речевой ответ. Первое применение такие системы нашли в "интеллектуальных"
терминалах больших ЭВМ (или сетей ЭВМ), в некоторых системах военного
назначения, в приборах бытовой электроники [52, 60, I40t .
Следует отметить также, что продолжают развиваться научные исследования в области создания систем автоматического синтеза. Эти работы, направленные в основном на повышение качества (разборчивости и естественности) синтезируемой речи (без существенного повышения объема информации, требуемой для управления син-
44
двзатором), проводятся в США [103, 112, 129, 133, I??] , СССР f48, 63, 54]
, Японии [l3b,I62] , Великобритании [l64] , Канаде [167] , Франции [146
171] , Италии [l60,JSl] , Мексике [ill],Западной Германии [122, 184] ,
Норвегии [137] и других странах.
В [142] отмечается, что ЭВМ пятого поколения (мультиыикро-процессорные машины) будут гораздо шире, чем современные ЭЗУ, использовать ввод и вывод информации в речевой форме. Предполагается, что уже в ближайшее время ЭВМ, оборудованные системами речевого вывода, настолько проникнут в нашу жизнь, что совершенно изменят взаимоотношения человека и техники.
В основе систем автоматического речевого ответа, поступающих в настоящее время на рынок, лежат три основных способа синтеза рэчи - непосредственное кодирование речевой волны (дискрети-аация и сжатие), форматный синтез и синтез, основанный на линейном предиктивном кодировании (линейном предсказании). В [б] приводятся системы автоматического речевого вывода - наиболее распространенные в настоящее время в США системы такого рода. Так, в сис-томч Votrax процесс формирования устного высказывания по тексту, поступившему из ЭВМ или с клавиатуры в закодированном виде,начинается о разбивки текста на основные звуковые влементы - фонемы. Так как фонемная цепочка, соответствующая тексту, не обеспечивает высокочастотной речи, то эта цепочка программно преобразуется в цепочку аллофонных кодов (аллофоны - это варианты произнесения фонем в зависимости от контекста; разные исследователи называют различное число аллофонов для каждого языка;в системе Votrax используется 12Ь аллофонов, что позволяет получать более естественную речь). Для порождения слитной речи аллофоны Должны плавно переходить друг в друга.
Каждому аллофону соответствует управляющее слово, воздействующее на
аппаратный синтезатор звуков, который в два этапа перерабатывает цепочку 12-
разрядных управляющих слов. На первом этапе Управляющее слово декодируется
и перерабатывается в аналоговые управляющие сигналы, задающие частоту
основного тона, длительность изменения во времени амплитуды и гармоник, связанных с каждым ал-Яофоном. На втором этапе реализуется собственно
синтез. При этом параметрические сигналы, воздействуя на генераторы звука и
прог-Рачмируемые фильтры, преобразуются в звуки речи. Звонкие звуки
°оздаются с помощью генератора регулируемой высоты тона, а глухие - с
помощью генератора бел го шума.
В приборах Texas Instruments три большие интегральные сис-^ы (БИС) моделируют голосовой тракт человека. В основе модели •вяит метод линейного предсказания (или линейного предиктивного ко-
45
дирования - ЛПК). При ЛПК на кристалл синтезатора подаются значения
коэффициентов для цифрового фильтра второго порядка,который моделирует
динамику форматных частот. Вычисление коэффициентов фильтра производит
другая БИС - микропроцессор тыз -1000. Третья БИС хранит отдельные части
слов в параметрическом виде. Воссоздание речи по этим параметрам
осуществляет сложный программный алгоритм.
Преимущество метода ЛПК заключается в тс-л, что он позволяет
воспользоваться тем фактом, что голосовой тракт человека относительно
медленно меняет свои параметры при речеобразовании.Это свойство
ограничивает диапазон изменения форматных параметров, которые могут
следовать за форматами уже с генерированных отрезков звуков речи. Такое
прогнозирование уменьшает требования к объему памяти системы, а также к
скорости обмена данными; с описываемой системой она равна 1200 бит/с.
Синтезатор National Semiconduoton Inc. способен осуществлять анаяого-
цифровое преобразование речевых сигналов и сохранять их в памяти для
дальнейшего восстановления. Такой метод предполагает огромный объем
информации, которая должна храниться в памяти, что делает его
малопривлекательным. Однако в рассматриваемой системе эта трудность
обходится за счет использования различных методов сжатия данных. Это
позволило реализовать качественный синтез речи во временной области на
уровне &1С.
Дискретизацию и сжатие исходной речи, записанной на магнитной ленте, осуществляет мини-ЭВМ. Результирующие данные сохраняются в постоянном
запоминающем устройстве (ПЗУ) для последующего восстановления, осуществляемого БИС процессора речи. Благодаря применению Трех методов
сжатия (подстройки фазового угла, дельта-модуляции и полупериодного
обнуления) скорость поступления данных, по которым восстанавливается
нормальная речь, снижается примерно до 1000 бит/с речи, так что по ПЗУ
емкостью 10 кбит можно хранить примерно 10 слов.
Процесс сяатия начинается с дискретизации аналогового речевого Сигнала и
разделения цифрового массива на участки, в каждом из которых 128 оГсчетов;
эти участки в какой-то степени характеризуют периоды основного тона. Для
получения набора цифровых выборок, аналогичных формируемому предложению, подстраиваются фазовые углы этих отрезков. Дальнейшее сжатие
осуществляется с помощью дельта-модуляции, в результате чего вместо
хранения абсолютной амплитуды каждой выборки в память записываются только
знаки приращения амплитуд относительно предшествующего значения.
46
рассмотрим далее более подробно несколько современных систем параметрического синтеза.
В ГЮО] описана разработанная фирмой Texas Instrument a программа, позволяющая преобразовывать произвольный текст в речь. Программа совместно
с интегральным синтезатором речи типа tms-5й00 позволяет читать вслух
информацию, отражаемую на экране дисплея домашнего компьютера 9S14. В
отличив от Speak and Spell система не иоподозувт записанные ранее в ПЗУ
слова и фразы, а синтезирует слова из 128 аллофонов (аналогично системе
Votrax описанной ранее), которые объединяются системой для образования
слитной речи. Программа преобразования текста в цепочку аллофонов выбирает
аллофоны из библиотеки и определяет их ударение и интонацию. Затем эта
информация поступает в блок синтеза речи, который формирует звуки, используя кодирование, основанное на линейном предсказании.
Блок-схема преобразования текста в речь, реализованного Texas
Instruments, представлена на рис.I.I.
Аллофоны имеют переменную длительность от 50 до 200 мс и кодируются в
соответствии с параметрами, необходимыми для организации синтеза, основанного на линейном предсказании. Библиотека аллофонов, включающая
длинные и короткие паузы, кодируется по энергиям и коэффициентам, необходимым для установки характеристик фильтра ЛПК-синтезатора.
Библиотека аллофонных кодов занимает 3 кбайта памяти.
Для преобразования текста, поступающего на вход в пооледова-тедьность
аллофонов, используется набор из 650 правил, который в процессе испытаний
обеспечивал правильный выбор 97^ фонем и 92% аллофонов. Правила занимают 7
кбайт памяти. Программа конструиро-
Синтез речи
Конструирование речи (программное формирование кодовой аллофонной цепочки)
|Вход|Правил| |Преобразо|1|Центр|
|ное |а | |вание |+|альны|
| |преобр| |аллофонов|1|й |
| |азован| |в данные | |Проце|
| |ия | |для | |ссор |
| |текста| |синтезато| | |
| |в | |ра | | |
| |аллофо| | | | |
| |ны | | | | |
|текс| | | | | |
|т | | | | | |
Рекомендуем скачать другие рефераты по теме: ответы 9 класс, процесс реферат.
Предыдущая страница реферата | 1 2 3 4 5 6 7 | Следующая страница реферата