Машины, которые говорят и слушают
Категория реферата: Рефераты по кибернетике
Теги реферата: мировая торговля, эффективность реферат
Добавил(а) на сайт: Чупров.
Предыдущая страница реферата | 1 2 3 4 5 6 7 | Следующая страница реферата
[pic]
|Упра| |Син|Ре|
|влен| |тез|чь|
|ие | |ато| |
|Памя| |р | |
|ть | |реч| |
| | |и | |
| | |тае| |
| | |- | |
| | |520| |
| | |0 | |
| | | | |
| |. 1 | |
| |{ | |
| |Речевое|
| |постоян|
| |ное |
| |запомин|
| |ающее |
| |устройс|
| |тво tm |
| |S-6100 |
Р и с. I.I. Блок-схема преобразователя "текст - речь'
47
вания связывает и сглаживав! переходы между ними. В результате формируется кодовая управляющая цепочка аллофонов, у которых согласованы энергетические уровни и достигнута плавность огибающей, а сглаживание коэффициентов фильтра делает более плавными переходы между звуками.
После объединения аллофонов и сглаживания переходов между ними в
аллофонной цепочке должны быть расставлены ударения и указана интонация
в соответствии с метками пользователя при кодировании входного текста.
Алгоритм конструирования речи устанавливает частоту основного тона только
для отмеченных слогов.Управление интонацией основано на градиентном
управлении частотой основного тона в ударных слогах. В нейтральных
интонациях безударным слогам соответствует среднее значение частоты
основного тона, тогда как ударные будут располагаться несколько выше
средней линии тона. Наклон создается программой, а пользователь только
помечает ударные слоги.
Как уже отмечалось, синтез речи в системе преобразования "текст -
речь" системы Texas instruments основан на линейном пред-сказуемостном
кодировании, являющемся математической моделью голосового тракта, реализованной в виде фильтра. Коэффициенты линейных уравнений фильтра, определяемые путем анализа естественной речи, используются в модели для
управления "конфигурацией" голосового тракта при формировании речевого
сигнала. В системе запоминаются соответствующие различным аллофонам
коэффициенты фильтра, коэффициент передачи фильтра, частота сигнала
возбуждения,используемого для управления фильтром. Система Texas
Instruments обеспечивает [100] хорошее качество речи при использовании
ЛПК со скоростью передачи информации от 1200 до 2400 бит/с.
В Cl40] отмечалось, что разработанная в 1976 г. система дискретного
распознавания слов was, предназначенная для ввода речевых команд в
ЭВМ управления огнем тактической артиллерии, использовала систему
речевого ответа (обратной связи) YS фирмы Vo-fcrax. Блок речевс" о
ответа повторял слова устного донесения, которые по радио или телефонному
каналу поступали к корректировщику стрельбы. В случае, если устная команда
распознавалась машиной верно,корректировщик произносил ключевое слово, означающее, что команда может поступить в систему управления огнем.
В [30,129] рассматриваются новая интегральная схема синтезатора речи sc-OI и система для проектирования словаря cds-ii. Речевой интегральный синтезатор sg-oi реализует фонемный синтез. Для преобразования фонем в параметры речи используется фо-
48
немный контроллер.Синтезатор работает с внешней памятью, где хранятся 6- разрядные коды фонем. В отличие от системы Texas Inntru-ments синтезатор sc-OI использует для моделирования голосового тракта человека не кодирование, основанное на линейном предсказании, а более традиционный метод, основанный на применении аналоговых полосовых фильтров, на вход которых поступают сигналы возбуждения от генератора с регулируемой частотой, моделирующего работу голосовых связок, и от генератора псевдослучайных сигналов, моделирующего шумовой источник.
На входе синтезатора SC-OI стоит фонемный контроллер, который
преобразует код фонемы (их 64) в матрицу спектральных параметров.
Контроллер же может изменять частоту основного тона;
что позволяет устранять монотонность звучания синтезированной речи.
Управление синтезатором осуществляет генератор синхронизирующих импульсов, находящийся в интегральной схеме. Управление час-'тотой основного тона
производите"! внешним воздействием на источник тонального сигнала.
После поступления кода фонем на фонемный контроллер последний в соответствии с тем, какой звук должен быть порожден,управляет моделью голосового тракта, воздействуя на цепи с переключаемыми емкостями.
Длительность каждой фонемы устанавливается в пределах 50 - 250 мс.
Фонемная информация, поступающая на вход, создается программой преобразования, которая анализирует тексг, вводимый в память из ведущей
ЭВМ или с клавиатуры. В кодах фонетических сим-всдов, формируемых этой программой, содержатся числа, означающие длительность генерируемого звука, которая зависит от ударения.
Информация для синтезатора sc-OI вырабатывается системой для проектирования словаря типа cds -II, на входной клавиатуре которой набираются слова или фразы, подлежащие синтезу. Система базируется на микропроцессоре типа 6У08 фирмы Motorola.Дд-горитм преобразования "текст- речь" и операционная система занимают 24 кбайта ПЯУ и рабочую часть оперативной памяти емкостью 2 кбайта. Выходная информация ciis-11 используется для программирования памяти стираемого ПСУ, где хранятся данные для ИС синтезатора. Для программирования ПЗУ информация из cds-ii передается последовательным кодом в ведущую ЭВМ (которую можно использовать для перевода слов в фонемы), ленточный перфоратор или другое устройство с целью последующей записи в ПЗУ. В систему проектирования словаря входят также печатающее устройство, позволяющей печатать речевую информацию в шестнадцатиричном коде (исполь-
зaк.480 49
ауя, как отмечено, 6 бит на фонему), а затем вручную вводить в
программатор ПЗУ.
Наряду с системой cDy-II ^той же фирмой выпускается универсальный
речевой модуль fYHtl), не обладающий возможностью преобразования текста в речь. В памяти этого устройства в табличном виде записаны коды 1300 слов, а также 25 суффиксов и префиксов. Как и система проектирования словаря
cds-ii, УРЫ включает в свой состав микропроцессор типа 6806. Он также содержит синтезатор типа ас-01, операционную систему, хранящуюся в ПЗУ
емкостью 2 кбайта, таблицу слов, записанную в перепрограммируемом ПЗУ
емкостью 2 кбайта, и I кбайт рабочей области оперативного запоминающего
устройства. УРМ можно использовать в качестве рабочего модуля а различной
аппаратуре. При этом модуль может управляться внешним процессором или
ведущей ЭВМ.
Некоторые сведения о других синтезаторах содержатся в [51, 52, 55, 142].
1.4.2. Повышение качества синтезируемой речи. Несмотря на появление
коммерческих систем автоматического речевого ответа,синтетическая речь еще
ке качественна. Поэтому в лабораториях мира продолжают энергично работать
над проблемой синтеза речи. В трудах ежегодных международных конференций
по акустике речи и обработке сигналов, которые проводятся Институтом
инженеров по электротехнике и радиоэлектронике США с 1976 г., большинство докладов посвящено автоматическому синтезу. Работы относятся к самым
различным языкам.
В С 115] описана разрабатываемая для шведского языка система "текст-
речь", базирующаяся на правилах перевода буквенной информации в
фонетическую. Система синтеза состоит из последовательности преобразований, каждое из которых отражает часть знаний о речевое процессе. Отмечается, что для получения качественной речи целесообразно математизировать
использование таких просодических параметров, как длительность звуков и
интонация. При формализации правил преобразования был использован опыт
работ по созданию систем "текст-речь", проводимых в США, и учтен тот
факт, что фонетическое представление высказываний в шведском языке бо-яее
простое, чем в английском.
Наибольшие трудности вызывает поиск в неразмеченном знаками ударения
тексте ударных слогов, а также слогов вторичного ударения ( aecondary
stressed syllable ). Во время этого поиска следует использовать различные
ключевые индикаторы, такие как сдвоенные гласные, некоторые окончания и
комбинации гласных с согласными, образующими ударные слоги.
50
разработаны основные правила преобразования фонетической цепочки в
синтезированную акустическую волну.Эти правила, для формализации которых
создан специальный язык, работают на сегментном уровне. Например, правило, определяющее длительность сегмента, запювется—< DURATION
- Т * ЙХР (-ЬОО(В)* 0,12 - LOG(A>*
« 0,35)> , где Т - номинальная длительность; А,В,С, - переменные, зависящие от
позиции и длительности слова или фразы.
В [Иб] сообщается о системе речевого синтеза, разработанной для
английского языка в Bell Laboratories. Система обеспечивает более высокое качество синтезируемой речи за счет» I) более точных правил определения
длительности звуков речи, основанных на измерениях, которые продесаны на
участках естественной речи; 2) расширяющихся правил учета аллофонических
изменений как функции словесных и других границ; 3) введения большого числа
правил просодии нижнего уровня, учитывающих особенности речеобра-эования
(ассимиляцию звуков, изменения внутри звукосочетания согласных, контекстную
зависимость гласных и т.д.); 4) правил, учитывающих медленные изменения
параметров модели голосовых связок и шумового источника возбуждения.
Многие особенности системы синтеза речи Bell Laboratories рассмотрены
также в С75,Ь9].В [69], в частности, довольно подробно описаны свойства
просодии английского языка.Предполагается различать просодию высшего
(собственна Просодические функции) и просодию низшего уровней (их
акустические компоненты) и использовать правила просодии для повышения
качества синтезируемой речи.
При исследовании слитной речи выявилось, что в английском языке:
- главный фактор, определяющий длительность гласных, - позиция гласной в слове, а слова - в предложении (или в синтагме); гяасная имеет наибольшую длительность, если она находится в последнем слоге перед паузой; это объясняется особенностями контура основного тона перед паузой, что значительно удлиняет гласный; различие длительности гласных в предпауэальной и непредпау-эальной позициях приблизительно находится в соотношении 2:1;
- последующие согласные укорачивают длительность гласного Ьо сравнению с некоторым средним значением), если за гласным следует глухой взрывной (характеризуемый смычкой), и удлиняют, если за гласным следует звонкий фрикативный; наибольшее влияние на длительность гласных согласные оказывают в предпаузальной позиции;
-.длительность безударных гласных, если они не находятся
в конце слова, составпяет около 40 мс; в конечных позициях они Содее
длительны;
51
- дифтонгизация сильно удлиняет гласную;
- на длительность согласных основное влияние оказывают 2 фактора: положение согласной относительно ударного сдога и границ слова или предложения и консонантность окружения;
- длительности консонантных согласных (а именно глухих фрикативных f,s,S) подчинены точному аддитивному правилу, ударение и границы слова действуют как факторы приращения, а согласные , смежные с фрикативными, действуют как фактор укорачивания;
- наибольшее непостоянство длительностей в зависимости от ударения и позиции проявляют переднеязычные согласные t , d, n ',
Рекомендуем скачать другие рефераты по теме: ответы 9 класс, процесс реферат.
Предыдущая страница реферата | 1 2 3 4 5 6 7 | Следующая страница реферата