Устройство для анализа речевых сигналов

Патент 298943

Классы МПК

G10L15 - Распознавание речи (G10L 17/00 имеет преимущество)

Иллюстрации

Показать все

Реферат

О П И С А Н И Е 298943

ИЗОБРЕТЕНИЯ

К АВТОРСКОМУ СВИДЕТЕЛЬСТВУ

Союз Советских

Социалистических

Респ«)блик

Зависимое от авт, свидетельства №

Заявлено 31 111.1969 (№ 1327569/18-24) с присоединейием заявки №

Приоритет

Опубликовано 16.111.1971, Б)оллетень № 11

МПК G 10 1/02

G 06)c 9 00

Комитет по делам изобретений и открытий при Совете Министров

СССР

„."ДК 681.327.12 (088.8) Дата опубликования описания 22.1V.1971

Автор изобретения С- ЕСС110 НА „

"""""@@-ПХ©"- " «С,: ЯЯ

БИБЛИОТЕКА

В. Ю. Трахтман

Заявитель

УСТРОЙСТВО ДЛЯ АНАЛИЗА РЕЧЕВЫХ СИГНАЛОВ

Изобретение относится к области объективного анализа речи и может быть использовано при исследовании речи в устройствах для распознавания речи, в том числе для распознавания ограниченного набора команд.

Известны устройства для анализа речевых сигналов, в которых речь представляют либо в виде пепрерывпь)х сигналов, либо в виде последовательности двои и)ых импульсов.

К первому типу относятся гетеродинные и фильтровые усгройства для спектрального анализа сигналов. Ко второму типу относятся устройства, где производят подробное кодирование (отсчет за отсчетом) или выборочное, отмечающее те или иные характерные особенности в сигнале.

Общий недостаток этих устройств состоит и том, что с их помощью нельзя проводить инструментальный (объективный) анализ формы сигналов независимо от масштабов по осям координат, т. е. от темпа и уровня речи.

Когда произносят несколько раз одни и те ке речевые сигналы, например слова, наблюдают сходство форм у исходных речевых сигналов, несмотря па значительные вариации уровня и темпа речи. В результате анализа речи с помощью известных устройств полученные непрерывные сигналы (например, сгибающис на выходах спектр-анализатора) варьируют при изменешгях уровня и темпа речи. При кодовом анализе соответствующие коды не похожи друг на друга.

Поэтому в настоящее время невозможен объективный динамический (временной) анализ речи (осциллограммы или отдельных огибающих на выходах спектр-анализатора), на основе которого можно существенно повысппгь достоверность распознавания речи. При10 чина недостатка состоит в том, что в известных устройствах для анализа речи нет какой-либо подстройки, компенсирующей вариации темпа и уровня в речевом сигнале.

Целью изобретения является обеспечение

15 независимости сигналов, описывающих динамическую структуру речи от вариаций уровня и темпа речи, т. е. от масштабов по осям координат.

Для этого и устройстве формируют эталон20 ный сигнал и с его помощью анализируют динамическую структуру речи по участкам, границы которых фиксируются моментами, когда произойдет рассогласование между речевым и эталонным сигналами, причем незя25 игсимо ()T масштабов по осям координат.

Предлагаемое устройство отличается тем, что в него дополнительно введены усилители с регулируемым коэффициентом усиления и сумматор, входы которого подключены к вы30 ходам усилителей, причем сигнальные входы г08043

cp(t) = И, 50

65 усилителей подключены к выходу источника эталонного сигнала, а их регулировочные входы вЂ” к выходу блока управления. Выход сумматора подсоединен ко входу блока сравнения, а выход блока принятия решения вЂ” к управляющему входу источника эталонного сигнала.

Сравнивая эталонный и речевой сигналы в блоке сравнения в реальном масштабе времени, регулируют коэффициенты усиления усилителей с помощью блока управления так, чтобы свести к минимуму различия между эталонным и речевым сигналами и таким образом получить совпадение масштабов этих сигналов, что дает возможность проводить далее сравнение текущих отсчетов речевого сигнала и эталонного во времени и оценить близость формы этих сигналов. Границу участка фиксируют в тот момент, когда произойдет рассогласование сигнала и эталона, после чего все операции повторяют.

Для описания динамической структуры речи используют либо отрезки эталонного и речевого сигналов, либо код, фиксирующий границы участков.

Независимость анализа от вариаций масштабов по осям координат при работе устройства основана на следующих соображениях.

Эталонный сигнал произвольной формы получают в виде степенного ряда. Форма эталонного сигнала определяется числом членов ряда и показателями степени у каждого члена. Масштабы эталонного сигнала зависят от конкретного значения коэффициентов ряда, Моделируют эталонный сигнал с помощью набора генераторов степенных функций, у которых фиксированы показатели степени (целевые или дробные).

С выхода каждого генератора сигнал подается на усилитель, изменение усиления которого меняет вес, т. е. значение соответствующего коэффициента ряда. Далее устанавливают сумматор, где суммируются взвешенные сигналы от разных генераторов, осуществляя моделирование эталонного сигнала в виде степенного ряда.

Эталонный сигнал сравнивается в блоке сравнения с речевым сигналом, и по минимуму рассогласования меняется усиление, т. е. веса, с помощью усилителей в блоке масштабных преобразований. Таким образом устанавливаются масштабы эталонного сигнала в соответствии с масштабами речевого сигнала.

Сравнивая в реальном времени эталонный и речевой сигналы, отмечают кодовой посылкой границу участка, где имеется допустимое различие сигналов. На следующем участке те же операции повторяются. Коды, отмечающие

r раницы участков речевого сигнала, выделяют в нем такие участки, которые близки к эталонному сигналу, независимо от конкретных масштабов по осям координат.

На чертеже приведена блок-схема устройства, 5

Устройство содержит источник 1 эталойно:

ro сигнала, усилители 2 4 с регулируемыми коэффициентами усиления, сумматор 5, блок управления б, источник 7 анализируемого сигнала, блок сравнения 8 и блок принятия решения 9, В качестве источника 1 эталонного сигнала, l(BK вариант осуществления, используем: набор генераторов (гетеродинный вариант) .

Можно также в качестве источника эталонного сигнал использовать набор фильтров с фиксированными переходными характеристиками (фильтровый вариант).

Эталонный сигнал из источника 1 подают на регулируемые усилители 2 вЂ” 4 и сумма" тор 5. Меняя с помощью блока управления 6 усиления в усилителях 2 вЂ” 4, настраивают эталонный сигнал»а выходе сумматора 5 таким образом, чтобы получить минимум различия эталонного и речевого сигналов., сравниваемых в блоке сравнения 8. При этом меняется только масштаб эталонного сигнала, а его форма остается неизменной. Управление источником 1 эталонного сигнала и формирование выходных сигналов осуществляется с помощью блока принятия решения 9.

Лнализ речевого сигнала в устройстве выполняют путем сравнения его в блоке сравнения 8 с эталонным сигналом.

Рассмотрим соображения, касающиеся выбора эталонного сигнала.

Выбирается функция +(cp(t)) (для анализа речевого сигнала) и функция cp(t), с помощью которой устанавливаются всевозможные вариации аргумента t, т. е. изменение темпа речи, так, чтобы вариации t в сложной функции ccg(cp(t)) свелись к вариациям коэффициента а.

Например, если ф ((t) ) есть степенная функция (один член степенного ряда)

ИЧ()) = р(Ч(1)1" а вариации аргумента также описываются степенной функцией тогда ф (cp(t) ) =р(Ы )= З У16Р =аt"Ð,, где а = У, Й=1Р.

Реальное время, т. е. аргумент cp(t) сложной функции ф((1)), рассматривается здесь также как функция, зависящая от аргумента t, который в данном случае отражает некоторое нормализованное время, изменяк>щееся в соответствии с идеальной равномерной шкалой времени.

При l= 1, Х= 1 реальное время изменяется так же, как и нормализованное. При l)1 имеет степенное растяжение, при l(1 вЂ” сгепенное сжатие реальной шкалы времени. При

Х)1 увеличивается масштаб реальной шкалы времени, при Х(1 масштаб уменьшается, Параметр l является показателем равномерности шкалы времени, параметр Х характеризует масштаб такой шкалы.

Таким образом, выбор эталонного сигнала в виде суммы степенных функций позволяет осуществлять нормализацию темпа речи в достаточно широких пределах вариаций темпа, касающихся изменений масштаба 1..

Основываясь на вышеизложенном, выбирают источник 1, содержащий генераторы степенных функций (с целыми или дробными показателями).

Изменением масштабов с помощью усилителей с регулируемым коэффициентом усиления усилителей 2 вЂ” 4 и сумматора 5, настраивают эталонный сигнал таким образом, чтобы он минимально отличался от речевого сигнала.

Для этого эталонный и речевой сигналы подают на блок сравнения 8, а разность между сигналами используют для управления с помощью блока принятия решения 9 блоком управления б, который регулирует усиление усилителей.

Помимо гетеродинного варианта устройства, описанного выше, возможен и резонансный (фильтровый) вариант. В этом варианте источник 1 содержит фильтры, обладающие фиксированными степенными переходными характеристиками. Подавая на фильтры речевой сигнал от источника 7, получают эталонный сигнал в виде степенного разложения речевого сигнала. Коэффициенты этого разложения регулируют с помощью усилителей 2 вЂ” 4, так, чтобы изменить масштабы эталонного сигнала, не изменив его форму.

В остальном работа устройства не отличается от вышеописанной.

Возможны два режима работы устройства; ша овый и непрерывный.

B шаговом режиме после окончания настройки масштабов эталонного сигнала цепь регулирования размыкают, производят сравнение эталонного и речевого сигналов в реальном масштабе времени, а по достижении определенного уровня рассогласования сигналов вновь включают цепь регулирования. Одновременно переключают с помощью блока принятия решения 9 источник 1 эталонного сигнала на начало образования эталонного сигнала.

10 В непрерывном режиме цель регулирования не размыкают.

Возможны различные варианты съема информации, получаемой в устройстве в процессе анализа речевого сигнала, Например, 15 съем информации можно осуществлять в виде последовательных кодовых посылок, отмечающих границы участков, где наблюдалось предел.-:ное paccor.÷àñoâàíèå эталонного и речево о сигналов или непрерывным сигналом

20 рассогласования между этими сигналами.

Предмет изобретения

Устройство для анализа речевых сигналов, содержащее источники анализируемого и эта25 лонного сигналов, блоки сравнения, управления и принятия решения, отличающееся тем, что, с целью обеспечения независимости результатов анализа речевых сигналов от темпа и уровня речи, в него дополнительно вве30 дены усилители с регулируемым коэффициентом усиления и сумматор, входы которого подключены к выходам усилителей, причем сигнальные входы усилителей подключены к выходу источника эталонного сигнала, а их

35 регулировочные входы вЂ” к выходу блока управления; выход сумматора подсоединен ко входу блока сравнения, а выход блока принятия решения вЂ” к управляющему входу исто".ника эталонного сигнала.

298943

Составитель В, Кудрявцев

Редактор Е. В. Семанова Тсхрсд 3. Н. Тараненко Корректор Т. А. Китаева

Заказ 8б8/4 Изд, № 408 Тираж 473 Подписное

ЦНИИПИ Комитета по делам изобретений и открытий при Совете Министров СССР

Москва, Ж-35, Раушская наб., д. 4/5

Т ипография, пр. Сапунова, 2