Способ селекции признаков для распознавания речевых сигналов

Иллюстрации

Показать все

Реферат

 

СПОСОБ СЕЛЕКЦИИ ПРИЗНАКОВ ДЛЯ РАСПОЗНАВАНИЯ РЕЧЕВЫХ СИГНАЛОВ, основанный на выделении огибающей речевого сигнала, сравнении ее ампли туды с амплитудой порюгового напряжения и формировании порогового временного интервала, опорных последовательностей речевых сигналов и импульсов,.отличающийся тем, что, с целью повышения надежности селекции признаков, инве1 тируют амплитуды опорных речевых сигналов, последовательно суммируют их с амплитудой огибающей речевого сигнала и в моменты формирования порогового временного интервала преобразуют амплитуду полученного суммарного сигнала в последовательность сигналов признаков путем временной Кюдуляции опорной последовательности импульсов длительностью соответствующео в го порогового временного интервала.

СОЮЗ СОВЕТСКИХ

СОЦИАЛИСТИЧЕСКИХ

РЕСПУБЛИК (1% (И) ГОСУДАРСТВЕННЫЙ КОМИТЕТ СССР

ПО ДЕЛАМ ИЗОБРЕТЕНИЙ И 0THPbfA44

ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Н ABTOPGHOMY СВИДЕТЕЛЬСТВУ

1

-А (21 ) 3435440/18-24 (22 ) 06.05.82 (46 ) 23.08.83. Бюл. Р 31 (72 ) П.Г.Кузнецов, В.Е.Лялин и В.С.Поздеев (71 )Ижевский механический институт (53 ) 681.327.12(088.8 ) (56 ) .1. Патент США е 3663758, кл . 179-1, опублик. 1972.

2. Патент США У 3770892, кл. 179-1, опублик. 1973 (прототип ).

-(54 )(57) СПОСОБ СЕЛЕКЦИИ ПРИЗНАКОВ

ДЛЯ РАСПОЗНАВАНИЯ РЕЧЕВЫХ СИГНАЛОВ, основанный на выделении огибающей

1 речевого сигнала, сравнении ее ампли туды с амплитудой порогового напря3(5В G 06 К 9/46; G 10 L 1/02 жения и формировании порогового временнбго интервала, опорных последовательностей речевых сигналов и импульсов,. отличающийся тем, что, с целью повьыения надежности селекции признаков,инвертируют амплитуды опорных речевых сигналов, последовательно суммируют их с амплитудой огибающей речевого сигнала и в моменты формирования порогового временного интервала преобразуют амплитуду полученного суммарного сигнала в последовательность сигналов признакбв путем временной модуляции опорной последовательности импульсов длительностью соответствующего порогового временного интервала.

1037292

Изобретение относится к технической кибернетике, в частности к способам распознавания образцов, и может быть использовано при идентификации личности по голосу.

Известен способ селекции признаков для распо=навания речевых сигналов, основанный на преобразовании речевого сигнала в последовательность опорных сигналов, измерении амплитуд этих .сигналов и их сравнении с амплитудами пороговых сигналов t. 1), Наиболее близким к изобретению по; технической сущности является способ, основанный на преобразовании речевого сигнала в последовательность опорных сигналов, выделении спектральных характеристик сигналов и сравнении их с эталонными характеристиками образцов 2 .

Недостаток известных устройств состоит в невысокой надежности селекции признаков.

Цель изобретения состоит в повышении надежности селекции признаков.

Поставленная цель достигается тем, что согласно способу, основанному на выделении огибающей речевого сигнала, сравнении ее амплитуды с амплитудой порогового напряжения и формировании порогового временного интервала, опорных последовательностей речевых сигналов и импульсов, инвертируют амплитуды опорных речевых сиГналов, последовательно суммируют их с амплитудой огибающей речевого сигнала и в моменты формирования порогового Временного интервала преобразуют амплитуду полученного суммарI ного сигнала, в последовательность сигналов признаков путем временной модуляции опорной последовательности импульсов длительностью соответ» ствующего rroporoaoro временного интервала.

На чертеже представлена предлагае мая блок-схема устройства.

Речевой сигнал поступает на вход усилителя 1, с выхода которого подается на формантные фильтры 2-4 детекторами огибающей, выделяющие амплитуды А - А опорных сигналов.

Амплитуда огибающей речевого сигнала выделяется детектором 5 и подается на блоки 6-8 последовательного вычитания. Блок 9 формирует пороговый интервал, начало которого определяется по превышению амплитуды речевого сигнала над амплитудой эталонного сигнала, а конец, наоборотпо превышению амплитуды эталонного сигнала над амплитудой речевого сигнала.. Выход блока 9 подается на управляющий вход генератора 10 импульсов, который через схемы совпадения 11-13 осуществляет ввод разностных сигналов в блок 14 приня-, тия решения, временного интервала, вырабатыва5» емо ro бл о ком 18 .

Импульсы основного тона выделяются блоком 15 и через схему 16 совпадения подаются на счетчик 17. Время счета определяется длительностью

Для управления работой блока 14 принятия решения, блока 19 памяти и счетчика 17 служит блок 20 управления.

Речевой сигнал усиливается усилителем 1 и разделяется на формантные области спектра, фильтрами 2-4, на выходах которых получаются амплитуды опорных сигналов A„ - А>. На выходе детектора 5 выделяется амплитуда речевого сигнала. На выходах блоков

6-8 последовательного вычитания из опорных сигналов A — Aq формируются разностные сигналы. Время анализа определяется длительностью временного интервала, вырабатываемого блоком 9. Б течение этого времени интервала генератор 10 импульсов вырабатывает последовательность импульсов, которые через схема 11-13 совпадения осуществляют ввод разностных сигналов в блок 14 принятия решения.

Для выделения импульсов основного тона используется блок 15, средняя частота основного тона пропорциональна числу импульсов, прошедших через схему 16 совпадения, и подсчитывается счетчиком 17. Время счета определяется длительностью. заданного временного интервала, формируемого блоком

18. Эталонные характеристики образов хранятся в блоке 19 памяти. Блок 20 управления вырабатывает необходимые управляющие, сигналы для начальной установки счетчика 17, запуска блока 14 принятия решения и выдачи эталонных характеристик образов из блока 19 памяти.

Проводились экспериментальные исследования предлагаемого способа.

В качестве речевого материала использовались 1200 произнесений слова

"Аэлита" для 60 мужских и женских голосов, по 20 произнесений на одного диктора. Граничные частоты формантных фильтров 2-4 были равны соответственно 200-850, 850-2200, 2200-3400 Гц. Временной интервал соответствовал участку слова "Аэли".

За это время в блок 14, в качестве которого использовалась ЭВМ

"Наири-3-1", оснащенная устройством ввода аналоговых сигналов, вводилось в среднем, 30 отсчетов разностных сигналов. Программным путем формировалось для любого произнесения 10 отсчетов, нормализованных по времени.

Средняя частота основного тона под1037292

Составитель Т. Ничипорович

Редактор Л. Гратилло Техред M.Tenep Корректор М. Демчик

Заказ 6013/52

Тираж 706

Подписное

ВНИИПИ Государственного комитета СССР по делам изобретений и открытий

113035, Москва, Ж-35, Раушская наб., д. 4/5

Филиал ППП."Патент", r. ужгород, ул. Проектная, 4 считывалась на временном интервале, равном 0,4 с.

Надежность идентификации личности человека по голосу составила 98,4Ъ.

Введение новой последовательности операций позволило существенно повысить надежность селекции признаков для распознания речевых сигналов.