Способ обнаружения пауз в речевомсигнале
Иллюстрации
Показать всеРеферат
ОПИСАНИЕ
ИЗОБРЕТЕН ИЯ
К АВТОРСКОМУ СВИДЕТЕЛЬСТВУ
«ii836 656
Союз Советсиик
Соцнвпистичесиик
Респубпии (61) Дополнительное к авт. свид-ву— (22)Заявлено 16.07.79 (21) 2797642/18-10 с присоединением заявки РЙ— (23) Приоритет
Опубликовано 07.06. 81, Бюллетень М 21
Дата опубликования описания 09. 06. 8-1 (5()M. Кл.
G 10 1 1/04
Ввуавркткввквй кеавтет
СССР
I0 йеаки взефрвтевкв в вткрмтнв (53) УДК 615. . 47 (088. 8) В.И. Богино, А.М. Гомжин, Е.П. Князев, Ю. 1. Ка@евец „
-.-мм™м и В.А. Тарасов ! (72) Авторы изобретения
У CCP.
Ордена Ленина институт кибернетики AH Укр (7!) Заявитель (54) СПОСОБ ОБНАРУЖЕНИЯ ПАУЗ В РЕЧЕВОИ
СИГНАЛЕ
Изобретение относится к области приборостроения, а именно к области акустики, и может быть использовано в кибернетике и связи при разработке систем автоматического распознавания речевых сигналов.
Известен способ обнаружения пауз в речевом сигнале, при использовании которого паузу в речевом сигнале можно обнаружить при анализе его описания полученного путем формирования асимметричности огибающей речевого сигнала 111.
Однако1 во-первых, помехоустойчивость вьщеления пауз в речевом сигнале по известному способу остается по-прежнему невысокой. Вовторых, невозможность формирования этими способами сигнала не позволяет испольэовать технически легко выделяемые моменты достижения огибающей своего нулевого уровня в качестве признаков пауз в речевом сигнале, так как временная огибающая в этом случае изменяет знак на противоположный и при смене одного группового признака фонем другим.
Наиболее близким по своей технической сущности к описываемому является способ обнаружения пауз в речевом сигнале, использующий коррекцию спектральных характеристик,речевого сигнала, создание в нем фазовых сдвигов, сложение этого сигнала с амплитудно-частотным откорректированным сигналом, раздельное детектирование положительных и отрицательных полуволн и их алгебраическое сложение (21.
Недостатком известного способа является трудность создания фазовых сдвигов одновременно во всем частотном диапазоне речевого сигнала, поэтому его огибающая будет иметь "информационную" полярность при наличии в речи лишь ограниченного числа групповых признаков, фонем, например только тональных или B co836656 4 слова, произнесенного на фоне. речевой помехи (речь мешающего диктора, находящегося на расстоянии 50 см от микрофона).
Для более помехоустойчивого обнаружения пауз в речевом сигнале обес .—
Ч печивают минимальный коэффициент усиления входного сигнала, позволяющий
Производят компрессию усиленного сигнала (например, по логарифмическо20 и высоких (4-8 кГц), осуществляя подь25
Кроме того, необходимо произвессоставляющих (возможные их величины в пределах 15-20 ) для получения d автосимметрии сигналов, осуществить разделение сигналов этих областей на положительные и отрицательные повать полученные полуволны, каждую со своим весовым коэффициентом (значесигнал подвергают частотно-зависимо40 во-первых, ось симметрии сигнала сдвиг" 1ют фиксированно на 30-35Х в сторону, совпадающую со знаком полярности выделяемой автоасимметрии алгебраической суммы полуволн фазосдвинутых сигналов. Во-вторых, в меньшей полуволне производят амплитудно-зависимое дифференцирование, осуществляя, таким образом, не50 четании с,сонорными, или же только шумных фонем. В остальных случаях огибающая будет иметь противоположную, помеховую полярность. Известным способом нельзя получить полную, содержащую все звуки речи, помехоустойчивую временную огибающую речевого сигнала, следовательно, некоторые паузы не могут быть надежно обна- проводить его дальнейшие. преобраружены на фоне маскирующей акустичес- зования и внешнее регулирование кокой помехи, спектральный состав ко- эффициента усиления с перекрытием не торой вызывает появление "помеховой" менее, чем в два раза. полярности огибающей.
Целью изобретения является повышение надежности обнаружения пауз в ре- 15 му закону) для обеспечения динамичевом сигнале. ческого диапазона 42-45 дБ; произУказанная цель достигается тем, водят коррекцию спектральных харакчто в способе обнаружения пауз в теристик компрессированного сигнала речевом сигнале, использующем коррек в перекрывающихся областях низких цию спектРальных хаРактеристик Речево- (1 5 3 к1 ц), средних (2,5-4,5 к1 ц)
ro сигнала, создание в нем фазовых сдвигов, сложение этого сигнала с ем спектральных составляющих в укаамплитУдно-частотным откорректиРо- занных областях на 2,8-3,2 дБ/окт; ванным сигналом, раздельное детекти- 3-4,8 дБ/окт. и 6 дБ/окт соответрование положительных и отрицательных полуволн и их алгебраическое сложение, предварительно усиленный ти в этих областях фазовые сдвиги сигнал параллельно с частотно-зависимым усилением и последующим нелинейным преобразочанием подвергают к компрессии, затем амплитудной коррек;1ии одновременно в нескольких частотных областях, создают в них фазо- луволны и алгебраически просуммировые сдвиги, разделяют полученные сигналы на положительные и отрицательные полуволны и алгебр@ически их скла- ния весовых коэффициентов подбираютдывают, а затем регулирующий сигнал ся экспериментально) . суммируют с нелинейно преобразован- Предварительно усиленный речевой ным сигналом и фильтруют. В.результате получают регулирующую величину му усилению с возрастанием амплитуды предварительного усиления речевого на 3 дБ/окт. Затем нелинейно преобсигнала — выходную огибающую, в ко- разовывают этот сигнал. Для этого торой выделяют точки переходов через свой нулевой уровень, определяющие моменты появления и исчезновения 45 пауз в речевом сигнале.
На фиг. 1 представлена блок-схема устройства для реализации способа; на фиг. 2 — кривая разности интегралов полуволн выходного сигнала нелинейного преобразователя; на фиг. 3 — кривая соотношения инте— линейное увеличение (до и =5-6) гралов полуволн выходного сигнала коэффициента диспропорции (величину операционного усилителя, на фикси- отношения) интегралов большой и марованной частоте; на фиг. 4 — оги-. 55 лой полуволн при превышении входным бающая слова "начало", произнесен- сигналом установленного значения. ного на рабочем расстоянии (15 см) Сущчируют нелинейно-преобразованный от микрофона беэ акустических помех; сигнал с алгебраической суммой полуна фиг. 5а б — огибающая того же волн фазосдвинутых сигналов. Произ36656
20
50 водят сглаживание суммарного сигнала для получения выходной огибающей речевого сигнала. Используют выходную огибающую для регулирования коэффициента предварительного усиле" ния, увеличивая его при наличии
"информационной" полярности огибающей. Далее выделяют точки перехода огибающей через нуль, фиксируя их как моменты появления и исчезновения паузы.
В результате проделанных операций получают описание речевого сигнала в виде низкочастотной аналоговой функции, одна полярность которой символизирует наличие распознаваемого речевого сообщения, момент перехода ее нулевого уровня означает появление обнаруживаемой паузы, а другая полярность сигнализирует о наличии акустических помех, уровень которых в момент появления паузы речевого сигнага на 7-8 дБ и более ниже уровня речи распознаваемого диктора, Устройство (фиг. 1) содержит последовательно соединенные регулируемый предварительный усилитель
1, компрессор 2, корректирующую схему 3 с тремя выходами, к каждому из которых подключена своя .фазосдвигающая схема 4, 5 и 6, к выходам ко- торых, в свою очередь, подключены детекторные пары 7, 8; 9, 10 и 11, 12 для разделения положительных и отрицательных полуволй. Выходы детекторов 7-12 подключаются, каждый со своим весовым коэффициентом, к суммирующему входу операционного усилителя 13, играющего роль алгебраического сумматора с интегрированием выходного сигнала. Выход операционного усилителя 13 соединен со входом нуль-органа 14, являющимся выходом устройства, а также с управляющим входом регулируемого предварительного усилителя 1. Кроме того, к выходу регулируемого усилителя подключена цепочка, состоящая из частотно-зависимого усилителя 15 и нелинейного преобразователя 16, выход которого соединен со вторым, дифференциальным, входом операционного усилителя 13.
В статике, при отсутствии речевого сигнала на выходе, выходное напряжение операционного усилителя 13, а значит, и нуль-органа !4 равно ну" лю, и коэффициент передачи регули6 руемого предварительного усилителя
1 равен минимальному фиксированному значению (p=5-10).
Работа схемы в динамике.
Речевой сигнал поступает с выхода регулируемого предварительного усилителя 1 на обработку одновременно по двум каналам, В одном канале речевой сигнал выравнивается,по амплитуде с помощью частотно-зависимого усилителя 15, так как шумные высокочастотные звуки (4-8 кГц) по сравнению с полутональными (2-4 кГц) и особенно низкочастотными (1002000 Гц) звуками имеют низкую интенсивность. После этого он поступает на нелинейный преобразователь 16, у которого разность интегралов К положительной и отрицательной полярности выходного сигнала изменяется нелинейно в зависимости от величины входного сигнала т е. К Ф f (00+)
Примерный вид этой зависимости изображен на фиг. 2.
В другом канапе речевой сигнал сжимается компрессором 2, имеющим логарифмическую характеристику, и пос.тупает на корректирующую схему 3, где усиливается в области низких частот на 3 дБ/окт; в области средних — на
6 дБ/окт; в области высоких частот— на 8-9 дБ/окт. Затем сигналы этих областей подаются на фазосдвигающие схемы 4, 5 и 6 для создания оптимальных фазовых сдвигов между гармоническимк составляющими внутри выделенных областей с целью получения максимального эффекта автоасимметрии огибающей преобразованного речевого сигнала, после чего сигнал каждой области детектируется парами разнополярных детекторов 7-!2. Полученным полуволнам присваиваются весовые коэффициенты и затем они алгебраически складываются с помощью операционного усилителя
13, работающего дополнительно в режиме интегрирования выходного сигнала. На второй вход. операционного усилителя 13 подается сигнал с выхода нелинейного преобразователя
16. В результате взаимодействия сигналов, поступающих по двум входам, выходной сигнал операционного усилителя 13 изменяется по нелинейному закону в зависимости от величины входных сигналов. Например, на фиксированной частоте(4 кГц) соотношение у интегралов положительной
836656
20
30
I и отрицательной полярности выход-! ного сигнала операционного усилителя 13 имеет вид, приведенный на фиг. 3. Подобного рода нелинейность объясняется следующим образом.
При уровне входного сигнала, при .котором речевой сигнал в канале нелинейного преобразования еще симметричен, а в канале создания автоасимметрии огибающей еще недостаточен для появления эффекта асимметрии, выходной сигнал операционного усилителя 13 равен нулю и коэффициент передачи регулируемого предварительного усилителя равен минимальному фиксированному значению.
Когда выходной сигнал нелинейного преобразователя 16 достигает 60707. от своего максимально возможного значения, он становится несимметричен и, будучи поданным на инвертирующий вход операционного усилителя 13 и имея большую амплитуду по отношению к компрессированному сигналу, в котором начинает наблюдаться автоасимметрия, препятствует росту последней и удерживает выходную огибающую операционного усилителя 13 в отрицательной, помеховой полярности.
Это происходит до тех пор, пока входной речевой сигнал не достигнет значения, при котором выходной сигнал нелинейного преобразователя
16 перестает увеличивать свою несимметричность (см. фиг. 2).Вслед-. ствие этого начинает преобладать сигнал автосимметрии на неинвертирующем входе операционного усилителя 13 и выходная огибающая речевого 40 сигнала изменит свою полярность на информационную. Это, в .свою очередь, вызовет увеличение коэффициента передачи регулируемого предварительного усилителя 1 до максимального, 45 и как следствие, увеличение скорос-ти роста амплитуды информационной полярности огибающей речевого сигнала на выходе операционного усили-, теля )3. Дальнейшее увеличение ам- 50 плитуды входного речевого сигнала ведет к нелинейному (квадратичному) росту несимметричности сигнала на выхо- ,де нелинейного преобразователя 16, .В результате амплитуда информационной полярности уменьшается на 2530 от максимальной.
Появление в речевом сигнале короткой паузы, вызванной смыканием
8 речевого тракта для произношения взрывных звуков "ц, ч, п, т, к", ведет к прохождению указанных процессов в обратном порядке. В результате выходная огибающая речевого сигнала или возвратится на короткое время в помеховую полярность, пересекая свой нулевой уровень, или вернется в исходное (нулевое) "остояние и будет находиться там до тех пор, пока не кончится пауза и вновь появившийся сигнал не выве1 дет ее в информационную полярность.
Моменты пересечения огибающей речевого сигнала нулевого уровня фиксируются нуль-органом 14 и на его выходе, являющемся выходом устройства, появится дискретный сигнал, характеризующий время исчезновения и появления пауз в речевом сигнале.
Если речевой сигнал отсутствует, но имеются различного рода, в том числе и речевые, помехи, уровень которых на 7-8 дБ ниже уровня распознаваемой речи (в точке приема)> нелинейно-преобразованный сигнал все еще больше автоасимметричного сигнала, поэтому полярность выходного сигнала операционного усилителя
l3 находится в помеховой области и выходной сигнал нуль-органа 14 отсутствует. При этом коэффициент передачи регулируемого предварительного усилителя 1 поддерживается с помощью выходного сигнала операционного усилителя 13 на минимальном уровне, что способствует помехоустойчивому обнаружению пауз в речевом сигнале.
На фиг. 4 приведена осциллограмма огибающей слова "начало", произнесенного диктором в тишине на рабочем расстоянии(15 см) от микрофона, имеющем круговую диаграмму направленности. На фиг. 5а и 5б — осциллограммы того же слова, произнесенного на фоне другого, мешающего, диктора, который находился вне рабочей зоны оператора (на расстоянии 50 см), работающего с устройством обнаружения пауз в речевом сигнале. В приведенных осциллограммах положительная полярность огибающей,характеризует помеховую область, отрицательная — наличие речи распознаваемого диктора, Сравнивая осциллограммы, мок но прийти к выводу, что устройство реагирует на мощные посторонние зву836656
10 ки речи, имеющие уровень на 8-9 дБ ниже уровня речи распознаваемого диктора, и правильно классифицирует их как помеху, сохраняя способность надежного, помехоустойчивого обнаружения пауз (в данном случае перед глухим взрывным "ч") в речевом сигнале.
Эффективность предлагаемого способа обнаружения пауз в речевом сигнале заключается в повышении надежности выделения моментов появления
Ъ фонетических, сематических и дыхательных пауз вследствие снижения на
l0-13 дБ и более маскирующего действия акустических помех, когда помеха поступает на вход распознавающей системы совместно с анализируемым сигналом; снижения вероятности лож- ной тревоги из-за уменьшения чувствительности к акустическим помехам в режиме "кратковременного молчания" диктора; сохранения всей информации из-за снижения порога селекции выделяемых пауз, что повышает вероятность правильного распознавания речевой информации в целом при работе распознавающей системы .в реальных условиях с уровнем шумов 66-70 дБ без дополнительной акустической защиты.
Формула изобретения
Способ обнаружения пауз в речевом сигнале, использующий коррекцию спектральных характеристик речевого сигнала, создание в нем фазовых сдвигов, сложение этого сигнала с амплитудно- частотным откорректированным сигналом, раздельное детектирование положительных и отрицательных полуволн и их алгебраическое сложение, отличающийся тем, что, с целью повышения надежности ебнаруже10 .ния пауз, предварительно усиленный сигнал параплельно с частотно-зависимым усилением и последующим нелинейным преобразованием подвергают компрессии, затем амплитудной коррек 15 ции одновременно в нескольких частотных областях, создают в них фаэовые сдвиги, разделяют полученные сигнапы на положительные и отрицательные полуволны и алгебраически их склады20 вают, а затем результирующий сигнал суммируют с нелинейно преобразованным
"сигналом и фильтруют, в результате получают регулирующую величину предварительного усиления речевого сигна25 ла-выходную огибающую, в которой выделяют точки переходов через свой нулевой уровень, определяющие моменты появления и исчезновения пауз в речевом сигнале.
Источники информации, принятые во внимание при экспертизе
1. Патент США Ф 3377428, кл. 1791968.
2. Авторское свидетельство СССР
gg . по заявке N 2664124/18-10, кл. G 10 L 1/04, 28.02.79.
836656
/5
Составитель И. Куликова
Редактгр О. Филиппова Техред Ж.Кастелевич Корректор С. Шомак
Заказ 3120/38 Тираж 406 Подписное
ВНИИПИ Государственного комитета СССР по делам изобретений и открытий
113035 Москва Ж-35 Ра шская.наб.д д. 4/5
Филиал ППП "Патент", г. Ужгород, ул. Проектная, 4