Способ обнаружения пауз в речевых сигналах и устройство его реализующее

Иллюстрации

Показать все

Изобретение относится к области распознавания речи. Технический результат заключается в сокращении объема памяти для хранения речи и в уменьшении графика при ее передаче. Для этого осуществляют дискретизацию с шагом Δt сигнала, записывают в запоминающее устройство поток отсчетов сигнала определенной длины с выхода микрофона в режиме молчания диктора, разделяют его на ряд участков длиной R, разделяют диапазон (1/Δt) энергетического спектра Фурье каждого из этих участков на ряд частотных интервалов (i=1,...,N), вычисляют значения Pi пауза, соответствующих каждому из интервалов, записывают в запоминающее устройство вычисленные средние значения Pi пауза ср, в случае поступления сигнала речи, вычисляют значения Pi, вычисляют отношения Pi к Pi пауза ср в каждом из N частотных интервалов всех участков длиной R и определяют max (Pi/Pi пауза ср), которые сравнивают со значением порога h, определенным в схеме вычисления значения порога, и при max (Pi/Pi пауза ср)≤h принимают решение о наличии паузы, затем значение Pi пауза ср обновляют с учетом текущего значения Рi пауза. 2 н. и 1 з.п. ф-лы, 2 ил.

Реферат

Изобретение относится к технике цифровой обработки речевых данных и может быть использовано в различных приложениях, например в системах аудиоархивации, в справочных службах, в системах передачи речевых сигналов, использующих прерывистые каналы связи.

Известен способ обнаружения пауз в речевом сигнале [1], использующий коррекцию спектральных характеристик речевого сигнала, создание в нем фазовых сдвигов, сложение этого сигнала с амплитудно-частотным откорректированным сигналом, раздельное детектирование положительных и отрицательных полуволн и их алгебраическое сложение. Однако недостатком этого способа является трудоемкость и сложность его осуществления.

Наиболее близким техническим решением (прототипом) является способ обнаружения пауз в речевых сигналах, использующий различие спектральных характеристик сигнала речи от сигнала в паузе (шума) и устройство его реализующее [2].

Этот способ осуществляется путем обнаружения пауз в речевом сигнале, включающем определение спектрального отклонения сигнала речи от сигнала в паузе (шума), с применением оценивания параметров модели авторегрессии, сравнение суммы энергий сигнала речи и сигнала в паузе (шума) с порогом, вынесение решения о наличии на входе паузы, если уровень суммы энергий сигнала речи и сигнала в паузе (шума) ниже порогового уровня. В этом способе подавление сигнала в паузе (шума) производят инверсным фильтром, коэффициенты которого устанавливаются применительно к воздействию на входе только сигнала в паузе (шума). При наличии на входе сигнала речи и сигнала в паузе (шума) инверсный фильтр осуществляет подавление компонентов сигнала в паузе (шума) и, в целом, снижает его интенсивность. Сумма энергий сигнала речи и сигнала в паузе (шума) на выходе инверсного фильтра сравнивается с порогом, который устанавливается в период воздействия на входе только сигнала в паузе (шума). Если величина суммы энергии сигнала речи и сигнала в паузе (шума) не превышает порогового уровня, принимается решение о наличии на входе паузы. Коэффициенты инверсного фильтра (рассчитанные с использованием оценивания модели авторегрессии) и уровень порога изменяются во времени в зависимости от текущего значения уровня сигнала в паузе (шума) при воздействии на входе только сигнала в паузе (шума).

Данный способ обладает рядом недостатков. В частности, расчет характеристик инверсного фильтра, как указано выше, проводится с применением оценивания параметров модели авторегрессии. Следует отметить, что эти модели эффективно работают, если шум «окрашен», в противном же случае, если шум абсолютно «белый», то порядок аппроксимирующей модели р должен быть бесконечно большим, что физически нереализуемо. В реальных условиях, как правило, наблюдаемый фоновый шум «окрашен» и в связи с этим может быть описан стохастическим разностным уравнением вида:

в котором порядок уравнения р - конечная величина, а параметры:

m - математическое ожидание,

σ0 - дисперсия сигнала в паузе,

αk - коэффициенты линейного предсказания

определяются заранее. Необходимо подчеркнуть, что при скачкообразном изменении параметров этого уравнения, при так называемой разладке, наблюдаемая случайная последовательность по-прежнему может быть описана следующим уравнением:

но, в общем случае, другого порядка и с неизвестными параметрами m1, σ1, βk. При отсутствии априорной информации о значениях параметров уравнения (2) в прототипе применяют одномерную решающую функцию, построенную на анализе значения порога вида γ=σ10. В случае, если величина отношения σ10 превышает порог, то принимается решение о наличии разладки, т.е. о присутствии на входе системы суммы сигнала речи и сигнала в паузе (шума). В противном случае принимается решение о наличии на входе системы только сигнала в паузе (шума).

При использовании данных решающих функций возникают так называемые мертвые зоны, когда решающая функция для некоторых сочетаний параметров до и после разладки или не изменяется, или ее значение растет так медленно, что за приемлемое время разладки обнаруживается с вероятностью ложной тревоги. Необходимо также обратить внимание на трудности, которые в данном случае возникают при вычислении границ доверительного интервала и, более того, при этом не гарантируются как минимальность их размеров, так и максимальная чувствительность.

Другим существенным недостатком прототипа является подавление как компонентов сигнала в паузе (шума), так и компонентов сигнала речи, в случае совпадения их максимумов, что иллюстрируется графиками на фиг.1.

Кроме этого, при вычислении энергетического спектра процесса авторегрессии, который в математическом виде может быть записан следующим образом:

где - дисперсия сигнала в паузе (шума),

неточность определения αk приводит к смещению спектра относительно истинного положения, что в свою очередь не позволяет оптимально рассчитать характеристики инверсного фильтра. Необходимость осуществления непрерывного подстраивания характеристик фильтра под текущее значение сигнала в паузе (шума) приводит к большим временным затратам на вычисления. И, наконец, для обеспечения одинаковой вероятности обнаружения пауз в речевом сигнале, при изменении уровня входного шума, необходимо корректировать коэффициент усиления речевого тракта.

Известно техническое решение, осуществляющее техническую реализацию указанного способа. В состав устройства [2] входят инверсный фильтр, первый вход которого соединен с выходом микрофона, а второй вход - с первым выходом схемы адаптивной установки коэффициентов предсказания, второй выход которой соединен с входом схемы вычисления порога, выход схемы вычисления порога соединен со вторым входом порогового обнаружителя, а первый вход порогового обнаружителя - с выходом инверсного фильтра.

Недостатки данного устройства соответствуют недостаткам способа, который на нем реализован.

Задачей предлагаемого изобретения является создание способа и устройства для его реализации, обеспечивающих повышение достоверности обнаружения пауз в речевом сигнале.

Техническим результатом использования предложенного изобретения является сокращение объема памяти для хранения речи и уменьшение трафика при ее передаче.

Поставленная задача достигается тем, что в способе обнаружения пауз в речевом сигнале, включающем определение спектрального отклонения сигнала речи от сигнала в паузе (шума) с применением оценивания параметров модели авторегрессии, сравнение суммы энергий сигнала речи и сигнала в паузе (шума) с порогом, вынесение решения о наличии на входе паузы, если уровень суммы энергий сигнала речи и сигнала в паузе (шума) ниже порогового уровня, в предлагаемом техническом решении оценку определения спектрального отклонения сигнала речи от сигнала в паузе (шума) вместо использования оценивания параметров модели авторегрессии проводят посредством определения отклонения отношений энергии частотного спектра сигнала речи от частотного спектра сигнала в паузе (шума), выполняя следующие действия:

1. Осуществляют дискретизацию с шагом Δt и квантование сигналов с выхода микрофона (получение отсчетов);

2. Записывают в запоминающее устройство поток отсчетов отрезка определенной длины сигнала в паузе (шума) с выхода микрофона в режиме молчания диктора;

3. Разделяют поток отсчетов отрезка сигнала в паузе (шума) на ряд участков длиной R;

4. Разделяют частотный диапазон (1/Δt) энергетического спектра Фурье каждого из этих участков на ряд интервалов (i=1,...,N);

5. Вычисляют точные значения долей энергии отсчетов сигнала в паузе (шума) Рiпауза, соответствующих каждому из частотных интервалов, по формуле где M=2[R/(2N)]+2;

6. Определяют среднее значение долей энергии отсчетов сигнала в паузе (шума)

Рi пауза ср в каждом частотном интервале для всего потока отсчетов отрезка сигнала в паузе (шума);

7. Записывают в запоминающее устройство вычисленные значения энергии отсчетов сигнала в паузе (шума) Рi пауза ср;

8. Разделяют поток отсчетов речевого сигнала на участки такой же длины, как и при анализе потока отсчетов сигнала в паузе (шума);

9. Вычисляют для каждого участка в каждом из N частотных интервалов значения долей энергии отсчетов речевого сигнала Рi по формуле

10. Вычисляют отношения Рi к Рiпауза ср в каждом из N частотных интервалов всех выбранных участков и определяют из них максимальное значение max (Pi/Piпауза ср);

11. Передают максимальное значение max (Рiiпауза ср) на вход порогового обнаружителя;

12. Определяют значение порога h в схеме вычисления порога с учетом вычисленного значения М;

13. Сравнивают в пороговом обнаружителе максимальное значение max (Рi/Piпауза ср) со значением порога h;

14. Принимают решение о наличии паузы при значении max (Рiiпауза ср), меньшем или равным порогу h, обновляют значение Рi пауза ср с учетом текущего значения Рi пауза;

15. Производят кодирование пауз, при этом код каждой паузы содержит информацию только о моменте начала и продолжительности паузы.

Новизна предложенного способа заключается в том, что учитывают различие в распределении частотных энергетических составляющих спектра сигнала речи от спектра сигнала в паузе (шума) (фиг.1), вычисляют их точные значения в каждом из анализируемых частотных интервалов по формуле:

где

j=1,...,L - отрезок анализируемого сигнала в i-том частотном интервале ν2i, ν1i, ν10=0, ν2N=π;

- собственные векторы матриц m, n=1,...,L с элементами вида

соответствующие собственным числам λk≈1, k=1,...,М, причем Рii пауза, если на входе присутствует только сигнал в паузе.

Критерию «изобретательский уровень» предложенный способ соответствует, т.к. он:

- основан на учете различий в распределении частотных энергетических составляющих спектра сигнала речи от спектра сигнала в паузе и точном вычислении их значений в каждом из анализируемых частотных интервалов с использованием указанной выше формулы (4), что повышает достоверность обнаружения паузы в речи за счет большей чувствительности к присутствию долей энергии отсчетов сигнала речи, которые неравномерно распределены по частотным интервалам,

- в решающей функции предложенного способа отсутствуют мертвые зоны, что повышает вероятность обнаружения отсчетов сигнала в паузе и, соответственно, уменьшает вероятность искажения речевых данных,

- так как сравниваются отношения энергий Рi к Рi пауза ср, то вероятность обнаружения пауз не зависит от изменения коэффициента усиления речевого тракта, что устраняет необходимость его коррекции при изменении уровня входного шума.

Для реализации указанного способа предложено устройство обнаружения пауз в речевом сигнале, включающее пороговый обнаружитель, схему вычисления порога, которое в отличие от известного вместо инверсного фильтра и схемы адаптивной установки коэффициентов предсказания содержит алгоритмический модуль, в состав которого входит аналого-цифровой преобразователь, устройство записи, запоминающее устройство, считывающее устройство, устройство вычисления энергии спектра, устройство определения среднего значения энергии отсчетов сигнала в паузе, устройство вычисления отношений Рi к Рiпауза ср, устройство определения max (Рi/Pi пауза ср), устройство кодирования, устройство синхронизации.

Причем первый вход алгоритмического модуля подключен к выходу микрофона, первый выход алгоритмического модуля подключен к первому входу порогового обнаружителя, второй выход алгоритмического модуля подключен к входу схемы вычисления порога, выход которой подключен ко второму входу порогового обнаружителя, выход порогового обнаружителя подключен ко второму входу алгоритмического модуля.

Отличительными признаками предложенного устройства, подтверждающими новизну и изобретательский уровень, являются:

- наличие алгоритмического модуля вместо инверсного фильтра и схемы адаптивной установки коэффициентов предсказания, что позволяет повысить качество сигнала речи за счет того, что устранена операция подавления сигнала в паузе, при выполнении которой могут подавляться также и компоненты сигнала в речи в случае совпадения их максимумов. Кроме того, это техническое решение позволяет сократить временные затраты на вычисления, а отсутствие в устройстве инверсного фильтра исключение необходимости непрерывного подстраивания его характеристик под текущее значение сигнала в паузе;

- состав алгоритмического модуля, который включает аналого-цифровой преобразователь, устройство записи, запоминающее устройство, считывающее устройство, устройство вычисления энергии спектра, устройство определения среднего значения долей энергии отсчетов сигнала в паузе, устройство вычисления отношений Рi к Pi пауза ср, устройство определения max (Рii пауза ср), устройство кодирования, устройство синхронизации.

Сущность изобретений поясняется изображениями, представленными на чертежах:

Фиг.1a - Энергетический спектр звука «а»;

Фиг.1б - Энергетический спектр звука «и»;

Фиг.1в - Энергетический спектр звука «ч»;

Фиг.1г - Энергетический спектр сигнала в паузе;

Фиг.2 - блок-схема заявляемого устройства.

Устройство состоит из алгоритмического модуля 1, порогового обнаружителя 2, схемы 3 вычисления порога.

Предложенный способ реализуют на данном устройстве следующим образом. Прежде всего сигнал в паузе (шум) с выхода микрофона 4 подают на вход алгоритмического модуля 1, в котором производят дискретизацию с шагом Δt и квантование входного воздействия (получение отсчетов) с помощью аналого-цифрового преобразователя, записывают при помощи записывающего устройства полученные данные в запоминающее устройство, затем считывают при помощи считывающего устройства участки длиной R потока отсчетов отрезка сигнала в паузе в устройство вычисления энергии спектра, в котором вычисляют точные значения долей энергии отсчетов сигнала в паузе (шума) по формуле в каждом из частотных интервалов (i=1,...,N), на которые разделяют частотный диапазон (1/Δt) энергетического спектра Фурье каждого из участков длиной R. Далее в устройстве определения среднего значения долей энергии отсчетов сигнала в паузе (шума) определяют Рi пауза ср в каждом частотном интервале для всего потока отсчетов сигнала в паузе (шума) и записывают данные значения в запоминающее устройство. При наличии на входе микрофона 4 речи речевой сигнал с выхода микрофона 4 поступает на вход алгоритмического модуля 1 в аналого-цифровой преобразователь для дискретизации с шагом Δt и квантования, после чего речевые данные записывают в запоминающее устройство, затем считывают при помощи считывающего устройства участки длиной R потока отсчетов отрезка речевого сигнала в устройство вычисления энергии спектра, в котором вычисляют по формуле точные значения долей энергии отсчетов речевого сигнала в каждом из частотных интервалов (i=1,...,N), на которые разделяют частотный диапазон (1/Δt) энергетического спектра Фурье каждого из участков длиной R. После вычисления отношения Рi к Рi пауза ср и определения его максимального значения max (Рii пауза ср) последнее поступает с первого выхода алгоритмического модуля 1 на первый вход порогового обнаружителя 2, на второй вход которого поступает сигнал о значении порога h, полученного в схеме 3 вычисления порога, определенного с учетом вычисленного значения М, поступающего со второго выхода алгоритмического модуля 1. Если отношение значения max (Pii пауза ср) меньше или равно порогу h, с выхода порогового обнаружителя 2 на второй вход алгоритмического модуля 1 поступает сигнал о наличии паузы, которую кодируют в устройстве кодирования алгоритмического модуля 1. Код каждой паузы содержит информацию только о моменте начала и продолжительности паузы, что позволяет сократить объем битового представления сигнала в паузе. После этого значение Рi пауза ср обновляют с учетом текущего значения Рi пауза. Устройство синхронизации обеспечивает синхронную работу всех блоков, входящих в алгоритмический модуль 1.

В результате использования предложенных технических решений благодаря учету различий в распределении частотных энергетических составляющих спектра сигнала речи от спектра сигнала в паузе и точном вычислении их значений в каждом из анализируемых частотных интервалов, а также отсутствию мертвых зон в решающей функции предложенного способа, что повышает вероятность обнаружения отсчетов сигнала в паузе и, соответственно, уменьшает вероятность искажения речевых данных, повышаются достоверность и скорость обнаружения пауз, которые затем кодируют таким образом, чтобы код каждой паузы содержал информацию только о моменте начала и продолжительности пауз, что позволяет сократить объем памяти для хранения речи и уменьшить трафик при ее передаче.

Использованная литература

1. Авторское свидетельство СССР по заявке №836656, кл. G10L 1/04, 16.07.79.

2. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. / Под ред. О.И.Шелухина. - М.: Радио и связь, 2000. - 456 с.: ил.

1. Способ обнаружения пауз в сигналах речи, включающий определение спектрального отклонения сигнала речи от сигнала в паузе, сравнение суммы энергий сигнала речи и сигнала в паузе со значением порога, вынесение решения о наличии паузы, отличающийся тем, что оценку определения спектрального отклонения сигнала речи от сигнала в паузе проводят посредством определение отклонения отношений энергии частотного спектра сигнала речи от частотного спектра сигнала в паузе, причем сначала осуществляют дискретизацию с шагом At и разбиение на квантованные отсчеты сигналов, поступающих с выхода микрофона, записывают в запоминающее устройство поток отсчетов сигнала определенной длины в паузе с выхода микрофона в режиме молчания дикторам разделяют поток отсчетов сигнала определенной длины в паузе на ряд участков длиной R, разделяют диапазон (1/Δt) энергетического спектра Фурье каждого из этих участков на ряд частотных интервалов (i=1,...,N), вычисляют значения долей энергии отсчетов сигнала в паузе Pi пауза, соответствующих каждому из частотных интервалов, определяют средние значения долей энергии отсчетов сигнала в паузе в каждом частотном интервале для всего потока отсчетов сигнала определенной длины в паузе, записывают в запоминающее устройство вычисленные средние значения долей энергии отсчетов сигнала в паузе Рi пауза ср, разделяют поток отсчетов сигнала речи на участки такой же длины, как и при анализе потока отсчетов сигнала в паузе, вычисляют для каждого участка длиной R в каждом из N частотных интервалов значения отсчетов сигнала речи Pi, вычисляют отношения Pi к Pi пауза ср в каждом из N частотных интервалов всех участков длиной R и определяют максимальное из них max (Pi/Pi пауза ср), причем обнаружение пауз проводят путем сравнения значения max (Pi/Pi пауза ср) со значением порога h, который определяют в схеме вычисления значения порога и при значении max (Pi/Pi пауза ср) меньше или равным значению порога h принимают решение о наличии паузы, затем значение Pi пауза ср обновляют с учетом текущего значения Pi пауза, обнаруженные паузы кодируют, при этом код каждой паузы содержит информацию о моменте начала и продолжительности паузы.

2. Устройство обнаружения пауз в сигналах речи, включающее схему вычисления значения порога, пороговый обнаружитель, отличающееся тем, что содержит алгоритмический модуль, причем первый вход порогового обнаружителя подключен к первому выходу алгоритмического модуля, а второй вход подключен к выходу схемы вычисления значения порога h, выход порогового обнаружителя подключен ко второму входу алгоритмического модуля, первый вход алгоритмического модуля подключен к выходу микрофона, второй выход алгоритмического модуля подключен к входу схемы вычислений значения порога h, а алгоритмический модуль содержит аналогово-цифровой преобразователь, связанный с устройством вычисления отношений Pi к Pi пауза ср как через последовательно соединенные запоминающее устройство и устройство вычисления энергии спектра, в котором вычисляют значения долей энергии отсчетов сигнала в паузе Pi пауза и сигнала речи Pi, в каждом из N частотных интервалов, так и через присоединенное к устройству вычисления энергии спектра устройство определения среднего значения долей энергии отсчетов сигнала в паузе Pi пауза ср, в каждом из N частотных интервалов и запоминающее устройство, а устройство вычисления отношений Pi к Pi пауза ср соединено c устройством определения значения max (Pi/Pi пауза ср), выход которого соединен с первым входом порогового обнаружителя, кроме того, в состав алгоритмического модуля входит записывающее устройство, соединенное с запоминающим устройством, а также связанное с запоминающим устройством считывающее устройство, которое соединено с устройством вычисления отношений Pi к Pi пауза ср и устройством определения значения max (Pi/Pi пауза ср).

3. Способ обнаружения пауз в сигналах речи по п.1, отличающийся тем, что спектральное отклонение сигнала речи от спектра сигнала в паузе определяют с помощью вычисления значений энергии отсчетов в каждом из N частотный интервалов по формуле

где

, j=1,...,L - отрезок анализируемого сигнала в i-м частотном интервале ν2i, ν1i, ν10=0, ν2N=π;

- собственные вектора матриц m, n=1,...,L с элементами вида , соответствующие собственным числам λk≈1, k=1,...,M, причем Pi=Pi пауза, если на входе присутствует только сигнал в паузе.