Способ подавления шума путем спектрального вычитания

Реферат

 

Подавление шума осуществляется в цифровой системе связи на основе передачи кадров. Каждый кадр содержит заданное число N звуковых ответов и имеет таким образом N степеней свободы. Каждый речевой кадр аппроксимируется параметрической моделью, которая уменьшает число степеней свободы до значения меньшего N и с помощью которой вычисляется оценка спектральной плотности мощности каждого речевого кадра. Функция спектрального вычитания основывается на оценке и на оценке спектральной плотности мощности фонового шума в неречевых кадрах , вычисленной непараметрическим способом оценивания спектра мощности. Технический результат - увеличение подавления шума без ухудшения качества звука. 9 з.п.ф-лы, 7 ил., 3 табл.

Изобретение относится к подавлению шумов в цифровых системах связи, основанных на передаче кадров, и касается, в частности, способа подавления шумов в таких системах на основе вычитания спектров.

Общей проблемой в обработке сигналов речи является улучшение этих сигналов, исходя из их значений, измеренных в присутствии шума. Одним из подходов к улучшению речевого сигнала на основе измерений в одном канале (от микрофона) является фильтрация в частотной области с применением методов вычитания спектров [1], [2]. При условии, что фоновый шум является долговременно стационарным (по сравнению с речью), модель фонового шума обычно оценивается в течение тех интервалов времени, когда речевой активности нет. Затем в течение кадров с речевой активностью эта оцененная модель шума используется для улучшения речи совместно с оцененной моделью зашумленной речи. Для методов на основе вычитания спектров эти модели традиционно задаются в выражениях спектральной плотности мощности, которая оценивается с помощью классических методов быстрого преобразования Фурье.

При использовании в системах телефонной связи с подвижными объектами ни один из вышеуказанных методов в своей основной форме не обеспечивает выходной сигнал с удовлетворительным качеством звука, то есть 1) неискаженный выходной речевой сигнал, 2) достаточное уменьшение уровня шума, 3) остаточный шум без раздражающих искусственных шумов.

В частности, известно, что методы шумоподавления на основе спектрального вычитания нарушают первое из вышеуказанных требований, когда выполняют второе, или нарушают второе требование, когда выполняют первое. Кроме того, в большинстве случаев в большей или меньшей степени нарушается третье требование, так как эти методы вносят так называемый "музыкальный" шум.

Указанные недостатки, связанные с методами шумоподавления на основе спектрального вычитания, известны и в литературе описано несколько специальных модификаций базовых алгоритмов, предназначенных для определенных ситуаций "речь в шуме". Однако проблема создания способа на основе спектрального вычитания, который для общих ситуаций выполняет требования 1-3, оставалась нерешенной.

Чтобы показать трудности, связанные с улучшением речи на основе зашумленных данных, отметим, что методы вычитания спектров основаны на фильтрации, использующей оцениваемые модели приходящих данных. Если эти оцениваемые модели близки к соответствующим им "истинным" моделям, то они являются хорошим рабочим приближением. Однако вследствие малого времени стационарности речи (10-40 мс), а также из-за физической реальности, соответствующей применению мобильной телефонии (частота дискретизации 8000 Гц, стационарность шума 0,5-2,0 с и т. д.), оцененные модели с большой вероятностью значительно отличаются от действительных и поэтому приводят к получению фильтрованного выходного сигнала с низким качеством звука.

В заявке на европейский патент N 0588526 А1 описывается способ, согласно которому спектральный анализ осуществляется с помощью быстрого преобразования Фурье или линейного кодирования с предсказанием.

Задача настоящего изобретения - предложить такой способ подавления шума, основанный на спектральном вычитании, который обеспечивает лучшее подавление шума без ухудшения при этом качества воспроизводимого звука.

Эта задача решается с помощью способа, отличительные признаки которого изложены в п. 1 формулы изобретения.

Изобретение вместе с его целями и преимуществами будет более понятно из нижеследующего описания с прилагаемыми чертежами.

Фиг. 1 представляет собой блок-схему системы подавления шумов на основе спектрального вычитания, пригодную для осуществления способа согласно настоящему изобретению.

На фиг.2 показана диаграмма состояний детектора речевой активности, который может быть использован в системе, показанной на фиг. 1.

На фиг.3 показана диаграмма двух различных оценок спектральной плотности кадра речи.

На фиг.4 показана временная диаграмма дискретизированного звукового сигнала, содержащего речь и фоновый шум.

На фиг. 5 показана временная диаграмма сигнала фиг.3 после вычитания спектра шума в соответствии с известными способами.

На фиг. 6 показана временная диаграмма сигнала фиг.3 после вычитания спектра шума в соответствии с настоящим изобретением.

На фиг. 7 показана блок- схема алгоритма, поясняющая способ согласно изобретению.

Подробное описание предпочтительных вариантов осуществления изобретения Методы спектрального вычитания Рассмотрим кадр речи, искаженной аддитивным шумом x(k) = s(k)+(k) k = 1,...,N, (1) где x(k), s(k) и (k) обозначают соответственно измеренные значения речевого сигнала в присутствии шумов, значения речевого сигнала и значения аддитивного шума, a N - число отсчетов в кадре.

Речь считается стационарной в пределах кадра, тогда как шум считается долговременно стационарным, то есть стационарным на протяжении нескольких кадров. Число кадров, где (k) стационарен, обозначается через , 1. Кроме того, предполагается, что речевая активность является достаточно низкой, так что модель шума может точно оцениваться во время отсутствия речевой активности.

Обозначим спектральные плотности мощности соответственно измеренного значения, речи и шума как Фx(), Фs() и Ф(), где Фx() = Фs()+Ф(). (2) Если известны Фx() и Ф(), то величины Фs() и s(k) могут быть оценены с использованием стандартных методов на основе спектрального вычитания (ср. с [2]), кратко описываемых ниже.

Пусть обозначает оценку s(k). Тогда где F() обозначает некоторое линейное преобразование, например дискретное преобразование Фурье, и где H() - четная вещественная функция в интервале (0,2) такая, что 0 H()1. Функция H() зависит от Фx() и Ф(). Так как H() вещественная, фаза, равна фазе искаженного речевого сигнала. Причиной использования вещественной функции H() является нечувствительность человеческого слуха к фазовым искажениям.

В общем случае Фx() и Ф() не известны и должны быть заменены в H() оцениваемыми величинами Вследствие нестационарности речи Фx() оценивается на основании одного кадра данных, тогда как Ф() оценивается с использованием данных в кадрах, не содержащих речи, число которых равно . Для простоты предполагается, что в распоряжении имеется детектор речевой активности для того, чтобы отличать кадры, содержащие зашумленную речь, от кадров, содержащих только шум. Предполагается, что Ф() оценивается в течение интервалов без речевой активности путем усреднения по нескольким кадрам, например, используя В выражении (4) является усредненной (текущей) оценкой спектральной плотности мощности, основанной на данных кадров до l, включая кадр l, а является оценкой, основанной на текущем кадре. Скаляр (0,1) подстраивается с учетом предполагаемой стационарности (k). Среднее по кадрам грубо соответствует , неявно определяемому как Подходящая оценка спектральной плотности мощности (не предполагающая никаких априорных допущений о форме спектра фонового шума) определяется как где "*" обозначает комплексно-сопряженную величину и где V() = F((k)). При F() = БПФ() (БПФ - быстрое преобразование Фурье), представляет собой периодограмму и в (4) является усредненной периодограммой, обе они приводят к асимптотически (N >> 1) несмещенным оценкам спектральной плотности мощности с приближенными дисперсиями Аналогичное (7) выражение верно для в течение речевой активности (при замене Ф2() в (7) на Ф2x()). Система шумоподавления на основе спектрального вычитания, пригодная для осуществления способа согласно настоящему изобретению, показана в виде блок-схемы на фиг. 1. От микрофона 10 звуковой сигнал x(t) подается на аналого-цифровой преобразователь 12. Аналого-цифровой преобразователь 12 подает цифровые отсчеты звукового сигнала в виде кадров {x(k)} в блок 14 преобразования, например в блок быстрого преобразования Фурье, который преобразует каждый кадр в соответствующий преобразованный в частотную область кадр {X()}. Преобразованный кадр фильтруется с помощью в блоке 16. Эта операция осуществляет фактическое спектральное вычитание. Полученный в результате сигнал преобразуется обратно во временную область блоком 18 обратного преобразования. Результатом является кадр , в котором шум подавлен. Этот кадр может быть подан на эхокомпенсатор 20 и после него - на кодер 22 речи. Сигнал кодированной речи подается затем на канальный кодер и модулятор (эти блоки не показаны) для передачи.

Фактический вид в блоке 16 зависит от оценок которые формируются в устройстве 24 оценивания спектральной плотности мощности, и от используемого аналитического выражения этих оценок. Примеры различных выражений приведены в табл. 2 в следующем разделе. Приведенное ниже описание будет в основном посвящено рассмотрению различных способов формирования оценок из входного кадра {x(k)}.

Устройство 24 оценивания спектральной плотности мощности управляется детектором 26 речевой активности, который использует входной кадр {x(k)} для определения, содержит кадр речь (Р) или фоновый шум (Ф). Подходящий детектор речевой активности описан в [5], [6]. Детектор речевой активности может быть реализован как конечный автомат, имеющий 4 состояния, показанные на фиг. 2. Полученный в результате управляющий сигнал Р/Ф подается в устройство 24 оценивания спектральной плотности мощности. Когда детектор 26 речевой активности обнаруживает речь (Р) (состояния 21 и 22), устройство 24 оценивания будет формировать С другой стороны, когда детектор 26 речевой активности обнаруживает неречевую активность (Ф) (состояние 20), устройство 24 оценивания будет формировать Последняя оценка будет использоваться для формирования в течение следующей последовательности кадров речи (вместе с каждого из кадров этой последовательности).

Сигнал Р/Ф подается также в блок 16 спектрального вычитания. Таким образом, блок 16 может применять разные фильтры во время речевых и неречевых кадров. Во время речевых кадров представляет собой вышеприведенное выражение для С другой стороны, во время неречевых кадров может быть константой Н(0 Н 1), что уменьшает уровень фонового звука до того же самого уровня, который остается в речевых кадрах после шумоподавления. Таким образом, воспринимаемый уровень шума будет одинаковым во время речевых и неречевых кадров.

Перед тем как выходной сигнал в (3) вычисляется, в предпочтительной форме осуществления изобретения может подвергаться пост-фильтрации в соответствии с где вычисляется в соответствии с табл. 1. Скаляр 0,1 подразумевает, что минимальный уровень шума составляет -20 дБ.

Кроме того, сигнал Р/Ф подается также на кодер 22 речи. Это позволяет выполнять различное кодирование речи и фоновых звуков.

Анализ ошибки спектральной плотности мощности Является очевидным, что допущения о стационарности s(k) и (k) накладывают ограничения на точность оценки по сравнению с речевым сигналом, не содержащим шума (s(k)). В данном разделе представлен метод анализа для способов спектрального вычитания. Он основан на аппроксимациях первого порядка оценок спектральной плотности мощности (см. (11) ниже) в сочетании с приближенными (аппроксимации нулевого порядка) выражениями для точности вносимых отклонений. Ниже выводится выражение для ошибки оцениваемого сигнала в частотной области вследствие используемого метода (выбора передаточной функции H()) и вследствие неточности используемых формул оценки спектральной плотности мощности. Вследствие того, что слух человека нечувствителен к фазовым искажениям, можно рассматривать ошибку в спектральной плотности мощности, определяемую как где Заметим, что по своей структуре является членом ошибки, описывающим разность (в частотной области) между отфильтрованным измеренным значением речевого сигнала с шумом и значением речевого сигнала. Следовательно, может принимать как положительные, так и отрицательные значения и не является спектральной плотностью мощности какого-либо сигнала во временной области. в (10) обозначает оценку H(), основанную на В данном разделе анализ ограничен случаем вычитания спектров мощности (PS) [2] . Другие альтернативы для выбора могут быть проанализированы аналогичным образом (см. Приложения А-С). Кроме того, представлены и проанализированы новые альтернативы для (см. Приложения D-G). Обзор различных подходящих альтернатив для дан в табл. 2 По определению H() принадлежит интервалу 0 H() 1 что не обязательно для соответствующих оцененных величин в табл. 2, и, следовательно, на практике используется одно- или двухполупериодное выпрямление [1].

Для того, чтобы выполнить анализ, допустим, что длина кадра N достаточно большая (N >> 1), так что приближенно являются несмещенными. Введем отклонения первого порядка где x() и () - стохастические переменные с нулевым средним значением, так что E[x()/Фx()]2 1 и E[()/Ф()]2 1. Здесь и далее обозначение E[] означает математическое ожидание. Кроме того, если время корреляции шума мало по сравнению с длительностью кадра, то для l k, где оценка, основанная на данных в l-м кадре. Это подразумевает, что x() и () являются приблизительно независимыми. В противном случае, если шум сильно коррелирован, предположим, что Ф() имеет ограниченное число (<< N) пиков (сильных), расположенных на частотах 1,...,n. Тогда для j, j = l,..., п и lk и анализ остается действительным для j, j = l,..., п.

Уравнение (11) подразумевает, что используются асимптотически (N >>1) несмещенные оценки спектральной плотности мощности, такие, как периодограмма или усредненная периодограмма. Однако, если использовать асимптотически смещенные оценки спектральной плотности мощности, такие, как оценка спектральной плотности мощности Блэкмана-Тьюки, аналогичный анализ справедлив при замене (11) на и где соответственно Bx() и B() - детерминированные члены, описывающие асимптотическое смещение оценок спектральной плотности мощности.

Далее уравнение (11) подразумевает, что в (9) (в аппроксимации первого порядка) является линейной функцией x() и (). Ниже рассматриваются характеристики различных способов с точки зрения ошибки смещения и дисперсии ошибки Полный вывод для будет дан в следующем разделе. Аналогичный вывод выражений для других перечисленных в табл. 1 способов на основе спектрального вычитания приведен в Приложениях A-G.

Анализ Подставив (10) и из табл. 2 в (9), используя разложение в ряд Тейлора и пренебрегая отклонениями выше первого порядка, после очевидных вычислений получаем где использовано для обозначения приблизительного равенства, в котором сохранены только главные члены. Величины x() и () являются стохастическими переменными с нулевым математическим ожиданием. Таким образом, и Для того, чтобы продолжить, мы используем общий результат, который для асимптотически несмещенной спектральной оценки (ср. с (7)) имеет вид для некоторой (возможно частотно-зависимой) переменной (). Например, периодограмма соответствует () 1+(sinN/Nsin)2 что для N >> 1 сокращается до 1. Объединение (14) и (15) дает Результаты для Аналогичные вычисления для дают (подробности приведены в Приложении А): и Результаты для Вычисления для дают (подробности приведены в Приложении В): и Результаты для Вычисления для дают (подробности приведены в Приложении С): и Результаты для Вычисления для дают ( выводится в Приложении D и анализируется в Приложении Е): и Общие характеристики Для рассматриваемых способов следует заметить, что ошибка смещения зависит только от выбора тогда как дисперсия ошибки зависит как от выбора так и от дисперсии используемых оценок спектральной плотности мощности. Например, для оценки Ф() на основе усредненной периодограммы имеем из (7), что 1/. С другой стороны, если использовать периодограмму одиночного кадра для оценки Фx(), то имеем x 1 Таким образом, для 1 главным членом = x+, появляющимся в вышеприведенных уравнениях дисперсии, является x и поэтому основным источником ошибки является оценка спектральной плотности мощности одиночного кадра, основанная на зашумленной речи.

Из вышеприведенных замечаний следует, что для улучшения способов спектрального вычитания желательно уменьшить величину x (выбрать подходящую формулу оценки спектральной плотности мощности, которая дает приблизительно несмещенную оценку с как можно более хорошей характеристикой) и выбрать "хороший" способ спектрального вычитания (выбрать Ключевой идеей настоящего изобретения является то, что величину x можно уменьшить, используя физическое моделирование голосового тракта (уменьшая число степеней свободы с N (числа отсчетов в кадре) до величины, меньшей, чем N). Хорошо известно, что s(k) могут быть точно описаны авторегрессионной моделью (AR) (обычно порядка p 10). Это является темой следующих двух разделов.

Кроме того, точность (и, неявно, точность ) зависит от выбора Новые предпочтительные варианты выводятся и анализируются в Приложениях D-G Авторегрессионное моделирование речи В предпочтительной форме осуществления настоящего изобретения s(k) моделируется, как авторегрессионный процесс где A(q-1) - нормированный (первый коэффициент равен единице) полином p-го порядка в операторе сдвига в обратном направлении (q-1w(k)= w(k-1) и т. д.), A(q-1)=1+a1q-1+...+apq-p, (18) a w(k) - белый шум с нулевым средним значением и с дисперсией 2w. На первый взгляд может показаться ограничением то, что рассматриваются только авторегрессионные модели. Однако применение авторегрессионных моделей для моделирования речи исходит как из физического моделирования голосового тракта, так и из, что здесь более важно, физических ограничений на точность оцениваемых моделей зашумленной речи.

При обработке речевого сигнала длина кадра N может не быть достаточно большой для того, чтобы допустить применение способов усреднения внутри кадра с целью уменьшить дисперсию и все же сохранить несмещенность оценки спектральной плотности мощности. Поэтому, чтобы уменьшить влияние первого члена, например, в уравнении (12), следует использовать физическое моделирование голосового тракта. Структура (17) авторегрессии накладывается на s(k). В явном виде Кроме того, Ф() может быть описано параметрической моделью где B(q-1) и - соответственно полиномы q-го и r-го порядка, определяемые аналогично A(q-1) в (18). Для простоты в приведенном ниже анализе, где оценивается порядок параметрической модели, используется параметрическая модель шума (20). Однако понятно, что возможны также и другие модели фонового шума. Объединяя (19) и (20), можно показать, что где (k)- белый шум с нулевым средним значением и дисперсией 2 и где D(q-1) определяется тождеством Оценка параметров речи Оценивание параметров в (17)-(18) является простой процедурой, если не присутствует дополнительный шум. Заметим, что в случае отсутствия шума второй член в правой части (22) исчезает и, таким образом, (21) сокращается до (17) после взаимного уничтожения нулей и полюсов.

Здесь рассматривается оценка спектральной плотности мощности на основе метода автокорреляции. Для этого имеется четыре причины.

Метод автокорреляции хорошо известен. В частности, оцениваемые параметры имеют минимальную фазу, обеспечивающую стабильность получаемого в результате фильтра.

При использовании алгоритма Левинсона способ легко реализуется и имеет низкую вычислительную сложность.

Оптимальная процедура включает в себя нелинейную оптимизацию, явно требующую некоторую процедуру инициализации. Метод автокорреляции ее не требует.

С практической точки зрения удобно, если может быть использована одна и та же процедура оценки для искаженной речи и соответственно чистой речи, если она доступна. Другими словами, способ оценивания должен быть независимым от действительного сценария работы, то есть независимым от отношения сигнал-шум.

Хорошо известно, что модель с авторегрессионным скользящим средним (такая, как (21)) может быть смоделирована процессом авторегресии бесконечного порядка. Когда для оценки параметра доступно конечное число данных, бесконечная авторегрессионная модель усекается. Здесь использована следующая модель: где F(q-1) имеет порядок Подходящий порядок модели следует из приведенного ниже анализа. Приближенная модель (23) близка к процессу речи с шумом, если их спектральные плотности мощности приблизительно равны, то есть Исходя из физического моделирования голосового тракта, общепринято рассматривать p=degA(q-1)) = 10. Из (24) также следует, что = deg(F(q-1)) >> degA(q-1)) + deg (q-1)) = p + r, где p + r грубо равно числу пиков в Фx() С другой стороны, моделирование узкополосных процессов с шумом с использованием авторегрессионных моделей требует с целью обеспечить достоверные оценки спектральной плотности мощности. Таким образом, Подходящее практическое правило дается выражением Из вышеприведенного анализа можно ожидать, что параметрический подход выгоден, когда N >> 100. Из (22) можно также заключить, что чем более плоским является спектр шума, тем меньшие значения N допускаются. Даже если не является достаточно большим, можно ожидать, что параметрический подход даст приемлемые результаты. Причиной этого является то, что параметрический подход дает, с точки зрения дисперсии ошибки, значительно более точные оценки спектральной плотности мощности, чем подход, основанный на периодограмме (в типичном примере отношение между дисперсиями равняется 1:8, см. ниже), что значительно уменьшает на выходе такие паразитные искусственные шумы, как тональный шум.

Параметрическая оценка спектральной плотности мощности кратко может быть охарактеризована следующим образом. Используют метод автокорреляции и авторегрессионную модель высокого порядка (модель порядка для того, чтобы вычислить параметры авторегрессии и дисперсию шума (23). Из оцениваемой авторегрессионной модели вычисляют (в N дискретных точках, соответствующих частотным участкам X() в (3)) согласно формуле Затем для выполнения коррекции речи s(k) используется один из рассмотренных и перечисленных в табл. 2 методов спектрального вычитания.

Далее используется аппроксимация низкого порядка для дисперсии параметрической оценки спектральной плотности мощности (аналогично (7) для рассмотренных непараметрических способов) и, таким образом, разложение s(k) в ряд Фурье при допущении, что шум является белым. Тогда асимптотическая (как для числа данных (N >> 1), так и для порядка модели (p >> 1)) дисперсия равна Вышеприведенное выражение действительно также для чистого (высокого порядка) процесса авторегресии. Из (26) непосредственно следует, что , т. е. согласно упомянутому выше практическому правилу эта переменная приблизительно соответствует , что можно сравнить с x 1 для случая оценки спектральной плотности мощности на основе периодограммы.

Например, для окружающей среды радиотелефона, который не держат при разговоре в руке, можно предположить, что шум стационарен в течение около 0,5 с (при частоте дискретизации 8000 Гц и длине кадра N = 256), что дает 15 и, таким образом, . Кроме того, для мы имеем x= 1/8.

Фиг. 3 иллюстрирует для типичного речевого кадра различие между оценкой спектральной плотности мощности с помощью периодограммы и параметрической оценкой спектральной плотности мощности в соответствии с настоящим изобретением. В этом примере использованы N=256 (256 отсчетов) и авторегрессионная модель с 10 параметрами. Следует заметить, что параметрическая оценка спектральной плотности мощности является значительно более сглаженной, чем соответствующая оценка спектральной плотности мощности с помощью периодограммы.

На фиг. 4 показано 5 секунд дискретизированного звукового сигнала, содержащего речь на шумовом фоне. На фиг. 5 показан сигнал фиг. 4 после спектрального вычитания, основанного на оценке спектральной плотности мощности с использованием периодограммы, которая отдает приоритет высокому качеству звука. На фиг. 6 показан сигнал фиг. 4 после спектрального вычитания, основанного на параметрической оценке спектральной плотности мощности в соответствии с настоящим изобретением.

Сравнение фиг. 5 и фиг. 6 показывает, что с помощью способа в соответствии с настоящим изобретением достигается значительное подавление шума (порядка 10 дБ). (Как отмечено выше в связи с описанием фиг. 1, уменьшенные уровни шума одинаковы для речевых и неречевых кадров). Другим отличием, которое не очевидно из фиг. 6, является то, что полученный в результате речевой сигнал искажен меньше, чем речевой сигнал на фиг. 5.

Теоретические результаты в отношении смещения и дисперсии ошибки спектральной плотности мощности для всех рассматриваемых способов суммированы в табл. 3.

Есть возможность классифицировать разные способы. Можно выделить по меньшей мере два критерия выбора подходящего способа.

Во-первых, для низкого мгновенного отношения сигнал/шум желательно, чтобы способ имел низкую дисперсию с целью избежать тональных искусственных шумов в . Это невозможно без увеличенного смещения и для того, чтобы подавить (а не усилить) частотные области с низким мгновенным отношением сигнал/шум, этот член смещения должен иметь отрицательный знак (таким образом заставляя в (9) стремиться к нулю). Способами, которые удовлетворяют этим критериям, являются соответственно вычитание амплитудных спектров (MS), улучшенное вычитание спектра мощности (IPS) и винеровская фильтрация (WF).

Во-вторых, для высоких отношений сигнал/шум желательна низкая