Фильтр и способ для информированной пространственной фильтрации, используя многочисленные мгновенные оценки направления прибытия
Иллюстрации
Показать всеИзобретение относится к акустике, в частности к устройствам обработки звуковой информации. Фильтр содержит генератор весовых коэффициентов, адаптированный для приема информации о направлении прибытия компонент звука от излучателей звука, информации о расположении излучателей звука, и адаптированный для генерации весовых коэффициентов для каждого из множества частотно-временных элементов в зависимости от информации направления прибытия звука и в зависимости от информации расположения одного или более излучателей звука указанного частотно-временного элемента. Причем генератор формирует весовые коэффициенты в зависимости от первой шумовой информации, описываемой первой матрицей когерентности шумовых компонент, и в зависимости от второй шумовой информации, описываемой второй матрицей когерентности. Генератор обеспечивает формирование для каждого из множества частотно-временных элементов одной из множества выборок выходного звукового сигнала, которая назначена указанному частотно-временному элементу в зависимости от информации взвешивания указанного частотно-временного элемента и в зависимости от выборки входного звукового сигнала, назначенной указанному частотно-временному элементу каждого из двух или более входных сигналов микрофона. Технический результат – улучшение алгоритмов обработки звука. 3 н. и 12 з.п. ф-лы, 14 ил., 1 табл.
Реферат
Настоящее изобретение относится к обработке звукового сигнала, и в частности - к фильтру и способу для информированной пространственной фильтрации, используя многочисленные мгновенные оценки направления прибытия.
Выделение излучателей звука в условиях шума и реверберации обычно обеспечивается в современных системах связи. За последние четыре десятилетия было предложено большое разнообразие методов пространственной фильтрации для выполнения этой задачи. Существующие пространственные фильтры оптимальны, когда наблюдаемые сигналы соответствуют модели сигнала и когда информация, требуемая для вычисления фильтров, является точной. Практически, однако, модель сигнала часто нарушается, и основной сложной проблемой является оценка требуемой информации.
Существующие пространственные фильтры могут грубо классифицироваться на линейные пространственные фильтры (см., например, [1, 2, 3, 4]) и параметрические пространственные фильтры (см., например, [5, 6, 7, 8]). В общем случае линейные пространственные фильтры требуют оценки одного или более векторов распространения или статистических данных второго порядка (SOS) искомого одного или более излучателей плюс SOS помех. Некоторые пространственные фильтры разработаны для выделения сигнала одного излучателя, или реверберирующего, или с подавлением реверберации (см., например, [9, 10, 11, 12, 13, 14, 15, 16]), в то время как другие разработаны для выделения сигнала суммы двух или более реверберирующих излучателей (см., например, [17, 18]). Вышеупомянутые способы требуют предшествующего знания о направлении искомого одного или более излучателей или о периоде, в котором только искомые излучатели активны, или отдельно или одновременно.
Недостатком этих способов является невозможность адаптироваться достаточно быстро к новым ситуациям, например, к перемещениям излучателей или к конкурирующим динамикам, которые становятся активными, когда искомый излучатель активен.
Параметрические пространственные фильтры часто основаны на относительно простой модели сигнала, например, принятый сигнал в частотно-временной области состоит из одной плоской волны плюс рассеянный звук, и вычисляются, основываясь на мгновенных оценках параметров модели. Преимуществами параметрических пространственных фильтров являются очень гибкая диаграмма направленности, сравнительно сильное подавление рассеянного звука и источников помех, и возможность быстро адаптироваться к новым ситуациям. Однако, как показано в [19], базовая модель сигнала с одной плоской волной может легко нарушаться на практике, что сильно ухудшает эффективность параметрических пространственных фильтров. Следует заметить, что параметрические пространственные фильтры уровня техники используют все доступные сигналы микрофона для оценки параметров модели, хотя только один сигнал микрофона и действительное усиление используются для вычисления окончательного выходного сигнала. Расширение для объединения множества доступных сигналов микрофона для обнаружения усовершенствованного выходного сигнала не является прямым.
Поэтому было бы высоко оценено, если бы были обеспечены улучшенные концепции для получения искомой пространственной реакции на излучатели звука.
Поэтому задачей настоящего изобретения является обеспечение улучшенных концепций для выделения излучателей звука. Задача настоящего изобретения решается с помощью фильтра по п. 1, способа по п. 17 и компьютерной программы по п. 18.
Обеспечен фильтр для генерации выходного звукового сигнала, содержащего множество выборок выходного звукового сигнала, на основании двух или более входных сигналов микрофона. Выходной звуковой сигнал и два или более входных сигналов микрофона представлены в частотно-временной области, причем каждая из множества выборок выходного звукового сигнала назначена частотно-временному элементу из множества частотно-временных элементов.
Фильтр содержит генератор весов, адаптированный для приема для каждого из множества частотно-временных элементов информации направления прибытия одной или более компонент звука одного или более излучателей звука или информации расположения одного или более излучателей звука, и адаптированный для генерации информации взвешивания для каждого из множества частотно-временных элементов в зависимости от информации направления прибытия одной или более компонент звука одного или более излучателей звука указанного частотно-временного элемента или в зависимости от информации расположения одного или более излучателей звука указанного частотно-временного элемента.
Кроме того, фильтр содержит генератор выходного сигнала для генерации выходного звукового сигнала с помощью генерации для каждого из множества частотно-временных элементов одной из множества выборок выходного звукового сигнала, которая назначена указанному частотно-временному элементу, в зависимости от информации взвешивания указанного частотно-временного элемента и в зависимости от выборки входного звукового сигнала, назначенной указанному частотно-временному элементу, каждого из двух или более входных сигналов микрофона.
Варианты осуществления обеспечивают пространственный фильтр для получения искомой реакции для самое большее L одновременно активных излучателей звука. Обеспеченный пространственный фильтр получается с помощью минимизации мощности рассеянного сигнала плюс шума на выходе фильтра при условии L линейных ограничений. В отличие от концепций уровня техники L ограничений основаны на мгновенных узкополосных оценках направления прибытия. Кроме того, обеспечиваются новые оценки для отношения рассеянного сигнала к шуму/мощности рассеянного сигнала, которые показывают достаточно высокое временное и спектральное разрешение для обеспечения и подавления реверберации, и снижения шума.
Согласно некоторым вариантам осуществления обеспечены концепции для получения искомой произвольной пространственной реакции для самое большее L излучателей звука, которые одновременно активны в частотно-временной момент. Для этой цели мгновенная параметрическая информация (IPI) об акустической сцене внедряется в разработку пространственного фильтра, что приводит к «информированному пространственному фильтру».
В некоторых вариантах осуществления такой информированный пространственный фильтр, например, объединяет все доступные сигналы микрофона, на основании комплексных весов, для обеспечения усовершенствованного выходного сигнала.
Согласно вариантам осуществления информированный пространственный фильтр может, например, реализовываться в качестве пространственного фильтра минимальной дисперсии с линейными ограничениями (LCMV) или в качестве параметрического многоканального Винеровского фильтра.
В некоторых вариантах осуществления обеспеченный информированный пространственный фильтр, например, получается с помощью минимизации мощности рассеянного сигнала плюс собственных шумов при условии L линейных ограничений.
В некоторых вариантах осуществления, в отличие от уровня техники, L ограничений основаны на мгновенных оценках направления прибытия (DOA) и результирующих реакциях на L DOA, соответствующих конкретной искомой направленности.
Кроме того, обеспечены новые средства оценки для статистических данных требуемого сигнала и шума, например, отношение рассеянного сигнала к шуму (DNR), которые показывают достаточно высокое временное и спектральное разрешение, например, для уменьшения и реверберации, и шума.
Более того, обеспечен способ для генерации выходного звукового сигнала, содержащего множество выборок выходного звукового сигнала, на основании двух или более входных сигналов микрофона. Выходной звуковой сигнал и два или более входных сигналов микрофона представлены в частотно-временной области, причем каждая из множества выборок выходного звукового сигнала назначена частотно-временному элементу из множества частотно-временных элементов. Способ содержит этапы, на которых:
- Принимают для каждого из множества частотно-временных элементов ((k, n)), информацию направления прибытия одной или более компонент звука одного или более излучателей звука или информацию расположения одного или более излучателей звука.
- Генерируют информацию взвешивания для каждого из множества частотно-временных элементов в зависимости от информации направления прибытия одной или более компонент звука одного или более излучателей звука указанного частотно-временного элемента или в зависимости от информации расположения одного или более излучателей звука указанного частотно-временного элемента. И:
- Генерируют выходной звуковой сигнал с помощью генерации для каждого из множества частотно-временных элементов ((k, n)) одной из множества выборок выходного звукового сигнала, которая назначена указанному частотно-временному элементу ((k, n)), в зависимости от информации взвешивания указанного частотно-временного элемента ((k, n)) и в зависимости от выборки входного звукового сигнала, которая назначена указанному частотно-временному элементу ((k, n)), каждого из двух или более входных сигналов микрофона.
Кроме того, обеспечена компьютерная программа для воплощения вышеописанного способа, когда она выполняется на компьютере или процессоре обработки сигнала.
В последующем варианты осуществления настоящего изобретения описаны более подробно со ссылкой на фигуры, на которых:
фиг. 1A показывает фильтр согласно варианту осуществления,
фиг. 1B показывает возможный сценарий применения фильтра согласно варианту осуществления,
фиг. 2 показывает фильтр согласно варианту осуществления и множество микрофонов,
фиг. 3 показывает генератор весов согласно варианту осуществления,
фиг. 4 показывает величину двух реакций в качестве примера согласно варианту осуществления,
фиг. 5 показывает генератор весов согласно другому варианту осуществления, обеспечивающий подход минимальной дисперсии с линейными ограничениями,
фиг. 6 показывает генератор весов согласно дополнительному варианту осуществления, обеспечивающий подход параметрического многоканального Винеровский фильтра,
фиг. 7 показывает реальное и оцененное отношение рассеянного сигнала к шуму в качестве функции от времени и частоты,
фиг. 8 показывает индекс направленности и усиление белого шума сравниваемых пространственных фильтров,
фиг. 9 показывает оцененное направление прибытия и результирующее усиление, и
фиг. 10 показывает пример для случая воспроизведения стереофонического громкоговорителя.
Фиг. 1A показывает фильтр 100 для генерации выходного звукового сигнала, содержащего множество выборок выходного звукового сигнала, обеспеченных, на основании двух или более входных сигналов микрофона. Выходной звуковой сигнал и два или более входных сигналов микрофона представлены в частотно-временной области, причем каждая из множества выборок выходного звукового сигнала назначена частотно-временному элементу (k, n) из множества частотно-временных элементов (k, n).
Фильтр 100 содержит генератор 110 весов, адаптированный для приема для каждого из множества частотно-временных элементов (k, n) информации направления прибытия одной или более компонент звука одного или более излучателей звука или информации расположения одного или более излучателей звука, и адаптированный для генерации информации взвешивания для каждого из множества частотно-временных элементов (k, n) в зависимости от информации направления прибытия одной или более компонент звука одного или более излучателей звука указанного частотно-временного элемента (k, n) или в зависимости от информации расположения одного или более излучателей звука указанного частотно-временного элемента (k, n).
Кроме того, фильтр содержит генератор 120 выходного сигнала для генерации выходного звукового сигнала с помощью генерации для каждого из множества частотно-временных элементов (k, n) одной из множества выборок выходного звукового сигнала, которая назначена указанному частотно-временному элементу (k, n), в зависимости от информации взвешивания указанного частотно-временного элемента (k, n) и в зависимости от выборки входного звукового сигнала, которая назначена указанному частотно-временному элементу (k, n), каждого из двух или более входных сигналов микрофона.
Например, каждый из двух или более входных сигналов микрофона содержит множество выборок входного звукового сигнала, причем каждая из выборок входного звукового сигнала назначена одному из частотно-временных элементов (k, n), и генератор 120 звукового сигнала может адаптироваться для генерации одной из множества выборок выходного звукового сигнала, которая назначена указанному частотно-временному элементу (k, n), в зависимости от информации взвешивания указанного частотно-временного элемента (k, n) и в зависимости от одной из выборок входного звукового сигнала каждого из двух или более входных сигналов микрофона, а именно, например, в зависимости от одной из выборок входного звукового сигнала каждого из двух или более входных сигналов микрофона, которая назначена указанному частотно-временному элементу (k, n).
Для каждой выборки выходного звукового сигнала, которая будет генерироваться для каждого частотно-временного элемента (k, n), генератор 110 весов вновь генерирует отдельную информацию взвешивания. Генератор 120 выходного сигнала затем генерирует выборку выходного звукового сигнала рассматриваемого частотно-временного элемента (k, n), на основании информации взвешивания, сгенерированной для этого частотно-временного элемента. Другими словами, новая информация взвешивания вычисляется с помощью генератора 110 весов для каждого частотно-временного элемента, для которого должна генерироваться выборка выходного звукового сигнала.
Когда генерируют информацию взвешивания, генератор 110 весов адаптирован для учета информации одного или более излучателей звука.
Например, генератор 110 весов может учитывать позицию первого излучателя звука. В варианте осуществления генератор весов может также учитывать позицию второго излучателя звука.
Или, например, первый излучателей звука может испускать первую звуковую волну с первой компонентой звука. Первая звуковая волна с первой компонентой звука достигает микрофона, и генератор 110 весов может учитывать направление прибытия первой компоненты звука/звуковой волны. С помощью этого генератор 110 весов учитывает информацию о первом излучателе звука. Кроме того, второй излучатель звука может испускать вторую звуковую волну со второй компонентой звука. Вторая звуковая волна со второй компонентой звука достигает микрофона, и генератор 110 весов может учитывать направление прибытия второй компоненты звука/второй звуковой волны. С помощью этого генератор 110 весов учитывает также информацию о втором излучателе звука.
Фиг. 1B показывает возможный сценарий применения фильтра 100 согласно варианту осуществления. Первая звуковая волна с первой компонентой звука испускается первым громкоговорителем 121 (первым излучателем звука) и достигает первого микрофона 111. Направление прибытия первой компоненты звука (=направление прибытия первой звуковой волны) учитывается в первом микрофоне 111. Кроме того, вторая звуковая волна со второй компонентой звука испускается вторым громкоговорителем 122 (вторым излучателем звука) и достигает первого микрофона 111. Генератор 110 весов имеет возможность также учитывать направление прибытия второй компоненты звука в первом микрофоне 111 для определения информации взвешивания. Кроме того, направления прибытия компонент звука (=направления прибытия звуковых волн) в других микрофонах, таких как микрофон 112, могут также учитываться с помощью генератора весов для определения информации взвешивания.
Следует заметить, что излучатели звука могут, например, быть материальными излучателями звука, которые физически существуют в среде, например, громкоговорителями, музыкальными инструментами или говорящим человеком.
Однако, следует заметить, что излучатели зеркального отображения также являются излучателями звука. Например, звуковая волна, испускаемая динамиком 122, может отражаться стенкой 125, и тогда кажется, что звуковая волна испускается из расположения 123, отличающегося от расположения динамика, который фактически испускает звуковую волну. Такой излучатель 123 зеркального отображения также рассматривают в качестве излучателя звука. Генератор 110 весов может адаптироваться для генерации информации взвешивания в зависимости от информации направления прибытия, относящейся к излучателю зеркального отображения, или в зависимости от информации расположения, относящейся к одному, двум или более излучателей зеркального отображения.
Фиг. 2 показывает фильтр 100 согласно варианту осуществления и множество микрофонов 111, 112, 113, ..., 11n. В варианте осуществления на фиг. 2 фильтр 100 кроме того содержит набор 101 фильтров. Кроме того, в варианте осуществления на фиг. 2 генератор 110 весов содержит модуль 102 вычисления информации, модуль 103 вычисления весов и модуль 104 выбора передаточной функции.
Обработка выполняется в частотно-временной области, причем k обозначает частотный показатель, и n обозначает показатель времени, соответственно. Входом на устройство (фильтр 100) являются M сигналов x1...M(t) микрофона во временной области от микрофонов 111, 112, 113, ..., 11n, которые преобразовываются в частотно-временную область с помощью набора 101 фильтров. Преобразованные сигналы микрофона задаются с помощью вектора
Фильтр 100 выводит искомый сигнал Y(k, n) (выходной звуковой сигнал). Выходной звуковой сигнал (искомый сигнал) Y(k, n) может, например, представлять усовершенствованный сигнал для монофонического воспроизведения, сигнал наушников для воспроизведения звука с бинауральным эффектом или сигнал громкоговорителя для воспроизведения пространственного звука с произвольной установкой громкоговорителя.
Искомый сигнал Y (k, n) генерируется с помощью генератора 120 выходного сигнала, например, с помощью выполнения линейной комбинации М сигналов x(k, n) микрофона, основываясь на мгновенных комплексных весах w(k, n)=[W1(k, n) W2 (k, n) ... WM(k, n)]T, например, используя формулу
Веса w(k, n) определяются с помощью модуля 103 вычисления весов. Для каждого k и каждого n вновь определяются веса w(k, n). Другими словами, для каждого частотно-временного элемента (k, n) выполняется определение весов w(k, n). Более конкретно, веса w(k, n), например, вычисляются, основываясь на мгновенной параметрической информации (IPI) J(k, n) и основываясь на соответствующей искомой передаточной функции G(k, n).
Модуль 102 вычисления информации конфигурируется для вычисления IPI J(k, n) из сигналов x(k, n) микрофона. IPI описывает пространственные характеристики сигнала и шумовых компонент, содержащихся в сигналах x(k, n) микрофона, в течение заданного частотно-временного момента (k, n).
Фиг. 3 показывает генератор 110 весов согласно варианту осуществления. Генератор 110 весов содержит модуль 102 вычисления информации, модуль 103 вычисления весов и модуль 104 выбора передаточной функции.
Как показано в примере на фиг. 3, IPI прежде всего содержит мгновенное направление прибытия (DOA) одной или более компонент направленного звука (например, плоских волн), например, вычисленное с помощью модуля 201 оценки DOA.
Как объясняется ниже, информация DOA может быть представлена как угол (например, с помощью [азимутальный угол ϕ(k, n), угол места (k, n)]), с помощью пространственной частоты (например, μ[k | ϕ(k, n)]), с помощью сдвига фаз (например, a[k | ϕ(k, n)]), с помощью временной задержки между микрофонами, с помощью вектора распространения (например, с помощью a[k | ϕ(k, n)]), или с помощью интерауральной разницы по уровню (ILD) или интерауральной разницы по времени (ITD).
Кроме того, IPI J(k, n) может, например, содержать дополнительную информацию, например, статистические данные второго порядка (SOS) сигнальной или шумовой компоненты.
В варианте осуществления генератор 110 весов адаптирован для генерации информации взвешивания для каждого из множества частотно-временных элементов (k, n) в зависимости от статистической информации о сигнальной компоненте или шумовой компоненте двух или более входных сигналов микрофона. Такой статистической информацией, например, являются статистические данные второго порядка, упомянутые в данной работе. Статистическая информация может, например, быть мощностью шумовой компоненты, информацией отношения сигнала к рассеянному сигналу, информацией отношения сигнала к шуму, информацией отношения рассеянного сигнала к шуму, информацией отношения рассеянного сигнала к шуму, мощностью сигнальной компоненты, мощностью рассеянной сигнальной компоненты или мощностью спектральной матрицы плотности сигнальной компоненты или шумовой компоненты двух или более входных сигналов микрофона.
Статистические данные второго порядка могут вычисляться с помощью модуля 205 вычисления статистических данных. Эта статистическая информация второго порядка может, например, содержать мощность стационарной шумовой компоненты (например, собственных шумов), мощность нестационарной шумовой компоненты (например, рассеянного звука), отношение сигнала к рассеянному сигналу (SDR), отношение сигнала к шуму (SNR) или отношение рассеянного сигнала к шуму (DNR). Эта информация предоставляет возможность вычислять оптимальные веса w(k, n) в зависимости от критериев пространственной оптимизации.
«Стационарная шумовая компонента»/«медленно изменяющаяся шумовая компонента» является, например, шумовой компонентой со статистическими данными, которые не изменяются или медленно изменяются относительно времени.
«Нестационарная шумовая компонента» является, например, шумовой компонентой со статистическими данными, которые быстро изменяются со временем.
В варианте осуществления генератор 110 весов адаптирован для генерации информации взвешивания для каждого из множества частотно-временных элементов (k, n) в зависимости от первой шумовой информации, указывающей информацию о первых шумовых компонентах двух или более входных сигналов микрофона, и в зависимости от второй шумовой информации, указывающей информацию о вторых шумовых компонентах двух или более входных сигналов микрофона.
Например, первые шумовые компоненты могут быть нестационарными шумовыми компонентами, и первая шумовая информация может быть информацией о нестационарных шумовых компонентах.
Вторые шумовые компоненты могут, например, быть стационарными шумовыми компонентами/медленно изменяющимися шумовыми компонентами, и вторая шумовая информация может быть информацией о стационарных/медленно изменяющихся шумовых компонентах.
В варианте осуществления генератор 110 весов конфигурируется для генерации первой шумовой информации (например, информации о нестационарных/не являющихся медленно изменяющимися шумовых компонентах), используя, например, предварительно определенную статистическую информацию (например, информацию о пространственной когерентности между двумя или большим количеством входных сигналов микрофона, которая является результатом нестационарных шумовых компонент), и причем генератор 110 весов конфигурируется для генерации второй шумовой информации (например, информации о стационарных/медленно изменяющихся шумовых компонентах), не используя статистическую информацию.
По отношению к шумовым компонентам, которые изменяются быстро, одни только входные сигналы микрофона не предоставляют достаточную информацию для определения информации о таких шумовых компонентах. Статистическая информация, например, дополнительно должна определять информацию, относящуюся к быстро изменяющимся шумовым компонентам.
Однако, по отношению к шумовым компонентам, которые не изменяются или медленно изменяются, статистическая информация не является необходимой для определения информации об этих шумовых компонентах. Вместо этого достаточно оценивать сигналы микрофона.
Следует заметить, что статистическая информация может вычисляться, используя оцененную информацию DOA, как показано на фиг. 3. Дополнительно следует заметить, что IPI может также обеспечиваться внешним образом. Например, DOA звука (расположение излучателей звука, соответственно) может определяться с помощью видео камеры вместе с алгоритмом распознания лиц, предполагая, что говорящие люди формируют звуковую сцену.
Модуль 104 выбора передаточной функции конфигурируется для обеспечения передаточной функции G(k, n). (Потенциально комплексная) передаточная функция G(k, n) на фиг. 2 и фиг. 3 описывает искомую реакцию системы при условии (например, текущей параметрической) IPI J(k, n). Например, G(k, n) может описывать произвольный шаблон захвата искомого пространственного микрофона для улучшения сигнала при монофоническом воспроизведении, DOA-зависимое усиление громкоговорителя при воспроизведении громкоговорителя, или передаточную функцию слухового аппарата человека (HRTF) для воспроизведения с бинауральным эффектом.
Следует заметить, что обычно статистические данные записываемой звуковой сцены изменяются быстро по времени и частоте. Следовательно, IPI J(k, n) и соответствующие оптимальные веса w(k, n) действительны только для конкретного частотно-временного показателя и таким образом повторно вычисляются для каждого k и n. Поэтому, система может адаптироваться мгновенно к текущей ситуации записи.
Дополнительно следует заметить, что М входных микрофонов могут или формировать один массив микрофонов, или они могут быть распределяться для формирования множества массивов в различных расположениях. Кроме того, IPI J(k, n) может содержать информацию расположения вместо информации DOA, например, расположения излучателей звука в трехмерной комнате. С помощью этого могут определяться пространственные фильтры, которые не только фильтруют конкретные направления, которые необходимы, но и трехмерные пространственные области записываемой сцены.
Все объяснения, обеспеченные относительно DOA, одинаково применимы, когда доступна информация о расположении излучателя звука. Например, информация о расположении может быть представлена с помощью DOA (угла) и расстояния. Когда используется такое представление расположения, DOA может сразу получаться из информации расположения. Или информация расположения может, например, описываться с помощью координат x, y, z. Тогда DOA может легко вычисляться, основываясь на информации расположения излучателя звука и основываясь на расположении микрофона, который записывает соответствующий входной сигнал микрофона.
В последующем описаны дополнительные варианты осуществления.
Некоторые варианты осуществления предоставляют возможность пространственно выборочную запись звука с подавлением реверберации и уменьшением шума, в данном контексте обеспечены варианты осуществления для применения пространственной фильтрации для улучшения сигнала на основе выделения излучателя, подавления реверберации и уменьшения шума. Целью таких вариантов осуществления является вычисление сигнала Y(k, n), который соответствует выходу направленного микрофона с произвольным шаблоном захвата. Это подразумевает, что направленный звук (например, одна плоская волна) ослабляется или сохраняется в качестве искомого в зависимости от его DOA, в то время как рассеянный звук или собственные шумы микрофона устраняются. Согласно вариантам осуществления обеспеченный пространственный фильтр объединяет преимущества пространственных фильтров уровня техники, среди прочего обеспечивая высокий индекс направленности (DI) в ситуациях с высоким DNR и высокое усиление белого шума (WNG) в иных случаях. Согласно некоторым вариантам осуществления пространственный фильтр может только линейно ограничиваться, что предоставляет возможность быстрого вычисления весов. Например, передаточная функция G(k, n) на фиг. 2 и фиг. 3 может, например, представлять искомый шаблон захвата направленного микрофона.
В последующем обеспечивается формулировка задачи. Затем обеспечиваются варианты осуществления модуля 103 вычисления весов и модуля 102 вычисления IPI для пространственно выборочной записи звука с подавлением реверберации и уменьшением шума. Кроме того, описываются варианты осуществления соответствующего модуля 104 выбора TF.
Сначала обеспечена формулировка задачи. Рассматривают массив из М всенаправленных микрофонов, расположенных в местоположениях d1…M. Для каждого (k, n) предполагается, что звуковое поле состоит из L<М плоских волн (направленный звук), распространяющихся в изотропном и пространственно однородном поле рассеянного звука. Сигналы х(k, n) микрофона могут записываться как
где xl(k, n)=[Xl(k, n, dl)…Xl(k, n, dM)]T содержит сигналы микрофона, которые пропорциональны звуковому давлению 1-й плоской волны, xd(k, n) является взвешенным нестационарным шумом (например, рассеянным звуком), и xn(k, n) является стационарным шумом/медленно изменяющимся шумом (например, собственными шумами микрофона).
Предполагая, что три компоненты в формуле (2) взаимно некоррелированы, матрица спектральной плотности мощности (PSD) сигналов микрофона может описываться с помощью
При
Где Е - обозначает функцию математического ожидания (Expectation).
В данном случае Фn(k, n) является матрицей PSD стационарного шума/медленно изменяющегося шума, и ϕd(k, n) является ожидаемой мощностью нестационарного шума, который может изменяться быстро по времени и частоте, ij-й элемент матрицы Гd(k) когерентности, обозначенный с помощью yij(k), является когерентностью между микрофонами i и j, которая является результатом нестационарного шума. Например, для сферически изотропного рассеянного поля yij(k)=sinc (к rij) [20] с номером волны к и rij=||dj-di|||, где rij равен расстоянию между j-м и i-м микрофонами, ij-й элемент матрицы Гn(k) когерентности является когерентностью между микрофонами i и j, которая является результатом стационарного шума/медленно изменяющегося шума. Для собственных шумов микрофона Фn(k, n)=ϕn (k, n) I, где I - единичная матрица, и ϕn(k, n) является ожидаемой мощностью собственных шумов.
Направленный звук xl(k, n) в (2) может записываться как
где ϕl(k, n) является азимутом DOA l-й плоской волны (ϕ=0 обозначает направление, перпендикулярное плоскости массива антенн) и a[k|ϕl(k, n)]=[a1[kϕl(k, n)]…[аM[kϕl(k, n)]]T является вектором распространения, i-й элемент a[kIϕl(k, n)]
описывает сдвиг фаз i-й плоской волны между первым и i-м микрофонами. Следует заметить, что ri=||di-d1|| равен расстоянию между первым и i-м микрофонами.
Угол ∠ai[k|ϕl(k, n)]=μi[k|ϕl(k, n)] часто упоминается как пространственная частота. DOA l-й волны может быть представлен с помощью ϕl (k, n), аi[k|ϕl (k, n))], а[k|ϕl (k, n))] или с помощью μi[k|ϕl(k, n)].
Как объяснено выше, целью варианта осуществления является фильтрация сигналов х(k, n) микрофона таким образом, чтобы направленные звуки, прибывающие из конкретных пространственных областей, ослаблялись или усиливались, как необходимо, в то время как стационарный и нестационарный шум устранялся. Искомый сигнал может поэтому выражаться как
в которой G[k|ϕ(k, n)] является действительной или комплексной произвольной, например, предварительно определенной функцией направленности, которая может зависеть от частоты.
Фиг. 4 относится к сценарию с двумя произвольными функциями направленности и расположениями излучателя согласно варианту осуществления. В частности, фиг. 4 показывает амплитуду двух примерных направленностей G1[k|ϕ(k, n)] и G2[k|ϕ(k, n)]. Когда используют G1[k|ϕ(k, n)] (см. сплошную линию на фиг. 4), направленный звук, прибывающий от ϕ<45°, ослабляется на 21 дБ, в то время как направленный звук от других направлений не ослабляется. В принципе, могут разрабатываться произвольные направленности, даже функции, такие как G2[k|ϕ(k, n)] (см. пунктирную линию на фиг. 4). Кроме того, G[kIϕ(k, n)] может разрабатываться как величина, зависящая от времени, например, для выделения перемещающихся или внезапно появляющихся излучателей звука, как только их расположение определено.
Оценка сигнала Y(k, n) получается с помощью линейной комбинации сигналов х(k, n) микрофона, например, с помощью
где w(k, n) является комплексным вектором веса с длиной М. Соответствующий оптимальный вектор веса w(k, n) выводится в последующем. В последующем зависимость весов w(k, n) от k и n опущена для краткости.
Далее описываются два варианта осуществления модуля 103 вычисления весов на фиг. 2 и фиг. 3.
Из (5) и (7) следует, что w(k, n) должны соответствовать линейным ограничениям
Кроме того, мощность нестационарного и стационарного/медленно изменяющегося шума на выходе фильтра должна минимизироваться.
Фиг. 5 изображает вариант осуществления изобретения для применения пространственной фильтрации. В частности, фиг. 5 показывает генератор 110 весов согласно другому варианту осуществления. Снова, генератор 110 весов содержит модуль 102 вычисления информации, модуль 103 вычисления весов и модуль 104 выбора передаточной функции.
Более конкретно, фиг. 5 показывает подход минимальной дисперсии с линейными ограничениями (LCMV). В данном варианте осуществления (см. фиг. 5) веса w(k, n) вычисляются, основываясь на IPI l(k, n), содержащей DOA L плоских волн, и на статистических данных стационарного и нестационарного шума. Последняя информация может содержать DNR, отдельные мощности ϕn (k, n) и ϕd (k, n) двух шумовых компонент или матрицы PSD Фn и Фd двух шумовых компонент.
Например, Фd может рассматриваться в качестве первой шумовой информации о первой шумовой компоненте из двух шумовых компонент, и Фn может рассматриваться в качестве второй шумовой информации о второй шумовой компоненте из двух шумовых компонент.
Например, генератор 110 весов может конфигурироваться для определения первой шумовой информации Фd, зависящей от одной или более когерентностей между по меньшей мере некоторыми из первых шумовых компонент одного или более входных сигналов микрофона. Например, генератор 110 весов может конфигурироваться для определения первой шумовой информации в зависимости от матрицы Гd(k) когерентности, указывающей когерентности, являющиеся результатом первых шумовых компонент двух или более входных сигналов микрофона, например, с помощью применения формулы
Фd(k,n)=φd(k,n)Гd(k).
Одна или более когерентностей определяются предварительно.
Веса w(k, n) для решения задачи в (8) находят с помощью минимизации суммы мощностей собственных шумов (стационарного шума/медленно изменяющегося шума) и мощности рассеянного звука (нестационарного шума) на выходе фильтра, то есть
Фu=Фd+Фn
Используя (4) и принимая Фn(k, n)=ϕn (k, n) I, задача оптимизации может быть выражена как
Где
является изменяющимся во времени входным DNR в микрофонах. Решением (10) и (12), учитывая ограничения (9), является [21]
где