Матрицы оптимального микширования и использование декорреляторов при обработке пространственного звука

Иллюстрации

Показать все

Изобретение относится к акустике. Устройство для генерации звукового сигнала, имеющее два или более звуковых каналов. Устройство содержит блок предварительной обработки и процессор сигналов. Блок предварительной обработки выполнен с возможностью рассчета первой ковариантности звукового сигнала. Процессор выполнен с возможностью генерации выходного звукового сигнала путем применения правила микширования к двум звуковым каналам. Процессор сконфигурирован с возможностью определения правила микширования на основании первой ковариантности входного звукового сигнала и на основании второй ковариантности выходного звукового сигнала, причем вторая ковариантность является иной, чем первая ковариантность. Микширование выполняется таким образом, чтобы минимизировать погрешности в воспроизведении звука. Правило микширования зависит от входного звукового сигнала и матрицы отображения. При этом диагональное значение первой ковариационной матрицы задает величину энергии входных звуковых каналов. Диагональное значение представляет собой межканальную корреляцию между входными каналами. Технический результат – повышение качества звукоизвлечения. 3 н. и 22 з.п. ф-лы, 15 ил.

Реферат

Настоящее изобретение относится к обработке звуковых сигналов и, в частности, к устройству и к способу, в которых используют матрицы оптимального микширования и, кроме того, к использованию декорреляторов при обработке пространственного звука.

Обработка звуковых сигналов становится все более и более важной. При перцепционной обработке пространственного звука типичным предположением является то, что пространственный аспект воспроизводимого громкоговорителем звука, определяется, в частности, значениями энергии и согласованными по времени зависимостями между звуковыми каналами в воспринимаемых диапазонах частот. Это основано на представлении о том, что эти характеристики при воспроизведении через громкоговорители передаются в интерауральные разности уровней, в интерауральные разности по времени и в интерауральные когерентности, которые являются бинауральными стимулами пространственного восприятия. Из этой концепции появились различные способы пространственной обработки, включающее в себя микширование с увеличением количества каналов, см. публикацию

[1] C. Faller, "Multiple-Loudspeaker Playback of Stereo Signals”, Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006,

пространственный микрофонный эффект, см., например, публикации

[2] V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding”, Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007; и

[3] C. Tournery, C. Faller, F. Küch, J. Herre, "Converting Stereo Microphone Signals Directly to MPEG Surround”, 128th AES Convention. May 2010;

и эффективную стереофоническую и многоканальную передачу, см., например, публикации

[4] J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, "Parametric Coding of Stereo Audio”, EURASIP Journal on Applied Signal Processing, Vol. 2005, No. 9, pp. 1305-1322, 2005; и

[5] J. Herre. K. Kjörling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Rödén, W. Oomen, K. Linzmeier and K. S. Chong, "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", Journal of the Audio Engineering Society, Vol. 56. No. 11, pp. 932-955. November 2008.

Тесты на прослушивание подтвердили пользу этой концепции в каждом применении, см., например, [1, 4, 5] и, например, публикацию

[6] J. Vilkamo, V. Pulkki, “Directional Audio Coding: Virtual Microphone-Based Synthesis and Subjective Evaluation". Journal of the Audio Engineering Society, Vol. 57, No. 9, pp. 709-724, September 2009.

Все эти технологии, несмотря на различия в применении, имеют одну и ту же основную задачу, которая состоит в генерации из набора входных каналов набора выходных каналов с заданными энергиями и зависимостями в виде функции от времени и частоты, которая, как можно предположить, является общей основной задачей при перцепционной обработке пространственного звука. Например, применительно к кодированию направленного звука (DirAC), см., например, [2], исходными каналами обычно являются сигналы с микрофонов первого порядка, которые обрабатывают посредством микширования, амплитудного панорамирования и декорреляции для перцепционной аппроксимации измеренного звукового поля. При микшировании с увеличением количества каналов (см. [1]) входные стереоканалы снова, как функцию времени и частоты, адаптивно распределяют в схему окружающего звука.

Задачей настоящего изобретения является создание усовершенствованных концепций для генерации набора выходных каналов с заданными свойствами из набора входных каналов. Задача настоящего изобретения решается посредством устройства по пункту 1 формулы изобретения, способа по пункту 25 формулы изобретения и компьютерной программы по пункту 26 формулы изобретения.

Предложено устройство для генерации выходного звукового сигнала, имеющего два или более выходных звуковых каналов, из входного звукового сигнала, имеющего два или более входных звуковых каналов. Это устройство содержит блок предоставления и процессор сигналов. Блок предоставления выполнен с возможностью предоставления первой ковариантности входного звукового сигнала. Процессор сигналов выполнен с возможностью генерации выходного звукового сигнала путем применения правила микширования, по меньшей мере, к двум из двух или более входных звуковых каналов. Процессор сигналов сконфигурирован с возможностью определения правила микширования на основании первой ковариантности входного звукового сигнала и на основании второй ковариантности выходного звукового сигнала, причем вторая ковариантность является иной, чем первая ковариантность.

Например, энергии каналов и согласованные по времени зависимости могут быть выражены вещественной частью ковариационной матрицы сигнала, например, в воспринимаемых диапазонах частот. Ниже представлена концепция обработки пространственного звука, обычно применяемая в этой области. Эта концепция содержит техническое решение с адаптивным микшированием для достижения заданной целевой ковариантности (второй ковариантности), например, заданной целевой ковариационной матрицы, за счет наилучшего использования независимых компонентов во входных каналах. В одном из вариантов осуществления изобретения может быть предусмотрено средство ввода необходимого количества декоррелированной звуковой энергии, когда цель не достигнута иным способом. Такая концепция является надежной по своей функции и может применяться в многочисленных вариантах использования. Целевая ковариантность может быть, например, предоставлена пользователем. Например, согласно одному из вариантов осуществления изобретения, устройство может иметь средство, обеспечивающее возможность ввода ковариантности пользователем.

Согласно одному из вариантов осуществления изобретения, блок предоставления может быть выполнен с возможностью предоставления первой ковариантности, причем первая ковариантность имеет первое состояние для первого частотно-временного элемента, и при этом первая ковариантность имеет второе состояние, являющееся иным, чем первое состояние, для второго частотно-временного элемента, являющегося иным, чем первый частотно-временной элемент. Блок предоставления не обязательно должен выполнять анализ для получения ковариантности, но может предоставлять эти данные из запоминающего устройства, за счет ввода данных пользователем или из аналогичных источников.

В другом варианте осуществления изобретения процессор сигналов может быть выполнен с возможностью определения правила микширования на основании второй ковариантности, причем вторая ковариантность имеет третье состояние для третьего частотно-временного элемента, и при этом вторая ковариантность имеет четвертое состояние, являющееся иным, чем третье состояние, для четвертого частотно-временного элемента, являющегося иным, чем третий частотно-временной элемент.

Согласно еще одному варианту осуществления изобретения, процессор сигналов выполнен с возможностью генерации выходного звукового сигнала путем применения правила микширования так, что каждый из двух или более выходных звуковых каналов зависит от каждого из двух или более входных звуковых каналов.

В еще одном варианте осуществления изобретения процессор сигналов может быть выполнен с возможностью определения правила микширования так, что мера погрешности является минимизированной. Мерой погрешности может являться, например, сигнал абсолютной разности между опорным выходным сигналом и реальным выходным сигналом.

В одном из вариантов осуществления изобретения мерой погрешности может являться, например, мера, зависящая от

,

где - выходной звуковой сигнал, причем

,

где - входной звуковой сигнал, а - матрица отображения, которая может являться специфической для конкретного применения, при этом - опорный целевой выходной звуковой сигнал.

Согласно еще одному варианту осуществления изобретения, процессор сигналов может быть выполнен с возможностью определения правила микширования так, что

минимизировано, где - оператор математического ожидания, в - заданная опорная точка, а - выходной звуковой сигнал.

Согласно еще одному варианту осуществления изобретения, процессор сигналов может быть сконфигурирован с возможностью определения правила микширования путем определения второй ковариантности, причем процессор сигналов может быть сконфигурирован с возможностью определения второй ковариантности на основании первой ковариантности.

Согласно еще одному варианту осуществления изобретения, процессор сигналов может быть выполнен с возможностью определения матрицы микширования в качестве правила микширования, причем процессор сигналов может быть выполнен с возможностью определения матрицы микширования на основании первой ковариантности и на основании второй ковариантности.

В еще одном варианте осуществления изобретения блок предоставления может быть выполнен с возможностью анализа первой ковариантности путем определения первой ковариационной матрицы входного звукового сигнала, и при этом процессор сигналов может быть сконфигурирован с возможностью определения правила микширования на основании второй ковариационной матрицы выходного звукового сигнала в качестве второй ковариантности.

Согласно еще одному варианту осуществления изобретения, блок предоставления может быть выполнен с возможностью определения первой ковариационной матрицы так, что каждое диагональное значение первой ковариационной матрицы может указывать энергию одного из входных звуковых каналов, а каждое значение первой ковариационной матрицы, не являющееся диагональным значением, может указывать межканальную корреляцию между первым входным звуковым каналом и отличным от него вторым входным звуковым каналом.

Согласно еще одному варианту осуществления изобретения, процессор сигналов может быть сконфигурирован с возможностью определения правила микширования на основании второй ковариационной матрицы, причем каждое диагональное значение второй ковариационной матрицы может указывать энергию одного из выходных звуковых каналов, а каждое значение второй ковариационной матрицы, не являющееся диагональным значением, может указывать межканальную корреляцию между первым выходным звуковым каналом и вторым выходным звуковым каналом.

Согласно еще одному варианту осуществления изобретения, процессор сигналов может быть выполнен с возможностью определения матрицы микширования так, что:

,

при этом

,

где - матрица микширования, - первая ковариационная матрица, - вторая ковариационная матрица, - первая транспонированная матрица первой разложенной матрицы , - вторая транспонированная матрица второй разложенной матрицы , - матрица, обратная первой разложенной матрице , а - первая унитарная матрица.

В еще одном варианте осуществления изобретения процессор сигналов может быть выполнен с возможностью определения матрицы микширования так, что

,

где

,

где - третья транспонированная матрица второй унитарной матрицы , а - третья унитарная матрица, при этом

,

где - четвертая транспонированная матрица матрицы микширования с сокращением количества каналов, - пятая транспонированная матрица третьей унитарной матрицы , а - диагональная матрица.

Согласно еще одному варианту осуществления изобретения, процессор сигналов выполнен с возможностью определения матрицы микширования в качестве правила микширования, причем процессор сигналов выполнен с возможностью определения матрицы микширования на основании первой ковариантности и на основании второй ковариантности, блок предоставления выполнен с возможностью предоставления или анализа первой ковариантности путем определения первой ковариационной матрицы входного звукового сигнала, а процессор сигналов сконфигурирован с возможностью определения правила микширования на основании второй ковариационной матрицы выходного звукового сигнала в качестве второй ковариантности, причем процессор сигналов сконфигурирован с возможностью модифицирования, по меньшей мере, некоторых диагональных значений диагональной матрицы , когда значения диагональной матрицы равны нулю или являются меньшими, чем заданное пороговое значение, так, чтобы эти значения были большими или равными пороговому значению, а это процессор сигналов выполнен с возможностью определения матрицы микширования на основании диагональной матрицы. Однако пороговое значение не обязательно должно являться заданным, но также может иметь функциональную зависимость.

В еще одном варианте осуществления изобретения процессор сигналов сконфигурирован с возможностью модифицирования, по меньшей мере, некоторые диагональных значений диагональной матрицы , причем и , где - первая ковариационная матрица, - диагональная матрица, - вторая матрица, - третья транспонированная матрица, а - четвертая транспонированная матрица пятой матрицы . Матрицами и могут являться унитарные матрицы.

Согласно еще одному варианту осуществления изобретения, процессор сигналов выполнен с возможностью генерации выходного звукового сигнала путем применения правила микширования, по меньшей мере, к двум из двух или более входных звуковых каналов для получения промежуточного сигнала и путем добавления разностного сигнала к промежуточному сигналу для получения выходного звукового сигнала.

В еще одном варианте осуществления изобретения процессор сигналов выполнен с возможностью определения матрицы микширования на основании диагональной матрицы усиления и вспомогательной матрицы так, что , где диагональная матрица усиления имеет значение

,

где ,

где - матрица микширования, - диагональная матрица усиления, а - вспомогательная матрица, при этом - вторая ковариационная матрица, а - пятая транспонированная матрица матрицы .

Ниже приведено объяснение предпочтительных вариантов осуществления настоящего изобретения со ссылкой на чертежи, на которых изображено следующее:

на Фиг. 1 проиллюстрировано устройство генерации выходного звукового сигнала, имеющего два или более выходных звуковых каналов, из входного звукового сигнала, имеющего два или более входных звуковых каналов, согласно одному из вариантов осуществления изобретения,

на Фиг. 2 изображен процессор сигналов согласно одному из вариантов осуществления изобретения,

на Фиг. 3 показан пример применения линейной комбинации векторов и для получения нового набора векторов и ,

на Фиг. 4 проиллюстрирована блок-схема устройства согласно другому варианту осуществления изобретения,

на Фиг. 5 показана схема, на которой изображен сигнал с микрофонов со стереосовпадением, подаваемый в кодер стандарта MPEG с объемным звучанием (MPEG Surround) согласно одному из вариантов осуществления изобретения,

на Фиг. 6 изображено устройство согласно другому варианту осуществления изобретения, относящемуся к коррекции ICC/уровня при микшировании с сокращением количества каналов для кодера SAM - MPS,

на Фиг. 7 изображено устройство согласно одному из вариантов осуществления изобретения для усовершенствования микрофонных массивов с малым разнесением,

на Фиг. 8 проиллюстрировано устройство согласно другому варианту осуществления изобретения для слепого улучшения качества пространственного звука при стереофоническом или многоканальном воспроизведении,

на Фиг. 9 проиллюстрировано усовершенствование при размещении громкоговорителей близко друг к другу,

на Фиг. 10 изображен вариант осуществления изобретения, обеспечивающий улучшенное воспроизведение кодирования направленного звука на основании микрофонного сигнала B-формата,

на Фиг. 11 проиллюстрирована таблица 1, в которой показаны численные примеры варианта осуществления изобретения, и

на Фиг. 12 изображена распечатка 1, на которой показан вариант реализации способа согласно одному из вариантов осуществления изобретения посредством программы Matlab.

На Фиг. 1 проиллюстрировано устройство генерации выходного звукового сигнала, имеющего два или более выходных звуковых каналов, из входного звукового сигнала, имеющего два или более входных звуковых каналов, согласно одному из вариантов осуществления изобретения. Это устройство содержит блок 110 предоставления и процессор 120 сигналов. Блок 110 предоставления выполнен с возможностью приема входного звукового сигнала, имеющего два или более входных звуковых каналов. Кроме того, блок 110 предоставления выполнен с возможностью анализа первой ковариантности входного звукового сигнала. Кроме того, блок 110 предоставления выполнен с возможностью предоставления первой ковариантности в процессор 120 сигналов. Кроме того, процессор 120 сигналов выполнен с возможностью приема входного звукового сигнала. Кроме того, процессор 120 сигналов выполнен с возможностью генерации выходного звукового сигнала путем применения правила микширования, по меньшей мере, к двум из двух или более входных каналов входного звукового сигнала. Процессор 120 сигналов сконфигурирован с возможностью определения правила микширования на основании первой ковариантности входного звукового сигнала и на основании второй ковариантности выходного звукового сигнала, причем вторая ковариантность является иной, чем первая ковариантность.

На Фиг. 2 проиллюстрирован процессор сигналов согласно одному из вариантов осуществления изобретения. Этот процессор сигналов содержит блок 210 составления матрицы оптимального микширования и блок 220 микширования. Блок 210 составления матрицы оптимального микширования составляет матрицу оптимального микширования. Для этого блок 210 составления матрицы оптимального микширования использует первую ковариантность 230 (например, ковариантность на входе) диапазона частот стереофонического или многоканального входного звукового сигнала, принятого, например, блоком 110 предоставления из варианта осуществления изобретения, показанного на Фиг. 1. Кроме того, блок 210 составления матрицы оптимального микширования определяет матрицу микширования на основании второй ковариантности 240, например, целевой ковариационной матрицы, которая может зависеть от применения. Матрица оптимального микширования, составленная блоком 210 составления матрицы оптимального микширования, может быть использована в качестве матрицы отображения канала. Затем матрица оптимального микширования может быть подана в блок 220 микширования. Блок 220 микширования применяет матрицу оптимального микширования для стереофонического или многоканального диапазона частот на входе для получения на выходе стереофонического или многоканального диапазона частот выходного звукового сигнала. Выходной звуковой сигнал имеет желательную вторую ковариантность (целевую ковариантность).

Для более подробного объяснения вариантов осуществления настоящего изобретения введены следующие определения. Теперь заданы комплексные входной и выходной сигналы и с нулевым средним значением, где - индекс времени, - индекс частоты, - индекс входного канала, а - индекс выходного канала. Кроме того, заданы сигнальные векторы входного звукового сигнала и выходного звукового сигнала :

, (1)

где и - общее количество каналов на входе и на выходе. Кроме того, , и заданы сигналы с заполнением нулями равной размерности:

(2)

Сигналы с заполнением нулями могут использоваться в формулировке до тех пор, пока полученное решение не будет распространено на векторы различной длины.

Как был объяснено выше, широко используемой мерой для описания пространственного аспекта многоканального звука является комбинация энергий каналов и согласованных по времени зависимостей. Эти свойства содержатся в вещественной части ковариационных матриц, заданных следующим образом:

(3)

В уравнении (3) и ниже представляет собой оператор математического ожидания. представляет собой оператор вещественной части, а и - сопряженные транспонированные матрицы и . Оператор математического ожидания представляет собой математический оператор. При практическом применении его заменяют оценочным значением, таким как, например, среднее значение за определенный промежуток времени. В приведенных ниже разделах использование термина "ковариационная матрица" относится к этому вещественнозначному определению. и являются симметричными и положительно полуопределенными, и, следовательно, могут быть заданы такие вещественные матрицы и , что:

(4)

Такие разложения могут быть получены, например, с использованием разложения Холецкого (Cholesky) или разложения по собственным значениям, см., например, публикацию:

[7] Golub, G.H. and Van Loan, C.F., "Matrix computations”, Johns Hopkins Univ Press, 1996.

Следует отметить, что существует бесконечное число разложений, удовлетворяющих уравнению (4). Для любых ортогональных матриц и матрицы и также удовлетворяют этому условию, поскольку

(5)

В случаях использования стереозвука ковариационная матрица часто задают в виде энергий каналов и межканальной корреляции (ICC), например, в [1, 3, 4]. Диагональные значения являются энергиями каналов, а ICC между двумя каналами равна

(6)

и, соответственно, для . Индексы в скобках обозначают строку и столбец матрицы.

Остальным определением является определяемая применением матрица отображения, которая содержит информацию о том, какие входные каналы подлежат использованию в составе каждого выходного канала. Посредством может быть задан опорный сигнал:

(7)

Матрица отображения может содержать изменения размерности и масштабирования, сочетания и переупорядочения каналов. Вследствие дополненного нулями определения сигналов, здесь представляет собой квадратную матрицу N × N, которая может содержать нулевые строки или столбцы. Некоторыми примерами являются следующие:

- Улучшение пространственных характеристик: в тех областях применения, где выходной сигнал должен иметь максимальное сходство с входным сигналом.

- Микширование с сокращением количества каналов: матрица представляет собой матрицу микширования с сокращением количества каналов.

- Пространственный синтез по сигналам с микрофонов первого порядка: может представлять собой, например, матрицу микширования амбифонических микрофонов, а это означает, что представляет собой набор сигналов с виртуальных микрофонов.

Ниже сформулировано, как следует генерировать сигнал из сигнала с ограничивающим условием, что имеет определяемую применением ковариационную матрицу . Применение также определяет матрицу отображения, которая дает опорную точку для оптимизации. Входной сигнал имеет измеренную ковариационную матрицу . Как изложено, в предложенных концепциях для выполнения этого преобразования используют, в первую очередь, концепцию только оптимального микширования каналов, поскольку использование декорреляторов обычно включает в себя качество сигнала, и, во вторую очередь, введение декоррелированной энергии, когда цель не достигается иным способом.

Согласно этим концепциям, соотношение между входным и выходным сигналами может быть записано следующим образом:

, (8)

где - вещественная матрица микширования согласно первичной концепции, а - разностный сигнал согласно вторичной концепции.

Ниже предложены концепции для модификации ковариационной матрицы.

Сначала решают задачу согласно первичной концепции просто путем перекрестного микширования входных каналов. В этом случае уравнение (8) упрощается до

(9)

Из уравнений (3) и (9) получают, что

(10)

Из уравнений (5) и (10) следует, что

, (11)

из чего следует набор решений для , удовлетворяющих уравнению (10),

(12)

Условием для этих решений является существование Остающимся свободным параметром является ортогональная матрица .

Ниже описано то, как находят матрицу , которая обеспечивает оптимальную матрицу . Из всех в уравнении (12) ищут ту, которая дает выходной сигнал, наиболее близкий к заданной опорной точке , то есть которая минимизирует

, (13a)

то есть которая минимизирует

(13).

Теперь задан такой сигнал , что может быть выбран так, что , поскольку

(14)

Из этого следует, что

(15)

Уравнение (13) может быть записано в следующем виде:

(16)

Из может быть легко показано для вещественной симметричной матрицы , что , что является следом матрицы. Из этого следует, что уравнение (16) принимает вид

(17)

Для следов матрицы может быть легко подтверждено, что

(18)

Используя эти свойства, уравнение (17) принимает вид

. (19)

Только лишь последний член зависит от . Таким образом, задача оптимизации состоит в следующем:

(20)

Можно легко показать для неотрицательной диагональной матрицы и любой ортогональной матрицы , что

(21)

В силу этого путем определения сингулярного разложения , где является неотрицательной и диагональной, а и являются ортогональными, следует, что

(22)

для любой ортогональной . Это равенство справедливо для

, (23)

в силу чего эта дает максимум и минимум меры погрешности в уравнении (13).

Устройство согласно одному из вариантов осуществления изобретения определяет матрицу оптимального микширования с минимальной погрешностью . Следует отметить, что ковариантность входного звукового сигнала и выходного звукового сигнала может изменяться для различных частотно-временных элементов. Для этого блок предоставления из устройства согласно одному из вариантов осуществления изобретения выполнен с возможностью анализа ковариантности входного звукового канала, которая может быть различной для различных частотно-временных элементов. Кроме того, процессор сигналов из устройства согласно одному из вариантов осуществления изобретения выполнен с возможностью определения правила микширования, например, матрицы микширования, на основании второй ковариантности выходного звукового сигнала, причем вторая ковариантность может иметь различные значения для различных частотно-временных элементов.

Поскольку определенная матрица микширования применяется для каждого из входных звуковых каналов входного звукового сигнала, и поскольку каждый из полученных в результате этого выходных звуковых каналов выходного звукового сигнала может, соответственно, зависеть от каждого из входных звуковых каналов, то, следовательно, процессор сигналов из устройства согласно одному из вариантов осуществления изобретения выполнен с возможностью генерации выходного звукового сигнала путем применения правила микширования так, что каждый из двух или более выходных звуковых каналов зависит от каждого из двух или более входных звуковых каналов входного звукового сигнала.

Согласно другому варианту осуществления изобретения, предложено использование декорреляции, когда не существует или является неустойчивой. В описанных выше вариантах осуществления изобретения было предложено такое техническое решение для определения матрицы оптимального микширования, в котором предполагалось, что существует. Однако может существовать не всегда, или обратная ей матрица может содержать очень большие множители, если некоторые из основных составляющих в очень слабы. Эффективным способом регуляризации обратной матрицы является использование сингулярного разложения . Соответственно, обратная матрица выражается следующим образом:

(24)

Проблемы возникают тогда, когда некоторые из диагональных значений неотрицательной диагональной матрицы равны нулю или очень малы. В этом случае концепция, которая обеспечивает надежную регуляризацию обратной матрицы