Устройство и способ извлечения прямого сигнала/сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации
Иллюстрации
Показать всеИзобретение относится к области обработки звуковых сигналов. Технический результат заключается в обеспечении возможности извлечения части прямого сигнала или части сигнала окружения из сигнала понижающего микширования посредством использования пространственной параметрической информации. Технический результат достигается за счет устройства для извлечения прямого сигнала и/или сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации, которое включает эстиматор прямого сигнала/сигнала окружения и экстрактор прямого сигнала/сигнала окружения. Эстиматор прямого сигнала/сигнала окружения формируется, чтобы оценить информацию об уровне прямой части и/или окружающей части многоканального звукового сигнала, основываясь на пространственной параметрической информации. Экстрактор прямого сигнала/сигнала окружения формируется, чтобы извлечь прямую часть сигнала и/или окружающую часть сигнала из сигнала понижающего микширования, основываясь на информации о предполагаемом уровне прямой части или окружающей части. 3 н. и 13 з.п. ф-лы, 19 ил.
Реферат
Данное изобретение имеет отношение к обработке звукового сигнала и, в частности, к устройству и способу извлечения прямого сигнала/сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации. Дальнейшие осуществления данного изобретения касаются использования разделения прямого сигнала/сигнала окружения для улучшения бинаурального воспроизведения звуковых сигналов. Дальнейшие осуществления касаются бинаурального воспроизведения многоканального звука, где многоканальный звук означает звук, имеющий два или больше каналов. Типичное звуковое содержание, имеющее многоканальный звук, представляет собой звуковую дорожку из кинофильма и многоканальную запись музыки.
Система пространственного слуха человека имеет тенденцию обрабатывать звук примерно в двух частях. Это, с одной стороны, локализуемая или прямая и, с другой стороны, нелокализуемая или окружающая часть. Существует много применений звуковой обработки, такие как бинауральное звуковое воспроизведение и многоканальное повышающее микширование, где желательно иметь доступ к этим двум звуковым компонентам.
В области техники известны способы разделения прямого сигнала/сигнала окружения, как описано в работе «Разложение первичного окружающего сигнала и основанная на векторе локализация для пространственного звукового кодирования и расширения», Гудвин, Джот, 1ЕЕЕМеждунар. Конференция По Акустике, Речи и Обработке Сигнала, апрель 2007 г.; «Извлечение основанного на корреляции окружения из стерео записи», Меримаа, Гудвин, Джот, AES 123-ье Соглашение, Нью-Йорк, 2007 г.; «Воспроизведение стереосигналов с множественными громкоговорителя», С.Фоллер, Журнал AES, октябрь 2007 г.; «Разложение первичных окружающих стерео звуковых сигналов посредством использования индекса сложного подобия»; Гудвин и др., Публикац. №1182009/0198356 A1, август 2009 г.; «Название патентной заявки: Способ получения многоканального звукового сигнала из стерео сигналов». Изобретатели: Кристоф Фоллер, Агенты: Фиш & Ричардсон П.К., Представители: LGELECTRONICS, INC, Происхождение: МИННЕАПОЛИС, Миннесота, США, 1РС8Класс: AH04R500FI, USPC Класс: 381 1; и «Получение окружения для стерео сигналов», Авендано и др., Дата выпуска: 28 июля 2009 г., Заявка: 10/163,158, зарегистрирована: 4 июня 2002 г., которые могут использоваться для различных применений. Современные алгоритмы разделения прямого сигнала - сигнала окружения основываются на сравнении межканального сигнала стереозвука в частотных диапазонах.
Кроме того, в работе «Бинауральный 3-D Рендеринг Звука, Основанный на Пространственном Кодировании Звуковой Сцены», Гудвин, Джот, AES 123-ье Соглашение, Нью-Йорк 2007 г., исследуется бинауральное воспроизведение с извлечением окружения. Извлечение окружения в связи с бинауральным воспроизведением также упоминается в работе Дж. Ашера и Дж. Бенести, «Повышение качества пространственного звука: новый реверберационно-извлекающий звуковой микшер повышающего микширования», Транс. IEEE. Обработка Звука, Речи, Языка, том 15, стр.2141-2150, сентябрь 2007 г. Последняя работа сосредотачивается на извлечении окружения в стерео записи с микрофона посредством использования адаптивной минимальной среднеквадратической перекрестной между каналами фильтрации прямого компонента в каждом канале. Пространственные звуковые кодер-декодеры, например, MPEG окружающий, обычно состоят из одно- или двухканального звукового потока в комбинации с пространственной дополнительной информацией, которая расширяет звук в множественные каналы, как описано в ISO/IEC 23003-1 - MPEG Окружающий; и в работе Брибаарта, Дж., Герре, Дж., Виллемоуса, Л., Джина, К., Керлинга, К., Плогстиса, Дж., Коппенса, Дж. (2006 г.). «Многоканальный становится мобильным: MPEG Surround науральный рендеринг». Уч. записки 29-й конференция AES, Сеул, Корея.
Однако, современные технологии параметрического звукового кодирования, такие как MPEG-Surround ("пространственное аудиокодирование" - MPS) и параметрическое стерео (PS), обеспечивают только ограниченное число звуковых каналов понижающего микширования - в некоторых случаях только одного - наряду с добавочной пространственной дополнительной информацией. Сравнение между «оригинальными» входными каналами возможно только после предварительного декодирования звука в намеченный выходной формат.
Поэтому, требуется концепция извлечения части прямого сигнала или части сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации. Однако не существует решений извлечения прямого сигнала/сигнала окружения посредством использования параметрической дополнительной информации.
Поэтому, задачей данного изобретения является обеспечение концепции извлечения части прямого сигнала или части сигнала окружения из сигнала понижающего микширования посредством использования пространственной параметрической информации.
Это достигается посредством использования устройства по п.1, способа по п.15 или компьютерной программы по п.16.
Главная идея, лежащая в основе данного изобретения, состоит в том, что вышеупомянутое извлечение прямого сигнала/сигнала окружения может достигаться, когда информация об уровне прямой части или окружающей части многоканального звукового сигнала оценивается, основываясь на пространственной параметрической информации, и часть прямого сигнала или часть сигнала окружения извлекается из сигнала понижающего микширования, основываясь на информации о предполагаемом уровне. Здесь, сигнал понижающего микширования и пространственная параметрическая информация представляют многоканальный звуковой сигнал, имеющий больше каналов, чем сигнал понижающего микширования. Эта мера делает возможным извлечение прямого сигнала и/или сигнала окружения из сигнала понижающего микширования, имеющего один или более входных каналов, при использовании пространственной параметрической дополнительной информации.
Согласно осуществлению данного изобретения, устройство для извлечения прямого сигнала/сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации включает эстиматор (блок оценки) прямого сигнала/сигнала окружения и экстрактор (блок извлечения) прямого сигнала/сигнала окружения. Сигнал понижающего микширования и пространственная параметрическая информация представляют многоканальный звуковой сигнал, имеющий больше каналов, чем сигнал понижающего микширования. Кроме того, пространственная параметрическая информация включает межканальные отношения многоканального звукового сигнала. Эстиматор прямого сигнала/сигнала окружения формируются, чтобы оценить информацию об уровне прямой части или окружающей части многоканального звукового сигнала, основанную на пространственной параметрической информации. Экстрактор прямого сигнала/сигнала окружения формируются, чтобы извлекать часть прямого сигнала или часть сигнала окружения из сигнала понижающего микширования, основанного на информации о предполагаемом уровне прямой части или окружающей части.
Согласно другому осуществлению данного изобретения, устройство для извлечения прямого сигнала/сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации далее включает устройство бинаурального рендеринга прямого звука, устройство бинаурального рендеринга (визуализации) окружающего звука и объединитель. Устройство бинаурального ренденинга прямого звука формируется, чтобы обработать часть прямого сигнала для получения первого бинаурального выходного сигнала. Устройство бинаурального рендеринга окружающего звука формируется, чтобы обработать часть окружающего сигнала для получения второго бинаурального выходного сигнала. Объединитель формируется, чтобы комбинировать первый и второй бинауральные выходные сигналы для получения объединенного бинаурального выходного сигнала. Поэтому, может быть получено бинауральное воспроизведение звукового сигнала, где часть прямого сигнала и часть сигнала окружения звукового сигнала обрабатываются отдельно.
В дальнейшем, осуществления данного изобретения объясняются со ссылкой на сопровождающие рисунки, в которых:
Фиг.1 показывает блок-схему осуществления устройства для извлечения прямого сигнала/сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации, представляющей многоканальный звуковой сигнал;
Фиг.2 показывает блок-схему осуществления устройства для извлечения прямого сигнала/сигнала окружения из моно сигнала понижающего микширования и пространственной параметрической информации, представляющей параметрический стерео звуковой сигнал;
Фиг.3А показывает схематическую иллюстрацию спектрального разложения многоканального звукового сигнала согласно осуществлению данного изобретения;
Фиг.3В показывает; схематическую иллюстрацию вычисления межканальных отношений многоканального звукового сигнала, основанного на спектральном разложении фиг.3А;
Фиг.4 показывает блок-схему осуществления экстрактора прямого сигнала/сигнала окружения с понижающим микшированием информации о предполагаемом уровне;
Фиг.5 показывает блок-схему дальнейшего осуществления экстрактора прямого сигнала/сигнала окружения с применением параметров усиления к сигналу понижающего микширования;
Фиг.6 показывает блок-схему дальнейшего осуществления экстрактора прямого сигнала/сигнала окружения, основанного на решении LMS (алгоритм минимальной среднеквадратичной ошибки) с перекрестным микшированием каналов;
Фиг.7А показывает блок-схему осуществления эстиматора (блока оценки) прямого сигнала/сигнала окружения посредством использования формулы оценки стерео окружения;
Фиг.7В показывает график примерного энергетического отношения прямой-к-общему по отношению к межканальной когерентности;
Фиг.8 показывает блок-схему системы кодирующего устройства/декодера согласно осуществлению данного изобретения;
Фиг.9А показывает блок-схему обзора бинаурального рендеринга прямого звука согласно осуществлению данного изобретения;
Фиг.9В показывает блок-схему деталей бинаурального рендеринга прямого звукафиг.9А;
Фиг.10А показывает блок-схему обзора бинаурального рендеринга окружающего звука согласно осуществлению данного изобретения;
Фиг.10В показывает блок-схему деталей бинаурального рендеринга окружающего звука фиг.10А;
Фиг.11 показывает концептуальную блок-схему осуществления бинаурального воспроизведения многоканального звукового сигнала;
Фиг.12 показывает полную блок-схему осуществления извлечения прямого сигнала/сигнала окружения, включая бинауральное воспроизведение;
Фиг.13А показывает блок-схему осуществления устройства для извлечения прямого сигнала/сигнала окружения из моно сигнала понижающего микширования в области банка фильтров;
Фиг.13В показывает блок-схему осуществления блока извлечения прямого сигнала/сигнала окруженияфиг.13А; и
Фиг.14 показывает схематическую иллюстрацию примерной схемы MPEG Окружающего декодирования согласно дальнейшему осуществлению данного изобретения.
Фиг.1 показывает блок-схему осуществления устройства 100 для извлечения прямого сигнала/сигнала окружения 125-1, 125-2 из сигнала понижающего микширования 115 и пространственной параметрической информации 105. Как показано нафиг.1, сигнал понижающего микширования 115 и пространственная параметрическая информация 105 представляют многоканальный звуковой сигнал 101, имеющий больше каналов Ch1 … ChN, чем сигнал понижающего микширования 115. Пространственная параметрическая информация 105 может включать межканальные отношения многоканального звукового сигнала 101. В частности, устройство 100 включает эстиматор прямого сигнала/сигнала окружения 110 и экстрактор прямого сигнала/ сигнала окружения 120. Эстиматор прямого сигнала/сигнала окружения 110 может формироваться, чтобы оценить информацию об уровне 113 прямой части или окружающей части многоканального звукового сигнала 101, основанную на пространственной параметрической информации 105. Экстрактор прямого сигнала/сигнала окружения 120 может формироваться, чтобы извлечь часть прямого сигнала 125-1 или часть сигнала окружения 125-2 из сигнала понижающего микширования 115, основанного на информации о предполагаемом уровне 113 прямой части или окружающей части.
Фиг.2 показывает блок-схему осуществления устройства 200 для извлечения прямого сигнала/сигнала окружения 125-1, 125-2 из моно сигнала понижающего микширования 215 и пространственной параметрической информации 105, представляющей параметрический стерео звуковой сигнал 201. Устройство 200фиг.2, по существу, включает те же самые блоки, что и устройство 100 фиг.1. Поэтому, идентичные блоки, имеющие подобное выполнение и/или функции, обозначены теми же самыми цифрами. Кроме того, параметрический стерео звуковой сигнал 201 фиг.2 может соответствовать многоканальному звуковому сигналу 101 фиг.1, и моно сигнал понижающего микширования 215 фиг.2 может соответствовать сигналу понижающего микширования 115 фиг.1. В осуществлении фиг.2 моно сигнал понижающего микширования 215 и пространственная параметрическая информация 105 представляют параметрический стерео звуковой сигнал 201. Параметрический стерео звуковой сигнал может включать левый канал, обозначенный «L», и правый канал, обозначенным «R». Здесь, экстрактор прямого сигнала/сигнала окружения 120 формируются, чтобы извлечь часть прямого сигнала 125-1 или часть сигнала окружения 125-2 из моно сигнала понижающего микширования 215, основанного на информации о предполагаемом уровне 113, которая может быть получена из пространственной параметрической информации 105 посредством использования эстиматора (блока оценки) прямого сигнала/сигнала окружения 110.
Практически, пространственные параметры (пространственная параметрическая информация 105) на осуществлении фиг.1 или фиг.2, соответственно, в частности, относятся к MPEG, окружающей (MPS) или параметрический стерео (PS) дополнительной информация. Эти две технологии - современный способ стерео кодирования с низкой скоростью передачи битов или способ кодирования окружающего звука. Со ссылкой на фиг.2, PS предоставляет один звуковой канал понижающего микширования с пространственными параметрами, и со ссылкой на фиг.1, MPS обеспечивает один, два или больше звуковых каналов понижающего микширования с пространственными параметрами.
В частности, осуществления фиг.1 и фиг.2 ясно показывают, что пространственная параметрическая дополнительная информация 105 может легко использоваться в области извлечения прямого сигнала и/или сигнала окружения из сигнала (то есть, сигнала понижающего микширования 115; 215), который имеет один или более входных каналов.
Оценка прямого уровня и/или уровня окружения (информация об уровне 113) основывается на информации о межканальных отношениях или межканальных различиях, таких как разности уровней и/или корреляция. Эти значения могут быть вычислены из стерео или многоканального сигнала. Фиг.3А показывает схематическую иллюстрацию спектрального разложения 300 многоканального звукового сигнала (Ch1 … ChN), используемого для вычисления межканальных отношений соответствующего Ch1 … ChN. Как видно по фиг.3А, спектральное разложение проверенного канала, Chi многоканального звукового сигнала (Ch1 … ChN) или линейной комбинации R остальных каналов, соответственно, включает множество 301 под диапазонов, где каждый под диапазон 303 множества 301 под диапазонов расширяется вдоль горизонтальной оси (ось времени 310), имея значения под диапазонов 305, как обозначено маленькими прямоугольниками частотно/временной сетки. Кроме того, под диапазоны 303 располагаются последовательно вдоль вертикальной оси (ось частоты 320), соответствуя различным частотным областям банка фильтров. На фиг.3А соответствующий частотно/временной элемент X i n , k или X R n , k обозначен пунктирной линией. Здесь, индекс i обозначает канал Chi и R - линейная комбинация остальной части каналов, в то время как индексы n и k соответствуют определенным временным интервалам банка фильтров 307 и под диапазонам банка фильтра 303. Основанные на этих частотно/временных элементах X i n , k или X R n , k , например, расположенных в той же самой частотно/временной точке (t0, f0) относительно частотно/временных осей 310, 320, межканальные отношения 335, такие как межканальные когерентности (ICCi) или разности уровней канала (CLDi) проверенного канала Chi, могут вычисляться на стадии 330, - как показано на фиг.3В. Здесь, вычисление межканальных отношений ICCi и CLDi может быть выполнено при использовании следующих отношений:
I C C i = 〈 C h i R * 〉 〈 C h i C h i * 〉 〈 R R * 〉
σ i = 〈 C h i C h i * 〉 〈 R R * 〉
где Chi проверенный канал и R - линейная комбинация остающихся каналов, в то время как <…> обозначает среднее по времени. Примером линейной комбинации R остающихся каналов является их сумма с нормализованной энергией. Кроме того, разность уровней канала (CLDi) обычно является значением параметра σi в децибелах.
Со ссылкой на вышеупомянутые уравнения разность уровней канала (CLDi) или параметр σi может соответствовать уровню Pi канала Chi, нормализованному до уровня PR линейной комбинации R остальных каналов. Здесь, уровни Pi или PR могут быть получены из параметра разности межканальных уровней ICLDi канала Chi и линейная комбинация ICLDR параметров разности межканальных уровней ICLDj (j≠i) остальных каналов.
Здесь, ICLDi и ICLDj могут быть, соответственно, связаны с опорным каналом CHref. В дальнейших осуществлениях параметры разности межканальных уровней ICLDi и ICLDj могут также быть связаны с любым другим каналом многоканального звукового сигнала (Ch1 … ChN), являющимся опорным каналом CHref. Это, в конечном счете, приведет к тому же результату для разности уровней канала (CLDi) или параметра σi.
Согласно дальнейшим осуществлениям, межканальные отношения 335 фиг.3В могут также быть получены посредством воздействия на различные или все пары Chi, Chj входных каналов многоканального звукового сигнала (Ch1 … ChN). В этом случае, могут быть получены попарно вычисленные параметры межканальной когерентности ICCi,j или разность уровней канала (CLDi,j) или параметры σi,j (или ICLDi,j), и, соответственно, индексы (i,j), обозначающие определенную пару каналов Chi и Chj.
Фиг.4 показывает блок-схему осуществления 400 экстрактора прямого сигнала/ сигнала окружения 420, который включает понижающее микширование информации о предполагаемом уровне 113. Осуществление фиг.4, по существу, включает те же самые блоки, что и осуществление фиг.1. Поэтому, идентичные блоки, имеющие подобное выполнение и/или функции, обозначены теми же самыми цифрами. Однако, экстрактор прямого сигнала/сигнала окружения 420 фиг.4, который может соответствовать экстрактору прямого сигнала/сигнала окружения 120 фиг.1, формируются, чтобы микшировать с понижением информацию о предполагаемом уровне 113 прямой части или окружающей части многоканального звукового сигнала для получения микшированной с понижением информации об уровне прямой части или окружающей части и извлечения прямой части сигнала 125-1 или окружающей части сигнала 125-2 из сигнала понижающего микширования 115, основанного на микшированной с понижением информации об уровне. Как показано на фиг.4, пространственная параметрическая информация 105 может, например, быть получена из многоканального звукового сигнала 101 (Ch1 … ChN) фиг.1 и может включать межканальные отношения 335 Ch1 … ChN, представленные на фиг.3В. Пространственная параметрическая информация 105 фиг.4 может также включать информацию о понижающем микшировании 410, которая подается в экстрактор прямого сигнала/сигнала окружения 420. В осуществлениях информация о понижающем микшировании 410 может характеризовать понижающее микширование оригинального многоканального звукового сигнала (например, многоканальный звуковой сигнал 101 фиг.1) в сигнал понижающего микширования 115. Понижающее микширование может, например, быть выполнено посредством использования микшера понижающего микширования (не показан), работающего в любой области кодирования, такой как временной интервал или спектральная область.
Согласно дальнейшим осуществлениям, экстрактор прямого сигнала/сигнала окружения 420 может также формироваться, чтобы выполнить понижающее микширование информации о предполагаемом уровне 113 прямой части или окружающей части многоканального звукового сигнала 101, комбинируя информацию о предполагаемом уровне прямой части с когерентным суммированием и информацию о предполагаемом уровне окружающей части с некогерентным суммированием.
Показано, что информация о предполагаемом уровне может представлять энергетические уровни или уровни мощности прямой части или окружающей части, соответственно.
В частности, понижающее микширование энергий (то есть, информация о предполагаемом уровне 113) прямой/окружающей части может быть выполнено, допуская полную некогерентность или полную когерентность между каналами. Две формулы, которые могут быть применены в случае понижающего микширования, основанного на некогерентном или когерентном суммировании, соответственно, следующие.
Для некогерентных сигналов, микшированная с понижением энергия или информация о микшированном с понижением уровне могут быть вычислены посредством E D M X = ∑ i = 1 N g i 2 E C h i .
Для когерентных сигналов, микшированная с понижением энергия или информация о микшированном с понижением уровне могут быть вычислены посредством E D M X = ( ∑ i = 1 N g i E C h i ) 2 .
Здесь, g-коэффициент усиления понижающего микширования, который может быть получен из информации о понижающем микшировании, в то время как E (Chi) обозначает энергию прямой/окружающей части канала Chi многоканального звукового сигнала. В качестве типичного примера некогерентного понижающего микширования для случая понижающего микширования 5.1 каналов в два, энергия левого понижающего микширования может быть:
EL_DMX=ELeft+ELeft_surround+0,5*ECenter
Фиг.5 показывает дальнейшее осуществление экстрактора прямого сигнала/сигнала окружения 520 с применением параметров усиления gD, gA к сигналу понижающего микширования 115. Экстрактор прямого сигнала/сигнала окружения 520 фиг.5 может соответствовать экстрактору прямого сигнала/сигнала окружения 420 фиг.4. Во-первых, информация о предполагаемом уровне прямой части 545-1 или окружающей части 545-2 может быть получена из эстиматора (блока оценки) прямого сигнала/сигнала окружения как было описано прежде. Полученная информация об уровне 545-1, 545-2 может быть объединенной/микшированной с понижением на этапе 550, чтобы получить микшированную с понижением информацию об уровне прямой части 555-1 или окружающей части 555-2, соответственно. Тогда, на этапе 560, параметры усиления gD 565-1 или gA 565-2 могут быть получены из микшированной с понижением информации об уровне 555-1, 555-2 для прямой части или окружающей части, соответственно. Наконец, экстрактор прямого сигнала/сигнала окружения 520 может использоваться, чтобы применить полученные параметры усиления 565-1, 565-2 к сигналу понижающего микширования 115 (этап 570), таким образом, чтобы получить часть прямого сигнала 125-1 или окружающего сигнала 125-2.
Здесь, следует заметить, что в осуществлениях фиг.1; 4; 5, сигнал понижающего микширования 115 может состоять из множества каналов понижающего микширования (Ch1 … ChN), присутствующих на входах экстракторов прямого сигнала/сигнала окружения 120; 420; 520, соответственно.
В дальнейших осуществлениях, экстрактор прямого сигнала/сигнала окружения 520 формируется, чтобы определить энергетическое отношение прямой - к - общему (DTT) или окружающий - к - общему (АТТ) из микшированной с понижением информации об уровне 555-1, 555-2 прямой части или окружающей части и использовать в качестве параметров усиления 565-1, 565-2 параметры извлечения, основанные на определенном энергетическом отношении OTT или ATT.
В дальнейших осуществлениях, экстрактор прямого сигнала/сигнала окружения 520 формируется, чтобы умножить сигнал понижающего микширования 115 на первый параметр извлечения корня квадратного (DTT), чтобы получить часть прямого сигнала 125-1, и на второй параметр извлечения корня квадратного (ATT), чтобы получить часть окружающего сигнала 125-2. Здесь, сигнал понижающего микширования 115 может соответствовать моно сигналу понижающего микширования 215, как показано на фиг.2 осуществления («случай моно понижающего микширования»).
В случае моно понижающего микширования, извлечение окружения может выполняться посредством применения корня квадратного (ATT) и корня квадратного (DTT). Однако, тот же подход действителен также для многоканальных сигналов понижающего микширования, в частности, при применении и корня квадратного (ATTi) и корня квадратного (DTTj) для каждого канала Chi.
Согласно дальнейшим осуществлениям, в случае, если сигнал понижающего микширования 115 включает множество каналов («случай многоканального понижающего микширования»), экстрактор прямого сигнала/сигнала окружения 520 может формироваться, чтобы применять первое множество параметров извлечения, например, корня квадратного (DTTi), к сигналу понижающего микширования 115, чтобы получить часть прямого сигнала 125-1, и второе множество параметров извлечения, например, корня квадратного (ATTi), к сигналу понижающего микширования 115, чтобы получить часть сигнала окружения 125-2. Здесь, первое и второе множество параметров извлечения могут создать диагональную матрицу.
Вообще, экстрактор прямого сигнала/сигнала окружения 120; 420; 520 может также формироваться, чтобы извлечь часть прямого сигнала 125-1 или часть сигнала окружения125-2 посредством применения квадратной M×M матрицы извлечения к сигналу понижающего микширования 115, где размер (M) квадратной M×M матрицы извлечения соответствует числу (M) каналов понижающего микширования (Ch1 … ChN).
Использование извлечения окружения может, поэтому, быть описано посредством применения квадратной M×M матрицы извлечения, где М является числом каналов понижающего микширования (Ch1 … ChN). Это может включать все возможные способы управления входным сигналом для получения выхода прямого сигнала/сигнала окружения, включая относительно простой подход, основанный на параметрах корня квадратного (ATTi) и корня квадратного (DTTi), представляющих главные элементы квадратной M×M матрицы извлечения, формируемой как диагональная матрица, или подход LMS (алгоритм минимальной среднеквадратичной ошибки) перекрестного микширования в качестве полной матрицы. Последняя будет описана в дальнейшем. Здесь, следует заметить, что вышеупомянутый подход, использующий M×M матрицу извлечения, покрывает любое число каналов, включая один.
Согласно дальнейшим осуществлениям, матрица извлечения не обязательно должна быть квадратной матрицей матричного размера M×M, потому что у нас может быть меньшее число выходных каналов. Поэтому, матрица извлечения может иметь сокращенное число линий. Примером этого будет извлечение одиночного прямого сигнала вместо M.
Также необязательно всегда брать все M каналы понижающего микширования как входные, соответствующие имеющимся M колонкам матрицы извлечения. Это, в частности, может быть важно для применений, где не обязательно иметь все каналы как входные.
Фиг.6 показывает блок-схему дальнейшего осуществления 600 экстрактора прямого сигнала/сигнала окружения 620, основанного на решении LMS (алгоритм минимальной среднеквадратичной ошибки) с перекрестным микшированием каналов. Экстрактор прямого сигнала/сигнала окружения 620 фиг.6 может соответствовать экстрактору прямого сигнала/сигнала окружения 120 фиг.1. В осуществлении фиг.6 идентичные блоки имеют подобное выполнение и/или функции как, в осуществлении фиг.1, поэтому, обозначены теми же самыми цифрами. Однако, сигнал понижающего микширования 615 фиг.6, который может соответствовать сигналу понижающего микширования 115 фиг.1, может включать множество 617 каналов понижающего микширования Ch1 … ChN, где число каналов понижающего микширования (M) меньше, чем число каналов Ch1 … ChN (N) многоканального звукового сигнала 101, то есть, M<N. А именно, экстрактор прямого сигнала/сигнала окружения 620 формируются, чтобы извлечь часть прямого сигнала 125-1 или часть сигнала окружения 125-2 посредством решения алгоритма минимальной среднеквадратичной ошибки (LMS) с перекрестным микшированием каналов; решение LMS не требует равных уровней окружения. В дальнейшем будет предоставлено решение LMS, не требующее равных уровней окружения и являющееся также растяжимым для любого числа каналов. Только что упомянутое решение LMS не является обязательным, но представляет более точную альтернативу вышеописанному способу.
Символы, используемые в решении LMS для весовых коэффициентов перекрестного микширования для извлечения прямого сигнала/сигнала окружения:
1 | Chi channel i |
2 | ai gain of the direct sound in channel i |
3 | D and D ^ direct part of the sound and its estimate |
4 | Ai and A ^ i ambient part of channel i and its estimate |
5 | PX=E[XX*] estimated energy of X |
6 | E[] expectation |
7 | E X ^ estimation error of X |
8 | w D ^ i LMS crossmixing weights for channel i to the direct part |
9 | w A ^ i n LMS crossmixing weights for channel n to ambience of channel i |
1 | канал i |
2 | усиление прямого звука в канале i |
3 | прямая часть звука и ее оценка |
4 | окружающая часть канала i и ее оценка |
5 | предполагаемая энергия X |
6 | (математическое) ожидание |
7 | погрешность оценки X |
8 | весовые коэффициенты LMS перекрестного микширования для канала i для прямой части |
9 | весовые коэффициенты LMS перекрестного микширования для канала n для окружения канала i |
В этом контексте следует заметить, что дифференцирование решения LMS может основываться на спектральном представлении соответствующих каналов многоканального звукового сигнала, что означает, что все функционирует в частотных диапазонах.
Модель прохождения сигнала представлена
Chi=aiD+Ai
Дифференцирование сначала имеет дело с a) прямой частью, а затем b) с окружающей частью. Наконец, получается решение для весовых коэффициентов, и описывается способ нормализации весовых коэффициентов.
a) Прямая часть
Оценка весовых коэффициентов прямой части
D ^ = ∑ i = 1 N w D ^ i C h i = ∑ i = 1 N w D ^ i ( a i D + A i )
Погрешность оценки читается
E D ^ = D − D ^ = D − ∑ i = 1 N w D ^ i ( a i D + A i )
Чтобы иметь решение LMS, нам потребуется ортогональ во входных сигналах
E [ E D ^ C h k ] = 0 , для всех k
E [ ( D − ∑ i = 1 N w D ^ i ( a i D + A i ) ) ( a k D + A k ) * ] = ( a k − ∑ i = 1 N w D ^ i a i a k ) P D − w D ^ k P A k = 0 ⇔ ∑ i = 1 N w D ^ i a i a k P D + w D ^ k P A K = a k P D
В матричной форме вышеприведенное отношение читается
A w ¯ = P ¯
[ ( a 1 a 1