Усовершенствование звукового сигнала возможностью повторного микширования

Иллюстрации

Показать все

Изобретение относится к обработке звуковых сигналов, Один или более атрибутов (например, панорамирование, усиление и т.п.), ассоциативно связанных с одним или более объектов (например, инструментов) стереофонического или многоканального звукового сигнала, могут модифицироваться для предоставления возможности повторного микширования. Технический результат - обеспечение эффективного кодирования звукового сигнала. 17 н. и 33 з.п. ф-лы, 19 ил.

Реферат

Родственные заявки

Эта заявка испрашивает преимущество приоритета по европейской патентной заявке № EP06113521 на «Enhancing Stereo Audio With Remix Capability» («Усовершенствование стереофонического звукового сигнала возможностью повторного микширования»), поданной 4 мая 2006 года, каковая заявка включена в материалы настоящей заявки посредством ссылки во всей своей полноте.

Эта заявка испрашивает приоритет по предварительной заявке на выдачу патента США под № 60/829,350, на «Enhancing Stereo Audio With Remix Capability», поданной 13 октября 2006 года, каковая заявка включена в материалы настоящей заявки посредством ссылки во всей своей полноте.

Эта заявка испрашивает приоритет по предварительной заявке на выдачу патента США под № 60/884,594 на «Separate Dialogue Volume» («Раздельный уровень громкости диалога»), поданной 11 января 2007 года, каковая заявка включена в материалы настоящей заявки посредством ссылки во всей своей полноте.

Эта заявка испрашивает приоритет по предварительной заявке на выдачу патента США под № 60/885,742 на «Enhancing Stereo Audio With Remix Capability», поданной 19 января 2007 года, каковая заявка включена в материалы настоящей заявки посредством ссылки во всей своей полноте.

Эта заявка испрашивает приоритет по предварительной заявке на выдачу патента США под № 60/888,413 на «Object-Based Signal Reproduction» («Воспроизведение объектно-ориентированного сигнала»), поданной 6 февраля 2007 года, каковая заявка включена в материалы настоящей заявки посредством ссылки во всей своей полноте.

Эта заявка испрашивает приоритет по предварительной заявке на выдачу патента США под № 60/894,162 на «Bitstream and Side Information For SAOC/Remix» («Битовый поток и дополнительная информация для SAOC/повторного микширования»), поданной 9 марта 2007 года, каковая заявка включена в материалы настоящей заявки посредством ссылки во всей своей полноте.

Область техники

Объект изобретения этой заявки в целом имеет отношение к обработке звуковых сигналов.

Уровень техники

Многие потребительские звуковые устройства (например, стереосистемы, медиаплееры, мобильные телефоны, игровые консоли и т.п.) предоставляют пользователям возможность модифицировать стереофонические звуковые сигналы с использованием средств управления для коррекции (например, нижних звуковых частот, верхних звуковых частот), уровня громкости, акустических эффектов помещений и т.п. Эти модификации, однако, применяются ко взятому в целом звуковому сигналу, а не к отдельным звуковым объектам (например, инструментам), которые составляют звуковой сигнал. Например, пользователь не может модифицировать по отдельности стереофоническое панорамирование или коэффициент усиления гитар, барабанов или вокальных партий в песне, не воздействуя на песню, взятую в целом.

Были предложены технологии, которые обеспечивают гибкость микширования в декодере. Эти технологии полагаются на кодирование бинауральными контрольными сигналами (BCC), параметрический или пространственный звуковой декодер для формирования микшированного выходного сигнала декодера. Ни одна из этих технологий, однако, не кодирует непосредственно стереофонические микшированные сигналы (например, профессионально микшированную музыку) для предоставления возможности обратной совместимости без дискредитации качества звучания.

Технологии пространственного звукового кодирования были предложены для представления стереофонических или многоканальных звуковых каналов с использованием межканальных контрольных сигналов (например, перепада уровней, разновременности, разности фаз, когерентности). Межканальные контрольные сигналы передаются в качестве «дополнительной информации» в декодер для использования при формировании многоканального выходного сигнала. Эти традиционные технологии пространственного звукового кодирования, однако, имеют несколько недостатков. Например, по меньшей мере, некоторые из этих технологий требуют, чтобы отдельный сигнал для каждого звукового объекта передавался в декодер, даже если звуковой объект не будет модифицироваться в декодере. Такое требование имеет следствием излишнюю обработку в кодировщике и декодере. Еще одним недостатком является ограничение выходного сигнала декодера либо стереофоническим (или многоканальным) звуковым сигналом либо звуковым сигналом источника, имея следствием пониженную гибкость для повторного микширования в декодере. В заключение, по меньшей мере, некоторые из этих традиционных технологий требуют сложной декорреляционной обработки в декодере, делающей такие технологии непригодными для некоторых применений или устройств.

Сущность изобретения

Один или более атрибутов (например, панорамирование, усиление, и т.п.), ассоциативно связанных с одним или более объектов (например, инструментов) стереофонического или многоканального звукового сигнала, могут модифицироваться для предоставления возможности повторного микширования.

В некоторых реализациях способ включает в себя получение первого многоканального звукового сигнала, содержащего набор объектов; получение дополнительной информации, по меньшей мере, некоторая часть которой представляет зависимость между первым многоканальный звуковым сигналом и одним или более сигналами источников, представляющими объекты, которые должны повторно микшироваться; получение набора параметров микширования; и формирование второго многоканального звукового сигнала с использованием дополнительной информации и набора параметров микширования.

В некоторых реализациях, способ включает в себя получение звукового сигнала, содержащего набор объектов; получение подмножества сигналов источников, представляющих подмножество объектов; и формирование дополнительной информации из подмножества сигналов источников, по меньшей мере, некоторая часть дополнительной информации представляет взаимосвязь между звуковым сигналом и подмножеством сигналов источников.

В некоторых реализациях, способ включает в себя получение многоканального звукового сигнала; определение коэффициентов усиления для набора сигналов источников с использованием требуемых перепадов уровней источников, представляющих требуемые направления звучания набора сигналов источников в павильоне звукозаписи; оценивание мощности поддиапазона для направления прямого звучания набора сигналов источников с использованием многоканального звукового сигнала; и оценивание мощности поддиапазонов для по меньшей мере некоторых из сигналов источников в наборе сигналов источников посредством модифицирования мощности поддиапазона для направления прямого звучания в качестве функции направления прямого звучания и требуемого направления звучания.

В некоторых реализациях, способ включает в себя получение микшированного звукового сигнала; получение набора параметров микширования для повторного микширования микшированного звукового сигнала; если дополнительная информация доступна, повторное микширование микшированного звукового сигнала с использованием дополнительной информации и набора параметров микширования; если дополнительная информация не доступна, формирование набора слепых параметров из микшированного звукового сигнала; и формирование повторно микшированного звукового сигнала с использованием слепых параметров и набора параметров микширования.

В некоторых реализациях, способ включает в себя получение микшированного звукового сигнала, включающего в себя сигналы речевого источника; получение параметров микширования, задающих требуемое усовершенствование одному или более речевых сигналов источников; формирование набора слепых параметров из микшированного звукового сигнала; формирование параметров повторного микширования из слепых параметров и параметров микширования; и применение параметров к микшированному сигналу, чтобы усовершенствовать один или более речевых сигналов источников в соответствии с параметрами микширования.

В некоторых реализациях, способ включает в себя формирование пользовательского интерфейса для приема входных данных, задающих параметры микширования; получение параметра микширования через пользовательский интерфейс; получение первого звукового сигнала, включающего в себя сигналы источников; получение дополнительной информации, по меньшей мере, некоторая часть которой представляет зависимость между первым звуковым сигналом и одним или более сигналами источников; и повторное микширование одного или более сигналов источников с использованием дополнительной информации и параметра микширования, чтобы сформировать второй звуковой сигнал.

В некоторых реализациях, способ включает в себя получение первого многоканального звукового сигнала, содержащего набор объектов; получение дополнительной информации, по меньшей мере, некоторая часть которой представляет зависимость между первым многоканальный звуковым сигналом и одним или более сигналами источников, представляющими подмножество объектов, которые должны повторно микшироваться; получение набора параметров микширования; и формирование второго многоканального звукового сигнала с использованием дополнительной информации и набора параметров микширования.

В некоторых реализациях, способ включает в себя получение микшированного звукового сигнала; получение набора параметров микширования для повторного микширования микшированного звукового сигнала; формирование параметров повторного микширования с использованием микшированного звукового сигнала и набора параметров микширования; и формируют повторно микшированный звуковой сигнал, применяя параметры повторного микширования к микшированному звуковому сигналу с использованием матрицы n на n.

Раскрыты другие реализации для усовершенствования звукового сигнала возможностью повторного микширования, в том числе реализации, направленные на системы, способы, устройства, машиночитаемые носители и пользовательские интерфейсы.

Описание чертежей

Фиг.1A - структурная схема реализации системы кодирования для кодирования стереофонического сигнала плюс M сигналов источников, соответствующих объектам, которые должны повторно микшироваться в декодере.

Фиг.1B - блок-схема последовательности операций способа реализации последовательности операций для кодирования стереофонического сигнала плюс M сигналов источников, соответствующих объектам, которые должны повторно микшироваться в декодере.

Фиг.2 иллюстрирует времячастотное графическое представление для анализа и обработки стереофонического сигнала и M сигналов источников.

Фиг.3A - структурная схема реализации системы повторного микширования для оценки повторно микшированного стереофонического сигнала с использованием исходного стереофонического сигнала плюс дополнительной информации.

Фиг.3B - блок-схема последовательности операций способа реализации последовательности операций для оценки повторно микшированного стереофонического сигнала с использованием системы повторного микширования по фиг.3A.

Фиг.4 иллюстрирует индексы i коэффициентов краткосрочного преобразования Фурье (STFT), принадлежащих сегменту с индексом b.

Фиг.5 иллюстрирует группирование спектральных коэффициентов равномерного спектра STFT в имитационное неравномерное частотное разрешение слухового аппарата человека.

Фиг.6A - структурная схема реализации системы кодирования по фиг.1, объединенной с традиционным стереофоническим звуковым кодировщиком.

Фиг.6B - блок-схема последовательности операций способа реализации последовательности операций кодирования с использованием системы кодирования по фиг.1, объединенной с традиционным стереофоническим звуковым кодировщиком.

Фиг.7A - структурная схема реализации системы повторного микширования по фиг.3A, объединенной с традиционным стереофоническим звуковым декодером.

Фиг.7B - блок-схема последовательности операций способа реализации последовательности операций повторного микширования с использованием системы повторного микширования по фиг.7A, объединенной со стереофоническим звуковым кодировщиком.

Фиг.8A - структурная схема реализации системы кодирования, реализующей полностью слепое формирование дополнительной информации.

Фиг.8B - блок-схема последовательности операций способа реализаций последовательности операций кодирования с использованием системы кодирования по фиг.8A.

Фиг.9 иллюстрирует примерную функцию усиления, f(M), для требуемого перепада уровней источников, L i=L dB.

Фиг.10 - схема реализации последовательности операций формирования дополнительной информации с использованием технологии частично слепого формирования.

Фиг.11 - структурная схема реализации клиент-серверной архитектуры для поставки стереофонических сигналов и M сигналов источников и/или дополнительной информации в звуковые устройства с возможность повторного микширования.

Фиг.12 иллюстрирует реализацию пользовательского интерфейса для медиаплеера с возможностью повторного микширования.

Фиг.13 иллюстрирует реализацию системы декодирования, объединяющей декодирование пространственно кодированных звуковых объектов (SAOC) и декодирование повторного микширования.

Фиг.14A иллюстрирует обычную модель микширования для раздельного уровня громкости диалога (SDV).

Фиг.14B иллюстрирует реализацию системы, объединяющей SDV и технологию повторного микширования.

Фиг.15 иллюстрирует реализацию рендерера эквивалентного микширования, показанного на фиг.14В.

Фиг.16 иллюстрирует реализацию системы распространения для технологии повторного микширования, описанной со ссылкой на фиг.1-15.

Фиг.17А иллюстрирует элементы различных реализации битового потока для предоставления информации повторного микширования.

Фиг.17В иллюстрирует реализацию интерфейса кодировщика повторного микширования для формирования битовых потоков, проиллюстрированных на фиг.17А.

Фиг.17С иллюстрирует реализацию интерфейса декодера повторного микширования для приема битовых потоков, сформированных кодировщиком, проиллюстрированным на фиг.17В.

Фиг.18 - структурная схема реализации системы, включающей в себя расширения для формирования добавочной дополнительной информации для определенных объектных сигналов, чтобы обеспечивать улучшенные эксплуатационные качества повторного микширования.

Фиг.19 - структурная схема реализации формирователя (рендерера) повторно микшированного сигнала, показанного на фиг.18.

Подробное описание

I. Повторное микширование стереофонических сигналов

Фиг.1А - структурная схема реализации системы 100 кодирования для кодирования стереофонических сигналов плюс М сигналов источников, соответствующих объектам, которые должны повторно микшироваться в декодере. В некоторых реализациях, система 100 кодирования обычно включает в себя матрицу 102 гребенки фильтров, формирователь 104 дополнительной информации и кодировщик 106.

A. Исходный и требуемый повторно микшированный сигнал

Два канала стереофонического звукового сигнала с временной дискретизацией обозначены где n - индекс времени. Предполагается, что стереофонический сигнал может быть представлен в виде:

где I - количество сигналов источников (например, инструментов), которые содержатся в стереофоническом сигнале (например, MP3), а - сигналы источников. Коэффициенты a i и b i определяют коэффициент усиления и амплитудное панорамирование для каждого сигнала источника. Предполагается, что все сигналы источников являются взаимно независимыми. Сигналы источников могут не все быть чистыми сигналами источников. Предпочтительнее некоторые из сигналов источников могут содержать реверберацию и/или другие сигнальные составляющие звуковых эффектов. В некоторых реализациях, задержки, d i, могут привноситься в исходный звуковой сигнал микширования в [1] для содействия временному выравниванию с параметрами повторного микширования:

В некоторых реализациях, система 100 кодирования выдает или формирует информацию (в дальнейшем также указываемую ссылкой как «дополнительная информация») для модифицирования исходного стереофонического звукового сигнала (в дальнейшем также указываемого ссылкой как «стереофонический сигнал»), из условия, чтобы M сигналов источников «повторно микшировались» в стереофонический сигнал с разными коэффициентами усиления. Требуемый модифицированный стереофонический сигнал может быть представлен в виде:

где c i и d i - новые коэффициенты усиления (в дальнейшем также указываемые ссылкой как «коэффициенты усиления микширования» или «параметры микширования») для M сигналов источников, которые должны микшироваться (то есть сигналов источников с индексами 1, 2,..., M).

Цель системы 100 кодирования состоит в том, чтобы выдавать или формировать информацию для повторного микширования стереофонического сигнала, при заданном только исходном стереофоническом сигнале и небольшом количестве дополнительной информации (например, небольшой по сравнению с информацией, содержащейся в форме колебаний стереофонического сигнала). Дополнительная информация, поставляемая или формируемая системой 100 кодирования, может использоваться в декодере для относящейся к восприятию имитации требуемого модифицированного стереофонического сигнала [2] при заданном исходном стереофоническом сигнале [1]. С системой 100 кодирования формирователь 104 дополнительной информации формирует дополнительную информацию для повторного микширования исходного стереофонического сигнала, а система 300 декодирования (фиг.3A) формирует требуемый повторно микшированный стереофонический звуковой сигнал с использованием дополнительной информации и исходного стереофонического сигнала.

B. Обработка кодировщика

Вновь со ссылкой на фиг.1A исходный стереофонический сигнал и M сигналов источников подаются в качестве входного сигнала в матрицу 102 гребенки фильтров. Исходный стереофонический сигнал также непосредственно выводится из кодировщика 102. В некоторых реализациях, стереофонический сигнал, непосредственно выведенный из кодировщика 102, может задерживаться для синхронизации с битовым потоком дополнительной информации. В других реализациях, вывод стереофонического сигнала может синхронизироваться с дополнительной информацией в декодере. В некоторых реализациях, система 100 кодирования адаптируется к статистическим данным сигнала в качестве функции времени и частоты. Таким образом, для анализа и синтеза стереофонический сигнал и M сигналов источников обрабатываются во времячастотном представлении, как описано со ссылкой на фиг.4 и 5.

Фиг.1B - блок-схема последовательности операций способа реализации последовательности 108 операций для кодирования стереофонического сигнала плюс M сигналов источников, соответствующих объектам, которые должны повторно микшироваться в декодере. Входной стереофонический сигнал и M сигналов источников раскладываются на поддиапазоны (110). В некоторых реализациях, разложение реализуется с помощью матрицы гребенки фильтров. Для каждого поддиапазона коэффициенты усиления оцениваются для M сигналов источников (112), как более полно описано ниже. Для каждого поддиапазона краткосрочные оценки мощности вычисляются для M сигналов источников (114), как описано ниже. Оцененные коэффициенты усиления и мощности подиапазонов могут квантоваться и кодироваться для формирования дополнительной информации (116).

Фиг.2 иллюстрирует времячастотное графическое представление для анализа и обработки стереофонического сигнала и M сигналов источников. Ось ординат графика представляет частоту и делится на множество неравномерных поддиапазонов 202. Ось абсцисс представляет время и делится на временные интервалы 204. Каждый из штрихпунктирных прямоугольников на фиг.2 представляет соответственную пару поддиапазона и временного интервала. Таким образом, для заданного временного интервала 204 один или более поддиапазонов 202 соответствующих временному интервалу 204, могут обрабатываться в качестве группы 206. В некоторых реализациях, ширины подиапазонов 202 выбираются на основании пределов восприятия, ассоциативно связанных со слуховым аппаратом человека, как описано со ссылкой на фиг.4 и 5.

В некоторых реализациях, входной стереофонический сигнал и M входных сигналов источников раскладываются матрицей 102 гребенки фильтров на некоторое количество поддиапазонов 202. Поддиапазоны 202 на каждой центральной частоте могут обрабатываться подобным образом. Пара поддиапазонов стереофонических звуковых входных сигналов, на отдельной частоте, обозначена x 1(k) и x 2(k), где k подвергнутый понижающей дискретизации индекс времени сигналов поддиапазонов. Подобным образом соответствующие сигналы поддиапазонов M входных сигналов источников обозначены s 1(k), s 2(k),..., s M(k). Отметим, что для простоты обозначения, индексы для поддиапазонов были опущены в этом примере. Что касается понижающей дискретизации, для эффективности могут использоваться сигналы поддиапазонов с меньшей частотой дискретизации. Обычно гребенки фильтров и STFT фактически получают подвергнутые подвыборке сигналы (или спектральные коэффициенты).

В некоторых реализациях, дополнительная информация, необходимая для повторного микширования сигнала источника с индексом i, включает в себя коэффициенты a i и b i усиления и в каждом поддиапазоне, оценку мощности сигнала поддиапазона в качестве функции времени, E{s i2(k)}. Коэффициенты a i и b i усиления могут задаваться (если эти сведения о стереофоническом сигнале известны) или оцениваться. Для многих стереофонических сигналов, a i и b i являются статическими. Если a i и b i являются меняющимися в качестве функции времени k, эти коэффициенты усиления могут оцениваться в качестве функции времени. Она не обязательно должна использовать среднее значение или оценку мощности поддиапазона для формирования дополнительной информации. Предпочтительнее в некоторых реализациях реальная мощность S i2 поддиапазона может использоваться в качестве оценки мощности.

В некоторых реализациях, краткосрочная мощность поддиапазона может оцениваться с использованием однополюсного усреднения, где E{s i2(k)} может вычисляться как:

где α∈[0,1] определяет постоянную времени экспоненциально затухающего окна оценки,

а f s обозначает частоту дискретизации поддиапазона. Подходящим значением для T, например, может быть 40 миллисекунд. В последующих уравнениях E{.} обычно обозначает краткосрочное усреднение.

В некоторых реализациях, некоторая или вся из дополнительной информации a i, b i и E{s i2(k)} может поставляться на тех же носителях, что и стереофонический сигнал. Например, издатель музыкальных произведений, студия звукозаписи, ретушер звукозаписи или тому подобные, могут поставлять дополнительную информацию с соответствующим стереофоническим сигналом на компакт-диске (CD), цифровом видеодиске (DVD), флэш-памяти и тому подобном. В некоторых реализациях, некоторая или вся из дополнительной информации может поставляться по сети (например, сети Интернет, сети Ethernet, беспроводной сети) встраиванием дополнительной информации в битовый поток стереофонического сигнала или передачей дополнительной информации в отдельном битовом потоке.

Если a i и b i не заданы, то эти коэффициенты могут оцениваться. Поскольку, =, a i может вычисляться как:

Подобным образом b i может вычисляться в качестве

Если a i и b i являются самонастраивающимися со временем, оператор E{.} представляет операцию краткосрочного усреднения. С другой стороны, если коэффициенты a i и b i усиления являются статическими, коэффициенты усиления могут вычисляться, учитывая стереофонические сигналы во всей их полноте. В некоторых вариантах осуществления коэффициенты a i и b i усиления могут оцениваться независимо для каждого поддиапазона. Отметим, что в [5] и [6] сигналы s i источников являются независимыми, но, вообще, не сигнал s i источника и стереофонические каналы x 1 и x 2, поскольку s i содержится в стереофонических каналах x 1 и x 2.

В некоторых реализациях краткосрочные оценки мощности и коэффициенты усиления для каждого поддиапазона квантуются и кодируются кодировщиком 106, чтобы сформировать дополнительную информацию (например, битовый поток с низкой скоростью передачи битов). Отметим, что эти значения могут не квантоваться и кодироваться непосредственно, но сначала могут преобразовываться в другие величины, более подходящие для квантования и кодирования, как описано со ссылкой на фиг.4 и 5. В некоторых реализациях, E{s i2(k)} может быть нормализована относительно мощности поддиапазона входного стереофонического звукового сигнала, делая систему 100 кодирования устойчивой касательно изменений, когда традиционный звуковой кодировщик используется для эффективного кодирования стереофонического звукового сигнала, как описано со ссылкой на фиг.6-7.

C. Обработка декодера

Фиг.3A - структурная схема реализации системы 300 повторного микширования для оценки повторно микшированного стереофонического сигнала с использованием исходного стереофонического сигнала плюс дополнительной информации. В некоторых реализациях, система 300 повторного микширования обычно включает в себя матрицу 302 гребенки фильтров, декодер 304, модуль 306 повторного микширования и обратную матрицу 308 гребенки фильтров.

Оценка повторно микшированного звукового сигнала может выполняться независимо в некотором количестве поддиапазонов. Дополнительная информация включает в себя мощность поддиапазона, E{s 2i (k)} и коэффициенты усиления, a i и b i, с которыми M сигналов источников содержатся в стереофоническом сигнале. Новые коэффициенты усиления или коэффициенты усиления микширования требуемого повторно микшированного стереофонического сигнала представлены посредством c i и d i. Коэффициенты усиления c i и d i микширования могут задаваться пользователем через пользовательский интерфейс звукового устройства, такого как описанное со ссылкой на фиг.12.

В некоторых реализациях входной стереофонический сигнал раскладывается на поддиапазоны матрицей 302 гребенки фильтров, где пара поддиапазонов на отдельной частоте обозначена x 1(k) и x 2(k). Как проиллюстрировано на фиг.3A, дополнительная информация декодируется декодером 304, давая для каждого из M сигналов источников, которые должны повторно микшироваться, коэффициенты a i и b i усиления, которые содержаться во входном стереофоническом сигнале, и для каждого поддиапазона оценку мощности, E{s i2(k)}. Декодирование дополнительной информации описано более подробно со ссылкой на фиг.4 и 5.

При заданной дополнительной информации, соответствующая пара поддиапазонов повторно микшированного стереофонического звукового сигнала может оцениваться модулем 306 повторного микширования в качестве функции коэффициентов c i и d i усиления микширования повторно микшированного стереофонического сигнала. Обратная матрица 308 гребенки фильтров применяется к оцененным парам поддиапазонов для предоставления повторно микшированного стереофонического сигнала временной области.

Фиг.3B - блок-схема последовательности операций способа реализации последовательности 310 операций для оценивания повторно микшированного стереофонического сигнала с использованием системы повторного микширования по фиг.3A. Входной стереофонический сигнал раскладывается на пары поддиапазонов (312). Дополнительная информация декодируется для пар поддиапазонов (314). Пары поддиапазонов повторно микшируются с использованием дополнительной информации и коэффициентов усиления микширования (318). В некоторых реализациях, коэффициенты усиления микширования предоставляются пользователем, как описано со ссылкой на фиг.12. В качестве альтернативы коэффициенты усиления микширования могут предоставляться программно, приложением, операционной системой или тому подобным. Коэффициенты усиления микширования также могут поставляться по сети (например, сети Интернет, сети Ethernet, беспроводной сети), как описано со ссылкой на фиг.11.

D. Последовательность операций повторного микширования

В некоторых реализациях, повторно микшированный стереофонический сигнал может аппроксимироваться в математическом смысле с использованием оценки методом наименьших квадратов. По выбору относящиеся к восприятию соображения могут использоваться для модификации оценки.

Уравнения [1] и [2] к тому же рассматривают пары x 1(k) и x 2(k), а также y 1(k) и y 2(k) поддиапазонов соответственно. В этом случае сигналы источников замещаются сигналами поддиапазонов источников, s i(k).

Пара поддиапазонов стереофонического сигнала задается согласно

а парой поддиапазонов повторно микшированного стереофонического звукового сигнала являются

При заданной паре поддиапазона исходного стереофонического сигнала, x 1(k) и x 2(k), пара поддиапазона стереофонического сигнала с разными коэффициентами усиления оценивается в качестве линейной комбинации исходной пары левого и правого стереофонических поддиапазонов:

где w 11(k), w 12(k), w 21(k) и w 22(k) - заданные действительными значениями весовые коэффициенты.

Ошибка оценки определяется в качестве

Веса w 11(k), w 12(k), w 21(k) и w 22(k) могут вычисляться в каждый момент k времени для поддиапазонов на каждой частоте, из условия чтобы минимизировались среднеквадратические ошибки E{e 12(k)} и E{e 22(k)}. Для вычисления w 11(k) и w 12(k), отметим, что E{e 12(k)} минимизируется, когда ошибка e 1(k) ортогональна x 1(k) и x 2(k), то есть

Отметим, что для удобства обозначения индекс k времени был опущен.

Переписывание этих уравнений дает:

Коэффициенты усиления являются решением этой системы линейных уравнений:

Несмотря на то, что E{x 12}, E{x 22} и E{x 1 x 2} могут непосредственно оцениваться при заданной паре поддиапазонов входного стереофонического сигнала декодера, E{x 1 y 1} и E{x 2 y 2} могут оцениваться с использованием дополнительной информации (E{s12}, a i, b i) и коэффициентов усиления микширования, c i и d i, требуемого повторно микшированного стереофонического сигнала:

Подобным образом вычисляются w 21 и w 22, давая в результате

Причем

Когда левый и правый сигналы поддиапазонов когерентны или почти когерентны, то есть когда

близко к единице, то решение для весов неуникально или плохо обусловлено. Таким образом, если ϕ является большим, чем определенное пороговое значение (например, 0,95), то веса, например, вычисляются согласно

При условии ϕ=1 уравнение [18] является одним из неуникальных решений, удовлетворяющих [12] и подобной системе уравнений ортогональности для двух других весов. Отметим, что когерентность в [17] используется для вынесения суждения, насколько x 1 и x 2 подобны друг другу. Если когерентность равна нулю, то x 1 и x 2 независимы. Если когерентность равна единице, то x 1 и x 2 подобны (но могут иметь разные уровни). Если x 1 и x 2 сильно подобны (когерентность близка к единице), то двухканальное вычисление Винера (вычисление четырех весов) является плохо обусловленным. Примерным диапазоном для порогового значения является от приблизительно 0,4 до приблизительно 1,0.

Результирующий повторно микшированный стереофонический сигнал, полученный преобразованием вычисленных сигналов поддиапазонов во временную область, звучание, подобное стереофоническому сигналу, который действительно микшировался бы с разными коэффициентами усиления микширования, c i и d i, (в последующем этот сигнал обозначен «требуемым сигналом»). С одной стороны, математически это требует, чтобы вычисленные сигналы поддиапазонов были подобны действительно по-разному микшированным сигналам поддиапазонов. Это верно до определенной степени. Поскольку оценка выполняется в области мотивированных восприятием поддиапазонов, требование к подобию является менее строгим. До тех пор, пока контрольные сигналы значимого для восприятия определения местоположения (например, контрольные сигналы перепада уровней и когерентности) достаточно подобны, вычисленный повторно микшированный стереофонический сигнал будет звучать подобно требуемому сигналу.

E. Необязательная возможность: настройка контрольных сигналов перепадов уровней

В некоторых реализациях, если используется обработка, описанная в материалах настоящей заявки, могут быть получены хорошие результаты. Тем не менее, чтобы быть уверенным, что важные контрольные сигналы определения местоположения перепада уровней весьма близки к контрольным сигналам перепадов уровней требуемого сигнала, домасштабирование поддиапазонов может применяться для «настройки» контрольных сигналов перепадов уровней, чтобы удостовериться, что они соответствуют контрольным сигналам перепадов уровней требуемого сигнала.

Для модификации оценок сигналов поддиапазонов методом наименьших квадратов в [9] учитывается мощность поддиапазона. Если мощность поддиапазона является надлежащей, то перепад уровней важного пространственного контрольного сигнала также может быть надлежащим. Требуемой мощностью левого поддиапазона сигнала [8] является

а мощностью поддиапазона оценки по [9] является

Таким образом, чтобы имел такую же мощность, как y 1(k), он должен перемножаться с

Подобным образом перемножае