2512124 - Бинауральная визуализация мультиканального звукового сигнала

Бинауральная визуализация мультиканального звукового сигнала

Иллюстрации

Показать все

Описывается бинауральная визуализация многоканального звукового сигнала в бинауральный выходной сигнал (24). Многоканальный звуковой сигнал включает сигнал стерео понижающего микширования (18), в который множество звуковых сигналов микшируется с понижением; и дополнительная информация включает информацию о понижающем микшировании (DMG, DCLD), показывающую для каждого звукового сигнала, до какой степени соответствующий звуковой сигнал был микширован в первый канал и второй канал сигнала стерео понижающего микширования (18) соответственно, а также информацию об уровне объекта множества звуковых сигналов и информацию о межобъектной взаимной корреляции, описывающую сходство между парами звуковых сигналов множества звуковых сигналов. Основанный на первом предписании визуализации, предварительный бинауральный сигнал (54) вычисляется из первого и второго каналов сигнала стерео понижающего микширования (18). Декоррелированный сигнал генерируется как перцепционный эквивалент моно понижающего микширования (58) из первого и второго каналов сигнала стерео понижающего микширования (18), являющийся, однако, декодированным до моно понижающего микширования (58). Технический результат - улучшение бинауральной визуализации при уничтожении ограничения в отношении свободы создания сигнала понижающего микширования из оригинальных звуковых сигналов. 3 н. и 8 з.п. ф-лы, 6 ил., 3 табл.

Реферат

Данное изобретение имеет отношение к бинауральной визуализации многоканального звукового сигнала.

Были предложены многие алгоритмы кодирования звукового сигнала для эффективного кодирования или сжатия звуковых данных одного канала, то есть монозвуковых сигналов. Используя психоакустику, звуковые образцы соответствующим образом масштабируются, квантуются или даже устанавливаются на ноль, чтобы устранить относительную энтропию (несоответствие), например, из РСМ (импульсно-кодовая модуляция) кодированного звукового сигнала. Также выполняется удаление избыточности.

В качестве следующего шага использовалось подобие левого и правого каналов звуковых стереосигналов для эффективного кодирования/сжатия звуковых стереосигналов.

Однако предстоящие применения формулируют дальнейшие требования к алгоритмам звукового кодирования. Например, при организации телеконференций, в компьютерных играх, при исполнении музыки и т.п. несколько звуковых сигналов, которые являются частично или даже полностью некоррелированными, должны передаваться параллельно. Чтобы поддерживать необходимую для кодирования скорость передачи битов, эти звуковые сигналы являются достаточно низкими, чтобы быть совместимыми с применениями с низкой скоростью передачи битов; в последнее время были предложены звуковые кодер-декодеры, которые микшируют с понижением множественные входные звуковые сигналы в сигнал понижающего микширования, такой как стерео- или даже моносигнал понижающего микширования. Например, стандарт MPEG Окружающий звук микширует с понижением входные каналы в сигнал понижающего микширования способом, предписанным стандартом. Понижающее микширование выполняется при помощи так называемых ОТТ¹ и ТТТ^-1 блоков для понижающего микширования двух сигналов в один и трех сигналов в два соответственно. Чтобы микшировать с понижением больше чем три сигнала, используется иерархическая структура этих блоков. Каждый ОТТ^-1 блок производит помимо моносигнала понижающего микширования разности уровней каналов между двумя входными каналами, а также параметры межканальной когерентности/взаимной корреляции, представляющие когерентность или взаимную корреляцию между двумя входными каналами. Параметры производятся наряду с сигналом понижающего микширования кодирующего устройства MPEG Окружающий звук в потоке данных MPEG Окружающий звук. Точно так же каждый ТТТ^-1 блок передает коэффициенты прогнозирования, дающие возможность восстановить три входных канала из результирующего стереосигнала понижающего микширования. Коэффициенты прогнозирования канала также передаются как дополнительная информация в потоке данных MPEG Окружающий звук. Декодер MPEG Окружающий звук микширует с повышением сигнал понижающего микширования при помощи переданной дополнительной информации и восстанавливает оригинальные каналы, входящие в кодирующее устройство MPEG Окружающий звук.

Однако MPEG Окружающий звук, к сожалению, не удовлетворяет всем требованиям, которые предъявляются во многих применениях. Например, декодер MPEG Окружающий звук предназначен для повышающего микширования сигнала понижающего микширования кодирующего устройства MPEG Окружающий звук так, что входные каналы кодирующего устройства MPEG Окружающий звук восстанавливаются такими, как они есть. Другими словами, поток данных MPEG Окружающий звук предназначен для воспроизведения при помощи конфигурации громкоговорителя, использовавшегося для кодирования, или при помощи типичных конфигураций, таких как стерео.

Однако согласно некоторым применениям было бы удобно, если бы конфигурация громкоговорителя могла свободно изменяться на стороне декодера.

Чтобы соответствовать самым последним требованиям, в настоящее время разрабатывается стандарт кодирования пространственного звукового объекта (SAOC). Каждый канал рассматривают как индивидуальный объект, и все объекты микшируются с понижением в сигнал понижающего микширования. Таким образом, объекты обрабатываются как звуковые сигналы, являющиеся независимыми друг от друга, не придерживаясь никакой определенной конфигурации громкоговорителя, но при наличии возможности произвольно размещать (виртуальные) громкоговорители на стороне декодера. Индивидуальные объекты могут включать индивидуальные источники звука, например инструменты или речевые каналы. В отличие от декодера MPEG Окружающий звук декодер SAOC может свободно индивидуально микшировать с повышением сигнал понижающего микширования для воспроизведения индивидуальных объектов на любой конфигурации громкоговорителя. Чтобы обеспечить декодеру SAOC возможность восстановить индивидуальные объекты, закодированные в потоке данных SAOC, разность уровней объекта и для объектов, формирующих вместе стерео (или многоканальный) сигнал, параметры межобъектной взаимной корреляции передаются как дополнительная информация в битовом потоке SAOC. Помимо этого SAOC декодер/транскодер обеспечивается информацией, показывающей, как индивидуальные объекты были микшированы с понижением в сигнал понижающего микширования. Таким образом, на стороне декодера можно восстановить индивидуальные каналы SAOC и визуализировать эти сигналы на любой конфигурации громкоговорителя, используя контролируемую пользователем информацию о визуализации.

Однако, хотя вышеупомянутые кодер-декодеры, то есть MPEG Окружающий звук и SAOC, могут передавать и визуализировать многоканальный звуковой контент на конфигурации громкоговорителя, имеющие более двух громкоговорителей, возрастающий интерес к наушникам как звуковой системе воспроизведения требует, чтобы эти кодер-декодеры также могли визуализировать звуковой контент на наушники. В отличие от воспроизведения громкоговорителем стереозвуковой контент, воспроизведенный через наушники, воспринимается в голове. Отсутствие эффекта акустической магистрали (дорожки) от источников в определенных физических положениях к барабанным перепонкам вызывает неестественное звучание пространственного образа, поскольку реплики, которые определяют воспринятый азимут, повышение и расстояние до источника звука, главным образом пропущены или являются очень неточными. Таким образом, чтобы разрешить проблему неестественного звучания, вызванную неточными или отсутствующими репликами локализации источников звука на наушниках, были предложены различные методы моделирования виртуальной установки громкоговорителя. Идея состоит в том, чтобы наложить реплики локализации источников звука на каждый сигнал громкоговорителя. Это достигается фильтрацией звуковых сигналов посредством так называемых функций моделирования восприятия звука (HRTFs) или бинауральных импульсных характеристик помещения (BRIRs), если акустические свойства помещения включены в эти данные измерения. Однако фильтрация каждого сигнала громкоговорителя посредством упомянутых функций потребовала бы значительно большей вычислительной мощности на стороне декодера/воспроизведения. В частности, визуализация многоканального звукового сигнала на местоположениях «виртуальных» громкоговорителей должно было бы быть выполнено сначала, где в таком случае каждый сигнал громкоговорителя, полученный таким образом, фильтруется посредством соответствующей передаточной функции или импульсной характеристики, чтобы получить левый и правый канал бинаурального выходного сигнала. Еще хуже то, что полученный таким образом бинауральный выходной сигнал имел бы плохое качество звука вследствие того, что для получения сигналов виртуального громкоговорителя относительно большое количество синтетических сигналов декорреляции должно быть микшировано в сигналах повышающего микширования, чтобы компенсировать корреляцию между первоначально некоррелироваными входными звуковыми сигналами;

корреляция является результатом понижающего микширования множества входных звуковых сигналов в сигнал понижающего микширования.

В текущей версии кодер-декодера SAOC параметры SAOC в дополнительной информации обеспечивают пользовательскую интерактивную пространственную визуализацию звуковых объектов посредством использования любой установки воспроизведения, включающей наушники. Бинауральная визуализация на наушниках обеспечивает пространственный контроль положений виртуального объекта в трехмерном пространстве посредством использования параметров функции моделирования восприятия звука (HRTF). Например, бинауральная визуализация в SAOC может быть реализована посредством ограничения этого случая случаем моно понижающего микширования SAOC, где входные сигналы в равной степени микшируются в моноканал. К сожалению, моно понижающее микширование требует, чтобы все звуковые сигналы микшировались в один общий моносигнал понижающего микширования так, чтобы оригинальные свойства корреляции между оригинальными звуковыми сигналами максимально терялись, и поэтому качество визуализации бинаурального выходного сигнала неоптимально.

Таким образом, целью данного изобретения является обеспечение схемы бинауральной визуализации многоканального звукового сигнала таким образом, что результат бинауральной визуализации улучшается, при этом одновременно уничтожаются ограничения в отношении свободы создания сигнала понижающего микширования из оригинальных звуковых сигналов.

Эта цель достигается посредством использования устройства по п.1 и способа по п.10.

Одной из основных идей, лежащих в основе данного изобретения, является то, что запуск бинауральной визуализации многоканального звукового сигнала из стереосигнала понижающего микширования более предпочтителен, чем запуск бинауральной визуализации многоканального звукового сигнала из моносигнала понижающего микширования, вследствие того, что немного объектов присутствует в индивидуальных каналах стереосигнала понижающего микширования; величина декорреляции между индивидуальными звуковыми сигналами лучше сохраняется; и возможность выбора между двумя каналами стереосигнала понижающего микширования на стороне кодирующего устройства обеспечивает то, что свойства корреляции между звуковыми сигналами в различных каналах понижающего микширования частично сохраняются. Другими словами, вследствие понижающего микширования кодирующего устройства межобъектные когерентности ухудшаются, что должно приниматься во внимание на стороне декодирования, где межканальная когерентность бинаурального выходного сигнала - важная мера восприятия ширины виртуального источника звука, но использование стерео понижающего микширования вместо моно понижающего микширования уменьшает величину деградации так, чтобы восстановление/генерирование подходящей величины межканальной когерентности посредством бинауральной визуализации стереосигнала понижающего микширования обеспечивало лучшее качество.

Следующая главная идея данного применения состоит в том, что вышеупомянутый контроль ICC (ICC=межканальная когерентность) может достигаться посредством декоррелированного сигнала, формирующего перцепционный эквивалент моно понижающего микширования каналов понижающего микширования стереосигнала понижающего микширования, однако с декоррелированием до моно понижающего микширования. Таким образом, в то время как использование стереосигнала понижающего микширования вместо моносигнала понижающего микширования сохраняет некоторые свойства корреляции множества звуковых сигналов, которые были бы потеряны при использовании моносигнала понижающего микширования, бинауральная визуализация может основываться на декоррелированном сигнале, являющемся репрезентативным для первого и второго канала понижающего микширования, таким образом сокращая число декорреляции или обработок синтетического сигнала по сравнению с декорреляцией отдельно каждого стереоканала понижающего микширования.

Со ссылкой на рисунки предпочтительные осуществления данного применения описываются более подробно, где:

Фиг.1 показывает блок-схему расположения кодирующего устройства/декодера SAOC, в которой могут быть реализованы осуществления данного изобретения;

Фиг.2 показывает схематическое и иллюстративное изображение спектрального представления монозвукового сигнала;

Фиг.3 показывает блок-схему звукового декодера, способного выполнять бинауральную визуализацию согласно осуществлению данного изобретения;

Фиг.4 показывает блок-схему блока предварительной обработки понижающего микширования фиг.3 согласно осуществлению данного изобретения;

Фиг.5 показывает блок-схему стадий, выполняемых блоком, обрабатывающим параметры SAOC 42 фиг.3, согласно первой альтернативе; и

Фиг.6 показывает граф, иллюстрирующий результаты теста прослушивания.

Прежде чем далее более подробно будут описаны осуществления данного изобретения, предоставляется кодер-декодер SAOC и параметры SAOC, переданные в битовом потоке SAOC, чтобы облегчить понимание конкретных осуществлений, ниже обрисованных более подробно.

Фиг.1 показывает общую схему кодирующего устройства SAOC 10 и декодера SAOC 12. Кодирующее устройство SAOC 10 получает в качестве входа N объекты, то есть звуковые сигналы 14₁-14_N. В частности, кодирующее устройство 10 включает устройство понижающего микширования 16, которое получает звуковые сигналы 14₁-14_N и микширует их до сигнала понижающего микширования 18. На фиг.1 сигнал понижающего микширования примерно показан как сигнал стерео понижающего микширования. Однако кодирующее устройство 10 и декодер 12 может также работать в монорежиме, в этом случае сигнал понижающего микширования был бы сигналом моно понижающего микширования. Следующее описание, однако, концентрируется на случае стерео понижающего микширования. Каналы сигнала стерео понижающего микширования 18 обозначены LO и RO.

Чтобы дать возможность декодеру SAOC 12 восстановить индивидуальные объекты 14₁-14_N, устройство понижающего микширования 16 предоставляет декодеру SAOC 12 дополнительную информацию, включающую SAOC-параметры, включая разности уровней объекта (OLD), параметры межобъектной взаимной корреляции (IOC), значения коэффициентов усиления понижающего микширования (DMG) и разности уровней канала понижающего микширования (DCLD). Дополнительная информация 20, включающая SAOC-параметры, наряду с сигналом понижающего микширования 18, формирует выходной поток данных SAOC 21, полученный декодером SAOC 12.

Декодер SAOC 12, включающий повышающее микширование 22, получает сигнал понижающего микширования 18, а также дополнительную информацию 20, чтобы восстанавливать и визуализировать звуковые сигналы 14₁ и 14_N на любом отобранном пользователем наборе каналов 24₁-24_М; при этом визуализация, предписываемая информацией о визуализации 26, входит в декодер SAOC 12, как и параметры HRTF 27, значение которых более подробно описывается ниже. Следующее описание концентрируется на бинауральной визуализации, где М'=2 и выходной сигнал специально предназначен для воспроизведения через наушники, хотя декодирование 12 может выполнять визуализацию также на другой (небинауральной) конфигурации громкоговорителя в зависимости от команд в пользовательском входе 26.

Звуковые сигналы 14₁-14_N могут вводиться в устройство понижающего микширования 16 в любую область кодирования, например, во временную или спектральную область. В случае если звуковые сигналы 14₁-14_N подаются в устройство понижающего микширования 16 во временную область, такую как закодированная РСМ (импульсно-кодовая модуляция), устройство понижающего микширования 16 использует гребенку фильтров, такую как гребенка гибридного QMF (квадратурный зеркальный фильтр), например гребенка комплексных экспоненциально модулированных фильтров с расширением фильтра по Найквисту для самых низких частотных диапазонов, чтобы увеличить там частотное разрешение для передачи сигналов в спектральную область, в которой звуковые сигналы предоставляются в несколько поддиапазонов, связанных с различными спектральными частями, при конкретном разрешении гребенки фильтров. Если звуковые сигналы 14₁-14_N уже находятся в представлении, ожидаемом устройством понижающего микширования 16, то оно не должно выполнять спектральное разложение.

Фиг.2 показывает звуковой сигнал в только что упомянутой спектральной области. Как можно видеть, звуковой сигнал представлен как множество сигналов поддиапазонов. Каждый сигнал поддиапазона 30₁-30_Р состоит из последовательности величин поддиапазонов, обозначенных маленькими прямоугольниками 32. Как можно видеть, величины поддиапазонов 32 сигналов поддиапазонов 30₁-30_Р синхронизируются друг с другом во времени так, чтобы для каждого последующего временного интервала гребенки фильтров 34 каждый поддиапазон 30₁-30_Р включал одну точную величину поддиапазона 32. Как проиллюстрировано осью частоты 35, сигналы поддипазонов 30₁-30_Р связаны с различными частотными областями, и, как проиллюстрировано осью времени 37, временные диапазоны гребенки фильтров 34 последовательно организованы во времени.

Как в общих чертах обрисовано выше, устройство понижающего микширования 16 вычисляет SAOC-параметры из входных звуковых сигналов 14₁-14_N. Устройство понижающего микширования 16 выполняет это вычисление во временном/частотном разрешении, которое может быть уменьшено относительно оригинального временного/частотного разрешения, как определено временными интервалами гребенки фильтров 34 и разложением поддиапазона, до некоторой величины, где эта определенная величина может быть передана на сторону декодера в пределах дополнительной информации 20 соответствующими синтаксическими элементами bsFrameLength и bsFreqRes. Например, группы последовательных временных интервалов гребенки фильтров 34 могут, соответственно, сформировать фрейм 36. Другими словами, звуковой сигнал может быть разделен на фреймы, перекрывающиеся во времени или, например, являющиеся непосредственно смежными во времени. В этом случае bsFrameLength может определять число параметрических временных интервалов 38 на фрейм, то есть единицу времени, в которую параметры SAOC, такие как OLD и IOC, вычисляются в SAOC фрейме 36, и bsFreqRes может определять число обрабатывающих частотных диапазонов, для которых вычисляются параметры SAOC, то есть число диапазонов, на которые подразделяется частотная область и для которых параметры SAOC определяются и передаются. Посредством этой меры каждый фрейм разделяется на временные/частотные элементы, проиллюстрированные на фиг.2 пунктирными линиями 39.

Устройство понижающего микширования 16 вычисляет параметры SAOC согласно следующим формулам. В частности, устройство понижающего микширования 16 вычисляет разность уровней объекта для каждого объекта i как

O L D i = ∑ n ∑ k ∈ m x i n , k x i n , k ∗ max j ( ∑ n ∑ k ∈ m x j n , k x j n , k ∗ )

где суммы и индексы n и k, соответственно, проходят через все временные интервалы гребенки фильтров 34 и все поддиапазоны гребенки фильтров 30, которые принадлежат определенному временному/частотному элементу 39. Таким образом, энергии всех величин поддиапазонов х_i звукового сигнала, или объекта i, суммируются и нормализуются до самой большой величины энергии этого элемента среди всех объектов или звуковых сигналов.

Далее, SAOC устройство понижающего микширования 16 может вычислять меру подобия соответствующих временных/частотных элементов пар различных входных объектов 14₁-14_N. Хотя SAOC устройство понижающего микширования 16 может вычислять меру подобия между всеми парами входных объектов 14₁-14_N, устройство понижающего микширования 16 может также подавлять передачу сигналов мер подобия или ограничивать вычисление мер подобия для звуковых объектов 14₁-14_N, которые формируют левый или правый каналы общего стереоканала. В любом случае мера подобия называется межобъектным параметром взаимной корреляции IOC_i,j. Вычисляется следующим образом

I O C i , j = I O C j , i = Re { ∑ n ∑ k ∈ m x i n , k x j n , k ∗ ∑ n ∑ k ∈ m x i n , k x i n , k ∗ ∑ n ∑ k ∈ m x j n , k x j n , k ∗ }

где опять индексы n и k проходят через все величины поддиапазонов, принадлежащих определенному временному/частотному элементу 39, а i и j обозначают определенные пары звуковых объектов 14₁-14_N.

Устройство понижающего микширования 16 микширует с понижением объекты 14₁-14_N при помощи коэффициентов усиления, применяемых к каждому объекту 14₁-14_N.

В случае сигнала стерео понижающего микширования, как показано на фиг.1, коэффициент усиления D_1,i применяется к объекту i, и затем все такие усиленные объекты суммируются для получения левого канала понижающего микширования L0, и коэффициенты усиления D_2,i применяются к объекту i, и затем таким образом усиленные объекты суммируются для получения правого канала понижающего микширования R0. Таким образом, коэффициенты D_1,i и D_2,i формируют матрицу понижающего микширования D размера 2×N при

D = ( D 1,1 ⋯ D 1 N D 2,1 ⋯ D N ) и ( LO RO ) = D ⋅ ( O b j i ⋮ O b j N ) .

Это предписание понижающего микширования передается на сторону декодера посредством коэффициентов усиления понижающего микширования DMG_i, а в случае сигнала стерео понижающего микширования посредством разностей уровней канала понижающего микширования DCLD_i.

Коэффициенты усиления понижающего микширования вычисляются согласно:

D M G i = 10 log 10 ( D 1, i 2 + D 2, i 2 + ε ) ,

где ε - маленькое число, такое как 10^-9 или на 96 децибелов ниже максимального входа сигнала.

Для DCLD_s применяется следующая формула:

D C L D 1 = 10 log 10 ( D 1, i 2 D 2, i 2 ) .

Устройство понижающего микширования 16 генерирует сигнал стерео понижающего микширования согласно:

( L 0 R 0 ) = ( D 1 D 2 ) ⋅ ( O b j 1 ⋮ O b j N )

Таким образом, в вышеупомянутых формулах параметры OLD и IOC являются функцией звуковых сигналов, а параметры DMG и DCLD - функцией D. Между прочим, замечено, что D может изменяться во времени.

В случае бинауральной визуализации описанного здесь режима работы декодера выходной сигнал естественно включает два канала, то есть М'=2. Однако вышеупомянутая информация о визуализации 26 показывает, как входные сигналы 14₁-14_N должны распределяться на положения 1-М виртуального громкоговорителя, где М может быть больше 2. Информация о визуализации, таким образом, может включать матрицу визуализации М, показывающую, как входные объекты obj_i должны распределяться на положения виртуального громкоговорителя j для получения сигналов виртуального громкоговорителя vs_j, где j находится между 1 и М включительно, a i находится между 1 и N включительно, при

( ν S 1 ⋮ ν S М ) = М ⋅ ( O b j 1 ⋮ O b j N )

Информация о визуализации может так или иначе предоставляться или вводиться пользователем. Возможно даже, что информация о визуализации 26 содержится в дополнительной информации самого потока SAOC 21. Конечно, можно допустить, чтобы информации о визуализации изменялась во времени. Например, временное разрешение может равняться разрешению фрейма, то есть М может определяться для фрейма 36. Возможны даже изменения М по частоте. Например, М может определяться для каждого элемента 39. Далее, например, М r e n l , m будет использоваться для обозначения М при m, обозначающем частотный диапазон, и l, обозначающем параметр временного интервала 38.

Наконец, в дальнейшем будут упомянуты HRTFs (функции моделирования восприятия звука) 27. Эти HRTFs описывают, как сигнал виртуального громкоговорителя j должен визуализироваться на левое и правое ухо соответственно так, чтобы сохранялись бинауральные реплики. Другими словами, для каждого положения виртуального громкоговорителя j существуют две HRTFs, а именно: одна для левого уха и другая для правого уха. Как будет более подробно описано ниже, возможно, что декодер предоставляется с параметрами HRTF 27, которые включают, для каждого положения виртуального громкоговорителя j компенсацию сдвига фазы Ф_j, описывающую компенсацию сдвига фазы между сигналами, полученными обоими ушами и происходящими из того же самого источника j, и два коэффициента увеличения/ослабления амплитуды Р_i,R и Р_i,L для правого и левого уха соответственно, описывающие ослабление обоих сигналов, обусловленное головой слушателя. Параметр HRTF 27 может быть постоянным на протяжении времени, но определяется при некотором частотном разрешении, которое может быть равным параметру разрешения SAOC, то есть на частотный диапазон. В дальнейшем параметры HRTF даны как Ф j m , Р j , R m и Р j , L m при m, обозначающем частотный диапазон.

Фиг.3 показывает декодер SAOC 12 фиг.1 более подробно. Как там показано, декодер 12 включает блок предварительной обработки понижающего микширования 40 и параметр SAOC блока обработки 42. Блок предварительной обработки понижающего микширования 40 формируется, чтобы получить сигнал стерео понижающего микширования 18 и преобразовать его в бинауральный выходной сигнал 24. Блок предварительной обработки понижающего микширования 40 выполняет это преобразование способом, который управляется блоком обработки параметра SAOC 42. В частности, блок обработки параметра SAOC 42 обеспечивает блок предварительной обработки понижающего микширования 40 информацией о предписании визуализации 44, которую блок обработки параметра SAOC 42 получает из дополнительной информации SAOC 20 и информации о визуализации 26.

Фиг.4 показывает блок предварительной обработки понижающего микширования 40 в соответствии с осуществлением данного изобретения более подробно. В частности, в соответствии с фиг.4 блок предварительной обработки понижающего микширования 40 включает два тракта, соединенные параллельно между входом, на который принимается сигнал стерео понижающего микширования 18, то есть X^n,k, и выходом блока 40, в котором производится бинауральный выходной сигнал Х^n,k, а именно тракт, называемый сухим трактом 46, к которому последовательно присоединен блок сухой визуализации; и влажный тракт 48, к которому последовательно присоединен генератор сигнала декорреляции 50 и блок влажной визуализации 52, где стадия микширования 53 микширует выходы обоих трактов 46 и 48, чтобы получить окончательный результат, а именно бинауральный выходной сигнал 24.

Как будет более подробно описано ниже, блок сухой визуализации 47 формируется, чтобы вычислять предварительный бинауральный выходной сигнал 54 из сигнала стерео понижающего микширования 18, где предварительный бинауральный выходной сигнал 54 представляет выход тракта сухой визуализации 46. Блок сухой визуализации 47 выполняет свое вычисление, основанное на предписании сухой визуализации, представленном блоком обработки параметра SAOC 42. В конкретном осуществлении, описанном ниже, предписание визуализации определяется матрицей сухой визуализации G^n,k. Только что упомянутое положение проиллюстрировано на фиг.4 пунктирной стрелкой.

Генератор декоррелированного сигнала 50 формируется, чтобы генерировать декоррелированный сигнал X d n , k из сигнала стерео понижающего микширования 18 посредством осуществления понижающего микширования таким образом, чтобы он был перцепционным эквивалентом моно понижающего микширования правого и левого канала сигнала стерео понижающего микширования 18, однако будучи декоррелированным до моно понижающего микширования. Как показано на фиг.4, генератор декоррелированного сигнала 50 может включать сумматор 56 для суммирования левого и правого канала сигнала стерео понижающего микширования 18, например, в отношении 1:1 или, например, в некотором другом фиксированном отношении, чтобы получить соответствующее моно понижающее микширование 58, за которым следует декоррелятор 60 для генерирования вышеупомянутого декоррелированного сигнала X d n , k . Декоррелятор 60 может, например, включать одну или несколько стадий задержки, чтобы сформировать декоррелированный сигнал X d n , k из задержанной версии или взвешенной суммы задержанных версий моно понижающего микширования 58 или даже взвешенной суммы на моно понижающем микшировании 58 и задержанной версии(й) моно понижающего микширования. Конечно, существует много альтернатив для декоррелятора 60. Фактически декорреляция, выполненная декоррелятором 60 и генератором декоррелированного сигнала 50, соответственно, имеет тенденцию понижать межканальную когерентность между декоррелированным сигналом 62 и моно понижающим микшированием 58, будучи измеренной вышеупомянутой формулой, соответствующей межобъектной взаимной корреляции, при существенном сохранении их разностей уровней объекта, когда измеряется вышеупомянутой формулой для разностей уровней объекта.

Блок влажной визуализации 52 формируется для вычисления корректирующего бинауральный выходного сигнала 64 из декоррелированного сигнала 62; таким образом полученный корректирующий бинауральный выходной сигнал 64 представляет собой выход тракта влажной визуализации 48. Блок влажной визуализации 52 основывает свое вычисление на предписании влажной визуализации, которое, в свою очередь, зависит от предписания сухой визуализации, используемого блоком сухой визуализации 47, как описывается ниже. Соответственно, предписание влажной визуализации, которое обозначено как Р₂ ^n,k на фиг.4, получается из блока обработки параметра SAOC 42, как обозначено пунктирной стрелкой на фиг.4.

Стадия микширования 53 микширует бинауральные выходные сигналы 54 и 64 трактов сухой и влажной визуализации 46 и 48 для получения окончательного бинаурального выходного сигнала 24. Как показано на фиг.4, стадия микширования 53 формируется, чтобы микшировать левый и правый каналы бинауральных выходных сигналов 54 и 64 индивидуально и может, соответственно, включать сумматор 66 для суммирования их левых каналов и сумматор 68 для суммирования их правых каналов соответственно.

Описав структуру декодера SAOC 12 и внутреннюю структуру блока предварительной обработки понижающего микширования 40, в дальнейшем описываются их функциональные возможности. В частности, детали осуществления, описанные ниже, представляют различные альтернативы для блока обработки параметра SAOC 42 для получения информации о предписании визуализации 44, таким образом контролируя межканальную когерентность сигнала бинаурального объекта 24. Другими словами, блок обработки параметра SAOC 42 не только вычисляет информацию о предписании визуализации 44, но и одновременно контролирует отношение смеси, посредством которого предварительные и корректирующие бинауральные сигналы 55 и 64 микшируются в окончательный бинауральный выходной сигнал 24.

В соответствии с первой альтернативой блок обработки параметра SAOC 42 формируется, чтобы контролировать только что упомянутое отношение смеси, как показано на фиг.5. В частности, на стадии 80 определяется фактическая величина бинауральной межканальной когерентности предварительного бинаурального выходного сигнала 54 или оценивается блоком 42. На стадии 82 блок обработки параметра SAOC 42 определяет заданную (целевую) величину бинауральной межканальной когерентности. Основанный на этих, таким образом определенных величинах межканальной когерентности, блок обработки параметра SAOC 42 устанавливает вышеупомянутое отношение смеси на стадии 84. В частности, стадия 84 может включать блок обработки параметра SAOC 42, соответствующим образом вычисляющий предписание сухой визуализации, используемое блоком сухой визуализации 42, и предписание влажной визуализации, используемое блоком влажной визуализации 52 соответственно, основанные на величинах межканальной когерентности, определенных на стадиях 80 и 82

Бинауральная визуализация мультиканального звукового сигнала

Патент 2512124