2635884 - Устройство и способ для предоставления улучшенных характеристик направленного понижающего микширования для трехмерного аудио

Устройство и способ для предоставления улучшенных характеристик направленного понижающего микширования для трехмерного аудио

Иллюстрации

Показать все

Изобретение относится к средствам направленного понижающего микширования для трехмерного аудио. Технический результат заключается в повышении эффективности кодирования аудиосигналов. Устройство для понижающего микширования трех или более входных аудиоканалов для того, чтобы получать два или более выходных аудиоканала, содержит приемный интерфейс для приема трех или более входных аудиоканалов и для приема вспомогательной информации. Кроме того, устройство содержит понижающий микшер для понижающего микширования трех или более входных аудиоканалов в зависимости от вспомогательной информации для того, чтобы получать два или более выходных аудиоканала. Число выходных аудиоканалов меньше числа входных аудиоканалов. Вспомогательная информация указывает характеристику по меньшей мере одного из трех или более входных аудиоканалов или характеристику одной или более звуковых волн, записанных в одном или более входных аудиоканалов, либо характеристику одного или более источников звука, которые испускают одну или более звуковых волн, записанных в одном или более входных аудиоканалов. 4 н. и 6 з.п. ф-лы, 9 ил.

Реферат

Настоящее изобретение относится к обработке аудиосигналов и, в частности, к устройству и способу для реализации улучшенного понижающего микширования, в частности, для реализации улучшенных характеристик направленного понижающего микширования для трехмерного (3D) аудио.

Растущее число громкоговорителей используется для пространственного воспроизведения звука. Хотя унаследованное воспроизведение с объемным звуком (например, 5.1) ограничено одной плоскостью, вводятся новые форматы каналов с приподнятыми динамиками в контексте воспроизведения трехмерного аудио.

Сигналы, которые должны быть воспроизведены по громкоговорителям, ранее были непосредственно связаны с конкретными динамиками и сохранялись и передавались дискретно или параметрически. Можно сказать, что для этого вида форматов, они связаны с однозначно заданным числом и позициями громкоговорителей системы воспроизведения звука. Соответственно, требуется учитывать конкретный формат воспроизведения перед передачей или сохранением аудиосигнала.

Тем не менее, уже существуют некоторые исключения из этого принципа. Например, многоканальные аудиосигналы (например, пять аудиоканалов объемного звучания или, например, аудиоканалы объемного звучания 5.1) должны быть микшированы с понижением для воспроизведения по двухканальным компоновкам стереогромкоговорителей. Предусмотрены правила для того, как воспроизводить пять каналов объемного звучания на двух громкоговорителях стереосистемы.

Кроме того, когда были введены стереоканалы, было предусмотрено правило для того, как воспроизводить аудиоконтент двух стереоканалов посредством одного моногромкоговорителя.

Поскольку возрастает число форматов и в силу этого число вариантов того, как позиционируются громкоговорители, практически невозможно учитывать компоновку громкоговорителей системы воспроизведения перед передачей или сохранением. Соответственно, требуется адаптировать входящие аудиосигналы к фактической компоновке громкоговорителей.

Различные способы могут использоваться для понижающего микширования от объемного звука до двухканального стерео. По-прежнему широко используемое понижающее микширование во временной области с помощью статических коэффициентов понижающего микширования зачастую упоминается в качестве понижающего ITU-микширования [5]. Другие подходы на основе понижающего микширования во временной области (частично с динамическим регулированием коэффициентов понижающего микширования) используются в кодерах на основе технологий матричного объемного звучания [6], [7].

В [3] раскрыто то, что источники прямого звука, смешиваемые с задними каналами, свертываемыми в двухканальную стереопанораму, могут быть неразличимыми вследствие маскирования или иначе маскировать другие источники звука.

В ходе разработки технологий пространственного кодирования аудио (SAC) алгоритмы частотно-избирательного понижающего микширования введены в качестве части кодера [8], [9]. В частности, могут уменьшаться расцвечивания звука, и балансирование уровня и стабильность локализации источников звука поддерживается посредством применения энергетического выравнивания к результирующим аудиоканалам. Энергетическое выравнивание также выполняется в других системах понижающего микширования [9], [10], [12].

Для случая, когда задние каналы содержат только окружающий звук, такой как реверберация, сокращение объемного окружения (реверберация, объемность) разрешается в понижающем ITU-микшировании [5] посредством ослабления задних каналов многоканального сигнала. Если задние каналы также содержат прямой звук, это ослабление не является надлежащим, поскольку прямые части заднего канала также будут ослабляться в понижающем микшировании. Следовательно, рассматривается более сложный алгоритм ослабления объемного окружения.

Аудиокодеки, такие как AC-3 и HE-AAC, предоставляют средство передачи вместе с аудиопотоком так называемых метаданных, включающих в себя коэффициенты понижающего микширования для понижающего микширования с пяти до двух аудиоканалов (стерео). Число выбранных аудиоканалов (центральных, задних каналов) в результирующем стереосигнале управляется посредством передаваемых значений усиления. Хотя эти коэффициенты могут быть зависимыми от времени, обычно они остаются постоянными в течение определенной длительности одного элемента программы.

Решение, используемое в матричной системе Logic7, вводит сигнально-адаптивный подход, который ослабляет задние каналы, только если они считаются полностью окружающими. Это достигается посредством сравнения мощности передних каналов с мощностью задних каналов. Допущение в отношении этого подхода заключается в том, что если задние каналы содержат исключительно объемное окружение, они имеют значительно меньшую мощность по сравнению с передними каналами. Чем большую мощность имеют передние каналы по сравнению с задними каналами, тем больше задние каналы ослабляются в процессе понижающего микширования. Это допущение может быть истинным для некоторых формирований объемного звучания, в частности, с классическим контентом, но это допущение не является истинным для различных других сигналов.

Следовательно, очень важно, если предоставляются усовершенствованные принципы для обработки аудиосигналов.

Задача настоящего изобретения заключается в том, чтобы предоставлять усовершенствованные принципы для обработки аудиосигналов. Задача настоящего изобретения достигается решается устройства по п. 1, посредством системы по п. 13, посредством способа по п. 14 и посредством компьютерной программы по п. 15.

Предоставляется устройство для формирования двух или более выходных аудиоканалов из трех или более входных аудиоканалов. Устройство содержит приемный интерфейс для приема трех или более входных аудиоканалов и для приема вспомогательной информации. Кроме того, устройство содержит понижающий микшер для понижающего микширования трех или более входных аудиоканалов в зависимости от вспомогательной информации для того, чтобы получать два или более выходных аудиоканала. Число выходных аудиоканалов меньше числа входных аудиоканалов. Вспомогательная информация указывает характеристику, по меньшей мере, одного из трех или более входных аудиоканалов или характеристику одной или более звуковых волн, записанных в одном или более входных аудиоканалов, либо характеристику одного или более источников звука, которые испускают одну или более звуковых волн, записанных в одном или более входных аудиоканалов.

Варианты осуществления основаны на таком принципе, чтобы передавать вспомогательную информацию вместе с аудиосигналами, чтобы направлять процесс преобразования формата из формата входящего аудиосигнала в формат системы воспроизведения.

Согласно варианту осуществления, понижающий микшер может быть выполнен с возможностью формировать каждый выходной аудиоканал из двух или более выходных аудиоканалов посредством модификации, по меньшей мере, двух входных аудиоканалов из трех или более входных аудиоканалов в зависимости от вспомогательной информации для того, чтобы получать группу модифицированных аудиоканалов, и посредством комбинирования каждого модифицированного аудиоканала упомянутой группы модифицированных аудиоканалов для того, чтобы получать упомянутый выходной аудиоканал.

В варианте осуществления, понижающий микшер, например, может быть выполнен с возможностью формировать каждый выходной аудиоканал из двух или более выходных аудиоканалов посредством модификации каждого входного аудиоканала из трех или более входных аудиоканалов в зависимости от вспомогательной информации для того, чтобы получать группу модифицированных аудиоканалов, и посредством комбинирования каждого модифицированного аудиоканала упомянутой группы модифицированных аудиоканалов для того, чтобы получать упомянутый выходной аудиоканал.

Согласно варианту осуществления, понижающий микшер, например, может быть выполнен с возможностью формировать каждый выходной аудиоканал из двух или более выходных аудиоканалов посредством формирования каждого модифицированного аудиоканала из группы модифицированных аудиоканалов посредством определения весового коэффициента в зависимости от входного аудиоканала из одного или более входных аудиоканалов и в зависимости от вспомогательной информации и посредством применения упомянутого весового коэффициента к упомянутому входному аудиоканалу.

В варианте осуществления, вспомогательная информация может указывать величину объемного окружения каждого из трех или более входных аудиоканалов. Понижающий микшер может быть выполнен с возможностью микшировать с понижением три или более входных аудиоканала в зависимости от величины объемного окружения каждого из трех или более входных аудиоканалов для того, чтобы получать два или более выходных аудиоканала.

Согласно другому варианту осуществления, вспомогательная информация может указывать диффузность каждого из трех или более входных аудиоканалов или направленность каждого из трех или более входных аудиоканалов. Понижающий микшер может быть выполнен с возможностью микшировать с понижением три или более входных аудиоканала в зависимости от диффузности каждого из трех или более входных аудиоканалов или в зависимости от направленности каждого из трех или более входных аудиоканалов для того, чтобы получать два или более выходных аудиоканала.

В дополнительном варианте осуществления, вспомогательная информация может указывать направление поступления звука. Понижающий микшер может быть выполнен с возможностью микшировать с понижением три или более входных аудиоканала в зависимости от направления поступления звука, чтобы получать два или более выходных аудиоканала.

В варианте осуществления, каждый из двух или более выходных аудиоканалов может представлять собой канал громкоговорителя для управления громкоговорителем.

Согласно варианту осуществления, устройство может быть выполнено с возможностью подавать каждый из двух или более выходных аудиоканалов в громкоговоритель группы из двух или более громкоговорителей. Понижающий микшер может быть выполнен с возможностью микшировать с понижением три или более входных аудиоканала в зависимости от каждой предполагаемой позиции громкоговорителя первой группы из трех или более предполагаемых позиций громкоговорителя и в зависимости от каждой фактической позиции громкоговорителя второй группы из двух или более фактических позиций громкоговорителя, чтобы получать два или более выходных аудиоканала. Каждая фактическая позиция громкоговорителя второй группы из двух или более фактических позиций громкоговорителя может указывать позицию громкоговорителя группы из двух или более громкоговорителей.

В варианте осуществления, каждый входной аудиоканал из трех или более входных аудиоканалов может назначаться предполагаемой позиции громкоговорителя первой группы из трех или более предполагаемых позиций громкоговорителя. Каждый выходной аудиоканал из двух или более выходных аудиоканалов может назначаться фактической позиции громкоговорителя второй группы из двух или более фактических позиций громкоговорителя. Понижающий микшер может быть выполнен с возможностью формировать каждый выходной аудиоканал из двух или более выходных аудиоканалов в зависимости, по меньшей мере, от двух из трех или более входных аудиоканалов, в зависимости от предполагаемой позиции громкоговорителя каждого из упомянутых, по меньшей мере, двух из трех или более входных аудиоканалов и в зависимости от фактической позиции громкоговорителя упомянутого выходного аудиоканала.

Согласно варианту осуществления, каждый из трех или более входных аудиоканалов содержит аудиосигнал аудиообъекта из трех или более аудиообъектов. Вспомогательная информация содержит, для каждого аудиообъекта из трех или более аудиообъектов, позицию аудиообъекта, указывающую позицию упомянутого аудиообъекта. Понижающий микшер выполнен с возможностью микшировать с понижением три или более входных аудиоканала в зависимости от позиции аудиообъекта каждого из трех или более аудиообъектов, чтобы получать два или более выходных аудиоканала.

В варианте осуществления, понижающий микшер выполнен с возможностью микшировать с понижением четыре или более входных аудиоканала в зависимости от вспомогательной информации для того, чтобы получать три или более выходных аудиоканала.

Кроме того, предоставляется система. Система содержит кодер для кодирования трех или более необработанных аудиоканалов для того, чтобы получать три или более кодированных аудиоканала, и для кодирования дополнительной информации относительно трех или более необработанных аудиоканалов для того, чтобы получать вспомогательную информацию. Кроме того, система содержит устройство согласно одному из вышеописанных вариантов осуществления для приема трех или более кодированных аудиоканалов в качестве трех или более входных аудиоканалов, для приема вспомогательной информации и для формирования, в зависимости от вспомогательной информации, двух или более выходных аудиоканалов из трех или более входных аудиоканалов.

Кроме того, предоставляется способ для формирования двух или более выходных аудиоканалов из трех или более входных аудиоканалов. Способ содержит:

- прием трех или более входных аудиоканалов и прием вспомогательной информации; и

- понижающее микширование трех или более входных аудиоканалов в зависимости от вспомогательной информации для того, чтобы получать два или более выходных аудиоканала.

Число выходных аудиоканалов меньше числа входных аудиоканалов. Входные аудиоканалы содержат запись звука, испускаемого посредством источника звука, и при этом вспомогательная информация указывает характеристику звука или характеристику источника звука.

Кроме того, предоставляется компьютерная программа для реализации вышеописанного способа при выполнении на компьютере или в процессоре сигналов.

Далее подробнее описываются варианты осуществления настоящего изобретения в отношении чертежей, на которых:

Фиг. 1 представляет собой устройство для понижающего микширования трех или более входных аудиоканалов для того, чтобы получать два или более выходных аудиоканала согласно варианту осуществления,

Фиг. 2 иллюстрирует понижающий микшер согласно варианту осуществления,

Фиг. 3 иллюстрирует сценарий согласно варианту осуществления, в котором каждый из выходных аудиоканалов формируется в зависимости от каждого из входных аудиоканалов,

Фиг. 4 иллюстрирует другой сценарий согласно варианту осуществления, в котором каждый из выходных аудиоканалов формируется в зависимости от точно двух из входных аудиоканалов,

Фиг. 5 иллюстрирует преобразование передаваемых сигналов на основе пространственного представления в фактические позиции громкоговорителя,

Фиг. 6 иллюстрирует преобразование приподнятых пространственных сигналов в другие уровни возвышения,

Фиг. 7 иллюстрирует такой рендеринг исходного сигнала для различных позиций громкоговорителя,

Фиг. 8 иллюстрирует систему согласно варианту осуществления, и

Фиг. 9 является другой иллюстрацией системы согласно варианту осуществления.

Фиг. 1 иллюстрирует устройство 100 для формирования двух или более выходных аудиоканалов из трех или более входных аудиоканалов согласно варианту осуществления.

Устройство 100 содержит приемный интерфейс 110 для приема трех или более входных аудиоканалов и для приема вспомогательной информации.

Кроме того, устройство 100 содержит понижающий микшер 120 для понижающего микширования трех или более входных аудиоканалов в зависимости от вспомогательной информации для того, чтобы получать два или более выходных аудиоканала.

Число выходных аудиоканалов меньше числа входных аудиоканалов. Вспомогательная информация указывает характеристику, по меньшей мере, одного из трех или более входных аудиоканалов или характеристику одной или более звуковых волн, записанных в одном или более входных аудиоканалов, либо характеристику одного или более источников звука, которые испускают одну или более звуковых волн, записанных в одном или более входных аудиоканалов.

Фиг. 2 иллюстрирует понижающий микшер 120 согласно варианту осуществления на дополнительной иллюстрации. Направляющая информация, проиллюстрированная на фиг. 2, является вспомогательной информацией.

Фиг. 7 иллюстрирует рендеринг исходного сигнала для различных позиций громкоговорителя. Передаточные функции рендеринга могут зависеть от углов (азимутальных и возвышения), например, указывающих направление поступления звуковой волны, могут зависеть от расстояния, например, расстояния от источника звука до записывающего микрофона и/или могут зависеть от диффузности, причем эти параметры, например, могут быть частотно-зависимыми.

В отличие от подходов на основе понижающего микширования вслепую, например, подходов на основе ненаправленного понижающего микширования, согласно вариантам осуществления, управляющая информация или дескриптивная информация должна передаваться вместе с аудиосигналом, чтобы оказывать влияние на процесс понижающего микширования на стороне приемного устройства сигнальной цепочки. Эта вспомогательная информация может вычисляться на стороне отправляющего устройства/кодера сигнальной цепочки или может предоставляться из пользовательского ввода. Вспомогательная информация, например, может передаваться в потоке битов, например, мультиплексироваться с кодированным аудиосигналом.

Согласно конкретному варианту осуществления, понижающий микшер 120, например, может быть выполнен с возможностью микшировать с понижением четыре или более входных аудиоканала в зависимости от вспомогательной информации для того, чтобы получать три или более выходных аудиоканала.

В варианте осуществления, каждый из двух или более выходных аудиоканалов, например, может представлять собой канал громкоговорителя для управления громкоговорителем.

Например, в конкретном дополнительном варианте осуществления, понижающий микшер 120 может быть выполнен с возможностью микшировать с понижением семь входных аудиоканалов для того, чтобы получать три или более выходных аудиоканала. В другом конкретном варианте осуществления, понижающий микшер 120 может быть выполнен с возможностью микшировать с понижением девять входных аудиоканалов для того, чтобы получать три или более выходных аудиоканала. В конкретном дополнительном варианте осуществления, понижающий микшер 120 может быть выполнен с возможностью микшировать с понижением 24 канала для того, чтобы получать три или более выходных аудиоканала.

В другом конкретном варианте осуществления, понижающий микшер 120 может быть выполнен с возможностью микшировать с понижением семь или более входных аудиоканалов для того, чтобы получать точно пять выходных аудиоканалов, например, чтобы получать пять аудиоканалов пятиканальной системы объемного звучания. В дополнительном конкретном варианте осуществления, понижающий микшер 120 может быть выполнен с возможностью микшировать с понижением семь или более входных аудиоканалов для того, чтобы получать точно шесть выходных аудиоканалов, например, шесть аудиоканалов системы объемного звучания 5.1.

Согласно варианту осуществления, понижающий микшер 120, например, может быть выполнен с возможностью формировать каждый выходной аудиоканал из двух или более выходных аудиоканалов посредством формирования каждого модифицированного аудиоканала из группы модифицированных аудиоканалов посредством определения весового коэффициента в зависимости от входного аудиоканала из одного или более входных аудиоканалов и в зависимости от вспомогательной информации и посредством применения упомянутого весового коэффициента к упомянутому входному аудиоканалу.

Фиг. 3 иллюстрирует такой вариант осуществления. Каждый выходной аудиоканал (AOC₁, AOC₂, AOC₃) зависит от каждого из входных аудиоканалов (AIC₁, AIC₂, AIC₃, AIC₄).

Например, рассмотрим первый выходной аудиоканал AOC₁.

Понижающий микшер 120 выполнен с возможностью определять весовой коэффициент g_1,1, g_1,2, g_1,3, g_1,4 для каждого входного аудиоканала AIC₁, AIC₂, AIC₃, AIC₄в зависимости от входного аудиоканала и в зависимости от вспомогательной информации. Кроме того, понижающий микшер 120 выполнен с возможностью применять каждый весовой коэффициент g_1,1, g_1,2, g_1,3, g_1,4к своему входному аудиоканалу AIC₁, AIC₂, AIC₃, AIC₄.

Например, понижающий микшер может быть выполнен с возможностью применять весовой коэффициентк своему входному аудиоканалу посредством умножения каждой выборки временной области входного аудиоканала на весовой коэффициент (например, когда входной аудиоканал представлен во временной области). Альтернативно, например, понижающий микшер может быть выполнен с возможностью применять весовой коэффициентк своему входному аудиоканалу посредством умножения каждого спектрального значения входного аудиоканала на весовой коэффициент (например, когда входной аудиоканал представлен в спектральной области, частотной области или частотно-временной области). Полученные модифицированные аудиоканалы (MAC_1,1, MAC_1,2, MAC_1,3, MAC_1,4), получающиеся в результате применения весовых коэффициентов g_1,1, g_1,2, g_1,3, g_1,4, затем комбинируются, например, суммируются, для того чтобы получать один из выходных аудиоканалов AOC₁.

Второй выходной аудиоканал AOC₂ определен аналогично посредством определения весовых коэффициентов g_2,1, g_2,2, g_2,3, g_2,4, посредством применения каждого из весовых коэффициентов к своему входному аудиоканалу AIC₁, AIC₂, AIC₃, AIC₄ и посредством комбинирования результирующих модифицированных аудиоканалов MAC_2,1, MAC_2,2, MAC_2,3, MAC_2,4.

Аналогично, третий выходной аудиоканал AOC₂ определен аналогично посредством определения весовых коэффициентов g_3,1, g_3,2, g_3,3, g_3,4, посредством применения каждого из весовых коэффициентов к своему входному аудиоканалу AIC₁, AIC₂, AIC₃, AIC₄ и посредством комбинирования результирующих модифицированных аудиоканалов MAC_3,1, MAC_3,2, MAC_3,3, MAC_3,4.

Фиг. 4 иллюстрирует вариант осуществления, в котором каждый из выходных аудиоканалов формируется не посредством модификации каждого входного аудиоканала из трех или более входных аудиоканалов, но при этом каждый из выходных аудиоканалов формируется посредством модификации только двух из входных аудиоканалов и посредством комбинирования этих двух входных аудиоканалов.

Например, на фиг. 4, четыре канала принимаются как входные аудиоканалы (LS₁=левый входной канал объемного звучания; L₁=левый входной канал; R₁=правый входной канал; RS₁=правый входной канал объемного звучания), и должны формироваться три выходных аудиоканала (L₂=левый выходной канал; R₂=правый выходной канал; C₂₌центральный выходной канал) посредством понижающего микширования входных аудиоканалов.

На фиг. 4, левый выходной канал L₂ формируется в зависимости от левого входного канала LS₁ объемного звучания и в зависимости от левого входного канала L₁. С этой целью, понижающий микшер 120 формирует весовой коэффициент g_1,1 для левого входного канала LS₁ объемного звучания в зависимости от вспомогательной информации и формирует весовой коэффициент g_1,2 для левого входного канала L₁ в зависимости от вспомогательной информации и применяет каждый из весовых коэффициентов к своему входному аудиоканалу для того, чтобы получать левый выходной канал L₂.

Кроме того, центральный выходной канал C₂ формируется в зависимости от левого входного канала L₁ и в зависимости от правого входного канала R₁. С этой целью, понижающий микшер 120 формирует весовой коэффициент g_2,2 для левого входного канала L₁ в зависимости от вспомогательной информации и формирует весовой коэффициент g_2,3 для правого входного канала R₁ в зависимости от вспомогательной информации и применяет каждый из весовых коэффициентов к своему входному аудиоканалу для того, чтобы получать центральный выходной канал C₂.

Кроме того, правый выходной канал R₂ формируется в зависимости от правого входного канала R₁ и в зависимости от правого входного канала RS₁ объемного звучания. С этой целью, понижающий микшер 120 формирует весовой коэффициент g_3,3 для правого входного канала R₁ в зависимости от вспомогательной информации и формирует весовой коэффициент g_3,4 для правого входного канала RS₁ объемного звучания в зависимости от вспомогательной информации и применяет каждый из весовых коэффициентов к своему входному аудиоканалу для того, чтобы получать левый выходной канал R₂.

Варианты осуществления настоящего изобретения обусловлены посредством следующих изысканий.

Предшествующий уровень техники предоставляет коэффициенты понижающего микширования в качестве метаданных в потоке битов.

Один подход должен заключается в том, чтобы дополнять предшествующий уровень техники посредством коэффициентов частотно-избирательного понижающего микширования, дополнительных каналов (например, аудиоканалов, из исходной конфигурации каналов, например, информации высоты) и/или дополнительных форматов, которые должны использоваться в целевой конфигурации каналов. Другими словами, матрица понижающего микширования для форматов трехмерного аудио должна быть расширена посредством дополнительных каналов формата ввода, в частности, посредством каналов высоты форматов трехмерного аудио. Относительно дополнительных форматов множество форматов вывода должно поддерживаться посредством трехмерного аудио. Тогда как для 5.0- или 5.1-сигнала, понижающее микширование может осуществляться только для стерео- или возможно моно-, в конфигурациях каналов, содержащих большее число каналов, следует принимать во внимание, что несколько форматов вывода являются релевантными. Для 22.2-каналов они могут представлять собой моно-, стерео-, 5.1- или различные 7.1-варианты и т.д.

Тем не менее, должны значительно повышаться ожидаемые скорости передачи битов для передачи этих расширенных коэффициентов. Для конкретных форматов, может быть целесообразным задавать дополнительные коэффициенты понижающего микширования и комбинировать их с существующими метаданными понижающего микширования (см. 7.1-проект в MPEG, выходной документ N12980).

В контексте трехмерного аудио, ожидаемых комбинаций конфигураций каналов на стороне отправляющего устройства и приемного устройства множество, и объем данных выходит за рамки допустимых скоростей передачи битов. Тем не менее, снижение избыточности (например, кодирование методом Хаффмана) позволяет уменьшать объем данных до допустимой пропорции.

Кроме того, коэффициенты понижающего микширования, как описано выше, могут характеризоваться параметрически.

Тем не менее, при этом по-прежнему ожидаемые скорости передачи битов должны значительно увеличиваться в силу такого подхода.

Из вышеозначенного следует то, что, в общем, на практике неосуществимо расширение установленных подходов, причем одна причина заключается в том, что как следствие, скорости передачи данных должны становиться непропорционально высокими.

Общая спецификация понижающего микширования во временной области может формулироваться следующим образом:

y_n(t)=c_nm*x_m(t),

где y(t) является выходным сигналом понижающего микширования, x(t) является входным сигналом, n является индексом входного аудиоканала, m является индексом выходного канала. Коэффициент понижающего микширования m-ого входного канала в n-ом выходном канале соответствует c_nm. Известным примером является понижающее микширование 5-канального сигнала и двухканального стереосигнала с помощью:

Коэффициенты понижающего микширования являются статическими и применяются к каждой выборке аудиосигнала. Они могут добавляться в качестве метаданных в поток аудиобитов. Термин "коэффициенты частотно-избирательного понижающего микширования" используется в отношении возможности использования отдельных коэффициентов понижающего микширования для конкретных полос частот. В комбинации с изменяющимися во времени коэффициентами понижающее микширование на стороне декодера может управляться из кодера. Спецификация понижающего микширования для аудиокадра в таком случае становится следующей:

y_n(k, s)=c_nm(k)*x_m(k, s),

где k является полосой частот (например, гибридной QMF-полосой частот), s представляет собой подвыборки гибридной QMF-полосы частот.

Как описано выше, передача этих коэффициентов приводит к высоким скоростям передачи битов.

Варианты осуществления настоящего изобретения обеспечивают использование дескриптивной (описательной) вспомогательной информации. Понижающий микшер 120 выполнен с возможностью микшировать с понижением три или более входных аудиоканала в зависимости от такой (дескриптивной) вспомогательной информации для того, чтобы получать два или более выходных аудиоканала.

Дескриптивная информация относительно аудиоканалов, комбинации аудиоканалов или аудиообъектов позволяет улучшать процесс понижающего микширования, поскольку могут учитываться характеристики аудиосигналов.

В общем, такая вспомогательная информация указывает характеристику, по меньшей мере, одного из трех или более входных аудиоканалов или характеристику одной или более звуковых волн, записанных в одном или более входных аудиоканалов, либо характеристику одного или более источников звука, которые испускают одну или более звуковых волн, записанных в одном или более входных аудиоканалов.

Примерами для вспомогательной информации могут быть один или более из следующих параметров:

- отношение "прямой/обработанный сигнал"

- величина объемного окружения

- диффузность

- направленность

- ширина источника звука

- расстояние между источниками звука

- направление поступления

Определения этих параметров известны для специалистов в данной области техники. На предмет определения этих параметров следует обратиться к прилагаемой литературе (см.[1] -[24]). Например, определение для величины объемного окружения предоставляется в [15], [16], [17], [18], [19] и [14]. Определение для отношения "прямой/обработанный сигнал" может сразу извлекаться из определения для "прямого/окружающего", как известно специалистам в данной области техники. Термины "направленность" и "диффузность" поясняются в [21] и также известны специалистам в данной области техники.

Предлагаемые параметры предоставляются в качестве вспомогательной информации для того, чтобы направлять процесс рендеринга, формирующий N-канальный выходной сигнал из M-канального входного сигнала, при этом в случае понижающего микширования, N меньше M.

Параметры, которые предоставляются в качестве вспомогательной информации, не обязательно являются постоянными. Вместо этого, параметры могут варьироваться во времени (параметры могут быть зависимыми от времени).

В общем, вспомогательная информация может содержать параметры, которые доступны частотно-избирательным способом.

Применение передаваемой вспомогательной информации осуществляется при постобработке/рендеринге на стороне декодера. Оценка параметров и их взвешивание зависит от целевой конфигурации каналов и дополнительных характеристик на стороне визуального представления.

Упомянутые параметры могут быть связаны с каналами, группами каналов или объектов.

Параметры могут использоваться в процессе понижающего микширования для того, чтобы определять взвешивание канала или объекта во время понижающего микширования посредством понижающего микшера 120.

Рассмотрим следующий пример. Если канал высоты содержит исключительно реверберацию и/или отражения, это может иметь отрицательный эффект на качество звука во время понижающего микширования. В этом случае, его доля в аудиоканале, получающемся в результате понижающего микширования, следовательно, должна быть небольшой. Следовательно, при управлении понижающим микшированием высокое значение параметра "величина объемного окружения" приводит к низким коэффициентам понижающего микширования для этого канала. В отличие от этого, если он содержит прямые сигналы, он должен отражаться до большей степени в аудиоканале, получающемся в результате понижающего микширования, и, следовательно, приводить к более высоким коэффициентам понижающего микширования (к более высокому весовому коэффициенту).

Например, каналы высоты формирования трехмерного аудио могут содержать компоненты прямого сигнала, а также отражения и реверберацию в целях огибания. Если эти каналы высоты смешиваются с каналами горизонтальной плоскости, это приводит к нежелательным результатам в результирующем микшировании, тогда как приоритетный аудиоконтент прямых компонентов должен быть микширован с понижением в полном объеме.

Информация может использоваться для того, чтобы регулировать коэффициенты понижающего микширования (при необходимости частотно-избирательным способом). Этот замечание применимо ко всем вышеуказанным упомянутым параметрам. Частотная избирательность может обеспечивать более точное управление понижающим микшированием.

Например, весовой коэффициент, который применяется к входному аудиоканалу для того, чтобы получать модифицированный аудиоканал, может определяться, соответственно, в зависимости от соответствующей вспомогательной информации.

Например, если приоритетные каналы (например, левый, центральный или правый канал системы объемного звучания) должны формироваться в качестве выходных аудиоканалов, а не фоновых каналов (к примеру, левого канала объемного звучания или правого канала объемного звучания системы объемного звучания), то:

- Если вспомогательная информация указывает то, что величина объемного окружения входного аудиоканала является высокой, то небольшой весовой коэффициент для этого входного аудиоканала может определяться для формирования приоритетного выходного аудиоканала. Посредством этого, модифицированный аудиоканал, получающийся в результате этого входного аудиоканала, только немного учитывается для формирования соответствующего выходного аудиоканала.

- Если вспомогательная информация указывает то, что величина объемного окружения входного аудиоканала является низкой, то больший весовой коэффициент для этого входно

Устройство и способ для предоставления улучшенных характеристик направленного понижающего микширования для трехмерного аудио

Патент 2635884