Способ обработки аудиосигнала, блок обработки сигналов, стереофонический рендерер, аудиокодер и аудиодекодер

Иллюстрации

Показать все

Изобретение относится к области кодирования/декодирования аудиоданных, в особенности к пространственному объектному кодированию аудиоданных, например к области трехмерных систем кодирования/декодирования аудиоданных. Технический результат – обеспечение идентичности поздней реверберации импульсной характеристики помещения результату свертки аудиосигнала с полной импульсной характеристикой. В данном способе обработки аудиосигнала согласно импульсной характеристике помещения аудиосигнал обрабатывают с использованием ранней части импульсной характеристики помещения отдельно от поздней реверберации импульсной характеристики помещения, причем обработка поздней реверберации содержит формирование масштабированного реверберирующего сигнала, причем масштабирование зависит от аудиосигнала. Обработанную раннюю часть аудиосигнала и масштабированный реверберирующий сигнал объединяют. 6 н. и 13 з.п. ф-лы, 10 ил., 2 табл.

Реферат

Данное изобретение относится к области кодирования/декодирования аудиоданных, в особенности к пространственному кодированию аудиоданных и пространственному объектному кодированию аудиоданных, например к области трехмерных систем кодирования/декодирования аудиоданных. Варианты осуществления данного изобретения относятся к способу обработки аудиосигнала согласно импульсной характеристике помещения, блоку обработки сигналов, стереофоническому рендереру, аудиокодеру и аудиодекодеру.

Средства пространственного кодирования аудиоданных хорошо известны в данной области техники и стандартизированы, например в стандарте объемного звучания MPEG. Пространственное аудиокодирование начинается с множества исходных входных сигналов, например пяти или семи входных каналов, которые идентифицируют посредством их расположения в схеме воспроизведения, например, как левый канал, центральный канал, правый канал, левый канал объемного звука, правый канал объемного звука и канал усиления низких частот. Пространственный аудиокодер может получать один или более каналов понижающего микширования из исходных каналов и, дополнительно, может получать параметрические данные, относящиеся к пространственным признакам, таким как межканальные разности уровней, в значениях когерентности каналов, межканальные разности фаз, межканальные временные различия и т.д. Один или более каналов понижающего микширования передают вместе с параметрической вспомогательной информацией, указывающей пространственные признаки, к пространственному аудиодекодеру, для декодирования каналов понижающего микширования и соответствующих параметрических данных, для конечного получения выходных каналов, которые являются приближенной версией исходных входных каналов. Размещение каналов в выходной схеме может быть фиксированным, например, может быть форматом 5.1, форматом 7.1 и т.д.

Также средства кодирования пространственных аудиообъектов являются общеизвестными в данной области техники и являются стандартизированными, например стандарт SAOC MPEG (SAOC=кодирование пространственных аудиообъектов). В отличие от пространственного аудиокодирования, начинающегося с исходных каналов, кодирование пространственных аудиообъектов начинается с аудиообъектов, не предназначенных автоматически для некоторой схемы воспроизведения рендеринга. Напротив, размещение аудиообъектов в сцене воспроизведения является гибким и может быть установлено пользователем, например, посредством ввода некоторой информации рендеринга в декодер кодирования пространственных аудиообъектов. Альтернативно или дополнительно, информация рендеринга может быть передана в виде дополнительной вспомогательной информации или метаданных; информация рендеринга может включать в себя информацию о том, в какое положение в схеме воспроизведения должен быть помещен некоторый аудиообъект (например, в зависимости от времени). Для получения некоторого сжатия данных некоторое количество аудиообъектов кодируют с использованием SAOC-кодера, который вычисляет, на основании входных объектов, один или более транспортных каналов посредством понижающего микширования объектов согласно некоторой информации понижающего микширования. Кроме того, SAOC-кодер вычисляет параметрическую вспомогательную информацию, представляющую межобъектные признаки, такие как разности уровней объектов (OLD), значения когерентности объектов и т.д. В случае SAC (SAC=пространственное аудиокодирование) межобъектные параметрические данные вычисляют для отдельных временных/частотных элементов. Для некоторого кадра (например, 1024 или 2048 дискретных единиц) аудиосигнала рассматривают множество диапазонов частот (например, 24, 32 или 64 диапазона частот), таким образом, чтобы параметрические данные были обеспечены для каждого кадра и каждого диапазона частот. Например, когда фрагмент аудиоданных имеет 20 кадров и когда каждый кадр подразделен на 32 диапазона частот, количество временных/частотных элементов равно 640.

В трехмерных аудиосистемах может быть необходимо обеспечение пространственного впечатления от аудиосигнала, как если бы аудиосигнал прослушивался в конкретном помещении. В такой ситуации обеспечивают импульсную характеристику конкретного помещения, например, на основании ее измерения и используют ее для обработки аудиосигнала при представлении его слушателю. В таком представлении может быть необходима обработка прямого звука и ранних отражений, отделенных от поздней реверберации.

Задача, лежащая в основе данного изобретения, состоит в обеспечении утвержденной методики для отдельной обработки аудиосигнала с использованием ранней части и поздней реверберации импульсной характеристики помещения, что позволяет обеспечить результат, который с точки зрения восприятия является наиболее идентичным результату свертки аудиосигнала с полной импульсной характеристикой.

Эта задача решается способом по пункту 1 формулы изобретения, блоком обработки сигнала по пункту 19 формулы изобретения, стереофоническим рендерером по пункту 23 формулы изобретения, аудиокодером по пункту 24 формулы изобретения и аудиодекодером по пункту 25 формулы изобретения.

Настоящее изобретение основано на заключении автора изобретения о том, что в общепринятых методиках существует проблема, состоящая в том, что при обработке аудиосигнала согласно импульсной характеристике помещения результат обработки аудиосигнала отдельно относительно ранней части и реверберации отклоняется от результата, получаемого при применении свертки с полной импульсной характеристикой. Данное изобретение дополнительно основано на заключении автором изобретения, что адекватный уровень реверберации зависит как от входного аудиосигнала, так и от импульсной характеристики, поскольку влияние входного аудиосигнала на реверберацию не сохраняется полностью, например, при использовании методики синтетической реверберации. Влияние импульсной характеристики может учитываться с использованием известных характеристик реверберации в качестве входного параметра. Влияние входного сигнала может быть учтено посредством зависимого от сигнала масштабирования для адаптации уровня реверберации, который определяют на основании входного аудиосигнала. Было обнаружено, что посредством этой методики воспринимаемый уровень реверберации лучше соответствует уровню реверберации с использованием методики полной свертки, для стереофонического рендеринга.

(1) Данное изобретение обеспечивает способ обработки аудиосигнала согласно импульсной характеристике помещения, причем способ предусматривает:

отдельную обработку аудиосигнала с использованием ранней части и поздней реверберации импульсной характеристики помещения, причем обработка поздней реверберации содержит формирование масштабированного реверберирующего сигнала, причем масштабирование зависит от аудиосигнала; и

объединение аудиосигнала, обработанного с использованием ранней части импульсной характеристики помещения, и масштабированного реверберирующего сигнала.

При сравнении с общепринятыми методиками, описанными выше, методика согласно изобретению имеет преимущество, поскольку она обеспечивает масштабирование поздней реверберации без необходимости вычисления результата полной свертки или без необходимости применения пространственной и неточной модели слышимости. Варианты осуществления методики согласно изобретению обеспечивают легкий способ масштабирования искусственной поздней реверберации таким образом, чтобы она звучала подобно реверберации в методике с полной сверткой. Масштабирование основано на входном сигнале, и нет необходимости в дополнительной модели слышимости или целевой громкости реверберации. Коэффициент масштабирования может быть получен в частотно-временной области, что является преимуществом, поскольку в этой области часто доступен также аудиоматериал в системе кодер/декодер.

(2) Согласно вариантам осуществления, масштабирование может зависеть от состояния одного или более входных каналов аудиосигнала (например, количества входных каналов, количества активных входных каналов и/или активности во входном канале).

Это обеспечивает преимущество, поскольку масштабирование может быть легко определено на основании входного аудиосигнала с использованием меньших вычислительных затрат. Например, масштабирование может быть определено посредством простого определения количества каналов в исходном аудиосигнале, которые микшируют с понижением в рассматриваемом в данный момент канале понижающего микширования, включающим в себя уменьшенное количество каналов, по сравнению с исходным аудиосигналом. Альтернативно, количество активных каналов (каналов, показывающих некоторую активность в текущем кадре аудиоданных), микшируемых с понижением в рассматриваемом в данный момент канале понижающего микширования, может образовать основу для масштабирования реверберирующего сигнала.

(3) Согласно вариантам осуществления, масштабирование (дополнительно или альтернативно к состоянию входных каналов) зависит от заданной или вычисленной меры корреляции аудиосигнала.

Использование заданной меры корреляции является преимуществом, поскольку это уменьшает вычислительную сложность процесса. Заданная мера корреляции может иметь фиксированное значение, например, в диапазоне от 0,1 до 0,9, которое может быть определено эмпирически на основании анализа множества аудиосигналов. С другой стороны, вычисление меры корреляции является преимуществом, несмотря на необходимость дополнительных вычислительных ресурсов, в случае, когда необходимо отдельно получить более точную меру для обрабатываемого в данный момент аудиосигнала.

(4) Согласно вариантам осуществления, формирование масштабированного реверберирующего сигнала содержит применение коэффициента усиления, причем коэффициент усиления определяют на основании состояния одного или более входных каналов аудиосигнала и/или на основании заданной или вычисленной меры корреляции для аудиосигнала, причем коэффициент усиления может быть применен перед, во время или после обработки поздней реверберации аудиосигнала.

Это является преимуществом, поскольку коэффициент усиления может быть легко вычислен на основании вышеупомянутых параметров и может быть гибко применен в отношении ревербератора в системе обработки, в зависимости от конкретных реализаций.

(5) Согласно вариантам осуществления, коэффициент усиления определяют следующим образом:

где

=заданная или вычисленная мера корреляции для аудиосигнала,

=коэффициенты, указывающие на состояние одного или более входных каналов аудиосигнала, причем относится к полностью некоррелированным каналам, а относится к полностью коррелированным каналам.

Это является преимуществом, поскольку этот коэффициент масштабируется в зависимости от времени количеством активных каналов в аудиосигнале.

(6) Согласно вариантам осуществления, cu и cc определяют следующим образом:

где

=количество активных или фиксированных каналов понижающего микширования.

Это является преимуществом, поскольку этот коэффициент прямо зависит от количества активных каналов в аудиосигнале. Если нет активных каналов, то тогда реверберацию масштабируют с использованием коэффициента, равного нулю, если большее количество каналов являются активными, то амплитуда реверберации становится большей.

(7) Согласно вариантам осуществления, коэффициенты усиления фильтруют по низкой частоте на протяжении множества кадров аудиоданных, причем коэффициенты усиления могут быть отфильтрованы по низкой частоте следующим образом:

где

ts=постоянная времени фильтра низкой частоты,

ti=кадр аудиоданных в кадре ti,

gs=сглаженный коэффициент усиления,

k=размер кадра и

fs=частота дискретизации.

Это является преимуществом, поскольку не происходит резких изменений коэффициента усиления с течением времени.

(8) Согласно вариантам осуществления, формирование масштабированного реверберирующего сигнала содержит анализ корреляции аудиосигнала, причем анализ корреляции аудиосигнала может содержать определение для кадра аудиоданных аудиосигнала объединенной меры корреляции, причем объединенная мера корреляции может быть вычислена посредством объединения коэффициентов корреляции для множества комбинаций каналов одного кадра аудиоданных, причем каждый кадр аудиоданных содержит один или более интервалов времени, и при этом объединение коэффициентов корреляции может содержать усреднение множества коэффициентов корреляции кадра аудиоданных.

Это является преимуществом, поскольку корреляция может быть описана посредством одного значения, которое описывает общую корреляцию одного кадра аудиоданных. Нет необходимости в обработке многочисленных частотно-зависимых значений.

(9) Согласно вариантам осуществления, определение объединенной меры корреляции может содержать (i) вычисление общего среднего значения для каждого канала одного кадра аудиоданных, (ii) вычисление кадра аудиоданных с нулевым средним, посредством вычитания средних значений из соответствующих каналов, (iii) вычисление для множества комбинаций каналов коэффициента корреляции, и (iv) вычисление объединенной меры корреляции в виде среднего значения множества коэффициентов корреляции.

Это является преимуществом, поскольку, как упомянуто выше, вычисляют только одно общее значение корреляции на кадр (легкая обработка), и вычисление может быть выполнено подобно вычислению «стандартного» коэффициента корреляции Пирсона, которое также использует сигналы с нулевым средним и их среднеквадратические отклонения.

(10)Согласно вариантам осуществления, коэффициент корреляции для комбинации каналов определяют следующим образом:

где

=коэффициент корреляции,

=среднеквадратическое отклонение по одному интервалу времени j канала m,

=среднеквадратическое отклонение по одному интервалу времени j канала n,

=переменные с нулевым средним,

=диапазоны частот,

=интервалы времени,

=каналы,

=комплексно сопряженная величина.

Это является преимуществом, поскольку может быть использована общеизвестная формула для коэффициента корреляции Пирсона, и она может быть преобразована в формулу с частотной и временной зависимостью.

(11) Согласно вариантам осуществления, обработка поздней реверберации аудиосигнала содержит понижающее микширование аудиосигнала и подачу микшированного с понижением аудиосигнала к ревербератору.

Это является преимуществом, поскольку обработка, например, в ревербераторе должна управлять меньшим количеством каналов, и процесс понижающего микширования можно контролировать напрямую.

(12) Данное изобретение обеспечивает блок обработки сигналов, содержащий вход для приема аудиосигнала, процессор ранней части для обработки принятого аудиосигнала согласно ранней части импульсной характеристики помещения, процессор поздней реверберации для обработки принятого аудиосигнала согласно поздней реверберации импульсной характеристики помещения, причем процессор поздней реверберации выполнен с возможностью или запрограммирован с возможностью формирования масштабированного реверберирующего сигнала в зависимости от принятого аудиосигнала, и выход для объединения аудиосигнала, обработанного с использованием ранней части импульсной характеристики помещения, и масштабированного реверберирующего сигнала, в выходной аудиосигнал.

(13) Согласно вариантам осуществления, процессор поздней реверберации содержит ревербератор, принимающий аудиосигнал и формирующий реверберирующий сигнал, анализатор корреляции, формирующий коэффициент усиления в зависимости от аудиосигнала, и усилительный каскад, соединенный с входом или выходом ревербератора и управляемый посредством коэффициента усиления, обеспечиваемого анализатором корреляции.

(14) Согласно вариантам осуществления, блок обработки сигналов дополнительно содержит по меньшей мере одно из низкочастотного фильтра, присоединенного между анализатором корреляции и усилительным каскадом, и элемента задержки, присоединенного между усилительным каскадом и сумматором, причем сумматор дополнительно соединен с процессором ранней части и выходом.

(15) Данное изобретение обеспечивает стереофонический рендерер, содержащий блок обработки сигналов согласно изобретению.

(16) Данное изобретение обеспечивает аудиокодер для кодирования аудиосигналов, содержащий блок обработки сигналов согласно изобретению или стереофонический рендерер согласно изобретению для обработки аудиосигналов перед кодированием.

(17) Данное изобретение обеспечивает аудиодекодер для декодирования кодированных аудиосигналов, содержащий блок обработки сигналов согласно изобретению или стереофонический рендерер согласно изобретению для обработки декодируемых аудиосигналов.

Варианты осуществления данного изобретения будут описаны со ссылкой на сопровождающие чертежи, на которых:

Фиг. 1 иллюстрирует общую схему трехмерного аудиокодера трехмерной аудиосистемы;

Фиг. 2 иллюстрирует общую схему трехмерного аудиодекодера трехмерной аудиосистемы;

Фиг. 3 иллюстрирует пример реализации преобразователя формата, который может быть реализован в трехмерном аудиодекодере фиг. 2;

Фиг. 4 иллюстрирует вариант осуществления стереофонического рендерера, который может быть реализован в трехмерном аудиодекодере фиг. 2;

Фиг. 5 иллюстрирует пример импульсной характеристики помещения h(t);

Фиг. 6 иллюстрирует разные возможности для обработки входного аудиосигнала с использованием импульсной характеристики помещения, причем фиг. 6(А) показывает обработку полного аудиосигнала согласно импульсной характеристике помещения, а фиг. 6(B) показывает отдельную обработку ранней части и части поздней реверберации;

Фиг. 7 иллюстрирует блок-схему блока обработки сигналов, подобного стереофоническому рендереру, функционирующего согласно принципам данного изобретения;

Фиг. 8 схематично иллюстрирует стереофоническую обработку аудиосигналов в стереофоническом рендерере согласно варианту осуществления данного изобретения; и

Фиг. 9 схематично иллюстрирует обработку в ревербераторе частотной области стереофонического рендерера фиг. 8 согласно варианту осуществления данного изобретения.

Теперь будут описаны варианты осуществления методики согласно изобретению. Нижеследующее описание начнется с общей схемы системы трехмерной аудиосистемы кодирования/декодирования, в которой может быть реализована методика согласно изобретению.

Фиг. 1 и 2 показывают алгоритмические блоки трехмерной аудиосистемы согласно вариантам осуществления. Более конкретно, фиг. 1 показывает общую схему трехмерного аудиокодера 100. Аудиокодер 100 принимает в схеме 102 пред-рендерера/микшера, который может быть предусмотрен при необходимости, входные сигналы, более конкретно множество входных каналов, обеспечивающих аудиокодеру 100 множество канальных сигналов 104, множество объектных сигналов 106 и соответствующие объектные метаданные 108. Объектные сигналы 106, обработанные схемой 102 пред-рендерера/микшера (см. сигналы 110), могут быть обеспечены для SAOC-кодера 112 (SAOC=кодирование пространственных аудиообъектов). SAOC-кодер 112 формирует транспортные каналы 114 SAOC, обеспечиваемые для USAC-кодера 116 (USAC=унифицированное кодирование речи и звука). Дополнительно, SAOC-SI 118 сигналов (SAOC-SI=вспомогательная информация SAOC) также обеспечивают для USAC-кодера 116. USAC-кодер 116 дополнительно принимает объектные сигналы 120 прямо от пред-рендерера/микшера, а также канальные сигналы и объектные сигналы 122, подвергнутые предварительному рендерингу. Информацию 108 об объектных метаданных используют в OAM-кодере 124 (OAM=объектные метаданные) для обеспечения сжатой информации 126 об объектных метаданных для USAC-кодера. USAC-кодер 116, на основании вышеупомянутых входных сигналов, формирует сжатый выходной сигнал mp4, как показано у 128.

Фиг. 2 показывает общую схему трехмерного аудиодекодера 200 трехмерной аудиосистемы. Кодированный сигнал 128 (mp4), формируемый аудиокодером 100 фиг. 1, принимают в аудиодекодере 200, более конкретно в USAC-декодере 202. USAC-декодер 202 декодирует принятый сигнал 128 в канальные сигналы 204, объектные сигналы 206, подвергнутые предварительному рендерингу, объектные сигналы 208 и транспортные канальные сигналы 210 SAOC. Дополнительно, сжатую информацию 212 об объектных метаданных и SAOC-SI 214 сигналов выводят посредством USAC-декодера 202. Объектные сигналы 208 обеспечивают для объектного рендерера 216, выдающего подвергнутые рендерингу объектные сигналы 218. Транспортные канальные сигналы 210 SAOC подают к SAOC-декодеру 220, выдающему подвергнутые рендерингу объектные сигналы 222. Сжатую информацию 212 об объектных метаданных подают к OAM-декодеру 224, выдающему соответствующие управляющие сигналы для объектного рендерера 216 и SAOC-декодера 220, для формирования подвергнутых рендерингу объектных сигналов 218 и сформированных объектных сигналов 222. Декодер дополнительно содержит микшер 226, принимающий, как показано на фиг. 2, входные сигналы 204, 206, 218 и 222 для выдачи канальных сигналов 228. Канальные сигналы могут быть прямо выведены к громкоговорителю, например 32-канальному громкоговорителю, как указано у 230. Сигналы 228 могут быть обеспечены для схемы 232 преобразования формата, принимающей в качестве управляющего входного сигнала сигнал схемы воспроизведения, указывающий способ, посредством которого канальные сигналы 228 должны быть преобразованы. В варианте осуществления, показанном на фиг. 2, предполагают, что преобразование подлежит выполнению таким образом, чтобы сигналы могли быть обеспечены для системы громкоговорителей формата 5.1, как указано у 234. Также канальные сигналы 228 могут быть обеспечены для стереофонического рендерера 236, формирующего два выходных сигнала, например для наушников, как указано у 238.

В варианте осуществления данного изобретения система кодирования/декодирования, показанная на фиг. 1 и 2, основана на MPEG-D USAC кодеке для кодирования канала и объектных сигналов (см. сигналы 104 и 106). Для увеличения эффективности кодирования большого количества объектов может быть использована MPEG SAOC технология. Три типа рендереров могут выполнять задачи рендеринга объектов для каналов, рендеринга каналов для головных телефонов или рендеринга каналов для другой схемы громкоговорителей (см. фиг. 2, ссылочные позиции 230, 234 и 238). Когда объектные сигналы явно передают или параметрически кодируют с использованием SAOC, соответствующую информацию 108 об объектных метаданных сжимают (см. сигнал 126) и мультиплексируют в трехмерный битовый поток 128 аудиоданных.

Алгоритмические блоки для общей трехмерной аудиосистемы, показанной на фиг. 1 и 2, будут дополнительно подробно описаны ниже.

Пред-рендерер/микшер 102 может быть при необходимости выполнен с возможностью преобразования канальной плюс объектной входной сцены в канальную сцену, перед кодированием. Функционально, он является идентичным объектному рендереру/микшеру, который будет описан ниже. Предварительный рендеринг объектов может быть необходим для обеспечения энтропии детерминированного сигнала на входе кодера, которая, в основном, независима от количества одновременно активных объектных сигналов. При использовании предварительного рендеринга объектов не требуется никакой передачи объектных метаданных. Дискретные объектные сигналы подвергают рендерингу для схемы каналов, которую может использовать кодер. Весовые коэффициенты объектов для каждого канала получают из соответствующих объектных метаданных (OAM).

USAC-кодер 116 является основным кодеком для канальных сигналов громкоговорителя, дискретных объектных сигналов, объектных сигналов понижающего микширования и подвергнутых предварительному рендерингу сигналов. Он основан на MPEG-D USAC технологии. Он обеспечивает кодирование вышеупомянутых сигналов посредством создания информации отображения каналов и объектов, на основании геометрической и семантической информации о входном канале и назначении объектов. Эта информация отображения описывает, как входные каналы и объекты отображаются в элементах USAC-каналов, таких как элементы канальных пар (CPE), элементы одного канала (SCE), низкочастотные эффекты (LFE) и четырехканальные элементы (QCE) и CPE, SCE и LFE, и соответствующую информацию передают к декодеру. Все дополнительные элементы полезной нагрузки, такие как SAOC-данные 114, 118 или объектные метаданные 126, учитывают при управлении скоростью кодера. Кодирование объектов можно обеспечить разными способами, в зависимости от требований к скорости/искажениям и требованиям к интерактивности для рендерера. Согласно вариантам осуществления, возможны следующие варианты кодирования объектов:

• Подвергнутые предварительному рендерингу объекты: объектные сигналы подвергают предварительному рендерингу и микшируют с канальными сигналами формата 22.2, перед кодированием. Последующая цепь кодирования видит канальные сигналы формата 22.2.

• Сигналы дискретных объектов: объекты подают к кодеру в виде монофонических сигналов. Кодер использует элементы одного канала (SCE) для передачи объектов вместе с канальными сигналами. Декодированные объекты формируют и микшируют на стороне приемника. Сжатую информацию об объектных метаданных передают к приемнику/рендереру.

• Сигналы параметрических объектов: объектные характеристики и их отношение друг с другом описывают посредством SAOC-параметров. Понижающее микширование объектных сигналов кодируют с использованием USAC. Параметрическую информацию передают совместно. Количество каналов понижающего микширования выбирают в зависимости от количества объектов и общей скорости данных. Сжатую информацию об объектных метаданных передают к SAOC-рендереру.

SAOC-кодер 112 и SAOC-декодер 220 для объектных сигналов могут быть основаны на MPEG SAOC технологии. Система способна обеспечить повторное создание, модификацию и рендеринг некоторого количества аудиообъектов на основании меньшего количества передаваемых каналов и дополнительных параметрических данных, таких как OLD, межобъектная когерентность (IOC), коэффициенты усиления понижающего микширования (DMGs). Дополнительные параметрические данные демонстрируют значительно меньшую скорость данных, чем скорость, необходимая для передачи всех объектов отдельно, что делает кодирование очень эффективным. SAOC-кодер 112 берет в качестве входных сигналов объектные/канальные сигналы в виде монофонических сигналов и выдает параметрическую информацию (которую пакетируют в трехмерный битовый поток 128 аудиоданных) и транспортные каналы SAOC (которые кодируют с использованием элементов одного канала и передают). SAOC-декодер 220 реконструирует объектные/канальные сигналы из декодированных транспортных каналов 210 SAOC и параметрической информации 214, и формирует выходную аудиосцену на основании схемы воспроизведения, развернутой информации об объектных метаданных и при необходимости на основании информации о взаимодействии с пользователем.

Кодек объектных метаданных (см. OAM-кодер 124 и OAM-декодер 224) обеспечен таким образом, чтобы для каждого объекта соответствующие метаданные, которые задают геометрическое положение и уровень громкости объектов в трехмерном пространстве, эффективно кодировались посредством квантования объектных характеристик во времени и пространстве. Сжатые объектные метаданные 126 OAM передают к приемнику 200 в виде вспомогательной информации.

Объектный рендерер 216 использует сжатые объектные метаданные для формирования объектных сигналов согласно заданному формату воспроизведения. Каждый объект подвергают рендерингу для некоторого выходного канала, согласно его метаданным. Выходные данные этого блока получают из суммы частичных результатов. Если как контент на основании каналов, так и дискретные/параметрические объекты декодированы, то сигналы на основании каналов и подвергнутые рендерингу объектные сигналы микшируют посредством микшера 226 перед выводом результирующих сигналов 228, или перед подачей их к модулю постпроцессора, такому как стереофонический рендерер 236 или модуль 232 рендерера громкоговорителей.

Модуль 236 стереофонического рендерера обеспечивает стереофоническое понижающее микширование многоканального аудиоматериала таким образом, чтобы каждый входной канал был представлен виртуальным источником звука. Эту обработку проводят по кадрам в области квадратурного зеркального банка фильтров (QMF), и стереофоническое звучание основано на измеренных стереофонических импульсных характеристиках помещения.

Рендерер 232 громкоговорителей обеспечивает преобразование между переданной канальной конфигурацией 228 и необходимым форматом воспроизведения. Он может также называться «преобразователем формата». Преобразователь формата выполняет преобразования для обеспечения меньших количеств выходных каналов, т.е. он создает понижающие микширования.

Фиг. 3 показывает пример реализации преобразователя 232 формата. Преобразователь 232 формата, также называемый рендерером громкоговорителей, обеспечивает преобразование между канальной конфигурацией передатчика и необходимым форматом воспроизведения. Преобразователь 232 формата выполняет преобразования для обеспечения меньшего количества выходных каналов, т.е. он выполняет процесс 240 понижающего микширования (DMX). Понижающий микшер 240, который предпочтительно функционирует в области QMF, принимает выходные сигналы 228 микшера и выдает сигналы 234 громкоговорителей. Может быть обеспечен конфигуратор 242, также называемый контроллером, который принимает, в качестве управляющего входного сигнала, сигнал 246, указывающий схему выходного сигнала микшера, т.е. схему, для которой определяют данные, представленные выходным сигналом 228 микшера, и сигнал 248, указывающий на необходимую схему воспроизведения. На основании этой информации, контроллер 242 предпочтительно автоматически формирует оптимизированные матрицы понижающего микширования, для данной комбинации входных и выходных форматов, и обеспечивает эти матрицы для понижающего микшера 240. Преобразователь 232 формата обеспечивает стандартные конфигурации громкоговорителей, а также произвольные конфигурации с нестандартными положениями громкоговорителей.

Фиг. 4 иллюстрирует вариант осуществления стереофонического рендерера 236 фиг. 2. Модуль стереофонического рендерера может обеспечить стереофоническое понижающее микширование многоканального аудиоматериала. Обеспечение стереофонического звучания может быть основано на измеренных стереофонических импульсных характеристиках помещения. Импульсные характеристики помещения могут рассматриваться в качестве «сигнатуры» акустических характеристик реального помещения. Импульсные характеристики помещения измеряют и сохраняют, и произвольные акустические сигналы могут быть обеспечены с использованием этого «отпечатка пальца», обеспечивая, таким образом, около слушателя моделирование акустических характеристик помещения, соответствующих импульсной характеристике помещения. Стереофонический рендерер 236 может быть выполнен с возможностью, или запрограммирован с возможностью, рендеринга выходных каналов в виде двух стереофонических каналов, с использованием передаточных функций, относящихся к голове, или стереофонических импульсных характеристик помещения (BRIR). Например, для мобильных устройств стереофонический рендеринг необходим для головных телефонов или громкоговорителей, присоединенных к таким мобильным устройствам. В таких мобильных устройствах вследствие ограничений может быть необходимо ограничение сложности декодера и рендеринга. Дополнительно к исключению декорреляции в таких сценариях обработки может быть предпочтительным выполнение сначала понижающего микширования с использованием понижающего микшера 250 для обеспечения сигнала 252 понижающего микширования, т.е. для обеспечения меньшего количества выходных каналов, что приводит к меньшему количеству входных каналов для фактического стереофонического преобразователя 254. Например, материал канала формата 22.2 может быть смикширован с понижением посредством понижающего микшера 250 в промежуточное понижающее микширование формата 5.1, или, альтернативно, промежуточное понижающее микширование может быть прямо вычислено посредством SAOC-декодера 220 на фиг. 2 в некотором режиме «сокращения». Тогда стереофонический рендеринг должен применить только десять передаточных функций, относящихся к положению головы (HRTF), или BRIR-функций, для рендеринга пяти отдельных каналов в разных положениях, в отличие от применения 44 HRTF-функций или BRIR-функций, если бы входные каналы формата 22.2 подлежали прямому рендерингу. Операции свертки, необходимые для стереофонического рендеринга, требуют большой вычислительной мощности, и, следовательно, уменьшение этой вычислительной мощности при получении, вместе с тем, приемлемого качества звука, является, конкретно, полезным для мобильных устройств. Стереофонический рендерер 236 обеспечивает стереофоническое понижающее микширование 238 многоканального аудиоматериала 228 таким образом, что каждый входной канал (исключая LFE-каналы) представлен посредством виртуального источника звука. Эта обработка может быть проведена по кадрам в области QMF. Обеспечение стереофонического звучания основано на измеренных стереофонических импульсных характеристиках помещения, и прямой звук и ранние отражения могут оставить след в аудиоматериале посредством методики свертки в области псевдо-FFT с использованием быстрой свертки поверх области QMF, в то время как поздняя реверберация может быть обработана отдельно.

Фиг. 5 показывает пример импульсной характеристики помещения h(t) 300. Импульсная характеристика помещения содержит три компонента, а именно прямой звук 301, ранние отражения 302 и позднюю реверберацию 304. Таким образом, импульсная характеристика помещения описывает поведение отражений замкнутого реверберирующего акустического пространства, когда проигрывают некоторый импульс. Ранние отражения 302 являются дискретными отражениями с увеличивающейся плотностью, а часть импульсной характеристики, где отдельные отражения больше не могут быть различены, называют поздней реверберацией 304. Прямой звук 301 может быть легко идентифицирован в импульсной характеристике помещения и может быть отделен от ранних отражений, однако переход от раннего отражения 302 к поздней реверберации 304 является менее очевидным.

Как было описано выше, для стереофонического рендерера, например стереофонического рендерера, показанного на фиг. 2, известны разные методики для обработки многоканального входного аудиосигнала согласно импульсной характеристике помещения.

Фиг. 6 показывает разные возможности для обработки входного аудиосигнала с использован