Способ для декодирования и кодирования матрицы понижающего микширования, способ для представления аудиоконтента, кодер и декодер для матрицы понижающего микширования, аудиокодер и аудиодекодер
Иллюстрации
Показать всеИзобретение относится к области кодирования/декодирования аудио, особенно к пространственному кодированию аудио и пространственному кодированию аудиообъектов, например к области систем 3D аудиокодека. Технический результат – повышение эффективности кодирования матрицы понижающего микширования. В данном способе декодируют матрицу понижающего микширования для отображения множества входных каналов аудиоконтента на множество выходных каналов, причем входные и выходные каналы ассоциированы с соответствующими громкоговорителями на предопределенных позициях относительно позиции слушателя, при этом матрица понижающего микширования кодирована посредством использования симметрии пар (S1-S9) громкоговорителей множества входных каналов и симметрии пар (S10-S11) громкоговорителей множества выходных каналов. Кодированная информация, представляющая кодированную матрицу понижающего микширования, принимается и декодируется для получения декодированной матрицы понижающего микширования. 10 н. и 24 з.п. ф-лы, 9 ил., 6 табл.
Реферат
Настоящее изобретение относится к области кодирования/декодирования аудио, особенно к пространственному кодированию аудио и пространственному кодированию аудиообъектов, например к области систем 3D аудиокодека. Варианты осуществления изобретения относятся к способам кодирования и декодирования матрицы понижающего микширования для отображения множества входных каналов аудиоконтента на множество выходных каналов, к способу для представления аудиоконтента, к кодеру для кодирования матрицы понижающего микширования, к декодеру для декодирования матрицы понижающего микширования, к аудиокодеру и аудиодекодеру.
Инструменты пространственного кодирования аудио хорошо известны в области техники и стандартизированы, например, в стандарте MPEG-surround. Пространственное кодирование аудио начинается с множества исходного входа, например, пяти или семи входных каналов, которые идентифицируются посредством своего расположения в установке воспроизведения, например, как левый канал, центральный канал, правый канал, левый канал окружения, правый канал окружения и канал увеличения низких частот. Пространственный аудиокодер может выводить один или более каналов понижающего микширования из исходных каналов и дополнительно может выводить параметрические данные, относящиеся к пространственным особенностям, таким как разности уровней между каналами в значениях когерентности каналов, разности фаз между каналами, разности времени между каналами, и так далее. Один или более каналов понижающего микширования передаются вместе с параметрической побочной (дополнительной) информацией, указывающей пространственные особенности, пространственному аудиодекодеру для декодирования каналов понижающего микширования и ассоциированных параметрических данных для того, чтобы в конечном счете получить выходные каналы, которые являются аппроксимированной версией исходных входных каналов. Расположение каналов в установке выхода может быть фиксированным, например, формата 5.1, формата 7.1 и так далее.
Также инструменты пространственного кодирования аудиообъектов хорошо известны в области техники и являются стандартизированными, например, в стандарте MPEG SAOC (SAOC=пространственное кодирование аудиообъектов). В отличие от пространственного кодирования аудио, начинающегося с исходных каналов, пространственное кодирование аудиообъектов начинается с аудиообъектов, которые не выделяются автоматически для некоторой установки рендеринга для воспроизведения. Точнее расположение аудиообъектов в сцене воспроизведения является гибким и может быть установлено пользователем, например, посредством ввода некоторой информации рендеринга в декодер пространственного кодирования аудиообъектов. Дополнительно или в качестве альтернативы, информация рендеринга может быть передана в качестве дополнительной побочной информации или метаданных; информация рендеринга может включать в себя информацию о том, на какую позицию в установке воспроизведения должен быть помещен некоторый аудиообъект (например, по времени). Для того чтобы получать некоторое сжатие данных, некоторое количество аудиообъектов кодируется с использованием кодера SAOC, который вычисляет из входных объектов один или более транспортных каналов посредством понижающего микширования объектов в соответствии с некоторой информацией понижающего микширования. Кроме того, кодер SAOC вычисляет параметрическую побочную информацию, представляющую особенности между объектами, такие как разности уровней объектов (OLD), значения когерентности объектов и так далее. Как и в SAC (SAC=пространственном кодировании аудио), параметрические данные между объектами вычисляются для индивидуальных фрагментов время/частота. Для некоторого кадра (например, 1024 или 2048 отсчетов) аудиосигнала учитываются множество полос частот (например, 24, 32 или 64 полосы), так что параметрические данные обеспечиваются для каждого кадра и каждой полосы частоты. Например, когда элемент аудио имеет 20 кадров и когда каждый кадр подразделяется на 32 полосы частот, количество фрагментов время/частота равно 640.
В 3D аудиосистемах может быть желательно обеспечивать пространственное ощущение аудиосигнала на приемнике с использованием конфигурации динамиков или громкоговорителей, поскольку это является доступным на приемнике, которая однако может отличаться от оригинальной конфигурации громкоговорителей для оригинального аудиосигнала. В такой ситуации должно быть осуществлено преобразование, которое также упоминается как "понижающее микширование", в соответствии с которым входные каналы, в соответствии с оригинальной конфигурацией громкоговорителей аудиосигнала, отображаются на выходные каналы, заданные в соответствии с конфигурацией громкоговорителей приемника.
Задача настоящего изобретения заключается в обеспечении улучшенного подхода для обеспечения матрицы понижающего микширования приемнику.
Эта задача достигается способом по пункту 1, 2 и 20, посредством кодера по пункту 24, декодера по пункту 26, аудиокодера по пункту 28 и аудиодекодера по пункту 29.
Настоящее изобретение основано на обнаружении того, что более эффективное кодирование устойчивой матрицы понижающего микширования может быть достигнуто посредством использования симметрий, которые могут быть обнаружены в конфигурации входных каналов и в конфигурации выходных каналов относительно расположения громкоговорителей, ассоциированных с соответствующими каналами. Изобретателями настоящего изобретения было обнаружено, что использование такой симметрии позволяет комбинировать симметрично размещенные громкоговорители в общую строку/столбец матрицы понижающего микширования, например тех громкоговорителей, которые имеют, относительно позиции слушателя, позицию, имеющую один и тот же угол возвышения и одно и то же абсолютное значение азимутального угла, но с различными знаками. Это позволяет генерировать компактную матрицу понижающего микширования, имеющую сокращенный размер, который поэтому может быть более легко и более эффективно кодирован, по сравнению с оригинальной матрицей понижающего микширования.
В соответствии с вариантами осуществления задаются не только группы симметричных громкоговорителей, а фактически создаются три класса групп громкоговорителей, а именно вышеупомянутые симметричные громкоговорители, центральные громкоговорители и асимметричные громкоговорители, которые затем могут быть использованы для генерирования компактного представления. Этот подход является преимущественным, так как он позволяет громкоговорителям из соответствующих классов обрабатываться различно и тем самым более эффективно.
В соответствии с вариантами осуществления кодирование компактной матрицы понижающего микширования содержит кодирование значений усилений отдельно от информации о фактической компактной матрице понижающего микширования. Информация о фактической компактной матрице понижающего микширования кодируется посредством создания компактной матрицы значимости, которая указывает относительно компактных конфигураций входных/выходных каналов существование ненулевых усилений посредством слияния каждой из пар входных и выходных симметричных громкоговорителей в одну группу. Этот подход является преимущественным, так как он позволяет эффективное кодирование матрицы значимости на основе схемы по длинам серий.
В соответствии с вариантами осуществления может быть обеспечена матрица шаблона, которая является аналогичной компактной матрице понижающего микширования в том, что записи в элементах матрицы у матрицы шаблона по существу соответствуют записям в элементах матрицы в компактной матрице понижающего микширования. В общем, такие матрицы шаблона обеспечиваются на кодер и на декодер и отличаются от компактной матрицы понижающего микширования только сокращенным количеством элементов матрицы, так что посредством применения поэлементного XOR к компактной матрице значимости с такой матрицей шаблона резко сократится количество элементов матрицы. Этот подход является преимущественным, так как он снова позволяет еще большее увеличение эффективности кодирования матрицы значимости с использованием, например, схемы по длинам серий.
В соответствии с дополнительным вариантом осуществления кодирование дополнительно основывается на указании, микшируются ли стандартные громкоговорители только в стандартные громкоговорители и микшируются ли громкоговорители LFE только в громкоговорители LFE. Это считается преимущественным, так как дополнительно улучшает кодирование матрицы значимости.
В соответствии с дополнительным вариантом осуществления компактная матрица значимости или результат вышеупомянутой операции XOR обеспечивается в отношении одномерного вектора, к которому применяется кодирование по длинам серий для преобразования его в серии из нулей, которые сопровождаются единицей, что является преимущественным, так как это обеспечивает очень эффективную возможность для кодирования информации. Для достижения еще более эффективного кодирования в соответствии с вариантами осуществления к значениям длин серий применяется ограниченное кодирование Голомба-Райса.
В соответствии с дополнительными вариантами осуществления для каждой группы выходных громкоговорителей указывается, применяются ли свойства симметрии и разделимости для всех соответствующих групп входных каналов, которые их генерируют. Это является преимущественным, так как это указывает, что в группе громкоговорителей, состоящей, например, из левых и правых громкоговорителей, левые громкоговорители в группе входных каналов отображаются только на левые каналы в соответствующей группе выходных громкоговорителей, правые громкоговорители в группе входных каналов отображаются только на правые громкоговорители в группе выходных каналов и не имеется микширования из левого канала в правый канал. Это позволяет заменить четыре значения усилений в подматрице 2x2 в оригинальной матрице понижающего микширования одним значением усиления, которое может быть введено в компактную матрицу или в случае, когда компактная матрица является матрицей значимости, может быть кодировано отдельно. В любом случае, общее количество значений усилений, которые должны быть кодированы, сокращается. Таким образом, сигнализируемые свойства симметрии и разделимости являются преимущественными, так как они позволяют эффективно кодировать подматрицы, соответствующие каждой паре групп входных и выходных громкоговорителей.
В соответствии с вариантами осуществления для кодирования значений усилений список возможных усилений создается в конкретном порядке с использованием сигнализируемого минимального и максимального усиления, а также сигнализируемой желательной точности. Значения усилений создаются в таком порядке, что обычно используемые усиления находятся в начале списка или таблицы. Это является преимущественным, так как это позволяет эффективное кодирование значений усилений посредством применения к наиболее часто используемым усилениям наиболее коротких кодовых слов для их кодирования.
В соответствии с вариантом осуществления сгенерированные значения усилений могут быть обеспечены в списке, каждая запись в списке имеет ассоциированный с ней индекс. При кодировании значений усилений вместо кодирования фактических значений кодируются индексы усилений. Это может быть сделано, например, посредством применения подхода ограниченного кодирования Голомба-Райса. Это обработка значений усилений является преимущественной, так как она позволяет эффективно их кодировать.
В соответствии с вариантами осуществления параметры эквалайзера (EQ) могут быть переданы наряду с матрицей понижающего микширования.
Варианты осуществления настоящего изобретения будут описаны в отношении сопроводительных чертежей, на которых:
Фиг. 1 иллюстрирует общий вид 3D аудиокодера 3D аудиосистемы;
Фиг. 2 иллюстрирует общий вид 3D аудиодекодера 3D аудиосистемы;
Фиг. 3 иллюстрирует вариант осуществления средства бинаурального рендеринга, которое может быть осуществлено в 3D аудиодекодере с Фиг. 2;
Фиг. 4 иллюстрирует примерную матрицу понижающего микширования, которая известна в области техники, для отображения из конфигурации входа 22.2 на конфигурацию выхода 5.1;
Фиг. 5 схематически иллюстрирует вариант осуществления настоящего изобретения для преобразования оригинальной матрицы понижающего микширования с Фиг. 4 в компактную матрицу понижающего микширования;
Фиг. 6 иллюстрирует компактную матрицу понижающего микширования с Фиг. 5 в соответствии с вариантом осуществления настоящего изобретения, имеющую преобразованные конфигурации входных и выходных каналов с записями матрицы, представляющими значения значимости;
Фиг. 7 иллюстрирует дополнительный вариант осуществления настоящего изобретения для кодирования структуры компактной матрицы понижающего микширования с Фиг. 5 с использованием матрицы шаблона; и
Фиг. 8(a)-(g) иллюстрируют возможные подматрицы, которые могут быть выведены из матрицы понижающего микширования, показанной на Фиг. 4, согласно различным комбинациям входных и выходных громкоговорителей.
Будут описаны варианты осуществления нового подхода. Нижеследующее описание начнется с общего вида системы в системе 3D аудиокодека, в которой может быть реализован новый подход.
Фиг. 1 и 2 показывают алгоритмические блоки 3D аудиосистемы в соответствии с вариантами осуществления. Более конкретно, Фиг. 1 показывает общий вид 3D аудиокодера 100. Аудиокодер 100 принимает на схеме 102 средства предварительного рендеринга/микшера, которая необязательно может быть обеспечена, входные сигналы, более конкретно множество входных каналов, обеспечивающих аудиокодеру 100 множество канальных сигналов 104, множество сигналов 106 объектов и соответствующие метаданные 108 объектов. Сигналы 106 объектов, обрабатываемые средством предварительного рендеринга/микшером 102 (см. сигналы 110), могут быть обеспечены кодеру 112 SAOC (SAOC=пространственное кодирование аудиообъектов). Кодер 112 SAOC генерирует транспортные каналы 114 SAOC, обеспечиваемые кодеру 116 USAC (USAC=унифицированное кодирование речи и аудио). В дополнение, сигнал 118 SAOC-SI (SAOC-SI=побочная информация SAOC) также обеспечивается кодеру 116 USAC. Кодер 116 USAC дополнительно принимает сигналы 120 объектов непосредственно из средства предварительного рендеринга/микшера, так же как канальные сигналы и подвергнутые предварительному рендерингу сигналы 122 объектов. Информация 108 метаданных объектов применяется к кодеру 124 OAM (OAM=ассоциированные с объектом метаданные), обеспечивающему сжатую информацию 126 метаданных объектов кодеру USAC. Кодер 116 USAC на основе вышеупомянутых входных сигналов генерирует сжатый выходной сигнал mp4, как показано на 128.
Фиг. 2 показывает общий вид 3D аудиодекодера 200 3D аудиосистемы. Кодированный сигнал 128 (mp4), сгенерированный аудиокодером 100 с Фиг. 1, принимается на аудиодекодере 200, более конкретно на декодере 202 USAC. Декодер 202 USAC декодирует принятый сигнал 128 в канальные сигналы 204, подвергнутые предварительному рендерингу сигналы 206 объектов, сигналы 208 объектов, и сигналы 210 транспортного канала SAOC. Дополнительно, сжатая информация 212 метаданных объектов и сигнал 214 SAOC-SI выводится декодером 202 USAC. Сигналы 208 объектов обеспечиваются средству 216 рендеринга, выводящему подвергнутые рендерингу сигналы 218 объектов. Сигналы 210 транспортного канала SAOC подаются на декодер 220 SAOC, выводящий подвергнутые рендерингу сигналы 222 объектов. Сжатая метаинформация 212 объектов подается на декодер 224 OAM, выводящий соответствующие сигналы управления средству 216 рендеринга объектов и декодеру 220 SAOC для генерирования подвергнутых рендерингу сигналов 218 объектов и подвергнутых рендерингу сигналов 222 объектов. Декодер дополнительно содержит микшер 226, принимающий, как показано на Фиг. 2, входные сигналы 204, 206, 218 и 222 для вывода канальных сигналов 228. Канальные сигналы могут быть непосредственно выведены динамику, например, 32-х канальному динамику, как указано на 230. Сигналы 228 могут быть обеспечены схеме 232 преобразования формата, принимающей, в качестве управляющего входного сигнала, сигнал компоновки воспроизведения, указывающий способ, как должны быть преобразованы канальные сигналы 228. В варианте осуществления, изображенном на Фиг. 2, предполагается, что преобразование должно быть сделано таким способом, когда сигналы могут быть обеспечены системе громкоговорителей 5.1, как указано на 234. Также канальные сигналы 228 могут быть обеспечены средству 236 бинаурального рендеринга, генерирующему два выходных сигнала, например для головного телефона, как указано на 238.
В варианте осуществления настоящего изобретения система кодирования/декодирования, изображенная на Фиг. 1 и 2, основана на кодеке USAC MPEG-D для кодирования канальных сигналов и сигналов объектов (см. сигналы 104 и 106). Для повышения эффективности кодирования большого количества объектов может быть использована технология SAOC MPEG. Три типа средств рендеринга могут выполнять задачи по рендерингу объектов в каналы, рендерингу каналов в головные телефоны или рендерингу каналов в отличную установку динамика (см. Фиг. 2, ссылочные позиции 230, 234 и 238). Когда сигналы объектов явно передаются или параметрически кодируются с использованием SAOC, соответствующая информация 108 метаданных объектов сжимается (см. сигнал 126) и мультиплексируется в битовый поток 128 3D аудио.
Блоки алгоритма общей 3D аудиосистемы, показанной на Фиг. 1 и 2, будут дополнительно описаны подробно ниже по тексту.
Средство предварительного рендеринга/микшер 102 может быть необязательно обеспечен для преобразования входной сцены канала плюс объекта в сцену канала до кодирования. С функциональной точки зрения это является идентичным средству рендеринга/микшеру объектов, который будет описан ниже по тексту. Предварительный рендеринг объектов может быть желательным, чтобы обеспечивать энтропию детерминированных сигналов на входе кодера, который в основном является независимым от количества одновременно активных сигналов объектов. С предварительным рендерингом объектов, никакой передачи метаданных объектов не требуется. Кодер сконфигурирован с возможностью использования компоновки каналов, в которую осуществляется рендеринг дискретных сигналов объектов. Веса объектов для каждого канала получаются из ассоциированных метаданных объектов (OAM).
Кодер 116 USAC является основным кодеком для сигналов канала динамика, дискретных сигналов объектов, сигналов понижающего микширования объектов и подвергнутых предварительному рендерингу сигналов. Он основан на технологии USAC MPEG-D. Он управляет кодированием вышеуказанных сигналов посредством создания информации отображения объектов и каналов на основе геометрической и семантической информации входного канала и назначения объекта. Эта информация отображения описывает, как входные каналы и объекты отображаются на элементы канала USAC, аналогичные элементам пары каналов (CPE), элементам одного канала (SCE), элементам квадрафонического канала (QCE) и канала низкочастотных эффектов (LFE) и CPE, SCE и LFE, и соответствующая информация передается декодеру. Все дополнительные полезные нагрузки, аналогичные данным 114 SAOC или метаданным 126 объектов учитываются в управлении скоростью кодера. Кодирование объектов возможно различными способами, в зависимости от требований скорости/искажения и требований взаимодействия для средства рендеринга. В соответствии с вариантами осуществления возможны следующие варианты кодирования объектов:
- Подвергнутые предварительному рендерингу объекты: Сигналы объектов подвергаются предварительному рендерингу и микшируются в 22.2 канальные сигналы до кодирования. Последующая цепь кодирования видит 22,2 канальные сигналы.
- Формы волн дискретных объектов: Объекты подаются в качестве монофонических форм волн на кодер. Кодер использует элементы одного канала (SCE) для передачи объектов в дополнение к канальным сигналам. Декодированные объекты подвергаются рендерингу и микшируются на стороне приемника. Сжатая информация метаданных объектов передается на приемник/средство рендеринга.
- Формы волн параметрических объектов: Свойства объектов и их отношение друг к другу описываются посредством параметров SAOC. Понижающее микширование сигналов объектов кодируется с USAC. Наряду с этим передается параметрическая информация. Определенное количество каналов понижающего микширования выбирается в зависимости от количества объектов и общей скорости передачи данных. Сжатая информация метаданных объектов передается на средство рендеринга SAOC.
Кодер 112 SAOC и декодер 220 SAOC для сигналов объектов может быть основан на технологии SAOC MPEG. Система способна на повторное создание, модификацию и рендеринг некоторого количества аудиообъектов на основе меньшего количества передаваемых каналов и дополнительных параметрических данных, таких как OLD, IOC (когерентность между объектами), DMG (усиления понижающего микширования). Дополнительные параметрические данные показывают значительно более низкую скорость передачи данных, чем требуется для передачи всех объектов индивидуально, делая кодирование очень эффективным. Кодер 112 SAOC принимает в качестве ввода сигналы объектов/канальные сигналы в качестве монофонических форм волн и выводит параметрическую информацию (которая упаковывается в битовый поток 128 3D-аудио) и транспортные каналы SAOC (которые кодируются с использованием элементов одного канала и передаются). Декодер 220 SAOC восстанавливает сигналы объектов/канальные сигналы из декодированных транспортных каналов 210 SAOC и параметрической информации 214, и генерирует сцену аудио вывода на основе компоновки воспроизведения, распакованной информации метаданных объектов и необязательно на основе информации взаимодействия пользователя.
Обеспечивается кодек метаданных объектов (см. кодер 124 OAM и декодер 224 OAM), так что для каждого объекта ассоциированные метаданные, которые точно определяют геометрическую позицию и объем объектов в трехмерном пространстве, эффективно кодируются посредством квантования свойств объектов во времени и пространстве. Сжатые метаданные 126 объектов cOAM передаются на приемник 200 в качестве побочной информации.
Средство 216 рендеринга объектов использует сжатые метаданные объектов для генерирования форм волн объектов согласно данному формату воспроизведения. Каждый объект подвергается рендерингу в некоторый выходной канал согласно своим метаданным. Вывод этого блока следует из суммы частичных результатов. Если и основанный на канале контент, а также и дискретные/параметрические объекты декодируются, основанные на канале формы волн и формы волн подвергнутых рендерингу объектов микшируются микшером 226 до вывода получающихся в результате форм волн 228 или до подачи их на модуль постпроцессора, аналогичный средству 236 бинаурального рендеринга или модулю 232 средства рендеринга динамика.
Модуль 236 средства бинаурального рендеринга производит бинауральное понижающее микширование многоканального аудиоматериала, так что каждый входной канал представляется возможным источником звука. Обработка проводится по кадрам в области QMF (квадратурного зеркального блока фильтров), и бинауральный эффект основывается на измеренных бинауральных импульсных характеристиках помещения.
Средство 232 рендеринга динамика преобразовывает между переданной конфигурацией 228 каналов и желательным форматом воспроизведения. Оно также может быть названо "преобразователем формата". Преобразователь формата выполняет преобразования в меньшие количества выходных каналов, то есть он создает понижающие микширования.
Фиг. 3 иллюстрирует вариант осуществления бинаурального средства 236 рендеринга с Фиг. 2. Модуль средства бинаурального рендеринга может обеспечивать бинауральное понижающее микширование многоканального аудиоматериала. Бинауральный эффект может быть основан на измеренной бинауральной импульсной характеристике помещения. Импульсную характеристику помещения можно считать "характерной особенностью" акустических свойств реального помещения. Импульсная характеристика помещения измеряется и сохраняется, и произвольные акустические сигналы могут быть обеспечены с этой "характерной особенностью", посредством этого предоставляя слушателю симуляцию акустических свойств помещения, ассоциированных с импульсной характеристикой помещения. Бинауральное средство 236 рендеринга может быть запрограммировано или сконфигурировано с возможностью рендеринга выходных каналов в два бинауральных канала с использованием функций моделирования восприятия звука или бинауральных импульсных характеристик помещения (BRIR). Например, для мобильных устройств бинауральный рендеринг желателен для головных телефонов или динамиков, прикрепленных к таким мобильным устройствам. В таких мобильных устройствах вследствие ограничений может быть необходимо ограничивать сложность рендеринга и декодера. В дополнение к исключению декорреляции в таких сценариях обработки может быть предпочтительно сначала выполнять понижающее микширование с использованием понижающего микшера 250 для промежуточного сигнала 252 понижающего микширования, то есть для меньшего количества выходных каналов, что дает в результате меньшее количество входных каналов для фактического бинаурального преобразователя 254. Например, 22.2 канальный материал может быть микширован с понижением понижающим микшером 250 в 5.1 промежуточное понижающее микширование или в качестве альтернативы промежуточное понижающее микширование может быть непосредственно вычислено декодером 220 SAOC на Фиг. 2 в некоторой степени в "ускоренном" режиме. Затем бинауральному рендерингу нужно только применить десять HRTF (функций моделирования восприятия звука) или функций BRIR для рендеринга пяти индивидуальных каналов на различных позициях в отличие от применения 44 HRTF или функций BRIR, если 22.2 входных канала должны были быть подвергнуты рендерингу. Операции свертывания, необходимые для бинаурального рендеринга, требуют много мощности обработки и поэтому сокращение этой мощности обработки, при этом все еще получение приемлемого качества аудио, является особенно полезным для мобильных устройств. Бинауральное средство 236 рендеринга производит бинауральное понижающее микширование 238 многоканального аудиоматериала 228, так что каждый входной канал (за исключением каналов LFE) представляется возможным источником звука. Обработка может быть проведена по кадрам в области QMF. Бинауральный эффект основан на измеренных бинауральных импульсных характеристиках помещения, и прямой звук и первые отражения могут быть запечатлены на аудиоматериале посредством сверточного подхода в псевдо-FFT области с использованием быстрой свертки поверх области QMF, в то время как поздняя реверберация может быть обработана отдельно.
Многоканальные аудиоформаты в настоящий момент присутствуют в большом разнообразии конфигураций, они используются в 3D аудиосистеме, как это было подробно описано выше по тексту, которая используется, например, для обеспечения аудиоинформации, обеспечиваемой на дисках DVD и Blue-ray. Одна важная проблема заключается в приспособлении передачи в реальном времени многоканального аудио при поддержке совместимости с существующими доступными физическими установками громкоговорителей потребителя. Решение заключается в кодировании аудиоконтента в оригинальном формате, используемом, например, в продукции, который типично имеет большое количество выходных каналов. В дополнение, побочная информация понижающего микширования обеспечивается для генерирования других форматов, которые имеют менее независимые каналы. Предполагая, например, некоторое количество N входных каналов и некоторое количество M выходных каналов, процедура понижающего микширования на приемнике может быть точно определена матрицей понижающего микширования, имеющей размер N x M. Эта конкретная процедура, которая могла бы быть осуществлена в понижающем микшере из описанного выше по тексту преобразователя формата или средства бинаурального рендеринга, представляет пассивное понижающее микширование, означающее, что никакая адаптивная обработка сигналов, зависимая от фактического аудиоконтента, не применяется к входным сигналам или к микшированным с понижением выходным сигналам.
Матрица понижающего микширования пытается согласовывать не только физическое микширование аудиоинформации, а также может выражать артистические намерения производителя, который может использовать его знания о фактическом контенте, который передается. Поэтому имеются несколько способов генерирования матриц понижающего микширования, например вручную посредством использования обобщенного акустического знания о роли и позиции входных и выходных громкоговорителей, вручную посредством использования знания о фактическом контенте и артистическом намерении, и автоматически, например, посредством использования инструмента программного обеспечения, который вычисляет аппроксимацию с использованием данных выходных громкоговорителей.
Имеется некоторое количество известных подходов в области техники для обеспечения таких матриц понижающего микширования. Однако существующие схемы делают много предположений и жестко кодируют важную часть структуры и контенты фактической матрицы понижающего микширования. В ссылке [1] предшествующего уровня техники описывается использование конкретных процедур понижающего микширования, которые явно заданы для понижающего микширования из конфигурации каналов 5.1 (см. ссылку [2] предшествующего уровня техники) в конфигурацию каналов 2.0, из конфигурации каналов 6.1 или 7.1 переднего или переднего верхнего вариантов или варианта заднего окружения в конфигурации каналов 5.1 или 2.0. Недостаток этих известных подходов заключается в том, что схемы понижающего микширования имеют только ограниченную степень свободы в том смысле, что некоторые из входных каналов микшируются с предварительно заданными весами (например, в случае отображения конфигурации 7.1 заднего окружения на конфигурацию 5.1, L, R и C входные каналы непосредственно отображаются на соответствующие выходные каналы) и сокращенное количество значений усилений совместно используется для некоторых других входных каналов (например, в случае отображения передней конфигурации 7.1 на конфигурацию 5.1, L, R, Lc и Rc входные каналы микшируются в L и R выходные каналы с использованием только одного значения усиления). Более того, усиления имеют только ограниченный диапазон и точность, например, от 0 дБ до -9 дБ с суммой из восьми уровней. Явное описание процедур понижающего микширования для каждой пары конфигурации входа и выхода является трудоемким и подразумевает приложения к существующим стандартам, за счет отложенного соответствия. Другое предложение описано в ссылке [5] предшествующего уровня техники. Этот подход использует явные матрицы понижающего микширования, которые представляют улучшение в гибкости, однако, схема снова ограничивает диапазон и точность 0 дБ до -9 дБ с суммой из 16 уровней. Более того, каждое усиление кодируется с заданной точностью в 4 бита.
Таким образом, ввиду известного предшествующего уровня техники, требуется улучшенный подход для эффективного кодирования матриц понижающего микширования, включающий в себя аспекты выбора подходящей области представления и схемы квантования, а также кодирование без потерь квантованных значений.
В соответствии с вариантами осуществления неограниченная гибкость для обработки матриц понижающего микширования достигается посредством разрешения кодирования произвольных матриц понижающего микширования с диапазоном и точностью, точно определяемой производителем согласно его нуждам. Также варианты осуществления изобретения обеспечивают очень эффективное кодирование без потерь, следовательно, типичные матрицы используют небольшое количество битов, и уход от типичных матриц только постепенно уменьшит эффективность. Это означает, что чем больше матрица похожа на типичную матрицу, тем более эффективным будет кодирование, описанное в соответствии с вариантами осуществления настоящего изобретения.
В соответствии с вариантами осуществления требуемая точность может быть точно определена производителем как 1 дБ, 0,5 дБ или 0,25 дБ для использования для равномерного квантования. Следует отметить, что в соответствии с другими вариантами осуществления также могут быть выбраны другие значения для точности. В противоположность к этому существующие схемы позволяют только точность 1,5 дБ или 0,5 дБ для значений около 0 дБ при использовании меньшей точности для других значений. Использование грубого квантования для некоторых значений влияет на достигаемые допуски наихудшего случая и делает интерпретацию декодированных матриц более сложной. В существующих технологиях для некоторых значений используется более низкая точность, что является простым средством для сокращения определенного количества требуемых битов с использованием равномерного кодирования. Однако на практике могут быть достигнуты такие же результаты, не жертвуя точностью посредством использования улучшенной схемы кодирования, которая дополнительно будет описана подробно ниже по тексту.
В соответствии с вариантами осуществления значения усилений микширования могут быть точно определены между максимальным значением, например +22дБ, и минимальным значением, например -47дБ. Они также могут включать в себя значение минус бесконечности. Эффективный диапазон значений, используемый в матрице, указывается в битовом потоке как максимальное усиление и минимальное усиление, посредством этого не расходую какие-либо биты на значениях, которые фактически не используются, при этом не ограничивая желательную гибкость.
В соответствии с вариантами осуществления предполагается, что список входных каналов аудиоконтента, для которого должна быть обеспечена матрица понижающего микширования, является доступным, так же, как список выходных каналов, указывающий конфигурацию выходных громкоговорителей. Эти списки обеспечивают геометрическую информацию о каждом громкоговорителе в конфигурации входа и в конфигурации выхода, такую как азимутальный угол и угол возвышения. Необязательно, также могут быть обеспечены традиционные названия громкоговорителей.
Фиг. 4 показывает примерную матрицу понижающего микширования, которая известна в области техники, для отображения из конфигурации входа 22.2 на конфигурацию выхода 5.1. В правом столбце 300 матрицы соответствующие входные каналы в соответствии с конфигурацией 22.2 указываются названиями громкоговорителей, ассоциированными с соответствующими каналами. Нижняя строка 302 включает в себя соответствующие выходные каналы конфигурации выходных каналов, конфигурации 5.1. Снова соответствующие каналы указываются ассоциированными названиями громкоговорителей. Матрица включает в себя множество элементов 304 матрицы, каждый из которых содержит в себе значение усиление, также упоминаемое как усиление микширования. Усиление микширования указывает, как скорректирован уровень данного входного канала, например одного из входных каналов 300, при внесении вклада в соответствующий выходной канал 302. Например, верхний левый элемент матрицы показывает значение "1", означающее, что центральный канал C в конфигурации 300 входных каналов полностью согласован с центральным каналом C из конфигурации 302 выходных каналов. Аналогичным образом соответствующие левые и правые каналы в двух конфигурациях (L/R каналы) полностью отображаются, то есть левые/правые каналы в конфигурации входа вносят полный вклад в левый/правый каналы в конфигурации выхода. Другие каналы, например каналы Lc и Rc в конфигурации входа, отображаются с сокращенным уровнем 0,7 на левый и правый каналы конфигурации 302 выхода. Как может быть видно из Фиг. 4, имеется также некоторое количество элементов матрицы, не имеющих записи, означая, что соответствующие каналы, ассоцииров