Устройство и способы для адаптации аудиоинформации при пространственном кодировании аудиообъектов

Иллюстрации

Показать все

Изобретение относится к средствам для адаптации входной аудиоинформации, кодирующей один или более аудиообъектов. Технический результат заключается в повышении эффективности адаптации аудиоинформации к конкретному целевому сценарию применения. Входная аудиоинформация содержит два или более входных аудиоканалов понижающего микширования и дополнительно содержит входную параметрическую побочную информацию. Адаптированная аудиоинформация содержит один или более адаптированных аудиоканалов понижающего микширования и дополнительно содержит адаптированную параметрическую побочную информацию. Устройство содержит модификатор сигнала понижающего микширования для адаптации, в зависимости от адаптационной информации, двух или более входных аудиоканалов понижающего микширования для получения одного или более адаптированных аудиоканалов понижающего микширования. Кроме того, устройство содержит средство адаптации параметрической побочной информации для адаптации, в зависимости от адаптационной информации, входной параметрической побочной информации для получения адаптированной параметрической побочной информации. 4 н. и 9 з.п. ф-лы, 9 ил.

Реферат

Настоящее изобретение относится к декодированию аудиосигнала и обработке аудиосигнала и, в частности, к декодеру и способам адаптации аудиоинформации при пространственном кодировании аудиообъектов (SAOC).

В современных цифровых аудиосистемах основной тенденцией является обеспечение возможности внесения модификаций, связанных с аудиообъектом, передаваемого контента на стороне приемника. Эти модификации включают в себя изменение коэффициента усиления выбранных частей аудиосигнала и/или изменение положения в пространстве конкретных аудиообъектов в случае многоканального воспроизведения посредством пространственно распределенных громкоговорителей. Этого можно добиться путем индивидуальной доставки разных частей аудиоконтента на разные громкоговорители.

Другими словами, в области обработки аудиосигнала, передачи аудиосигнала и хранения аудиосигнала наблюдается растущая потребность в обеспечении взаимодействия с пользователем при воспроизведении объектно-ориентированного аудиоконтента, а также потребность в использовании расширенных возможностей многоканального воспроизведения для индивидуальной рендеризации аудиоконтента или его частей для улучшения слухового впечатления. Таким образом, использование многоканального аудиоконтента способствует значительным усовершенствованиям для пользователя. Например, можно получить трехмерное слуховое впечатление, которое способствует повышению удовлетворенности пользователя в развлекательных приложениях. Однако многоканальный аудиоконтент также полезен в профессиональных окружениях, например в приложениях телефонной конференцсвязи, поскольку разборчивость речи можно повысить с использованием воспроизведения многоканального аудиосигнала. Другим возможным применением является предложение слушателю музыкального произведения индивидуально регулировать уровень воспроизведения и/или пространственное положение разных частей (также именуемых “аудиообъектами”) или дорожек, например, вокальной партии или разных инструментов. Пользователь может осуществлять такую регулировку по причинам личного вкуса для упрощения транскрибирования одной или более частей из музыкального произведения, в образовательных целях, караоке, репетиции и т.д.

Непосредственная дискретная передача всего цифрового многоканального или многообъектного аудиоконтента, например, в форме данных импульсно-кодовой модуляции (ИКМ) или даже в форматах сжатого аудиосигнала, требует очень высоких битовых скоростей. Однако желательно также передавать и сохранять аудиоданные эффективно с точки зрения битовой скорости. Поэтому может быть желателен разумный компромисс между качеством аудиосигнала и требованиям к битовой скорости во избежание чрезмерного расходования ресурсов, обусловленного многоканальными/многообъектными приложениями.

Недавно, в области аудиокодирования, параметрические методы эффективных с точки зрения битовой скорости передачи/хранения многоканальных/многообъектных аудиосигналов были предложены, например, Экспертной группой по вопросам движущегося изображения (MPEG) и другими. Одним примером является MPEG Surround (MPS) в качестве канально-ориентированного подхода [MPS, BCC] или пространственное кодирование аудиообъектов (SAOC) MPEG в качестве объектно-ориентированного подхода [JSC, SAOC, SAOC1, SAOC2]. Другой объектно-ориентированный подход именуется “informed source separation” [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Эти методы ставят своей целью реконструкцию желаемой выходной аудиосцены или желаемого объекта источника аудиосигнала на основе понижающего микширования каналов/объектов и дополнительной побочной информации, описывающей передаваемую/сохраненную аудиосцену и/или объекты источника аудиосигнала в аудиосцене.

Оценивание и применение побочной информации, связанной с каналом/объектом, в таких системах осуществляется избирательно по времени и частоте. Поэтому такие системы применяют частотно-временные преобразования, например дискретное преобразование Фурье (DFT), кратковременное преобразование Фурье (STFT) или наборы фильтров наподобие наборов квадратурных зеркальных фильтров (QMF) и т.д. Основной принцип таких систем изображен на фиг. 3 на примере MPEG SAOC.

В случае STFT, временное измерение представлено количеством временных блоков и спектральное измерение захватывается количеством спектральных коэффициентов (“бинов”). В случае QMF, временное измерение представлено количеством временных интервалов, и спектральное измерение захватывается количеством поддиапазонов. Если спектральное разрешение QMF повышается за счет последующего применения второго каскада фильтров, весь набор фильтров именуется гибридным QMF, и поддиапазоны высокого разрешения именуются гибридными поддиапазонами.

Как упомянуто выше, в SAOC общая обработка осуществляется избирательно по времени и частоте и может быть описана следующим образом в каждой полосе частот, как показано на фиг. 3:

- осуществляется понижающее микширование N входных сигналов аудиообъектов s1…sN в P каналов x1…xP как часть обработки кодера с использованием матрицы понижающего микширования, состоящей из элементов d1,1…dN,P. Кроме того, кодер извлекает побочную информацию, описывающую характеристики входных аудиообъектов (модуль оценивания побочной информации (SIE)). Для MPEG SAOC, соотношения мощностей объектов относительно друг друга являются наиболее основной формой такой побочной информации.

Сигнал(ы) понижающего микширования и побочная информация передаются/сохраняются. Для этого аудиосигнал(ы) понижающего микширования можно сжимать, например, с использованием общеизвестных перцептивных аудиокодеров, например, MPEG-1/2 уровня II или III (иначе называемый .mp3), MPEG-2/4 Advanced Audio Coding (AAC) и т.д.

На принимающей стороне, декодер, в принципе, пытается восстановить сигналы исходного объекта (“разделение объекта”) из (декодированных) сигналов понижающего микширования, с использованием передаваемой побочной информации. Затем эти приближенные сигналы ŝ1…ŝN объекта микшируются в целевую сцену, представленную M выходными аудиоканалами ŷ1…ŷM с использованием матрицы рендеризации, описанной коэффициентами r1,1…rN,M на фиг. 3. Желаемая целевая сцена, в предельном случае, может рендеризовать сигнал только одного источника из смеси (сценарий разделения источников), а также из любой другой произвольной акустической сцены, состоящей из передаваемых объектов. Например, выходом может быть одноканальной, 2-канальной стереофонической или многоканальной 5.1 целевой сценой.

На Фиг. 6 схематически представлен принцип схемы кодирования/декодирования аудиосигнала. В частности, на фиг. 6 приведено принципиальное описание цепи кодирования/декодирования аудиосигнала.

На стороне кодирования аудиосигнал сжимается схемой аудиокодирования (обычно использующей перцептивные эффекты), и параметрическая побочная информация (PSI) вычисляется (см. кодер 601). Результирующий битовый поток, состоящий из кодированного аудиосигнала и PSI, сохраняются (или передаются) на сторону декодера, где они могут декодироваться различными экземплярами 620, 621, 622 декодера, обозначенными “A”, “B” и т.д. На фиг. 6 эти экземпляры декодера могут отличаться друг от друга (например, разные уровни сложности в стандартной спецификации, ограничения на применение или реализацию и т.д.) [SAOC, SAOC1, SAOC2].

Схемы кодирования, отвечающие уровню техники, не способны эффективно адаптировать PSI к конкретному целевому сценарию применения или платформе. Это может приводить к более высокой (чем необходимо) вычислительной сложности на стороне декодера или может приводить к проблемам совместимости.

Задачей настоящего изобретения является обеспечение усовершенствованных подходов к кодированию аудиообъектов. Задача настоящего изобретения решается посредством декодера по п. 1, посредством способа кодирования по п. 14 и посредством компьютерной программы по п. 15.

Предусмотрено устройство для адаптации входной аудиоинформации, кодирующей один или более аудиообъектов, для получения адаптированной аудиоинформации. Входная аудиоинформация содержит два или более входных аудиоканалов понижающего микширования и дополнительно содержит входную параметрическую побочную информацию. Адаптированная аудиоинформация содержит один или более адаптированных аудиоканалов понижающего микширования и дополнительно содержит адаптированную параметрическую побочную информацию.

Устройство содержит модификатор сигнала понижающего микширования для адаптации, в зависимости от адаптационной информации, двух или более входных аудиоканалов понижающего микширования для получения одного или более адаптированных аудиоканалов понижающего микширования.

Кроме того, устройство содержит средство адаптации параметрической побочной информации для адаптации, в зависимости от адаптационной информации, входной параметрической побочной информации для получения адаптированной параметрической побочной информации.

Согласно варианту осуществления, модификатор сигнала понижающего микширования может быть выполнен с возможностью адаптации двух или более входных аудиоканалов понижающего микширования в зависимости от адаптационной информации, чтобы количество одного или более адаптированных аудиоканалов понижающего микширования было меньше количества двух или более входных аудиоканалов понижающего микширования.

Согласно варианту осуществления, адаптационная информация может зависеть от экземпляра декодера. Модификатор сигнала понижающего микширования может быть выполнен с возможностью адаптации двух или более входных аудиоканалов понижающего микширования в зависимости от экземпляра декодера. Здесь и в дальнейшем, термины “декодер” и “экземпляр декодера” следует понимать в одном и том же смысле.

Согласно варианту осуществления, экземпляр декодера может быть способен декодировать, самое большее, максимальное количество каналов понижающего микширования. Адаптационная информация может зависеть от упомянутого максимального количества каналов понижающего микширования. Кроме того, модификатор сигнала понижающего микширования может быть выполнен с возможностью адаптации двух или более входных аудиоканалов понижающего микширования в зависимости от адаптационной информации для получения одного или более адаптированных аудиоканалов понижающего микширования, чтобы количество одного или более адаптированных каналов понижающего микширования было равно упомянутому максимальному количеству каналов понижающего микширования.

Согласно варианту осуществления, адаптационная информация может содержать адаптационную матрицу ().

Согласно варианту осуществления, модификатор сигнала понижающего микширования может быть выполнен с возможностью адаптации, в зависимости от адаптационной матрицы (), двух или более входных аудиоканалов () понижающего микширования для получения одного или более адаптированных аудиоканалов () понижающего микширования.

Согласно варианту осуществления, модификатор сигнала понижающего микширования может быть выполнен с возможностью адаптации, в зависимости от адаптационной матрицы , двух или более входных аудиоканалов понижающего микширования для получения одного или более адаптированных аудиоканалов понижающего микширования с применением формулы

.

Согласно варианту осуществления, средство адаптации параметрической побочной информации может быть выполнено с возможностью адаптации, в зависимости от адаптационной матрицы (), входной параметрической побочной информации () для получения адаптированной параметрической побочной информации ().

Согласно варианту осуществления, средство адаптации параметрической побочной информации может быть выполнено с возможностью адаптации, в зависимости от адаптационной матрицы , входной параметрической побочной информации для получения адаптированной параметрической побочной информации с применением формулы:

.

Согласно варианту осуществления, входная параметрическая побочная информация () может указывать начальную матрицу понижающего микширования, так что два или более входных аудиоканалов () понижающего микширования получают, применяя начальную матрицу () понижающего микширования к одному или более аудиообъектам (S). Средство адаптации параметрической побочной информации может быть выполнено с возможностью определения адаптированной матрицы () понижающего микширования в качестве адаптированной параметрической побочной информации, так что один или более адаптированных аудиоканалов () понижающего микширования получают, применяя адаптированную матрицу () понижающего микширования к одному или более аудиообъектам (S).

Кроме того, согласно варианту осуществления, предусмотрено устройство для генерирования одного или более аудиоканалов из входной аудиоинформации, кодирующей один или более аудиообъектов.

Устройство для генерирования одного или более аудиоканалов содержит устройство согласно одному из вышеописанных вариантов осуществления для адаптации входной аудиоинформации для получения адаптированной аудиоинформации, при этом входная аудиоинформация содержит два или более входных аудиоканалов понижающего микширования и дополнительно содержит входную параметрическую побочную информацию, причем адаптированная аудиоинформация содержит один или более адаптированных аудиоканалов понижающего микширования и дополнительно содержит адаптированную параметрическую побочную информацию.

Кроме того, устройство для генерирования одного или более аудиоканалов содержит экземпляр декодера для декодирования, в зависимости от адаптированной параметрической побочной информации, одного или более адаптированных аудиоканалов понижающего микширования для получения одного или более аудиоканалов.

Согласно варианту осуществления, средство адаптации параметрической побочной информации устройства для адаптации входной аудиоинформации может быть выполнено с возможностью приема входного битового потока, содержащего входную параметрическую побочную информацию. Средство адаптации параметрической побочной информации устройства для адаптации входной аудиоинформации может быть выполнено с возможностью адаптации входной параметрической побочной информации для получения адаптированной параметрической побочной информации и подачи адаптированной параметрической побочной информации на экземпляр декодера. Экземпляр декодера может быть выполнен с возможностью декодирования одного или более адаптированных аудиоканалов понижающего микширования в зависимости от адаптированной параметрической побочной информации.

В другом варианте осуществления, средство адаптации параметрической побочной информации устройства для адаптации входной аудиоинформации может быть выполнено с возможностью приема входного битового потока, содержащего входную параметрическую побочную информацию. Средство адаптации параметрической побочной информации устройства для адаптации входной аудиоинформации может быть выполнено с возможностью замены входной параметрической побочной информации во входном битовом потоке адаптированной параметрической побочной информацией для получения модифицированного битового потока. Средство адаптации параметрической побочной информации устройства для адаптации входной аудиоинформации может быть выполнено с возможностью подачи модифицированного битового потока на экземпляр декодера. Кроме того, экземпляр декодера может быть выполнен с возможностью декодирования одного или более адаптированных аудиоканалов понижающего микширования в зависимости от модифицированного битового потока.

Кроме того, предусмотрен способ адаптации входной аудиоинформации, кодирующей один или более аудиообъектов, для получения адаптированной аудиоинформации. Входная аудиоинформация содержит два или более входных аудиоканалов понижающего микширования и дополнительно содержит входную параметрическую побочную информацию. Адаптированная аудиоинформация содержит один или более адаптированных аудиоканалов понижающего микширования и дополнительно содержит адаптированную параметрическую побочную информацию. Способ содержит этапы, на которых:

- адаптируют, в зависимости от адаптационной информации, два или более входных аудиоканалов понижающего микширования для получения одного или более адаптированных аудиоканалов понижающего микширования, и

- адаптируют, в зависимости от адаптационной информации, входную параметрическую побочную информацию для получения адаптированной параметрической побочной информации.

Кроме того, предусмотрена компьютерная программа для реализации вышеописанного способа при выполнении компьютером или процессором сигналов.

Предпочтительные варианты осуществления будут обеспечены в зависимых пунктах формулы изобретения.

Далее описаны варианты осуществления настоящего изобретения более подробно со ссылкой на чертежи, на которых:

фиг. 1 демонстрирует устройство для адаптации входной аудиоинформации, кодирующей один или более аудиообъектов, для получения адаптированной аудиоинформации согласно варианту осуществления.

Фиг. 2 демонстрирует устройство для адаптации входной аудиоинформации, кодирующей один или более аудиообъектов, для получения адаптированной аудиоинформации согласно другому варианту осуществления.

Фиг. 3 демонстрирует упрощенную блок-схему принципиального обзора системы SAOC,

фиг. 4 демонстрирует схематическую и иллюстративную диаграмму спектрально-временного представления одноканального аудиосигнала,

фиг. 5 демонстрирует упрощенную блок-схему избирательного по времени и частоте вычисления побочной информации в кодере SAOC,

фиг. 6 схематически изображает принцип схемы кодирования/декодирования аудиосигнала,

фиг. 7 демонстрирует устройство для генерирования одного или более аудиоканалов из входной аудиоинформации, кодирующей один или более аудиообъектов согласно варианту осуществления,

фиг. 8 демонстрирует приложение объединенного PSIA в схеме кодирования/декодирования согласно варианту осуществления, и

фиг. 9 демонстрирует приложение разъединенного PSIA в схеме кодирования/декодирования согласно варианту осуществления.

Прежде чем перейти к описанию вариантов осуществления настоящего изобретения, рассмотрим более подробно традиционные системы SAOC.

Фиг. 3 демонстрирует общую конфигурацию кодера 10 SAOC и декодера 12 SAOC. Кодер 10 SAOC принимает в качестве входного сигнала N объектов, т.е. аудиосигналы с s1 по sN. В частности, кодер 10 содержит понижающий микшер 16, который принимает аудиосигналы с s1 по sN и осуществляет их понижающее микширование с образованием сигнала 18 понижающего микширования. Альтернативно, понижающее микширование может обеспечиваться извне (“художественное понижающее микширование”), и система оценивает дополнительную побочную информацию для согласования обеспеченного понижающего микширования с расчетным понижающим микшированием. На фиг. 3 сигнал понижающего микширования показан как P-канальный сигнал. Таким образом, допустима любая конфигурация монофонического (P=1), стереофонического (P=2) или многоканального (P>2) сигнала понижающего микширования.

В случае стереофонического понижающего микширования, каналы сигнала 18 понижающего микширования обозначаются L0 и R0, в случае монофонического понижающего микширования канал обозначается просто L0. Чтобы декодер 12 SAOC мог восстанавливать отдельные объекты с s1 по sN, блок 17 оценки побочной информации снабжает декодер 12 SAOC побочной информацией, включающей в себя параметры SAOC. Например, в случае стереофонического понижающего микширования, параметры SAOC содержат разности уровней объектов (OLD), межобъектные корреляции (IOC) (параметры межобъектной кросс-корреляции), значения коэффициента усиления при понижающем микшировании (DMG) и разности уровней каналов понижающего микширования (DCLD). Побочная информация 20, включающая в себя параметры SAOC, совместно с сигналом 18 понижающего микширования, образует выходной поток данных SAOC принимаемый декодером 12 SAOC.

Декодер 12 SAOC содержит повышающий микшер, который принимает сигнал 18 понижающего микширования, а также побочную информацию 20 для восстановления и рендеризации аудиосигналов ŝ1 и ŝN в любой выбранный пользователем набор каналов с ŷ1 по ŷM, причем рендеризация предписана информацией 26 рендеризации, поступающей на декодер 12 SAOC.

Аудиосигналы с s1 по sN могут поступать на кодер 10 в любой области кодирования, например, во временной или спектральной области. В случае, когда аудиосигналы с s1 по sN поступают на кодер 10 во временной области, например ИКМ-кодированные, кодер 10 может использовать набор фильтров, например набор гибридных QMF, для преобразования сигналов в спектральную область, в которой аудиосигналы представлены в нескольких поддиапазонах, связанных с разными спектральными участками, с конкретным разрешением набора фильтров. Если аудиосигналы с s1 по sN уже находятся в представлении, ожидаемом кодером 10, ему не нужно осуществлять спектральное разложение.

Фиг. 4 демонстрирует аудиосигнал в вышеупомянутой спектральной области. Как можно видеть, аудиосигнал представлен в виде множества поддиапазонных сигналов. Каждый поддиапазонный сигнал с 301 по 30K состоит из временной последовательности значений поддиапазона, указанных малыми прямоугольниками 32. Как можно видеть, значения 32 поддиапазона поддиапазонных сигналов с 301 по 30K синхронизируются друг с другом по времени таким образом, что для каждого из последовательных временных интервалов 34 набора фильтров каждый поддиапазон с 301 по 30K содержит в точности одно значение 32 поддиапазона. Как показано на частотной оси 36, поддиапазонные сигналы с 301 по 30K связаны с разными частотными областями, и как показано на временной оси 38, временные интервалы 34 набора фильтров последовательно размещены по времени.

Как указано выше, экстрактор 17 побочной информации, показанный на фиг. 3, вычисляет параметры SAOC из входных аудиосигналов с s1 по sN. Согласно реализованному в настоящее время стандарту SAOC, кодер 10 осуществляет это вычисление с временным/частотным разрешением, которое может уменьшаться относительно исходного временного/частотного разрешения, которое определяется временными интервалами 34 набора фильтров и разложением на поддиапазоны, на определенную величину, причем эта определенная величина сигнализируется стороне декодера с побочной информацией 20. Группы последовательных временных интервалов 34 набора фильтров могут образовывать кадр 41 SAOC. Количество диапазонов параметра в кадре 41 SAOC также переносится с побочной информацией 20. Следовательно, временная/частотная область делится на временные/частотные плитки, представленные на фиг. 4 пунктирными линиями 42. На фиг. 4 диапазоны параметра распределены одинаково в различных изображенных кадрах 41 SAOC таким образом, что получается правильное размещение временных/частотных плиток. Однако в общем случае диапазоны параметра могут изменяться от одного кадра 41 SAOC к следующему, в зависимости от разных потребностей в спектральном разрешении в соответствующих кадрах 41 SAOC. Кроме того, длина кадров 41 SAOC также может изменяться. В результате, размещение временных/частотных плиток может быть неправильным. Тем не менее, временные/частотные плитки в конкретном кадре 41 SAOC обычно имеют одинаковую длительность и выровнены во временном направлении, т.е. все t/f-плитки в упомянутом кадре 41 SAOC начинаются в начале данного кадра 41 SAOC и заканчиваются в конце упомянутого кадра 41 SAOC.

Экстрактор 17 побочной информации, изображенный на фиг. 3, вычисляет параметры SAOC согласно следующим формулам. В частности, экстрактор 17 побочной информации вычисляет разности уровней объектов для каждого объекта i как

где суммы и индексы n и k соответственно пробегают по всем временным индексам 34, и все спектральные индексы 30, которые принадлежат определенной временной/частотной плитке 42, указаны индексами l для кадра SAOC (или временного интервала обработки) и m для диапазона параметра. Таким образом, энергии всех значений поддиапазона xi аудиосигнала или объекта i суммируются и нормализуются к наивысшему значению энергии этой плитки из всех объектов или аудиосигналов. обозначает комплексно сопряженную величину .

Кроме того, экстрактор 17 побочной информации SAOC способен вычислять меру подобия соответствующих временных/частотных плиток пар разных входных объектов с s1 по sN. Хотя экстрактор 17 побочной информации SAOC может вычислять меру подобия между всеми парами входных объектов с s1 по sN, экстрактор 17 побочной информации также может подавлять сигнализацию мер подобия или ограничивать вычисление мер подобия аудиообъектами с s1 по sN, которые формируют левый или правый каналы общего стереоканала. В любом случае, мера подобия называется параметром межобъектной кросс-корреляции . Вычисление осуществляется следующим образом:

где индексы n и k, опять же, пробегают по всем значениям поддиапазона, принадлежащим определенной временной/частотной плитке 42, i и j обозначают определенную пару аудиообъектов с s1 по sN, и обозначает операцию отбрасывания мнимой части комплексного аргумента.

Понижающий микшер 16, показанный на фиг. 3, осуществляет понижающее микширование объектов с s1 по sN с использованием коэффициентов усиления, применяемых к каждому объекту с s1 по sN. Таким образом, коэффициент усиления di применяется к объекту i и затем все взвешенные таким образом объекты с s1 по sN суммируются для получения монофонического сигнала понижающего микширования, который представлен на фиг. 3, если P=1. В другом примерном случае двухканального сигнала понижающего микширования, изображенного на фиг. 3, если P=2, коэффициент усиления d1,i применяется к объекту i, и затем все такие объекты, усиленные с коэффициентом усиления, суммируются для получения левого канала понижающего микширования L0, и коэффициенты усиления d2,i применяются к объекту i и затем усиленные таким образом с коэффициентом усиления объекты суммируются для получения правого канала понижающего микширования R0. Обработка, аналогичная вышеописанной, подлежит применению в случае многоканального понижающего микширования (P>2).

Это предписание понижающего микширования сигнализируется стороне декодера посредством коэффициентов DMGi усиления понижающего микширования и, в случае стереосигнала понижающего микширования, разностей DCLDi уровней каналов понижающего микширования.

Коэффициенты усиления понижающего микширования вычисляются согласно

, (монофоническое понижающее микширование),

, (стереофоническое понижающее микширование),

где - малая величина, например 10-9.

Для DCLD применяется следующая формула:

.

В нормальном режиме понижающий микшер 16 генерирует сигнал понижающего микширования согласно

для монофонического понижающего микширования или

для стереофонического понижающего микширования соответственно.

Таким образом, в вышеупомянутых формулах параметры OLD и IOC являются функцией аудиосигналов, и параметры DMG и DCLD являются функцией d. Между прочим, заметим, что d может изменяться по времени и частоте.

Таким образом, в нормальном режиме, понижающий микшер 16 микширует все объекты с s1 по sN без предпочтений, т.е. одинаково манипулируя всеми объектами с s1 по sN.

На стороне декодера повышающий микшер осуществляет процедуру, обратную понижающему микшированию, и реализует “информацию рендеризации” 26, представленную матрицей R (в литературе иногда также именуемый A) на одном этапе вычисления, а именно, в случае двухканального понижающего микширования

,

где матрица E является функцией параметров OLD и IOC, и матрица содержит коэффициенты понижающего микширования в виде

.

Матрица E является оцененной ковариационной матрицей аудиообъектов с s1 по sN. В современных реализациях SAOC вычисление оцененной ковариационной матрицы E обычно осуществляется в спектральном/временном разрешении параметров SAOC, т.е. для каждого (l,m) таким образом, что оцененную ковариационную матрицу можно записать как El,m. Оцененная ковариационная матрица El,m имеет размер N x N и ее коэффициенты заданы как

.

Таким образом, матрица El,m с

имеет по диагонали разности уровней объектов, т.е. для i=j, поскольку и для i=j. Вне диагонали оцененная ковариационная матрица E имеет коэффициенты матрицы, представляющие среднее геометрическое разностей уровней объектов объектов i и j соответственно, взвешенных мерой межобъектной кросс-корреляции .

Фиг. 5 демонстрирует один возможный принцип реализации на примере блока оценки побочной информации (SIE) как часть кодера 10 SAOC. Кодер 10 SAOC содержит микшер 16 и блок 17 оценки побочной информации (SIE). SIE, в принципе, состоит из двух модулей: один модуль 45 для вычисления t/f-представления на кратковременной основе (например, STFT или QMF) каждого сигнала. Вычисленное кратковременное t/f-представление поступает на второй модуль 46, модуль t/f-избирательной оценки побочной информации (t/f-SIE). Модуль 46 t/f-SIE вычисляет побочную информацию для каждой t/f-плитки. В современных реализациях SAOC преобразование времени/частоты является фиксированным и одинаковым для всех аудиообъектов с s1 по sN. Кроме того, параметры SAOC определяются по кадрам SAOC, которые одинаковы для всех аудиообъектов и имеют одинаковое временное/частотное разрешение для всех аудиообъектов с s1 по sN, таким образом, невзирая на объектно-специфические потребности в высоком временном разрешении в ряде случаев или высоком спектральном разрешении в других случаях.

Далее описаны варианты осуществления настоящего изобретения.

Фиг. 1 демонстрирует устройство для адаптации входной аудиоинформации, кодирующей один или более аудиообъектов, для получения адаптированной аудиоинформации согласно варианту осуществления.

Входная аудиоинформация содержит два или более входных аудиоканалов понижающего микширования и дополнительно содержит входную параметрическую побочную информацию. Адаптированная аудиоинформация содержит один или более адаптированных аудиоканалов понижающего микширования и дополнительно содержит адаптированную параметрическую побочную информацию.

Устройство содержит модификатор 110 сигнала понижающего микширования (DSM) для адаптации, в зависимости от адаптационной информации, двух или более входных аудиоканалов понижающего микширования для получения одного или более адаптированных аудиоканалов понижающего микширования.

Кроме того, устройство содержит средство 120 адаптации параметрической побочной информации (PSIA) для адаптации, в зависимости от адаптационной информации, входной параметрической побочной информации для получения адаптированной параметрической побочной информации.

Фиг. 2 демонстрирует устройство для адаптации входной аудиоинформации, кодирующей один или более аудиообъектов, для получения адаптированной аудиоинформации согласно другому варианту осуществления.

Согласно варианту осуществления, адаптационная информация может зависеть от экземпляра декодера, и модификатор 110 сигнала понижающего микширования может быть выполнен с возможностью адаптации двух или более входных аудиоканалов понижающего микширования в зависимости от экземпляра декодера.

Например, модификатор 110 сигнала понижающего микширования, показанный на фиг. 2, адаптирует понижающее микширование к возможностям конкретного экземпляра декодера.

Согласно варианту осуществления, модификатор 110 сигнала понижающего микширования может быть выполнен с возможностью адаптации двух или более входных аудиоканалов понижающего микширования в зависимости от адаптационной информации, чтобы количество одного или более адаптированных аудиоканалов понижающего микширования было меньше количества двух или более входных аудиоканалов понижающего микширования.

Например, согласно варианту осуществления, показанному фиг. 2, модификатор 110 сигнала понижающего микширования сокращает количество транспортных каналов /каналы понижающего микширования.

Например, входные аудиоканалы понижающего микширования 22.2 (= 24 входных аудиоканала понижающего микширования) можно свести к адаптированным аудиоканалам понижающего микширования 7.1 (= 8 адаптированных аудиоканалов понижающего микширования).

Или, например, входные аудиоканалы понижающего микширования 5.1 (= 6 входных аудиоканалов понижающего микширования) сводятся к адаптированным аудиоканалам понижающего микширования 2.0 (= 2 адаптированных аудиоканала понижающего микширования).

Или, например, 2 входных аудиоканала понижающего микширования сводятся к 1 адаптированному аудиоканалу понижающего микширования.

Возможны различные другие комбинации входных аудиоканалов понижающего микширования и адаптированные аудиоканалы понижающего микширования.

Согласно варианту осуществления, экземпляр декодера может быть способен декодировать, самое большее, максимальное количество каналов понижающего микширования. Адаптационная информация может зависеть от упомянутого максимального количества каналов понижающего микширования. Кроме того, модификатор 110 сигнала понижающего микширования может быть выполнен с возможностью адаптации двух или более входных аудиоканалов понижающего микширования в зависимости от адаптационной информации для получения одного или более ад