Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования

Патент 2430430

Авторы

Правообладатели

Долби Свиден АБ (SE)

Классы МПК

G10L19 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования

Иллюстрации

Показать все

Изобретение относится к декодированию множественных объектов путем преобразования закодированного многообъектного сигнала с помощью многоканального понижающего микширования и вспомогательных управляющих данных. Техническим результатом является возможность гибкого управления качеством при разделении объектов в зависимости от предъявляемых прикладных требований и эксплуатационных свойств системы передачи (например, емкости канала). Указанный технический результат достигается тем, что кодер аудиообъектов предназначен для генерирования закодированных сигналов аудиообъектов с использованием множества аудиообъектов, где множество аудиообъектов включает в себя стереообъект, представленный двумя аудиообъектами, обладающими определенной ненулевой корреляцией, и включает в себя генератор (96) информации понижающего микширования для формирования информации понижающего микширования, отражающей порядок распределения множества аудиообъектов, по меньшей мере, между двумя каналами понижающего микширования, генератор параметров объекта (94) для генерации параметров объекта для аудиообъектов, где параметры объекта включают в себя аппроксимации энергий объекта для множества аудиообъектов и данные корреляции для стереообъекта, и выходной интерфейс (98) для генерирования кодированного сигнала аудиообъекта с использованием характеристик понижающего микширования и параметров объекта. 7 н. и 43 з.п. ф-лы, 18 ил.

Реферат

ОБЛАСТЬ ПРИМЕНЕНИЯ

Изобретение относится к декодированию множественных объектов путем преобразования закодированного многообъектного сигнала на базе доступного многоканального понижающего микширования и вспомогательных управляющих данных.

ОБЛАСТЬ ТЕХНИКИ

Последние разработки в области технологии обработки звука делают возможным воссоздание многоканального аудиосигнала на базе стерео- (или моно-) сигнала и соответствующих управляющих данных. Эти методы параметрического кодирования звукового окружения обычно включают в себя параметризацию. Параметрический многоканальный аудиодекодер (например, MPEG Surround стандарта ISO/TEC 23003-1, L.Villemoes, J.Herre, J.Breebaart, G.Hotho, S.Disch, H.Pumhagen, and K.Kjorling, "MPEG Surround: The Forthcoming ISO Standard for Spatial Audio Coding," in 28th International AES Conference, The Future of Audio Technology Surround and Beyond, Pitea, Sweden, June 30-July 2, 2006; J.Breebaart, J.Herre, L.Villemoes, C.Jin, K.Kjorling, J.Plogsties, and J.Koppens, "Multi-Channels goes Mobile: MPEG Surround Binaural Rendering," in 29th International AES Conference, Audio for Mobile and Handheld Devices, Seoul, Sept 2-4,2006) реконструирует M каналов на базе K принятых каналов, где M>K, с использованием управляющих данных. Управляющие данные представляют собой параметризацию многоканального сигнала на базе разности интенсивности сигнала между каналами (IID) и межканальной когерентности, согласованности (ICC). Как правило, такие параметры выделяются на стадии кодирования и описывают отношения мощностей и корреляцию между парами каналов, используемых при повышающем микшировании. Применение такого алгоритма кодирования позволяет выполнять кодирование при скорости передачи данных, значительно более низкой, чем передача всей совокупности М каналов, при высокой эффективности кодирования и одновременной гарантии совместимости как с устройствами каналов K, так и с устройствами каналов М.

Схожую систему кодирования осуществляет соответствующий кодер аудиообъекта [С.Faller, "Parametric Joint-Coding of Audio Sources," Convention Paper 6752 presented at the 120th AES Convention, Paris, France, May 20-23, 2006.], [С.Faller, "Parametric Joint-Coding of Audio Sources," Patent application PCT/EP2006/050904, 2006], где несколько аудиообъектов микшируются "вниз" кодером, а позже микшируются "вверх" с использованием управляющих команд. Процесс повышающего микширования может также рассматриваться как разделение объектов, смешанных при понижающем микшировании. Полученный в результате повышающего микширования сигнал может быть преобразован для воспроизведения в одно- или многоканальный вид. Определяя точнее, упомянутые выше публикации представляют метод синтеза звуковых каналов на основании результатов понижающего микширования (именуемых суммарным сигналом), статистической информации об источниках и характеристик, задающих необходимый выходной формат. Если используются несколько сигналов, полученных понижающим микшированием, эти сигналы состоят из подмножеств различных объектов, и повышающее микширование должно осуществляться по каждому каналу понижающего микширования индивидуально. Новизна предлагаемого метода заключается в осуществлении повышающего микширования одновременно по всем каналам понижающего микширования. Методы кодирования объекта, представленные до настоящего изобретения, не предлагали вариант декодирования результатов понижающего микширования по нескольким каналам одновременно.

КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Первый аспект изобретения относится к кодеру аудиообъекта, генерирующему закодированный сигнал аудиообъекта с использованием совокупности аудиообъектов, включая:

генератор данных нисходящего микширования, генерирующий параметры распределения множества аудиообъектов, по крайней мере, по двум каналам понижающего микширования;

генератор параметров аудиообъектов и выходной интерфейс для генерирования кодированного сигнала аудиообъекта с использованием характеристик понижающего микширования и параметров объекта.

Второй аспект изобретения относится к методу кодирования аудиообъекта, обеспечивающему генерирование кодированного сигнала аудиообъекта с использованием совокупности аудиообъектов, включая:

генерирование данных понижающего микширования, характеризующих порядок распределения совокупности аудиообъектов, по крайней мере, по двум каналам понижающего микширования;

генерирование параметров аудиообъектов и генерирование кодированных сигналов аудиообъекта с использованием данных понижающего микширования и параметров объекта.

Третий аспект изобретения относится к звуковому синтезатору (аудиосинтезатору), генерирующему выходные данные с использованием кодированного сигнала аудиообъекта, включая:

синтезатор выходных данных, используемых для создания множества выходных каналов с заданной конфигурацией выходного аудиосигнала, отображающего совокупность аудиообъектов, где синтезатор выходных данных распознает характеристики понижающего микширования для распределения множества аудиообъектов, по крайней мере, по двум каналам понижающего микширования и параметры аудиообъектов.

Четвертый аспект изобретения относится к методу синтезирования звука, позволяющего генерировать выходные данные с использованием кодированного сигнала аудиообъекта, включая:

генерирование выходных данных для формирования множества выходных каналов с заданной конфигурацией выходного аудиосигнала, отображающей совокупность аудиообъектов, с применением синтезатора выходных данных, способных считывать характеристики понижающего микширования для распределения множества аудиообъектов, по крайней мере, по двум каналам понижающего микширования и параметры аудиообъектов.

Пятый аспект изобретения относится к кодированному сигналу аудиообъекта, содержащему характеристики понижающего микширования, указывающие порядок распределения множества аудиообъектов, по крайней мере, по двум каналам понижающего микширования, и параметры объектов, позволяющие реконструировать аудиообъекты с использованием параметров объектов и, по крайней мере, двух каналов понижающего микширования.

Шестой аспект изобретения относится к компьютерному программному обеспечению, предназначенному для осуществления метода кодирования аудиообъекта или метода декодирования аудиообъекта на компьютере.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Далее изобретение будет представлено иллюстративным материалом, не ограничивающим его ни по форме, ни по существу, с пояснениями прилагаемых чертежей, где

на фиг.1a представлена блок-схема алгоритма кодирования пространственного аудиообъекта, включая кодирование и декодирование;

на фиг.1b представлена блок-схема алгоритма кодирования пространственного аудиообъекта с использованием декодера MPEG Surround;

на фиг.2 представлен алгоритм работы кодера пространственного аудиообъекта;

на фиг.3 представлена схема алгоритма работы экстрактора (выделителя) параметров аудиообъекта в режиме дифференциации мощности;

на фиг.4 представлена схема алгоритма работы экстрактора (выделителя) параметров аудиообъекта в режиме прогнозирования;

на фиг.5 представлена схема устройства транскодера SAOC-MPEG Surround;

на фиг.6 схематически представлены различные режимы работы преобразователя данных нисходящего микширования (даунмикса);

на фиг.7 представлена принципиальная схема декодера MPEG Surround для нисходящего микширования стереосигнала;

на фиг.8 дана схема частного случая реализации с использованием кодера SAOC;

на фиг.9 представлена схема варианта осуществления кодера;

на фиг.10 представлена схема варианта осуществления декодера;

на фиг.11 представлена таблица оптимальных режимов работы декодера/синтезатора;

на фиг.12 представлена блок-схема методики расчета некоторых пространственных параметров повышающего микширования;

на фиг.13A представлена блок-схема методики расчета дополнительных

пространственных параметров повышающего микширования;

на фиг.13B представлена блок-схема методики расчетов с применением параметров прогнозирования;

на фиг.14 дана общая принципиальная схема системы кодер/декодер;

на фиг.15 представлена блок-схема алгоритма расчета прогностических параметров объекта; и

на фиг.16 схематически представлен метод стереофонического преобразования (аудиорендеринга).

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

Описанные ниже варианты осуществления изобретения являются не более чем иллюстрацией принципов усовершенствованного метода кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования. Подразумевается, что для специалистов в данной области возможность внесения изменений и усовершенствований в компоновку и элементы описанной конструкции очевидна. В силу этого, представленные описания и пояснения вариантов реализации изобретения ограничиваются только рамками патентных требований, но не конкретными деталями.

Предпочтительные варианты осуществления предусматривают метод кодирования, который сочетает в себе функциональные возможности алгоритма кодирования объекта с возможностями аудиорендеринга многоканального декодера. Пересылаемые управляющие данные относятся к индивидуальным объектам и в силу этого позволяют управлять при воспроизведении пространственным положением и уровнем сигнала. Таким образом, управляющая информация непосредственно связана с так называемым 'описанием сцены', дающим информацию о расположении объектов в окружающем пространстве. Описанием сцены можно управлять или со стороны декодера в интерактивном режиме со слушателем, или со стороны кодера от источника звука.

Суть изобретения заключается в том, что вводится транскодер для того, чтобы преобразовать относящиеся к объекту управляющую информацию и сигнал понижающего микширования в управляющие данные и сигнал понижающего микширования, предназначенные для системы воспроизведения, например декодера MPEG Surround. В представленном методе кодирования объекты могут быть произвольно распределены по имеющимся в наличии каналам нисходящего микширования кодера. Транскодер точно использует многоканальные параметры нисходящего микширования, обеспечивая перекодированный сигнал понижающего микширования и относящиеся к объекту управляющие данные. Благодаря этому повышающее микширование на декодере выполняется не для каждого канала индивидуально, как предложено в [С.Faller, "Parametric Joint-Coding of Audio Sources," Convention Paper 6752 presented at the 120th AES Convention, Paris, France, May 20-23, 2006.], а все каналы понижающего микширования обрабатываются одновременно за один процесс повышающего микширования. По новой схеме параметры многоканального понижающего микширования должным быть частью управляющих данных и кодируются кодером объекта.

Распределение объектов по каналам понижающего микширования может выполниться автоматически или это может быть конструктивное решение, связанное с кодером. В последнем случае систему понижающего (нисходящего) микширования можно включить в уже существующую многоканальную систему воспроизведения (например, в стереоустановку), делая упор на воспроизведение, опуская стадию перекодирования и многоканального декодирования. Это еще одно преимущество перед более ранними алгоритмами кодирования, известными из уровня техники, предусматривавшими один канал понижающего микширования или множественные каналы понижающего микширования, содержащие подмножества объектов-источников.

В то время как алгоритмы кодирования объекта известного уровня техники описывают технологию декодирования, используя исключительно единственный канал понижающего микширования, данное изобретение не имеет такого ограничения, поскольку предлагает метод одновременного декодирования материала понижающего микширования, содержащего сигналы понижающего микширования по нескольким каналам. Качество разделения объектов возрастает по мере увеличения числа каналов понижающего микширования. Таким образом, изобретение успешно заполняет пробел между алгоритмом кодирования объекта по одиночному моноканалу понижающего микширования и алгоритмом многоканального кодирования, где каждый объект передается по выделенному каналу. Таким образом, предлагаемый метод дает возможность гибкого управления качеством при разделении объектов в зависимости от предъявляемых прикладных требований и эксплуатационных свойств системы передачи (таких как емкость канала).

В дополнение к этому, преимущество использования более чем одного канала заключается в том, что оно позволяет также принимать во внимание корреляцию между различными объектами в отличие от описания, учитывающего лишь разницу в интенсивности звуковых сигналов, как в алгоритмах кодирования объекта в более ранней практике. Более ранняя практика исходила из предпосылки, что все объекты независимы друг от друга и взаимно не согласованы (нулевая взаимная корреляция), в то время как в действительности маловероятно, что объекты не могут быть коррелированы, как, например, левый и правый каналы стереофонического сигнала. В соответствии с концепцией данного изобретения включение параметров корреляции в описание (управляющие данные) делает его более полным и таким образом способствует созданию дополнительной возможности разделения объектов. Предпочтительные варианты осуществления включают в себя, по крайней мере, один из следующих отличительных признаков.

Система для передачи и создания множества отдельных аудиообъектов с использованием многоканального понижающего микширования и вспомогательных управляющих данных, описывающих эти объекты, включающая в себя:

кодер пространственных аудиообъектов, кодирующий множество аудиообъектов для многоканального понижающего микширования, информацию о многоканальном понижающего микшировании и параметры объекта; или декодер пространственных аудиообъектов, расшифровывающий данные многоканального понижающего микширования, информацию о многоканальном понижающем микшировании, параметры объекта и матрицу аудиорендеринга объекта во второй многоканальный аудиосигнал, применимый для аудиовоспроизведения.

На фиг.1a показан алгоритм кодирования пространственного аудиообъекта (SAOC), включающий в себя кодер SAOC 101 и декодер SAOC 104. Кодер пространственных аудиообъектов 101 кодирует N объектов в данные понижающего микширования объекта о K>1 аудиоканалах в соответствии с параметрами кодера. Информация о примененной весовой матрице понижающего микширования D выводится кодером SAOC вместе со вспомогательными данными относительно мощности и корреляции понижающего микширования. Матрица D часто, но не обязательно всегда, постоянна по времени и по частоте и поэтому содержит относительно мало информации. В завершение, кодер SAOC фиксирует параметры каждого объекта как частотно-временную функцию с глубиной разрешения, определяемой на основе принципов восприятия (перцептуального кодирования). Декодер пространственных аудиообъектов 104 принимает вводимые в него данные каналов понижающего микширования объектов, информацию о понижающем микшировании и параметры объектов (сгенерированные кодером) и генерирует выходные данные, содержащие M аудиоканалов для представления пользователю. Аудиорендеринг N объектов в M аудиоканалов производится посредством матрицы аудиорендеринга, представляющей собой набор параметров, вводимых пользователем в декодер SAOC.

На фиг.1b показана блок-схема алгоритма кодирования пространственного аудиообъекта с последующим применением декодера MPEG Surround. Декодер SAOC 104, примененный в настоящем изобретении, может быть реализован в виде транскодера SAOC-MPEG Surround 102 в сочетании с декодером MPEG Surround 103 с понижающим микшированием до стереосигнала. Управляемая пользователем матрица аудиорендеринга A размерности M×N определяет заданное соотношение преобразования N объектов в M аудиоканалов. Функции этой матрицы могут зависеть как от настроек, так и от частотных показателей, и это - окончательный результат наиболее дружественного интерфейса для управления аудиообъектами (куда, кроме того, извне может быть введено описание сцены). В случае применения настроек для акустической системы 5.1, количество выходных аудиоканалов будет M=6. Задача декодера SAOC заключается в перцептуальном воссоздании исходных аудиообъектов как конечного результата аудиорендеринга. На входе транскодер SAOC-MPEG Surround 102 получает матрицу аудиорендеринга A, данные понижающего микширования объекта, результаты понижающего микширования, включая весовую матрицу понижающего микширования D, и описание объекта, и генерирует понижающее микширование стереосигнала и информацию MPEG Surround. Если транскодер реализуется в соответствии с настоящим изобретением, следующий за ним декодер MPEG Surround 103, получив на входе эти данные, на выходе дает M-канальный акустический сигнал с требуемыми характеристиками.

Декодер SAOC, вводимый в настоящем изобретении, состоит из транскодера SAOC- MPEG Surround 102 и декодера MPEG Surround 103 с нисходящим микшированием до стереосигнала. Управляемая пользователем матрица аудиорендеринга A размерности M×N определяет заданное соотношение преобразования N объектов в M аудиоканалов. Эта матрица может зависеть как от настроек, так и от частоты, что является показателем более дружественного интерфейса управления аудиообъектами. При применении настроек для акустической системы 5.1 количество выходных аудиоканалов будет M=6. Декодер SAOC предназначен для перцептуального воссоздания исходных аудиообъектов как конечного результата аудиорендеринга. На входе транскодер SAOC-MPEG Surround 102 получает матрицу аудиорендеринга A, данные понижающего микширования объекта - результаты понижающего микширования, включая весовую матрицу понижающего микширования D, и описание объекта и генерирует понижающее микширование стереосигнала и информацию MPEG Surround. Если транскодер реализуется в соответствии с настоящим изобретением, следующий за ним декодер MPEG Surround 103, получив на входе эти данные, на выходе дает M-канальный акустический сигнал с требуемыми характеристиками.

На фиг.2 представлен алгоритм работы кодера пространственного аудиообъекта (SAOC) 101, вводимого настоящим изобретением. N аудиообъектов вводятся в даунмиксер (блок понижающего микширования, сокращающий число аудиоканалов) 201, а также в экстрактор (выделитель) параметров аудиообъекта 202. Даунмиксер 201 смешивает объекты в поток итоговых данных понижающего микширования объекта, состоящий из K>1 аудиоканалов, в соответствии с параметрами кодера, а также выводит информацию о понижающем микшировании. Эта информация включает в себя описание примененной весовой матрицы понижающего микширования D и дополнительно, если последовательно задействуемый экстрактор параметров аудиообъекта работает в режиме прогноза, параметры, описывающие мощность и корреляцию результатов понижающего микширования объекта.

Как будет обсуждаться в одном из следующих параграфов, роль подобных дополнительных параметров заключается в предоставлении доступа к энергетическим и корреляционным показателям подмножеств преобразуемых аудиоканалов в тех случаях, когда параметры объектов выражены только относительно понижающего микширования, и главным примером здесь являются синхросигналы "тыльный/фронтальный" для акустических систем 5.1. Экстрактор параметров аудиообъектов 202 выделяет параметры объекта в соответствии с параметрами кодера. Средства управления кодером по частотно-временным изменениям определяют, какой из двух режимов кодера применен на энергетической или прогностической основе. В режиме дифференциации мощности параметры кодера далее содержат информацию о группировании N аудиообъектов в P стереообъектов и N-2P монообъектов. Каждый режим будет описан далее на фиг.3 и 4.

На фиг.3 представлена схема алгоритма работы экстрактора параметров аудиообъекта 202 в режиме дифференциации мощности. Группирование 301 в P стереообъектов и N-2P монообъектов осуществляется согласно информации о группировании, содержавшейся в параметрах кодера. Для каждого заданного частотно-временного интервала тогда выполняются следующие операции. Два показателя мощности объекта и одна нормализованная корреляция выделяются экстрактором стереопараметров 302 для каждого из Р стереообъектов. Один энергетический показатель выделяется экстрактором параметров 303 для каждого из N-2P монообъектов. Затем полный набор из N параметров мощности и P параметров нормализованной корреляции кодируются в 304 вместе с данными группирования, формируя параметры объекта. Кодирование может включать в себя операцию нормализации с учетом самого высокого показателя мощности объекта или с учетом суммы выделенных мощностей объекта.

На фиг.4 представлена схема алгоритма работы экстрактора параметров аудиообъекта 202 в режиме прогнозирования. Для каждого заданного частотно-временного интервала тогда выполняются следующие операции. Для каждого из N объектов выводится линейная комбинация из K каналов понижающего микширования объектов, которая соответствует данному объекту по методу наименьших квадратов. K весов этой линейной комбинации называются коэффициентами предсказания объекта (ОРС), и они вычисляются экстрактором ОРС 401. Полный набор ОРС в количестве N-K кодируется в 402 с формированием параметров объекта. Кодирование может включать сокращение общего числа ОРС на основании линейных взаимозависимостей. Отличительной особенностью данного изобретения является то, что это общее число может быть сокращено максимально до {К·(N-K), 0}, если весовая матрица понижающего микширования D имеет полный ранг.

На фиг.5 представлена схема устройства транскодера SAOC - MPEG Surround 102 согласно настоящему изобретению. Для каждого частотно-временного интервала информация о понижающем микшировании и параметры объекта объединяются с матрицей аудиорендеринга счетчиком параметров 502 с формированием параметров MPEG Surround типа CLD (разность уровней каналов), СРС (коэффициент прогнозирования канала), и ICC (межканальная согласованность), и матрицы G преобразователя нисходящего микширования размерности 2×K. Преобразователь даунмикса 501 (результатов понижающего микширования) преобразует даунмикс объекта в стереодаунмикс с помощью матричной операции в соответствии с матрицей G. В упрощенном режиме транскодера для K-2 эта матрица работает как единичная матрица, и даунмикс объекта проходит без изменения как стереодаунмикс. На схеме этот режим показан в виде переключателя 503 в положении A, тогда как при нормальном режиме работы переключатель находится в положении B. Дополнительное преимущество транскодера - его пригодность к использованию в качестве автономного устройства там, где игнорируются параметры MPEG Surround, и выходные данные преобразователя даунмикса используются непосредственно как стереоаудиорендеринг.

На фиг.6 схематически представлены различные режимы работы преобразователя 501 данных понижающего микширования согласно настоящему изобретению. Учитывая, что переданный даунмикс в формате битстрима является выходом K-канального аудиокодера, этот битстрим сначала дешифруется аудиодекодером 601 в K аудиосигналов временной области. Затем все эти сигналы преобразуются в частотную область гибридным банком фильтров QMF (квадратурный зеркальный фильтр) MPEG Surround в блоке T/F (время/частота) 602. Работа матрицы варьирования времени и частоты, определяемая данными матрицы преобразователя, осуществляется на результирующих сигналах гибридной области QMF блоком матрицирования 603, который выводит стереосигнал в гибридной области QMF. Гибридный блок синтеза 604 преобразует стереосигнал гибридной области QMF в стереосигнал области QMF. Гибридная область QMF задана для улучшения частотного разрешения в сторону низких частот путем последующей фильтрации поддиапазонов QMF. При выполнении в дальнейшем такой фильтрации с использованием банков фильтров Nyquist, преобразование из гибридной в стандартную область QMF состоит в простом суммировании групп сигналов гибридных поддиапазонов, см. [Е.Schuijers, J.Breebart, and H.Pumhagen "Low complexity parametric stereo coding" Proc 116^th AES convention Berlin. Germany 2004, Preprint 6073]. Этот сигнал является первым возможным выходным форматом преобразователя даунмикса, что соответствует положению A переключателя 607. Подобный сигнал домена QMF может быть подан непосредственно на соответствующий интерфейс области QMF декодера MPEG Surround, и это является наиболее предпочтительным режимом работы с точки зрения задержки, сложности и качества. Другой возможностью является формирование стереосигнала временной области с применением синтеза банка фильтров QMF 605. При положении B переключателя 607 преобразователь выдает цифровой стереосигнал, который также может быть введен в интерфейс временной области последующего декодера MPEG Surround или подан напрямую на воспроизводящее стереоустройство. Третьей возможностью при положении С переключателя 607 является кодирование стереосигнала музыкального домена с помощью стерео аудиокодера 606. В этом случае выходным форматом преобразователя даунмикса будет стерео аудиобитстрим, совместимый с центральным декодером, являющимся компонентом MPEG-декодера. Этот третий режим работы применим в случае, когда транскодер SAOC - MPEG Surround блокирован MPEG-декодером из-за соединения, ограничивающего скорость передачи данных, или когда пользователю необходимо сохранить образ определенного объекта для будущего воспроизведения.

На фиг.7 представлена принципиальная схема декодера MPEG Surround для понижающего микширования стереосигнала. Стереодаунмикс с помощью окна "два-к-трем" (ТТТ) делится на три промежуточных канала. Далее каждый промежуточный канал с помощью трех окон "один-к-двум" (ОТТ) делится на два с образованием шести каналов 5.1-канальной конфигурации.

На фиг.8 дана схема частного случая реализации с использованием кодера SAOC. Аудиомикшер 802 дает на выходе стереосигнал (левый и правый), который обычно создается путем смешения сигналов на входе микшера (здесь - входные каналы 1-6) и произвольных дополнительных входных данных от электронных эффектов типа ревербератора и т.п. Кроме того, микшер имеет один индивидуальный выходной канал (здесь канал 5). Этот канал может использоваться, например, для обычных функций микшера, таких как "прямой выход" или "дополнительная пересылка" для вывода индивидуальных данных без задействования каких-либо промежуточных процессов (таких как динамическая обработка и эквалайзер). Стереосигнал (левый и правый) и индивидуальный выходной канал (obj5) являются вводом в кодер SAOC 801, который представляет собой лишь частный случай кодера SAOC 101 на фиг.1. Однако он служит типичным примером применения, когда аудиообъект obj5 (содержащий, например, речь) должен быть полностью подконтролен пользователю с правом внесения корректировок на входе декодера, оставаясь, однако, частью смешанной стереофонограммы (с правым и левым каналами). Из концепции также очевидно, что к панели "object input" ("вход объекта") в рамке 801 может быть подключено два или более аудиообъектов, и в дополнение к этому, стереофонограмма может быть расширена за счет многоканального соединения, например, 5.1-канального устройства.

Далее представлено краткое математическое описание изобретения. Для дискретных комплексных сигналов x, y комплексное внутреннее произведение и возведенная в квадрат норма (энергия) определяется по:

где y(k) обозначает комплексно сопряженный сигнал y(k). Все рассматриваемые здесь сигналы представляют собой отсчеты поддиапазонов из модулированного банка фильтров или оконного анализа БПФ (быстрое преобразование Фурье) дискретных сигналов времени. Подразумевается, что эти поддиапазоны должны быть преобразованы обратно в дискретную временную область с помощью соответствующих операций банка фильтров синтеза. Блок сигналов из L отсчетов представляет сигнал в частотно-временном интервале, являющемся частью перцептуально мотивированного мозаичного заполнения (тайлинга) частотно-временной плоскости, используемой для описания свойств сигнала. При таком разбиении определенные аудиообъекты могут быть представлены как N рядов длины L в матрице,

Весовая матрица нисходящего микширования D размерности K×N,

где K>1, определяет K-канальный сигнал нисходящего микширования в форме матрицы с грядами матричного умножения

Управляемая пользователем матрица аудиорендеринга объекта A размерности M×N определяет M-канальный аудиорендеринг с заданными показателями аудиообъектов в форме матрицы с M рядами матричного умножения

Если временно не принимать во внимание эффекты основного потока аудиокодирования, задача декодера SAOC состоит в том, чтобы генерировать близкий к желаемому восприятию Y как результат аудиорендеринга первоначальных аудиообъектов на базе матрицы аудиорендеринга A, результатов даунмикса X, матрицы понижающего микширования D и параметров объекта.

Параметры объекта в энергетическом режиме согласно настоящему изобретению несут информацию о ковариации оригинальных объектов. В детерминированной версии, удобной для последовательного получения результатов, а также наглядной для описания типичных операций кодера, ковариация представляется в ненормализованной форме произведением матриц SS*, где звездочка обозначает операцию с комплексной сопряженной транспонированной матрицей. Таким образом, параметры объекта, полученные в энергетическом режиме, обеспечивают положительную полуопределенную матрицу A размерностью N×N таким образом, что, возможно до коэффициента масштабирования,

Известный уровень техники кодирования аудиообъектов часто рассматривает модель объекта, где все объекты не коррелируют. В таком случае матрица Е является диагональной и содержит лишь аппроксимацию к энергиям объекта S_n=||S_n||² для n=1, 2,…,N. Согласно фиг.3 экстрактор параметров объекта вносит существенную корректировку в эту идею, что особенно актуально в случаях, когда объекты представлены стереофоническими сигналами, для которых предположение об отсутствии корреляции не действует. Группирование P отобранных стереопар объектов описывается наборами индексов {(n_p, m_p), p=1, 2,…, P}. Для этих стереопар корреляция <S_n,S_m> вычислена, и комплексная, реальная или абсолютная величина нормализованной корреляции (ICC)

выделена экстрактором стереопараметров 302. После этого в декодере данные ICC могут быть объединены с энергетическими показателями для формирования матрицы E, на 2P отстоящей от диагональных элементов. Например, для общего числа объектов N=3, из которых первые два составляют единую пару (1,2), переданные энергетические и корреляционные данные имеют вид:

S₁, S₂, S₃ и p₁.

В этом случае объединение в матрицу E дает:

Параметры объекта в режиме прогнозирования согласно настоящему изобретению предназначены для формирования матрицы С коэффициента прогнозирования объекта (ОРС) размерностью N×K, доступной для декодера таким образом, что

Другими словами, для каждого объекта существует линейная комбинация каналов нисходящего микширования таким образом, что объект может быть восстановлен приблизительно согласно:

В предпочтительном варианте реализации экстрактор коэффициента прогнозирования объекта (ОРС) 401 решает нормальные уравнения

или, для более привлекательной реальной оценки коэффициента прогнозирования объекта (ОРС), он решает:

В обоих случаях, если принять реально оцененную весовую матрицу нисходящего микширования D и несингулярную ковариацию понижающего микширования, то из умножения слева с D следует, что

где I - единичная матрица размерностью K.

Если D имеет полный ранг, то согласно элементарной линейной алгебре набор решений для (9) может быть параметрирован макс {K·(N-K), 0} параметрами. Этот принцип задействован в 402 при совместном кодировании данных ОРС. Полная матрица прогнозирования C может быть восстановлена в декодере из сокращенного набора параметров и матрицы понижающего микширования.

Для примера рассмотрим случай понижающего микширования с получением стереодаунмикса (K=2), включающего в себя три объекта (N=3>) - музыкальную стереофонограмму (s₁,s₂) и центральный панорамированный одиночный музыкальный инструмент или трек вокала s₃.

Матрица нисходящего микширования имеет вид:

То есть левый канал даунмикса представляет собой х₁=s₁+s₃/√2, и правый канал

-x₂=s₂+s₃/√2.

Коэффициенты прогнозирования объекта (ОРС) для одиночного трека стремятся приблизиться к s₃≈c₃₁x₁+c₃₂x₂, и в этом случае уравнение (11) может быть решено с получением c₁₁=1-c₃₁/√2, c₁₂=-c₃2/√2, c₂₁=-c₃₁/√2 и c₂₂=1-c₃₂/√2.

Отсюда следует, что достаточное количество коэффициентов прогнозирования объекта (ОРС) определяется через K(N-K)=2·(3-2)=2.

ОРС c₃₁, c₃₂ могут быть найдены из нормальных уравнений

Транскодер SAOC - MPEG Surround

Что касается фигуры 7, M=6 выходных каналов конфигурации 5.1 представляют собой

Транскодер должен давать на выходе стереодаунмикс (l₀, r₀) и параметры для конфигураций ТТТ и ОТТ. Поскольку внимание теперь сосредоточено на стереодаунмиксе, в дальнейшем будет принято, что K=2. Поскольку и параметры объекта, и параметры MPS ТТТ существуют и в энергетическом, и в прогностическом режиме, необходимо рассматривать все четыре комбинации.

Энергетический режим эффективен, например, когда аудиокодер понижающего микширования не является волновым кодером в рассматриваемом частотном диапазоне. Подразумевается, что параметры MPEG Surround, речь о которых пойдет ниже, перед их пересылкой должны пройти надлежащее квантование и кодировку. Для дальнейшего разъяснения четырех вышеупомянутых комбинаций следует напомнить, что это:

1. Параметры объекта в энергетическом режиме и транскодер в режиме прогнозирования.

2. Параметры объекта в энергетическом режиме и транскодер в энергетическом режиме.

3. Параметры объекта в режиме прогнозирования (коэффициент прогнозирования объекта ОРС) и транскодер в режим прогнозирования.

4. Параметры объекта в режиме прогнозирования (ОРС) и транскодер в энергетическом режиме.

Если в рассматриваемом интервале частот аудиокодер понижающего микширования представляет собой кодер волнового типа, параметры объекта могут фиксироваться как в энергетическом режиме, так и в режиме прогнозирования, при этом транскодер должен предпочтительно работать в режиме прогнозирования. Если в рассматриваемом интервале частот аудиокодер понижающего микширования не является кодером волнового типа, кодер объекта и транскодер оба должны работать в энергетическом режиме. Четвертая комбинация менее актуальна, вследствие чего дальнейшее описание затронет только первые три комбинации.

Параметры объекта в энергетическом режиме

В энергетическом режиме данные, доступные для транскодера, описываются тройкой матриц (D, E, A). Параметры ОТТ MPEG Surround формируются путем оценки энергетических и корреляционных показателей при виртуальном аудиорендеринге переданных параметров и матрицы аудиорендеринга A размерностью 6×N. Заданная шестиканальная ковариация представляется как

Введение (5) в (13) дает приближение

которое полностью определяется доступными данными. Пусть f_a обозначает элементы F. Тогда параметры CLD и ICC определяются из: