Управляемое модулем рендеринга пространственное повышающее микширование
Иллюстрации
Показать всеИзобретение относится к средствам для пространственного повышающего микширования. Технический результат заключается в повышении эффективности кодирования. Формируют выходной сигнал процессора на основе входного сигнала процессора. Число выходных каналов выходного сигнала процессора выше числа входных каналов входного сигнала процессора. Каждый из одного или более процессоров содержит декоррелятор и микшер. Выходной сигнал базового декодера, имеющий множество каналов, содержит выходной сигнал процессора. Выходной сигнал базового декодера является подходящим для эталонной компоновки громкоговорителей. Преобразовывают выходной сигнал базового декодера в выходной аудиосигнал, который является подходящим для целевой компоновки громкоговорителей. Управляют одним или более процессорами таким образом, что декоррелятор процессора может управляться независимо от микшера процессора. Управляют одним из декорреляторов одного или более процессоров в зависимости от целевой компоновки громкоговорителей. 3 н. и 13 з.п. ф-лы, 13 ил.
Реферат
Изобретение относится к обработке аудиосигналов и, в частности, к преобразованию формата многоканальных аудиосигналов.
Преобразование формата описывает процесс преобразования определенного числа аудиоканалов в другое представление, подходящее для воспроизведения через отличающееся число аудиоканалов.
Стандартный случай использования для преобразования формата представляет собой понижающее микширование аудиоканалов. В противопоставленном документе [1] приводится пример, в котором понижающее микширование обеспечивает возможность конечным пользователям воспроизводить версию исходного 5.1-материала, даже когда полная 5.1-система мониторинга "домашнего кинотеатра" недоступна. Оборудование, сконструированное с возможностью поддерживать материал по стандарту Dolby Digital, но которое предоставляет только моно- или стереовыводы (например, портативные DVD-проигрыватели, абонентские приставки и т.д.), включает средства для понижающего микширования первоначальных 5.1-каналов в один или два выходных канала в качестве стандарта.
С другой стороны, преобразование формата также может описывать процесс повышающего микширования, например, повышающего микширования стереоматериала, с тем чтобы формировать совместимую с 5.1 версию. Кроме того, бинауральный рендеринг может рассматриваться как преобразование формата.
Далее, пояснены импликации преобразования формата для процесса декодирования сжатых аудиосигналов. Здесь, сжатое представление аудиосигнала (mp4-файл) представляет фиксированное число аудиоканалов, предназначенных для воспроизведения посредством фиксированной компоновки громкоговорителей.
Взаимодействие между аудиодекодером и последующим преобразованием формата в требуемый формат воспроизведения может разделяться на три категории:
1. Процесс декодирования является независимым от конечного сценария воспроизведения. Таким образом, извлекается полное аудиопредставление, и после этого применяется обработка преобразования.
2. Процесс декодирования аудио ограничен по характеристикам и выводит только фиксированный формат. Примеры представляют собой монорадиостанции, принимающие FM-стереопрограммы, или моно-HE-AAC-декодер, принимающий поток HE-AAC v2-битов.
3. Процесс декодирования аудио имеет микширования по конечной компоновке для воспроизведения и адаптирует свою обработку соответствующим образом. Пример приведен в работе "Scalable Channel Decoding for Reduced Speaker Configurations", как задано для стандарта объемного звучания MPEG в противопоставленном документе [2]. Здесь, декодер сокращает число выходных каналов.
Недостатки этих способов заключаются в необязательной высокой сложности и потенциальных артефактах посредством последующей обработки декодированного материала (гребенчатой фильтрации для понижающего микширования, демаскирования для повышающего микширования) (1) и ограниченной гибкости относительно конечного формата вывода (2 и 3).
Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованные принципы для обработки аудиосигналов. Цель настоящего изобретения разрешается посредством декодера по п. 1, посредством способа по п. 14 и посредством компьютерной программы по п. 15.
Предусмотрено устройство аудиодекодера для декодирования сжатого входного аудиосигнала, содержащее по меньшей мере один базовый декодер, имеющий один или более процессоров для формирования выходного сигнала процессора на основе входного сигнала процессора, при этом число выходных каналов выходного сигнала процессора выше числа входных каналов входного сигнала процессора, при этом каждый из одного или более процессоров содержит декоррелятор и микшер, при этом выходной сигнал базового декодера, имеющий множество каналов, содержит выходной сигнал процессора, и при этом выходной сигнал базового декодера является подходящим для эталонной компоновки громкоговорителей;
- по меньшей мере один преобразователь форматов, выполненный с возможностью преобразовывать выходной сигнал базового декодера в выходной аудиосигнал, который является подходящим для целевой компоновки громкоговорителей; и
- устройство управления, выполненное с возможностью управлять по меньшей мере одним или более процессорами таким образом, что декоррелятор процессора может управляться независимо от микшера процессора, при этом устройство управления выполнено с возможностью управлять по меньшей мере одним из декорреляторов одного или более процессоров в зависимости от целевой компоновки громкоговорителей.
Цель процессоров состоит в том, чтобы создавать выходной сигнал процессора, имеющий более высокое число некогерентных/некоррелированных каналов, чем число входных каналов входного сигнала процессора. Более конкретно, каждый из процессоров формирует выходной сигнал процессора с множеством некогерентных/некоррелированных выходных каналов, например, с двумя выходными каналами, причем корректные пространственные сигнальные метки из входного сигнала процессора имеют меньшее число входных каналов, например, из входного моносигнала.
Такие процессоры содержат декоррелятор и микшер. Декоррелятор используется для того, чтобы создавать сигнал декоррелятора из канала входного сигнала процессора. Типично декоррелятор (декорреляционный фильтр) состоит из частотно-зависимой предварительной задержки, после которой предусмотрены всечастотные (IIR) секции.
Сигнал декоррелятора и соответствующий канал входного сигнала процессора затем подаются в микшер. Микшер выполнен с возможностью устанавливать выходной сигнал процессора посредством микширования сигнала декоррелятора и соответствующего канала входного сигнала процессора, в котором вспомогательная информация используется для того, чтобы синтезировать корректную когерентность/корреляцию и корректный коэффициент интенсивности выходных каналов выходного сигнала процессора.
Выходные каналы выходного сигнала процессора в таком случае являются некогерентными/некоррелированными, так что выходные каналы процессора должны восприниматься как независимые источники звука, если они подаются в различные громкоговорители в различных позициях.
Преобразователь форматов может преобразовывать выходной сигнал базового декодера таким образом, что он является подходящим для воспроизведения в компоновке громкоговорителей, которая может отличаться от эталонной компоновки громкоговорителей. Эта компоновка называется "целевой компоновкой громкоговорителей".
В случае если выходные каналы одного процессора не требуются для конкретной целевой компоновки громкоговорителей посредством последующего преобразователя форматов в некогерентной/некоррелированной форме, синтез корректной корреляции становится перцепционно нерелевантным. Следовательно, для этих процессоров декоррелятор может опускаться. Тем не менее, в общем, микшер остается полностью функционирующим, когда декоррелятор отключается. Как результат, выходные каналы выходного сигнала процессора формируются, даже если декоррелятор отключается.
Следует отметить, что в этом случае каналы выходного сигнала процессора являются когерентными/коррелированными, но не идентичными. Это означает, что каналы выходного сигнала процессора могут дополнительно обрабатываться независимо друг от друга после процессора, при этом, например, коэффициент интенсивности и/или другая пространственная информация может использоваться посредством преобразователя форматов для того, чтобы задавать уровни каналов выходного аудиосигнала.
Поскольку декорреляционная фильтрация требует значительной вычислительной сложности, полная рабочая нагрузка по декодированию может существенно уменьшаться посредством предложенного устройства декодера.
Хотя декорреляторы, в частности, их всечастотные фильтры спроектированы таким образом, чтобы оказывать минимальное влияние на субъективное качество звука, нельзя во всех случаях исключать, что вводятся слышимые артефакты, например, размывание переходных частей вследствие фазовых искажений или "звона" определенных частотных компонентов. Следовательно, может достигаться повышение качества аудиозвука, поскольку опускаются побочные эффекты процесса обработки декоррелятора.
Следует отметить, что эта обработка должна применяться только для полос частот, в которых применяется декорреляция. Влияние на полосы частот, в которых используется остаточное кодирование, не оказывается.
В предпочтительных вариантах осуществления, устройство управления выполнено с возможностью деактивировать по меньшей мере один или более процессоров, так что входные каналы входного сигнала процессора подаются в выходные каналы выходного сигнала процессора в необработанной форме. Посредством этого признака может уменьшаться число каналов, которые не являются идентичными. Это может быть преимущественным, если целевая компоновка громкоговорителей содержит число громкоговорителей, которое является очень небольшим по сравнению с числом громкоговорителей эталонной компоновки громкоговорителей.
В преимущественных вариантах осуществления, процессор представляет собой инструментальное средство декодирования с одним входом и двумя выходами (OTT), при этом декоррелятор выполнен с возможностью создавать декоррелированный сигнал посредством декорреляции по меньшей мере одного канала входного сигнала процессора, при этом микшер микширует входной аудиосигнал процессора и декоррелированный сигнал на основе сигнала разности канальных уровней (CLD) и/или сигнала межканальной когерентности (ICC), так что выходной сигнал процессора состоит из двух некогерентных выходных каналов. Такие инструментальные средства декодирования с одним входом и выходом обеспечивают возможность простого создания выходного сигнала процессора с парой каналов, которые имеют корректную амплитуду и когерентность относительно друг друга.
В некоторых вариантах осуществления, устройство управления выполнено с возможностью отключать декоррелятор одного из процессоров посредством задания декоррелированного аудиосигнала равным нулю или посредством запрещения микшеру микшировать декоррелированный сигнал в выходной сигнал процессора соответствующего процессора. Оба способа обеспечивают возможность простого отключения декоррелятора.
В предпочтительных вариантах осуществления, базовый декодер представляет собой декодер как для музыки, так и для речи, к примеру, USAC-декодер, при этом входной сигнал процессора по меньшей мере для одного из процессоров содержит элементы канальных пар, к примеру, USAC-элементы канальных пар. В этом случае, можно опускать декодирование элементов канальных пар, если оно не требуется для текущей целевой компоновки громкоговорителей. Таким образом, могут значительно уменьшаться вычислительная сложность и артефакты, возникающие в результате процесса декорреляции, а также процесса понижающего микширования.
В некоторых вариантах осуществления, базовый декодер представляет собой параметрический кодер объектов, к примеру, SAOC-декодер. Таким образом, могут дополнительно уменьшаться вычислительная сложность и артефакты, возникающие в результате процесса декорреляции, а также процесса понижающего микширования.
В некоторых вариантах осуществления, число громкоговорителей эталонной компоновки громкоговорителей выше числа громкоговорителей целевой компоновки громкоговорителей. В этом случае, преобразователь форматов может понижать с микшированием выходной сигнал базового декодера в аудио в выходной аудиосигнал, при этом число выходных каналов меньше числа выходных каналов выходного сигнала базового декодера.
Здесь, понижающее микширование описывает случай, когда более высокое число громкоговорителей присутствует в эталонной компоновке громкоговорителей, чем используется в целевой компоновке громкоговорителей. В таких случаях, выходные каналы одного или более процессоров зачастую не требуются в форме некогерентных сигналов. Если декорреляторы таких процессоров отключаются, могут значительно уменьшаться вычислительная сложность и артефакты, возникающие в результате процесса декорреляции, а также процесса понижающего микширования.
В некоторых вариантах осуществления, устройство управления выполнено с возможностью отключать декорреляторы по меньшей мере для одного первого из упомянутых выходных каналов выходного сигнала процессора и одного второго из упомянутых выходных каналов выходного сигнала процессора, если первый из упомянутых выходных каналов и второй из упомянутых выходных каналов, в зависимости от целевой компоновки громкоговорителей, микшируются в общий канал выходного аудиосигнала, при условии, что первый коэффициент масштабирования для микширования первого из упомянутых выходных каналов выходного сигнала процессора в общий канал превышает первое пороговое значение, и/или второй коэффициент масштабирования для микширования второго из упомянутых выходных каналов выходного сигнала процессора в общий канал превышает второе пороговое значение.
В случае если первый из упомянутых выходных каналов и второй из упомянутых выходных каналов микшируются в общий канал выходного аудиосигнала, декорреляция в базовом декодере может опускаться для первого и второго выходного канала. Таким образом, могут значительно уменьшаться вычислительная сложность и артефакты, возникающие в результате процесса декорреляции, а также процесса понижающего микширования. Таким образом, может исключаться необязательная декорреляция.
В усовершенствованном варианте осуществления первого коэффициента масштабирования для микширования первого из упомянутых выходных каналов, выходной сигнал процессора может предсказываться. Аналогичным образом, может использоваться второй коэффициент масштабирования для микширования второго из упомянутых выходных каналов выходного сигнала процессора. В данном документе, коэффициент масштабирования является числовым значением, обычно между нулем и единицей, которое описывает отношение между интенсивностью сигнала в исходном канале (выходном канале выходного сигнала процессора) и интенсивностью сигнала результирующего сигнала в микшированном канале (общем канале выходного аудиосигнала). Коэффициенты масштабирования могут содержаться в матрице понижающего микширования. Посредством использования первого порогового значения для первого коэффициента масштабирования и/или посредством использования второго порогового значения для второго коэффициента масштабирования можно обеспечивать то, что декорреляция отключается только для первого выходного канала и второго выходного канала, если по меньшей мере определенная часть первого выходного канала и/или по меньшей мере определенная часть второго выходного канала микшируется в общий канал. В качестве примера, пороговое значение может задаваться равным нулю.
В предпочтительных вариантах осуществления, устройство управления выполнено с возможностью принимать из преобразователя форматов набор правил, согласно которому преобразователь форматов микширует каналы выходного сигнала процессора в каналы выходного аудиосигнала в зависимости от целевой компоновки громкоговорителей, при этом устройство управления выполнено с возможностью управлять процессорами в зависимости от принимаемого набора правил. В данном документе, управление процессорами может включать в себя управление декорреляторами и/или микшерами. Посредством этого признака можно обеспечивать то, что устройство управления управляет процессорами точно.
Посредством набора правил, информация в отношении того, комбинированы или нет выходные каналы процессора посредством этапа последующего преобразования формата, может предоставляться в устройство управления. Правила, принятые посредством устройства управления, типично имеют форму матрицы понижающего микширования, задающей коэффициенты масштабирования для каждого выходного канала декодера в каждый выходной аудиоканал, используемый посредством преобразователя форматов. На следующем этапе, правила управления для управления декорреляторами могут вычисляться посредством устройства управления из правил понижающего микширования. Эти правила управления могут содержаться в так называемой матрице микширования, которая может формироваться посредством устройства управления в зависимости от целевой компоновки громкоговорителей. Эти правила управления после этого могут использоваться для того, чтобы управлять декорреляторами и/или микшерами. Как результат, устройство управления может быть адаптировано к различным целевым компоновкам громкоговорителей без вмешательства вручную.
В предпочтительных вариантах осуществления, устройство управления выполнено с возможностью управлять декорреляторами базового декодера таким образом, что число некогерентных каналов выходного сигнала базового декодера равно числу громкоговорителей целевой компоновки громкоговорителей. В этом случае, могут значительно уменьшаться вычислительная сложность и артефакты, возникающие в результате процесса декорреляции, а также процесса понижающего микширования.
В вариантах осуществления, преобразователь форматов содержит понижающий микшер для понижающего микширования выходного сигнала базового декодера. Понижающий микшер выполнен с возможностью непосредственно формировать выходной аудиосигнал. Тем не менее, в некоторых вариантах осуществления понижающий микшер может соединяться с другим элементом преобразователя форматов, который затем формирует выходной аудиосигнал.
В некоторых вариантах осуществления, преобразователь форматов содержит модуль бинаурального рендеринга. Модули бинаурального рендеринга, в общем, используются для того, чтобы преобразовывать многоканальный сигнал в стереосигнал, выполненный с возможностью использования со стереонаушниками. Модуль бинаурального рендеринга формирует бинауральное понижающее микширование сигнала, подаваемого в него, так что каждый канал этого сигнала представлен посредством виртуального источника звука. Обработка может осуществляться покадрово в области квадратурных зеркальных фильтров (QMF). Бинаурализация основана на измеренных бинауральных импульсных характеристиках в помещении и приводит к чрезвычайно высокой вычислительной сложности, которая коррелируется с числом некогерентных/некоррелированных каналов сигнала, подаваемого в модуль бинаурального рендеринга.
В предпочтительных вариантах осуществления, выходной сигнал базового декодера подается в модуль бинаурального рендеринга в качестве входного сигнала модуля бинаурального рендеринга. В этом случае, устройство управления обычно выполнено с возможностью управлять процессорами базового декодера таким образом, что число каналов выходного сигнала базового декодера больше в качестве числа громкоговорителей наушников. Это может требоваться, поскольку, например, модуль бинаурального рендеринга может использовать пространственную звуковую информацию, содержащуюся в каналах для регулирования частотных характеристик стереосигнала, подаваемого в наушники, чтобы формировать трехмерное аудиовпечатление.
В некоторых вариантах осуществления, выходной сигнал понижающего микшера для понижающего микшера подается в модуль бинаурального рендеринга в качестве входного сигнала модуля бинаурального рендеринга. В случае если выходной аудиосигнал понижающего микшера подается в модуль бинаурального рендеринга, число каналов его входного сигнала значительно меньше, чем в случаях, в которых выходной сигнал базового декодера подается в модуль бинаурального рендеринга, так что уменьшается вычислительная сложность.
Кроме того, предусмотрен способ для декодирования сжатого входного аудиосигнала, при этом способ содержит этапы: предоставления по меньшей мере одного базового декодера, имеющего один или более процессоров для формирования выходного сигнала процессора на основе входного сигнала процессора, при этом число выходных каналов выходного сигнала процессора выше числа входных каналов входного сигнала процессора, при этом каждый из одного или более процессоров содержит декоррелятор и микшер, при этом выходной сигнал базового декодера, имеющий множество каналов, содержит выходной сигнал процессора, и при этом выходной сигнал базового декодера является подходящим для эталонной компоновки громкоговорителей; предоставления по меньшей мере одного преобразователя форматов, выполненного с возможностью преобразовывать выходной сигнал базового декодера в выходной аудиосигнал, который является подходящим для целевой компоновки громкоговорителей; и предоставления устройства управления, выполненного с возможностью управлять по меньшей мере одним или более процессорами таким образом, что декоррелятор процессора может управляться независимо от микшера процессора, при этом устройство управления выполнено с возможностью управлять по меньшей мере одним из декорреляторов одного или более процессоров в зависимости от целевой компоновки громкоговорителей.
Кроме того, предусмотрена компьютерная программа для реализации вышеуказанного способа при выполнении на компьютере или в процессоре сигналов.
Далее подробнее описываются варианты осуществления настоящего изобретения в отношении чертежей, на которых:
Фиг. 1 показывает блок-схему предпочтительного варианта осуществления декодера согласно изобретению,
Фиг. 2 показывает блок-схему второго варианта осуществления декодера согласно изобретению,
Фиг. 3 показывает модель концептуального процессора, в которой декоррелятор включается,
Фиг. 4 показывает модель концептуального процессора, в которой декоррелятор отключается,
Фиг. 5 иллюстрирует взаимодействие между преобразованием формата и декодированием,
Фиг. 6 показывает подробную блок-схему варианта осуществления декодера согласно изобретению, в котором формируется 5.1-канальный сигнал,
Фиг. 7 показывает подробную блок-схему варианта осуществления по фиг. 6 декодера согласно изобретению, в котором 5.1-канал микширован с понижением в 2.0-канальный сигнал,
Фиг. 8 показывает подробную блок-схему варианта осуществления по фиг. 6 декодера согласно изобретению, в котором 5.1-канальный сигнал микширован с понижением в 4.0-канальный сигнал,
Фиг. 9 показывает подробную блок-схему варианта осуществления декодера согласно изобретению, в котором формируется 9.1-канальный сигнал,
Фиг. 10 показывает подробную блок-схему варианта осуществления по фиг. 9 декодера согласно изобретению, в котором 9.1-канальный сигнал микширован с понижением в 4.0-канальный сигнал,
Фиг. 11 показывает принципиальную блок-схему концептуального общего представления трехмерного аудиокодера,
Фиг. 12 показывает принципиальную блок-схему концептуального общего представления трехмерного аудиодекодера, и
Фиг. 13 показывает принципиальную блок-схему концептуального общего представления преобразователя форматов.
Перед описанием вариантов осуществления настоящего изобретения, предоставляется дополнительная исходная информация относительно систем кодера и декодера предшествующего уровня техники.
Фиг. 11 показывает принципиальную блок-схему концептуального общего представления трехмерного аудиокодера 1, тогда как фиг. 12 показывает принципиальную блок-схему концептуального общего представления трехмерного аудиодекодера 2.
Система 1, 2 трехмерных аудиокодеков может быть основана на кодере 3 на основе стандартизированного кодирования речи и аудио (USAC) по стандарту MPEG-D для кодирования сигналов 4 каналов и сигналов 5 объектов, а также на основе декодера 6 на основе стандартизированного кодирования речи и аудио (USAC) по стандарту MPEG-D для декодирования выходного аудиосигнала 7 кодера 3. Чтобы повышать эффективность для кодирования большого количества объектов 5, адаптирована технология пространственного кодирования аудиообъектов (SAOC). Три типа модулей 8, 9, 10 рендеринга выполняют задачи рендеринга объектов 11, 12 в каналы 13, рендеринга каналов 13 в наушники или рендеринга каналов в различную компоновку громкоговорителей.
Когда сигналы объектов явно передаются или параметрически кодируются с использованием SAOC, соответствующая информация метаданных 14 объектов (OAM) сжимается и мультиплексируется в трехмерный поток 7 аудиобитов.
Модуль 15 предварительного рендеринга/микшер может быть необязательно использован для того, чтобы преобразовывать сцену 4, 5 ввода каналов и объектов в сцену 4, 16 каналов перед кодированием. Функционально он является идентичным модулю 15 рендеринга объектов/микшеру, описанному ниже.
Предварительный рендеринг объектов 5 обеспечивает детерминированную энтропию сигналов на входе кодера 3, который является по существу независимым от числа одновременно активных сигналов 5 объектов. При предварительном рендеринге объектов 5, не требуется передача метаданных 14 объектов.
Сигналы 5 дискретных объектов подготовлены посредством рендеринга в схему размещения каналов, которую кодер 3 выполнен с возможностью использовать. Весовые коэффициенты объектов 5 для каждого канала 16 получаются из ассоциированных метаданных 14 объектов.
Базовый кодек для сигналов 4 каналов громкоговорителя, сигналов 5 дискретных объектов, сигналов 14 понижающего микширования объектов и предварительно подготовленных посредством рендеринга сигналов 16 может быть основан на MPEG-D USAC-технологии. Он обрабатывает кодирование множества сигналов 4, 5, 14 посредством создания информации преобразования каналов и объектов на основе геометрической и семантической информации назначения входных каналов и объектов. Эта информация преобразования описывает то, как входные каналы 4 и объекты 5 преобразуются в USAC-канальные элементы, а именно, в элементы канальных пар (CPE), одноканальные элементы (SCE), улучшения низких частот (LFE), и соответствующая информация передается в декодер 6.
Все дополнительные рабочие данные, такие как SAOC-данные 17 или метаданные 14 объектов, могут проходить через дополнительные элементы и могут рассматриваться при управлении скоростью кодера 3.
Кодирование объектов 5 является возможным различными способами, в зависимости от требований по искажению в зависимости от скорости передачи и требований по интерактивности для модуля рендеринга. Следующие варианты кодирования объектов являются возможными:
- Предварительно подготовленные посредством рендеринга объекты 16: Сигналы 5 объектов предварительно подготавливаются посредством рендеринга и микшируются в сигналы 4 каналов, например, в 22.2-канальные сигналы 4, перед кодированием. Последующая цепочка кодирования видит 22.2-канальные сигналы 4.
- Формы сигналов дискретных объектов: Объекты 5 предоставляются в качестве монофонических форм сигнала в кодер 3. Кодер 3 использует одноканальные элементы (SCE), чтобы передавать объекты 5 в дополнение к сигналам 4 каналов. Декодированные объекты 18 подготавливаются посредством рендеринга и микшируются на стороне приемного устройства. Информация 19, 20 сжатых метаданных объектов передается в приемное устройство/модуль 21 рендеринга совместно.
- Формы 17 сигналов параметрических объектов: Свойства объектов и их взаимосвязь между собой описываются посредством SAOC-параметров 22, 23. Понижающее микширование сигналов 17 объектов кодируется с помощью USAC. Параметрическая информация 22 передается совместно. Число каналов 17 понижающего микширования выбирается в зависимости от числа объектов 5 и полной скорости передачи данных. Информация 23 сжатых метаданных объектов передается в модуль 24 SAOC-рендеринга.
SAOC-кодер 25 и декодер 24 для сигналов 5 объектов основаны на MPEG SAOC-технологии. Система допускает повторное создание, модификацию и рендеринг определенного числа аудиообъектов 5 на основе меньшего числа передаваемых каналов 7 и дополнительных параметрических данных 22, 23, таких как разности уровней объектов (OLD), межобъектные корреляции (IOC) и значения усиления при понижающем микшировании (DMG). Дополнительные параметрические данные 22, 23 демонстрируют значительно более низкую скорость передачи данных, чем требуется для передачи всех объектов по отдельности, что делает кодирование очень эффективным.
SAOC-кодер 25 принимает в качестве ввода сигналы 5 объектов/каналов в качестве монофонических форм сигнала и выводит параметрическую информацию 22 (которая пакетирована в трехмерный поток 7 аудиобитов) и транспортные SAOC-каналы 17 (которые кодируются с использованием одноканальных элементов и передаются). SAOC-декодер 24 восстанавливает сигналы 5 объектов/каналов из декодированных транспортных SAOC-каналов 26 и параметрической информации 23 и формирует выходную аудиосцену 27 на основе схемы размещения для воспроизведения, информации 20 распакованных метаданных объектов и необязательно на основе информации пользовательского взаимодействия.
Для каждого объекта 5, ассоциированные метаданные 14 объектов, которые указывают геометрическую позицию и объем объекта в трехмерном пространстве, эффективно кодируются посредством кодера 28 метаданных объектов посредством квантования свойств объектов во времени и пространстве. Сжатые метаданные 19 объектов (cOAM) передаются в приемное устройство в качестве вспомогательной информации 20, которая может декодироваться посредством OAM-декодера 29.
Модуль 21 рендеринга объектов использует сжатые метаданные 20 объектов для того, чтобы формировать формы 12 сигналов объектов согласно данному формату воспроизведения. Каждый объект 5 подготавливается посредством рендеринга в определенные выходные каналы 12 согласно своим метаданным 19, 20. Вывод этого блока 21 получается в результате суммы частичных результатов. Если декодируются как канальный контент 11, 30, так и дискретные/параметрические объекты 12, 27, канальные формы 11, 30 сигналов и формы 12, 27 сигналов подготовленных посредством рендеринга объектов микшируются перед выводом результирующих форм 13 сигналов (или перед их подачей в модуль 9, 10 постпроцессора, такой как модуль 9 бинаурального рендеринга или модуль 10 рендеринга громкоговорителей) посредством микшера 8.
Модуль 9 бинаурального рендеринга формирует бинауральное понижающее микширование многоканального аудиоматериала 13 таким образом, что каждый входной канал 13 представлен посредством виртуального источника звука. Обработка осуществляется покадрово в области квадратурных зеркальных фильтров (QMF). Бинаурализация основана на измеренных бинауральных импульсных характеристиках в помещении.
Модуль 10 рендеринга громкоговорителей, подробнее показанный на фиг. 13, преобразует между конфигурацией 13 передаваемых каналов и требуемым форматом 31 воспроизведения. В силу этого далее он называется "преобразователем 10 форматов". Преобразователь 10 форматов выполняет преобразования в меньшие числа выходных каналов 31, т.е. он создает понижающие микширования посредством понижающего микшера 32. DMX-конфигуратор 33 автоматически формирует оптимизированные матрицы понижающего микширования для данной комбинации входных форматов 13 и выходных форматов 31 и применяет эти матрицы в процессе 32 понижающего микширования, при этом используются схема 34 размещения выходов микшера и схема 35 размещения для воспроизведения. Преобразователь 10 форматов обеспечивает возможность стандартных конфигураций громкоговорителей, а также случайных конфигураций с нестандартными позициями громкоговорителей.
Фиг. 1 показывает блок-схему предпочтительного варианта осуществления декодера 2 согласно изобретению.
Устройство 2 аудиодекодера для декодирования сжатого входного аудиосигнала 38, 38' содержит по меньшей мере один базовый декодер 6, имеющий один или более процессоров 36, 36' для формирования выходного сигнала 37, 37' процессора на основе входного сигнала 38, 38' процессора, при этом число выходных каналов 37.1, 37.2, 37.1', 37.2' выходного сигнала 37, 37' процессора выше числа входных каналов 38.1, 38.1' входного сигнала 38, 38' процессора, при этом каждый из одного или более процессоров 36, 36' содержит декоррелятор 39, 39' и микшер 40, 40', при этом выходной сигнал 13 базового декодера, имеющий множество каналов 13.1, 13.2, 13.3, 13.4, содержит выходной сигнал 37, 37' процессора, и при этом выходной сигнал 13 базового декодера является подходящим для эталонной компоновки 42 громкоговорителей.
Дополнительно, устройство 2 аудиодекодера содержит по меньшей мере одно средство 9, 10 преобразования форматов, выполненное с возможностью преобразовывать выходной сигнал 13 базового декодера в выходной аудиосигнал 31, который является подходящим для целевой компоновки 45 громкоговорителей.
Кроме того, устройство 2 аудиодекодера содержит устройство 46 управления, выполненное с возможностью управлять по меньшей мере одним или более процессорами 36, 36' таким образом, что декоррелятор 39, 39' процессора 36, 36' может управляться независимо от микшера 40, 40' процессора 36, 36', при этом устройство 46 управления выполнено с возможностью управлять по меньшей мере одним из декорреляторов 39, 39' одного или более процессоров 36, 36' в зависимости от целевой компоновки громкоговорителей.
Цель процессоров 36, 36' состоит в том, чтобы создавать выходной сигнал 37, 37' процессора, имеющий более высокое число некогерентных/некоррелированных каналов 37.1, 37.2, 37.1', 37.2, чем число входных каналов 38.1, 38.1' входного сигнала 38 процессора. Более конкретно, каждый из процессоров 36, 36' может формировать выходной сигнал 37 процессора с множеством некогерентных/некоррелированных выходных каналов 37.1, 37.2, 37.1', 37.2' причем корректные пространственные сигнальные метки из входного сигнала 38, 38' процессора имеют меньшее число входных каналов 38.1, 38.1'.
В варианте осуществления, показанном на фиг. 1, первый процессор 36 имеет два выходных канала 37.1, 37.2, которые формируются из входного моносигнала 38, и второй процессор 36' имеет два выходных канала 37.1', 37.2', которые формируются из входного моносигнала 38'.
Средство 9, 10 преобразования форматов может преобразовывать выходной сигнал 13 базового декодера таким образом, что он является подходящим для воспроизведения в компоновке 45 громкоговорителей, которая может отличаться от эталонной компоновки 42 громкоговорителей. Эта компоновка называется "целевой компоновкой 45 громкоговорителей".
В варианте осуществления по фиг. 1, эталонная компоновка 42 громкоговорителей содержит левый передний громкоговоритель (L), правый передний громкоговоритель (R), левый громкоговоритель (LS) объемного звучания и правый громкоговоритель (RS) объемного звучания. Дополнительно, целевая компоновка громкоговорителей 42 содержит левый передний громкоговоритель (L), правый передний громкоговоритель (R) и центральный громкоговоритель (CS) объемного звучания.
В случае если выходные каналы 37.1, 37.2, 37.1', 37.2' одного процессора 36, 36' не требуются для конкретной целевой компоновки 45 громкоговорителей посредством последующего средства 9, 10 преобразования форматов в некогерентной/некоррелированной форме, синтез корректной корреляции становится перцепционно нерелевантным. Следовательно, для этих процессоров 36, 36' декоррелятор 39, 39' может опускаться. Тем не менее, в общем, микшер 40, 40' остается полностью функционирующим, когда декоррелятор отключается. Как результат, выходные каналы 37.1, 37.2, 37.1', 37.2' выходного сигнала процессора формируются, даже если декоррелятор 39, 39' отключается.
Следует отметить, что в этом случае каналы 37.1, 37.2, 37.1', 37.2' выходного сигнала 37, 37' процессора являются когерентными/коррелированными, но не идентичными. Это означает, что каналы 37.1, 37.2, 37.1', 37.2' выходного сигнала 37, 37' процессора могут дополнительно обрабатываться независимо друг от друга после процессора 36, 36', при этом, например, коэффициент интенсивности и/или другая пространственная информация может использоваться посредством средства 9, 10 преобразования форматов для того, чтобы задавать уровни каналов 31.1, 31.2, 31.3 выходного аудиосигнала 31.
Поскольку декорреляционная фильтрация требует значительной вычислительной сложности, полная рабочая нагрузка по декодированию может существенно уменьшаться по