Декодер аудиосигнала, кодер аудиосигнала, способ формирования представления сигнала повышающего микширования, способ формирования представления сигнала понижающего микширования, компьютерная программа и бистрим, использующий значение общего параметра межобъектной корреляции

Иллюстрации

Показать все

Изобретение относится к средствам, генерирующим представление сигнала повышающего микширования на основе представления сигнала понижающего микширования с использованием объектно-ориентированной параметрической информации и с учетом данных аудиорендеринга. Технический результат заключается в улучшении качества акустического образа. Аудиокодер включает в себя определитель параметров объектов, генерирующий значения межобъектной корреляции множества пар аудиообъектов, определяющий по сигнальному параметру битстрима выбор между вычислением индивидуальных значений параметров межобъектной корреляции в битстриме для выведения значений межобъектной корреляции множества пар взаимосвязанных аудиообъектов и выведением значений межобъектной корреляции множества пар взаимосвязанных аудиообъектов из значения общего для битстрима параметра межобъектной корреляции. Аудиодекодер, также включающий в себя процессор сигналов, генерирующий представление сигнала повышающего микширования на основе представления сигнала понижающего микширования. 9 н. и 11 з.п. ф-лы, 11 ил.

Реферат

Область техники

Реализация настоящего изобретения относится к декодеру аудиосигнала, формирующему представление микшированного с повышением сигнала (апмикс-сигнала) на базе представления микшированного с понижением сигнала (даунмикс-сигнала) и объектно-ориентированной параметрической информации и исходя из данных рендеринга.

Другие технические решения по данному изобретению относятся к кодеру аудиосигнала, формирующему представление потока двоичных данных (битстрима) на основе множества сигналов аудиообъектов. Ряд вариантов осуществления заявляемого изобретения относятся к способу формирования представления сигнала повышающего микширования на базе представления сигнала понижающего микширования и объектно-ориентированной параметрической информации и исходя из информации рендеринга.

Другие варианты осуществления изобретения относятся к способу формирования представления битстрима на основе множества сигналов аудиообъектов.

Версии реализации данного изобретения относятся к компьютерной программе, направленной на осуществление названных способов.

Ряд реализаций настоящего изобретения относится к потоку битов (битстриму), представляющему многоканальный аудиосигнал.

Область применения

Технология обработки, передачи и хранения звука все больше стремится к такому преобразованию многоканального аудиоконтента, которое совершенствует качество акустического образа. Использование многоканального аудиоконтента способствует значительному улучшению восприятия слушателем. Можно получить, например, трехмерный акустический эффект, при котором возрастает степень удовлетворенности развлекательным приложением. Более того, многоканальный аудиоконтент применяют также в профессиональных средах, в частности, в телеконференцсвязи, где разборчивость речи говорящего может быть скорректирована путем многоканального воспроизведения звука.

При этом необходимо выбрать оптимальное соотношение качества звука и скорости обмена данными (битрейта) во избежание чрезмерной нагрузки на ресурс за счет многоканальных приложений.

Недавно были предложены эффективные с точки зрения битрейта параметрические технологии передачи и/или сохранения аудиосцен, содержащих множество аудиообъектов, в частности, кодирование бинаурального сигнала (тип 1) (см, например, [ВСС]), кодирование совокупного источника (см, например, [JSC]) и пространственное кодирование аудиообъекта в формате MPEG (SAOC) (см, например, [SAOC1], [SAOC2] и еще не опубликованное [SAOC]).

Эти технологии нацелены более на перцептуальное воссоздание на выходе желаемой звуковой сцены, нежели на волновое согласование.

На фиг.8 дан обзор такой системы (здесь: SAOC стандарта MPEG). На фиг.9а также показана общая схема подобной системы (здесь: SAOC MPEG).

Система MPEG SAOC 800 на фиг.8 состоит из кодера SAOC 810 и декодера SAOC 820. Кодер SAOC 810 принимает множество сигналов объектов x1 - xN, которые могут представлять собой, скажем, сигналы временной области или сигналы частотно-временной области (допустим, в виде набора коэффициентов одного из преобразований Фурье или в виде подполосовых сигналов КЗФ [квадратурно-зеркального фильтра]). Помимо этого, кодер SAOC 810 часто принимает коэффициенты понижающего микширования [дауимикс-коэффициенты] d1 - dN, соотнесенные с сигналами объектов x1 - xN. Отдельные комбинации даунмикс-коэффициентов можно применять для каждого канала микшированного с понижением сигнала [даунмикс-канала]. С помощью кодера SAOC 810 обычно формируют канал микшированного с понижением сигнала, комбинируя сигналы объектов x1 - xN в соответствии с присвоенными коэффициентами понижающего микширования d1 - dN. Типично, даунмикс-каналов меньше, чем сигналов объектов x1 - xN. Предусматривая (хотя бы, приблизительное) разделение (или раздельное преобразование) сигналов объектов на стороне декодера SAOC 820, кодер SAOC 810 генерирует один или более даунмикс-сигналов 812 и сопроводительную служебную информацию 814. Служебная информация 814 отражает характеристики сигналов объектов x1 - xN, что обеспечивает объектно-ориентированную обработку на стороне декодера.

Декодер SAOC 820 предусматривает прием одного или более даунмикс-сигналов 812 и сопроводительной служебной информации 814. Кроме того, декодер SAOC 820, как правило, рассчитан на получение от пользователя интерактивной информации и/или управляющей информации 822, в которой описывается желаемый режим воспроизведения [рендеринг]. Например, интерактивная/управляющая информация пользователя 822 может описывать настройку громкоговорителя и желаемое пространственное размещение объектов, отображаемых сигналами объектов x1 - xN. Декодер SAOC 820 предусматривает, например, генерирование множества декодированных сигналов канала повышающего микширования [апмикс-канала] y ^ 1 − y ^ M . Сигналы апмикс-канала могут, к примеру, быть привязаны к индивидуальным динамикам многоколоночной системы воспроизведения звука. Декодер SAOC 820 может, в частности, включать в себя разделитель объектов 820а, выполняющий, по крайней мере, приближенную, реконструкцию сигналов объектов X1 - XN на основе одного или более микшированных с понижением сигналов 812 и служебной информации 814, обеспечивая в результате воссоздание сигналов объектов 820b. Однако, реконструированные сигналы объектов 820b могут иметь некоторые девиации относительно оригинальных сигналов объектов x1 - xN потому, например, что сопроводительная служебная информация 814 не всегда достаточна для адекватного воссоздания исходного материала в силу ограничений по скорости передачи данных. Кроме того, декодер SAOC 820 может иметь в своем составе смеситель [микшер] 820с, способный принимать реконструированные сигналы объектов 820b и информацию обратной связи с пользователем/управляющую информацию пользователя 822 и на их базе генерировать сигналы канала повышающего микширования y ^ 1 − y ^ M . Смеситель 820 может предусматривать использование интерактивной/управляющей информации пользователя 822 для определения соотношения составляющих индивидуальных реконструированных сигналов объекта 820b в сигналах канала повышающего микширования y ^ 1 − y ^ M Пользовательская интерактивная/управляющая информация 822 может, в частности, включать в себя параметры воспроизведения (называемые также коэффициентами рендеринга), которые определяют соотношение составляющих отдельных сигналов реконструируемых объектов 822 в сигналах каналов повышающего микширования y ^ 1 − y ^ M .

Здесь следует обратить внимание на то, что при реализации часто разделение объектов, обозначенное на фиг.8 как разделитель объектов 820а, и микширование, обозначенное на фиг.8 как смеситель [микшер] 820с, осуществляются как одна операция. Для этого рассчитывают сводные параметры, описывающие прямое соотнесение одного или более микшированных с понижением сигналов 812 с сигналами каналов повышающего микширования y ^ 1 − y ^ M . Эти параметры могут быть рассчитаны, исходя из служебной информации и пользовательской информации обратной связи/управления 820.

Теперь, со ссылкой на фигуры 9а, 9b и 9с рассмотрим другой вариант реализации устройства, формирующего представления сигнала, микшированного с повышением, на базе представления сигнала, микшированного с понижением, и объектно-ориентированной служебной информации. На фиг.9а дана принципиальная блочная схема системы MPEG SAOC 900, включающей в себя декодер SAOC 920. Декодер SAOC 920 в качестве самостоятельных функциональных блоков содержит декодер объекта 922 и смеситель/рендерер [микшер/рендерер] 926. Декодер объекта 922 генерирует множество реконструированных сигналов объектов 924 на основании представления сигнала понижающего микширования (допустим, в форме одного или более даунмикс-сигналов, представленных во временной области или во время-частотной области) и объектно-ориентированной служебной информации (допустим, в форме метаданных объекта). Смеситель/рендерер 924 получает восстановленные сигналы объектов 924, относящиеся к множеству N объектов, и на их основе формирует один или более сигналов апмикс-канала 928. В декодере SAOC 920 извлечение сигналов объектов 924 выполняется отдельно от микширования/рендеринга, что позволяет разделять функции декодирования объекта и микширования/рендеринга, однако ведет к относительно высокой вычислительной трудоемкости.

Далее, обратившись к фиг.9b, кратко обсудим еще одно конструктивное решение системы MPEG SAOC 930, куда введен декодер SAOC 950. Декодер SAOC 950 генерирует множество восстановленных сигналов объектов 958, опираясь на полученное им представление даунмикс-сигнала (допустим, в виде одного или более сигналов понижающего микширования) и на объектно-ориентированную служебную информацию (допустим, в виде метаданных объекта). Декодер SAOC 950 представляет собой интегрированный декодер и смеситель/рендерер объекта, выполненный с возможностью генерирования сигналов апмикс-каналов 958 в ходе комбинированного процесса микширования без разделения декодирования и микширования/рендеринга объектов, параметры которого строятся на объектно-ориентированный служебной информации и данных рендеринга. Комбинированный процесс повышающего микширования зависит также от информации понижающего микширования, которая рассматривается как часть объектно-ориентированной служебной информации.

Делая вывод из сказанного, сигналы каналов повышающего микширования 928, 958 могут быть сгенерированы в ходе одноэтапной или двухэтапной операции.

Теперь, обращаясь к фиг.9с, охарактеризуем систему MPEG SAOC 960. Система [пространственного кодирования оудиообъекта] SAOC 960 предпочтительно включает в себя транскодер SAOC в MPEG Surround 980 вместо декодера SAOC.

Преобразователь кода [транскодер] SAOC в MPEG Surround состоит из перекодировщика [транскодера] служебной информации 982, который предназначен для приема объектно-ориентированной служебной информации (предположительно, в форме метаданных объекта) и, факультативно, информации об одном или более даунмикс-сигналов и параметров рендеринга. Перекодировщик служебной информации предназначен также для выработки на базе полученных данных служебной информации формата MPEG Surround (например, в форме битстрима MPEG Surround). Соответственно, транскодер служебной информации 982 выполняет функцию преобразования объектно-ориентированной (параметрической) служебной информации, поступающей от кодера объектов, в служебную (параметрическую) информацию, описывающую каналы с учетом параметров рендеринга и, произвольно, информации о контенте одного или более микшированных с понижением сигналов.

В качестве опции транскодер SAOC в MPEG Surround 980 может выполнять функцию манипулирования одним или более даунмикс-сигналами, описанными, например, посредством представления даунмикс-сигнала с получением видоизмененного [манипуляцией] представления сигнала понижающего микширования 988. Тем не менее, манипулятор даунмикс-сигналом 986 можно не включать в компоновку, в результате чего представление сигнала понижающего микширования 988 на выходе транскодера SAOC в MPEG Surround 980 будет идентичным представлению сигнала понижающего микширования на входе транскодера SAOC в MPEG Surround. Манипулятор даунмикс-сигналом 986 может найти применение, например, когда служебная информация MPEG Surround 984 с привязкой к каналам не позволяет создать желаемое слуховое впечатление на базе представления сигнала понижающего микширования на входе транскодера SAOC в MPEG Surround 980, что может иметь место при некоторых констелляциях [совокупностях факторов] акустического рендеринга.

Следовательно, транскодер SAOC в MPEG Surround 980 формирует представление сигнала понижающего микширования 988 и битстрим формата MPEG Surround 984 таким образом, что множество сигналов каналов повышающего микширования, отображающих аудиообъекты в соответствии с данными рендеринга, вводимыми в транскодер SAOC - MPEG Surround 980, могут быть сгенерированы с помощью декодера MPEG Surround, на который поступают битстрим MPEG Surround 984 и представление даунмикс-сигнала 988.

Из сказанного вытекает, что для декодирования аудиосигналов, закодированных в SAOC, можно применять различные подходы. В некоторых случаях используют декодер SAOC, который генерирует сигналы каналов повышающего микширования (например, сигналы апмикс-каналов 928, 958) на основе представления сигналов понижающего микширования и объектно-ориентированной служебной параметрической информации. Примеры такого подхода приведены на фиг.9а и 9b. В другом случае аудиоданные, закодированные в SAOC, могут быть перекодированы с получением представления сигнала понижающего микширования (например, представления даунмикс-сигнала 988) и сопроводительной информации, специфицирующей канал (например, битстрима MPEG Surround 984, характеризующего канал), которые будут использованы декодером MPEG Surround для выработки необходимых сигналов каналов повышающего микширования.

В системе MPEG SAOC 800, общая схема которой дана на фиг.8, а также в системе MPEG SAOC 900, общая схема которой дана на фиг.9, основное преобразование осуществляется частотно-избирательно и может быть описано в каждом частотном диапазоне следующим образом:

- кодер SAOC микширует с понижением N входных сигналов аудиообъектов x1 - xN. Для понижающего монофонического микширования указаны коэффициенты d1 - dN - Дополнительно кодер SAOC 810, 910 извлекает служебную информацию 814, описывающую характеристик вводимых акустических объектов. Значительную часть этой служебной информации составляют соотношения мощностей объектов и их корреляция, то есть - разность интенсивности объектов (OLD) в межобъектной корреляции (IOC).

- Сигнал (сигналы) понижающего микширования 812, 912 и сопроводительную информацию 814, 914 пересылают и/или сохраняют. Для этого микшированный с понижением аудиосигнал сжимают, используя такие известные аудиокодеры перцептуального типа, как MPEG-1 уровня II или III (также известный как «.mp3»), как Передовая технология аудиокодирования ААС формата MPEG, или любой другой аудиокодер.

На приемном конце декодер SAOC 820, 920 концептуально восстанавливает исходные сигналы объектов («разделение объектов»), используя принятые протокольные данные 814, 914 (и, соответственно, один или более даунмикс-сигналов 812, 912). Эти аппроксимированные сигналы объектов (также обозначенные как реконструированные сигналы объекта 820b, 924) затем микшируют так, чтобы получить желаемую акустическую сцену, отображаемую с использованием М выходных звуковых каналов (которые, предположим, могут быть представлены сигналами апмикс-канала y ^ 1 − y ^ M , 928), используя матрицу аудиорендеринга. Для монофонического выходного сигнала коэффициенты матрицы рендеринга даны как r1 - rN.

Разделения сигналов объектов редко дает (или даже никогда не дает) эффективный результат в силу того, что оба шага - шаг разделения (обозначенный как разделитель объектов 820а, 922) и шаг микширования (обозначенный как микшер 820с, 926) - объединены в одну операцию транскодирования, которая часто дает к громадное снижение вычислительной трудоемкости.

Было установлено, что такая схема чрезвычайно продуктивна, как с точки зрения скорости передачи данных (битрейта) (необходимо транслировать лишь несколько каналов даунмикс-каналов и некоторую протокольную информацию вместо аудиосигналов N объектов), так и с точки зрения вычислительной сложности (трудоемкость обработки относится большей частью к количеству выходных каналов, а не к количеству аудиообъектов). Дополнительные преимущества пользователя на приемном конце состоят в свободе выбора воспроизводимого акустического образа (моно-, стереофония, охватывающее, виртуализированное [приближенное к реальности] звучание в наушниках и тому подобное) и в возможности непосредственного участия слушателя/слушательницы: пользователь может задавать и изменять матрицу аудиорендеринга [звукопостроения], а следовательно и аудиосцену на выходе, в интерактивном режиме следуя личным предпочтениям или иным критериям. Например, можно пространственно ощутимо отделять собеседников одной группы в одной части звукового объема от других участников разговора. Такая интерактивность достигается за счет интерфейса между пользователем и декодером, где пользователь может: регулировать относительный уровень и (для немонофонического рендеринга) пространственное положение каждого звукового объекта; выполнять эти действия в режиме реального времени, изменяя положение соответствующего ползунка устройства графического интерфейса пользователя (GUI / ГИП) (например: уровень объекта = +5 дБ, положению объекта = -30 градусов).

Далее будет сделана краткая ссылка на предшествующие методики поканального аудиокодирования.

Документ US 11/032, 689 описывает технологию совмещения нескольких значений контрольных сигналов в одно передаваемое значение, что обеспечивает сохранность служебной информации.

Этот же механизм применен в «многоканальном иерархическом кодировании звука с компактной служебной информацией» в US 60/671, 544.

Однако, было определено, что объектно-ориентированная параметрическая информация, используемая для кодирования многоканального аудиоконтента, требует в некоторых случаях сравнительно высокий битрейт.

Соответственно, целью заявляемого изобретения является создание концепции построения, хранения или передачи многоканального аудиоконтента с сжатой служебной информацией.

Краткое описание изобретения

Поставленная цель достигается за счет применения декодера аудиосигнала (аудиодекодера), кодера аудиосигнала (аудиокодера), способа формирования представления сигнала повышающего микширования (апмикс-сигнала), способа формирования представления потока двоичных данных (битстрима), компьютерной программы и битстрима согласно определению независимых пунктов формулы изобретения.

Изобретение технически реализовано в виде декодера аудиосигнала, выполненного с возможностью представления сигнала, микшированного с повышением на основе представления сигнала, микшированного с понижением, и объектно-ориентированной параметрической информации, исходя из данных рендеринга. Устройство включает в себя определитель параметров объектов, оценивающий значения межобъектной корреляции множества пар аудиообъектов. Определитель параметров объектов выполняет функцию распознавания сигнального параметра битстрима для принятия решения, выполнять оценку индивидуальных значений параметров межобъектной корреляции в битстриме с целью выведения значений межобъектной корреляции для множества пар соотносящихся акустических объектов, или рассчитывать значения межобъектной корреляции для множества пар соотносящихся акустических объектов, используя общее значение параметра межобъектной корреляции в битстриме. Кроме этого, декодер аудиосигнала включает в себя процессор сигналов, генерирующий представление сигнала повышающего микширования на основе представления сигнала понижающего микширования с использованием значений межобъектной корреляции для множества пар взаимосвязанных аудиообъектов и данных рендеринга.

Ключевой идеей реализации предлагаемого аудиодекодера является то, что битрейт, необходимый для кодирования значений межобъектной корреляции, может быть предельно высоким в тех случаях, когда необходимо учитывать корреляции многих пар аудиообъектов, чтобы достичь надлежащего слухового впечатления, и что в таких случаях битрейт, необходимый для кодирования значений межобъектной корреляции, можно существенно снизить, применив общее значение параметра межобъектной корреляции в битстриме вместо индивидуальных значений параметров межобъектной корреляции в битстриме, не ставя в значительной степени под угрозу качество слухового восприятия.

Исследования показали, что в ситуациях, когда между многими парами аудиообъектов присутствуют тесные межобъектные взаимосвязи, которые должны быть учтены для получения надлежащего акустического образа, учет таких межобъектных корреляций, как правило, требует высокого битрейта для значений параметров межобъектной корреляции в битстриме. Тем не менее, выявлено, что в ситуациях, когда нельзя пренебречь межобъектными взаимосвязями во многих парах аудиообъектов, адекватное слуховое впечатление может быть достигнуто путем кодирования лишь одного общего значения параметра межобъектной корреляции в битстриме и путем выведения производных значений межобъектной корреляции для множества пар взаимосвязанных звуковых объектов из этого общего для битстрима значения параметра межобъектной корреляции. Таким образом, в большинстве случаев взаимное соотношение (корреляция) многих аудиообъектов может быть учтено с достаточной точностью при сохранении трудоемкости передачи значения параметра межобъектной корреляции в битстриме в достаточно невысоких пределах.

Вследствие этого рассмотренная выше концепция позволяет сохранять требования к битрейту в невысоких пределах при обмене объектно-ориентированной протокольной информацией относительно некоторых акустических сред, в которых нельзя пренебречь межобъектной корреляцией различных сигналов многих аудиообъектов с получением в результате достаточно хорошего слухового впечатления.

В предпочтительном варианте реализации определитель параметров объектов задает значение межобъектной корреляции для всех пар разнообразных взаимно соотнесенных звуковых объектов как общую величину, определяемую общим для битстрима значением параметра межобъектной корреляции. Признано, что это простое решение обеспечивает надлежащее слуховое восприятие во многих допустимых ситуациях.

В предпочтительной версии исполнения определитель параметров объектов выполнен с возможностью анализа информации о взаимозависимости объектов, содержащей данные, являются ли два объекта взаимно соотнесенными или нет. Далее, определитель параметров объектов выполнен с возможностью выборочно распознавать значения межобъектной корреляции аудиообъектов в парах, для которых в информации о взаимосвязи объектов наличие такой взаимосвязи обозначено посредством общего для битрейта значения параметра межобъектной корреляции, и с возможностью присваивать предварительно заданную величину (например, ноль) значениям межобъектной корреляции пар аудиообъектов, для которых в информации о взаимосвязи объектов указание на взаимосвязь отсутствует. Благодаря этому можно дифференцировать соотносящиеся и не соотносящиеся аудиообъекты, используя битрейт с высокой эффективностью. Следовательно, задание отличного от нуля значения межобъектной корреляции парам аудиообъектов, которые (приближенно) взаимно не связаны, исключается. Это предотвращает деградацию слухового впечатления, и обеспечивает разделение ориентировочно невзаимосвязанных аудиообъектов. Более того, маркирование взаимосвязанных и невзаимосвязанных аудиообъектов осуществляется при очень высокоэффективном использовании битрейта в силу того, что соотнесенность аудиообъектов, как правило, инвариантна в течение всего времени звучания аудиофрагмента, и, следовательно, битрейт, необходимый для такого маркирования типично очень низок. Таким образом, обсуждаемая концепция обеспечивает благоприятный баланс между эффективностью битрейта и слуховым восприятием.

В предпочтительном конструктивном исполнении определитель параметров объектов выполнен с возможностью анализа информации о взаимосвязи объектов, содержащей однобитовый флажок для каждого сочетания различных аудиообъектов, который маркирует каждую комбинацию различных аудиообъектов, указывая, являются или нет аудиообъекты в данной комбинации взаимосвязанными. Передача такой информации осуществляется очень эффективно при существенно сниженной потребности в битрейте и при сохранении хорошего акустического качества.

В предпочтительном конструктивном исполнении определитель параметров объектов выполнен с возможностью задания значениям межобъектной корреляции всех пар разнообразных взаимосвязанных аудиообъектов общего значения, определяемого общим значением параметра межобъектной корреляции в битстриме.

В предпочтительной аппаратной версии определитель параметров объектов включает в свой состав синтаксический анализатор битстрима, выполненный с возможностью синтаксического разбора представления битстрима аудиоконтента для выделения сигнального параметра битстрима и индивидуальных параметров межобъектной корреляции в битстриме или общего параметра межобъектной корреляции в битстриме. Применение синтаксического анализатора битстрима повышает эффективность процесса распознавания сигнального параметра битстрима и индивидуальных параметров межобъектной корреляции в битстриме или общего для битстрима параметра межобъектной корреляции.

В предпочтительном варианте реализации декодер аудиосигнала выполнен с возможностью совмещения значения межобъектной корреляции, связанного с парой соотнесенных аудиообъектов, с величиной параметра разности уровней объектов, описывающей уровень первого аудиообъекта пары соотнесенных аудиообъектов, и с величиной параметра разности уровней объектов, описывающей уровень второго аудиообъекта пары соотнесенных аудиообъектов, с получением показателя ковариации, относящегося к данной паре взаимосвязанных звуковых объектов. В силу этого можно рассчитать значение ковариации определенной пары взаимосвязанных аудиообъектов даже в случае применения общего параметра межобъектной корреляции. Соответственно, для разных пар акустических объектов могут быть рассчитаны разные значения ковариации. Таким образом, применяя общее для битстрима значение параметра межобъектной корреляции, можно рассчитать большое количество разных значений ковариации.

В предпочтительной версии исполнения декодер аудиосигнала выполнен с возможностью обработки трех или более аудиообъектов. В этом случае определитель параметров объектов присваивает значения межобъектной корреляции каждой паре различных аудиообъектов. Было подтверждено, что благодаря использованию концепции изобретения значимые величины могут быть получены даже при наличии довольно большого количества аудиообъектов, которые все взаимосвязаны друг с другом. Выведение значений межобъектной корреляции из множества сочетаний аудиообъектов особенно полезно при кодировании и декодировании сигналов аудиообъектов с использованием объектно-ориентированной служебной параметрической информации.

В предпочтительном конструктивном исполнении определитель параметров объектов выполнен с возможностью идентификации сигнального параметра битстрима, содержащегося в конфигурационном разделе битстрима, для принятия решения относительно того, рассчитывать индивидуальные значения параметров межобъектной корреляции в битстриме для выведения значений межобъектной корреляции для множества пар взаимосвязанных аудиообъектов, или выводить значения межобъектной корреляции для множества пар взаимосвязанных аудиообъектов, исходя из общего для битстрима значения параметра межобъектной корреляции. При подобном техническом решении определитель параметров объектов характеризуется тем, что анализирует информацию о взаимосвязи объектов, содержащуюся в конфигурационном разделе битстрима, чтобы установить наличие взаимосвязи между аудиообъектами.

Вместе с тем, определитель параметров объектов характеризуется тем, что оценивает общее значение параметра межобъектной корреляции в битстриме, содержащееся в разделе данных фреймов битстрима, для каждого фрейма аудиоконтента, если принято решение выводить значения межобъектной корреляции для множества пар взаимосвязанных аудиообъектов, исходя из общего для битстрима значения параметра межобъектной корреляции. В силу этого достигается высокая эффективность битрейта, поскольку достаточно объемная информация о взаимосвязях объектов анализируется в аудиофрагменте только один раз (аудиофрагмент определяется по наличию конфигурационного раздела битстрима), в то время как сравнительно небольшое общее для битстрима значение параметра межобъектной корреляции оценивается для каждого фрейма аудиофрагмента, то есть несколько раз в продолжение аудиофрагмента. В этом отражен тот факт, что взаимосвязь между аудиообъектами чаще всего не меняется в пределах одного аудиофрагмента, или меняется очень редко. Следовательно, хорошее качество восприятия может быть достигнуто при умеренно низком битрейте.

Однако в другом случае может быть распознан сигнал к использованию общего для битстрима значения параметра межобъектной корреляции, при этом такой сигнал содержится в раздел данных фреймов битстрима, что, например, обеспечивает возможность гибкой адаптации изменяющегося аудиоконтента.

Аппаратная версия заявляемого изобретения включает в себя кодер аудиосигнала, формирующий представление потока двоичных данных (битстрима) на основе множества сигналов аудиообъектов. Кодер аудиосигнала включает в себя понижающий микшер, предназначенный для формирования микшированного с понижением сигнала (даунмикс-сигнала) на основе сигналов аудиообъектов и исходя из параметров понижающего микширования, описывающих соотношения составляющих сигналов аудиообъектов, которые будут преобразованы в один или более каналов сигнала понижающего микширования. Кодер аудиосигнала также включает в свой состав драйвер параметров, обеспечивающий вывод общего для битстрима значения параметра межобъектной корреляции, относящегося к множеству пар сигналов взаимосвязанных звуковых объектов, а также - сигнальный параметр битстрима, указывающий, что должно быть применено общее для битстрима значение параметра межобъектной корреляции вместо множественных индивидуальных параметров межобъектной корреляции в битстриме. Кроме того, кодер аудиосигнала включает в свой состав форматер битстрима, предназначенный для построения битстрима, содержащего представление сигнала понижающего микширования, представление общего для битстрима значения параметра межобъектной корреляции и сигнальный параметр битстрима.

Такое техническое решение в соответствии с изобретением обеспечивает возможность представления в битстриме многоканального аудиоконтента с компактным протоколом. Благодаря введению общего для битстрима значения параметра межобъектной корреляции объектно-ориентированная служебная информация имеет компактный объем, обеспечивая при этом исчерпывающие данные для воспроизведения многоканального аудиоконтента с надлежащим качеством восприятия звука. В дополнение к этому следует отметить, что описываемый здесь кодер аудиосигнала обладает преимуществами, аналогичными рассмотренному ранее декодеру аудиосигнала.

В предпочтительной версии исполнения драйвер параметров выводит общее значение параметра межобъектной корреляции в битстриме из отношения между суммой показателей перекрестных (коррелирующих) мощностей и суммой показателей средних мощностей. Выявлено, что такое значение параметра межобъектной корреляции в битстриме может быть рассчитано с приемлемой вычислительной трудоемкостью при одновременном сохранении в большинстве случаев точности воспроизведения акустической сцены.

Другое конструктивное решение предусматривает выведение драйвером параметров постоянной расчетной величины в качестве общего для битстрима значения параметра межобъектной корреляции. Как установлено, в некоторых случаях применение постоянного значения является обоснованным. Так, например, при постоянном использовании определенной конфигурации микрофонов в определенном, спланированном для проведения конференций, помещении такое постоянное значение может быть вполне адекватным желаемому слуховому восприятию. Таким образом, вычислительная трудоемкость может быть минимизирована при сохранении надлежащего акустического качества во многих стандартных приложениях концепции изобретения.

В другом предпочтительном конструктивном варианте драйвер параметров предоставляет также информацию о том, являются ли два аудиообъекта взаимосвязанными. Такая информация о взаимозависимости объектов может быть использована аудиодекодером, как рассматривалось выше. Следовательно, общее для битстрима значение параметра межобъектной корреляции гарантированно применяется только к таким аудиообъектам, которые действительно связаны друг с другом, и не может быть применено к аудиообъектам, не связанным между собой.

В предпочтительном варианте реализации драйвер параметров выполнен с возможностью избирательного оценивания межобъектной корреляции аудиообъектов, для которых в информации о взаимозависимости объектов указано наличие взаимозависимости, для расчета общего значения параметра межобъектной корреляции в битстриме. Это позволяет получать конкретный значимый показатель параметра межобъектной корреляции в битстриме.

Другие варианты осуществления заявляемого изобретения представляют собой способ формирования представления сигнала повышающего микширования и способ формирования представления битстрима. Эти способы базируются на тех же идеях, что и рассмотренные выше аудиодекодер и аудиокодер.

Согласно одному из осуществлений изобретения формируется битстрим, представляющий многоканальный аудиосигнал. Битстрим содержит представление сигнала понижающего микширования аудиосигналов множества аудиообъектов. Кроме того, битстрим содержит объектно-ориентированную служебную параметрическую информацию, описывающую характеристики аудиообъектов. Объектно-ориентированная служебная параметрическая информация включает в себя сигнальный параметр битстрима, индицирующий, содержит битстрим индивидуальные значения параметров межобъектной корреляции в битстриме или общее для битстрима значение параметра межобъектной корреляции. В силу этого битстрим обеспечивает гибкость его использования для передачи различных типов контента аудиоканалов. В частности, битстрим предусматривает передачу как индивидуальных значений параметров межобъектной корреляции в битстриме, так и общего для битстрима значения параметра межобъектной корреляции, в зависимости от того, какой из показателей лучше удовлетворяет требованиям воссоздания акустической сцены.

В силу этого битстрим одинаково хорошо рассчитан как на обработку сравнительно небольшого количества взаимосвязанных аудиообъектов, для которых необходимо передать детализированную (объектно-индивидуальную) информацию о межобъектной корреляции, так и на обработку сравнительно большого количества взаимосвязанных аудиообъектов, для которых передача индивидуальных значений параметров межобъектной корреляции предъявляет предельно высокие требования к битрейту, и для которых применение общего для битрейта значения параметра межобъектной корреляции сохраняет возможность воспроизведения с хорошим акустическим качеством.

Краткое описание фигур

Конструктивные решения по заявляемому изобретению далее будут рассмотрены со ссылкой на прилагаемые фигуры, где: фиг.1 отображает принципиальную блочную