Аппаратура и метод многоканального параметрического преобразования

Иллюстрации

Показать все

Изобретение относится к многоканальному преобразованию параметров, в частности к генерированию параметров когерентности и параметров выходного уровня, которые указывают на пространственные свойства между двумя звуковыми сигналами, основанными на объектно-параметровом базовом представлении звукового воспроизведения в пространстве. Преобразователь генерирует параметры, определяющие соотношение между первым и вторым каналом многоканального звукового сигнала, связанные с конфигурацией многоканальной акустической системы. Параметры уровня генерируются на основе параметров объекта из множества звуковых объектов, связанных с каналом понижающего микширования, которые генерируются, используя звуковые сигналы объекта, ассоциирующиеся со звуковыми объектами. Параметры объекта содержат энергетический параметр, указывающий энергию звукового сигнала объекта. Для получения параметров когерентности и уровня использован параметрический генератор, который объединяет энергетический параметр и параметры воспроизведения объекта, которые зависят от желаемой конфигурации воспроизведения. Технический результат - уменьшение сложности применения различных систем, которые предназначены для кодирования и расшифровывания параметрических многоканальных звуковых потоков. 3 н. и 24 з.п. ф-лы, 10 ил.

Реферат

Область изобретения.

Данное изобретение относится к многоканальному преобразованию параметров, в частности к генерированию параметров когерентности и параметров выходного уровня, которые указывают на пространственные свойства между двумя звуковыми сигналами, основанными на объектно-параметровом базовом представлении звукового воспроизведения в пространстве.

Предпосылки создания изобретения и предшествующий уровень

Существует несколько подходов для параметрического кодирования многоканальных звуковых сигналов, типа «Параметрический Стерео», «Бинауральное (стереофонический) кодирование ВВС начального сигнала для Естественного Звучания и MPEG объемный звук, которые стремятся воссоздать многоканальный звуковой сигнал посредством понижающего смешанного сигнала (который может быть либо монофоническим, либо может состоять из нескольких каналов) и параметрическую дополнительную информацию (пространственный сигнал); все эти виды звучания характерны своим ощутимым объемным звуком.

Такие методы можно назвать - канал ориентируемыми (основанные на канале - звуковом тракте), то есть такие методы пробуют передать многоканальный сигнал, уже существующий или сгенерированный в битрейт параметре. Таким образом, пространственное звуковое поле смешивается с определенным количеством каналов перед трансляцией сигнала, это происходит для того, чтобы соответствовать определенной настройке акустической системы; эти методы направлены на сжатие звуковых каналов, подсоединенных к индивидуальным акустическим системам.

Техника параметрического кодирования основывается на устройстве уменьшения числа каналов (принудительное сокращение числа аудио каналов до обычного стерео для совместимости с немногоканальными аудиоустройствами), которое воспроизводит звуковое содержание вместе с параметрами, которые описывают пространственные свойства оригинального пространственного звукового поля и которые используются на приемной стороне, чтобы восстановить многоканальный сигнал или пространственное звуковое поле.

Близко связанная группа методов, например «ВВС для Естественного Звучания», разработана для эффективного кодирования индивидуальных звуковых объектов в большей степени, чем для каналов того же самого многоканального сигнала; это сделано для их интерактивного воспроизведения в произвольным пространственном положении, при этом независимо усиливая или подавляя отдельные объекты без аналого-цифрового преобразователя. В отличие от общих параметрических многоканальных аудио кодирующих методов, которые передают определенный набор индивидуальных сигналов от кодирующего устройства (аналого-цифрового преобразователя) к декодеру, техника по кодировке объекта позволяет воспроизводить декодированные объекты с любой установки, то есть пользователь на декодирующей стороне может свободно выбирать установку (настройку) для воспроизведения (например, стерео, 5.1 - объемный) согласно своему предпочтению.

По концепции кодирования объекта параметры могут быть заданы заранее, могут идентифицировать положение звукового объекта в пространстве и создавать гибкое звучание на стороне получения звука. Воспроизведение на стороне получения имеет свое преимущество в том, что даже неидеальные акустические системы или произвольные акустические системы могут использоваться для того, чтобы создать пространственное звуковое поле высокого качества. Кроме того, звуковой сигнал типа, например, из устройства уменьшения числа каналов (при понижающем микшировании), связанных с индивидуальными объектами, должен беспрепятственно транслироваться; это является основанием для воспроизведения звука на приемной стороне для слушателя.

Оба описанных выше подхода основываются на многоканальной акустической системе, которая обеспечивает впечатление высококачественного воспроизведения пространственного звучания оригинального пространственного звукового поля на приемной стороне.

Как уже было отмечено, есть несколько современных методов для параметрического кодирования многоканальных звуковых сигналов, которые могут воспроизводить пространственный звуковой образ (аудиограмму), это зависит от скорости передачи данных - более или менее сходных с оригинальным многоканальным звуковым содержанием.

Однако, учитывая некоторый предварительно закодированный звуковой материал (то есть объемное звучание, которое характеризуется определенным количеством индивидуальных сигналов), такой кодер-декодер не предлагает никаких средств и приспособлений для апостериорного (последовательного) и интерактивного воспроизведения единственных звуковых объектов в соответствии с предпочтениями слушателя. С другой стороны, существует еще и метод кодирования пространственного звукового объекта, который был разработан для последней описанной цели; но так как параметрическое воспроизведение, используемое в таких системах, отличается от воспроизведения для многоканальных звуковых сигналов, то потребуются отдельные декодеры, если возникнет необходимость использовать оба метода параллельно. Недостаток, который следует из всей этой ситуации, состоит в том, что, хотя обе системы выполняют одну и ту же задачу, которая заключается в воспроизведении пространственного звукового поля из акустической системы, они (системы) должны работать дублировано, то есть нужно два отдельных декодера, чтобы обеспечить обе функции.

Другое ограничение объекта прототипа кодирующей технологии выражается в нехватке средства для хранения и/или передачи пространственных звуковых объектных полей назад совместимым способом. Особенность возможности интерактивного расположения единичных звуковых объектов обеспечивается с помощью кодирующей парадигмы пространственного звукового объекта; это является скорее недостатком, когда эта особенность приводит к идентичному воспроизводству легко воспроизводимого звукового отрезка.

Подведя итоги, можно отметить неудачную ситуацию: хотя многоканальная среда воспроизведения (многоканальное воспроизведение записей) может присутствовать, что описывается в одном из вышеупомянутых подходов, дальнейшая среда воспроизведения может потребоваться, чтобы осуществить второй подход. Кроме того, можно отметить, что согласно более длинному описанию кодирующие схемы на основе канала намного более типичны и обычны для применения, например, известные 5.1 или 7.1/7.2 многоканальные сигналы, сохраненные на DVD или подобном устройстве. Таким образом, даже если многоканальный звуковой декодер и связанное с ним оборудование для воспроизведения (усилительный каскад и акустические системы) используются, пользователь нуждается в дополнительной полной установке (наборе), то есть, по крайней мере, в звуковом декодере, когда он хочет воспроизвести закодированные звуковые данные на основе объекта. Обычно, многоканальные звуковые декодеры непосредственно связаны с каскадами усиления, и пользователь не имеет прямого доступа к каскадам усиления, которые используются, чтобы запустить акустическую систему. Это, например, случай в большинстве обычно доступных многоканальных звуковых или мультимедийных приемниках. Пользователь, который желает послушать звук на имеющемся бытовом оборудовании, закодированный с помощью обоих подходов, должен был бы использовать второй набор усилителей и это, конечно, неудовлетворительная ситуация.

Краткое изложение сущности изобретения

Желательно применять один метод, чтобы уменьшить сложность применения различных систем, которые могут и расшифровывать параметрические многоканальные звуковые потоки, и параметрические закодированные пространственные звуковые потоки объекта.

Один из способов использования изобретения - это использование его в качестве многоканального параметрического преобразователя для генерирования параметра выходного уровня, который указывает на энергетическое соотношение между первым звуковым сигналом и вторым звуковым сигналом при воспроизведении многоканального пространственного звукового сигнала; преобразователь параметра содержит: провайдер объектного параметра для того, чтобы обеспечивать объектные параметры множеством звуковых объектов, связанных с устройством уменьшения числа каналов в зависимости от объекта звуковых сигналов, связанных со звуковыми объектами; параметры объекта содержат энергетический параметр для каждого звукового объекта, это определяет энергетическую информацию сигнала аудиообъекта; и генератор параметра для получения параметра выходного уровня с помощью комбинирования энергических параметров и параметров воспроизведения объекта, которые связаны с конфигурацией воспроизведения.

Согласно дальнейшему осуществлению данного изобретения преобразователь генерирует параметр когерентности (параметр последовательности) и параметр выходного уровня, определяя взаимосвязь или когерентность (последовательность) и энергетическое соотношение между первым и вторым звуковым сигналом многоканального звукового сигнала, связанного с многоканальным устройством воспроизводства звука. Корреляция - и параметры выходного уровня генерируются на основе провайдера (формирователь объектных параметров) объектных параметров, по крайней мере, для одного звукового объекта, связанного с понижающим микшированием канала (устройством уменьшения числа каналов), которое генерируется самостоятельно, используя сигнал звукового объекта, связанный со звуковым объектом, где параметры объекта содержат энергетический параметр, который определяет энергию сигнала звукового объекта. Чтобы получить когерентность и параметр выходного уровня, используется генератор параметра, который соединяет энергетический параметр и параметр воспроизведения дополнительных объектов, на которые, в свою очередь, влияет конфигурация воспроизведения. Согласно осуществлению изобретения параметры воспроизведения объектов заключают в себе характеристики громкоговорителя (акустической системы), которые определяют местоположение студийного громкоговорителя относительно слушателя. Согласно некоторым предназначениям (изобретения) параметры воспроизведения объекта указывают на местоположение объекта относительно положения, в котором находится слушатель. С этой целью генератор параметра использует сочетание эффектов из обеих пространственных звуковых кодирующих парадигм.

Согласно дальнейшей сути данного изобретения многоканальный преобразователь параметра работает для того, чтобы получить MPEG Окружающую когерентность и параметры выходного уровня (ICC и CLD форматы), которые могут использоваться, чтобы управлять декодером многоканальной стереофонии MPEG формата. Отмечено, что внутри - канальная когерентность / взаимная корреляция (ICC) - представляет когерентность (связь) или поперечную корреляцию между двумя входными каналами. Когда разница во времени (разновременность срабатывания) не учитывается, когерентность (связь) и корреляция это - то же самое. Названные по-разному, оба термина указывают на одну и ту же особенность, которая означает, что разновременность срабатывания соединительного канала или разность фаз соединительного канала не используется.

Таким образом, многоканальный преобразователь параметра вместе со стандартным преобразователем MPEG формата объемного звука может использоваться, чтобы воспроизвести закодированный звуковой сигнал на основе объекта. Изобретение имеет преимущество в том, что требуется только один дополнительный преобразователь параметра, который принимает закодированный звуковой сигнал пространственного звукового объекта (SAOC) и который преобразовывает параметры объекта таким образом, что они могут использоваться стандартным декодером формата объемного звука MPEG, чтобы воспроизвести многоканальный звуковой сигнал с помощью имеющегося воспроизводящего оборудования. Поэтому обычное воспроизводящее оборудование может использоваться без существенных изменений, чтобы также воспроизвести закодированное содержание пространственного звукового объекта.

Согласно дальнейшему применению данного изобретения выработанная когерентность (связь) и параметры выходного уровня объединяются из каналов в MPEG совместимый битовый поток (двоичный поток). Такой битовый поток (двоичный поток) может присоединяться к стандартному ДЕКОДЕРУ объемного звучания MPEG, не требуя дальнейших модификаций в имеющемся оборудовании воспроизведения.

Согласно дальнейшему применению данного изобретения выработанная когерентность (связь) и параметры выходного уровня передаются непосредственно к немного измененному ДЕКОДЕРУ объемного звучания MPEG, таким образом, что сложность вычисления многоканального преобразователя параметра может оставаться низкой.

Согласно дальнейшему применению данного изобретения выработанные многоканальные параметры (параметр когерентности и параметр выходного уровня) сохраняются после генерирования (выработки), таким образом, что многоканальный преобразователь параметра может также использоваться как средство для сохранения пространственной информации, полученной в ходе выступления (концерта). Такое выступление может, например, проходить в музыкальной студии, сигналы могут вырабатываться так, что многоканальный совместимый сигнал может быть произведен без любого дополнительного усилия, используя многоканальный трансформатор параметра, как описано более подробно в следующих параграфах. Таким образом, перечисленные случаи позволяют воспроизводить звук на легальном оборудовании.

Краткое описание чертежей

Прежде чем давать более детальное описание нескольких осуществлений данного изобретения, нужно привести короткий обзор многоканального звукового кодирования, техники кодирования аудиообъектов и техники кодирования пространственных аудиообъектов. В этом случае ссылка будет относиться к приложенным иллюстрациям.

Фиг.1а показывает прототип многоканальной аудиокодирующей схемы;

фиг.1b прототип объектной кодирующей схемы;

фиг.2 показывает кодирующую схему пространственного звукового объекта;

фиг.3 показывает воплощение многоканального трансформатора параметра;

фиг.4 показывает пример многоканальной конфигурации акустической системы для воспроизведения пространственного звукового содержания;

фиг.5 показывает пример возможного многоканального представления параметра пространственного звукового содержания;

фиг.6а и 6b показывают прикладные планы (сценарии) для закодированного содержания пространственного звукового объекта;

фиг.7 показывает воплощение многоканального параметрического преобразователя;

фиг.8 показывает пример метода для генерирования параметра когерентности и параметра корреляции.

Детальное описание предпочтительного варианта реализации изобретения

Фиг.1а схематически показывает многоканальную схему, кодирующую и расшифровывающую звук, тогда как фиг.1b схематически показывает схему обычного кодирования звукового объекта. Многоканальная кодирующая схема использует множество имеющихся звуковых каналов, то есть звуковые каналы уже смешаны, чтобы соответствовать заранее определенному количеству громкоговорителей (акустических систем). Многоканальное кодирующее устройство 4 (кодирование пространственного звука) производит низведение сигнала 6, который производится с помощью каналов 2а и 2b. Этот низведенный сигнал 6 может, например, быть монофоническим звуковым каналом или двумя звуковыми каналами, то есть сигналом стерео. Чтобы частично компенсировать потерю информации в течение низведения (операция понижающего микширования), используется многоканальное кодирующее устройство 4, которое выделяет многоканальные параметры, которые описывают пространственную взаимосвязь сигналов звуковых каналов 2а и 2b. Эта информация передается вместе с низведенным сигналом 6, потому так называемая информация о состоянии канала 8 связана с многоканальным декодером 10. Многоканальный декодер 10 использует многоканальные параметры информации о состоянии канала 8, чтобы создать каналы 12а и 12b с целью восстановления каналов 2а и 2b настолько точно, насколько это возможно. Это может, например, быть достигнуто при помощи передачи параметров выходного уровня и параметров корреляции, которые описывают отношение энергии между индивидуальными парами канала оригинальных звуковых каналов 2а и 2b и которые обеспечивают меру корреляции (связи) между парами звуковых каналов 2а и 2b.

Во время расшифровки эта информация может использоваться, чтобы перераспределить звуковые каналы, которые содержатся в низведенном сигнале на восстановленные звуковые каналы 12а и 12b. Можно отметить, что стандартная многоканальная звуковая схема воспроизводит то же самое число восстановленных каналов 12а и 12b, как число оригинальных звуковых каналов 2а и 2b, которые входят в многоканальное звуковое кодирующее устройство 4. Однако другие схемы расшифровки также могут осуществляться, воспроизводя больше или меньше обычных каналов, чем оригинальных звуковых каналов 2а и 2b.

В некотором смысле многоканальные звуковые методы схематично отображены на фиг.1а (например, недавно стандартизированная MPEG пространственная звуковая кодирующая схема, то есть MPEG Объемный звук), может рассматриваться как битрейт-эффективное и совместимое расширение имеющейся звуковой инфраструктуры, имеющей отношение к многоканальному звуковому/объемному звуку. Фиг.1b изображает уже существующий подход к звуковому кодированию на основе объекта. Как пример, кодирование звуковых объектов и способности "интерактивности, основанной на содержании", является частью понятия MPEG-4. Обычная техника кодирования звукового объекта, схематично показанная на фиг.1b, пользуется различными подходами, поскольку эта техника не передает множество уже существующих звуковых каналов, а передает полное звуковое поле, распределяя в пространстве многократные звуковые объекты 22а и 22d. С этой целью используется кодировщик обычных звуковых объектов 20, чтобы закодировать многократные звуковые объекты 22а и 22d в элементарные потоки 24а и 24d; каждый звуковой объект имеет связанный элементарный поток. Звуковые объекты 22а и 22d (звуковые источники) могут, например, быть представлены монофоническим звуковым каналом и связанными параметрами энергии, указывая относительный уровень звукового объекта относительно остающихся в пространстве звуковых объектов.

Конечно, в более сложном исполнении звуковые объекты не ограничены для воспроизведения монофоническими звуковыми каналами. Вместо этого, например, звуковые объекты стерео или многоканальные звуковые объекты могут быть закодированы. Обычный звуковой декодер 28 стремится воспроизводить звуковые объекты 22а и 22b, чтобы получать преобразованные звуковые объекты 28а и 28d. Компоновщик (редактор) звукового содержания (Scene composer) 30 в пределах обычного декодера звукового объекта позволяет разрозненное размещение преобразованных звуковых объектов 28а и 28d (источники) и адаптацию к различным установкам акустической системы (громкоговорителей). Пространство воспроизведения полностью определяется в соответствии с описанием 34 и связано со звуковыми объектами. Некоторые обычные компоновщики звукового содержания 30 предполагают описание музыкального эпизода на стандартизированном языке, например BIFS (двоичный формат для описания музыкального эпизода). На стороне декодера могут использоваться произвольные установки акустической системы (громкоговорителей); декодер обеспечивает звуковые каналы 32а и 32е для индивидуальных акустических систем, которые оптимально настроены для преобразования звукового поля, поскольку полная информация звукового поля доступна на стороне декодера. Например, бинауральное (стереофоническое) воспроизведение/предоставление выполнимо, и оно приводит к двум звуковым каналам, сгенерированным для предоставления впечатления пространственного звука при прослушивании через наушники.

Дополнительное использование компоновщика звукового содержания 30 (редактора музыкальных эпизодов) позволяет переустановку/панорамирование индивидуальных звуковых объектов на стороне воспроизводства. Кроме того, положения или уровни специально отобранных звуковых объектов могут быть изменены, например, можно увеличить ясность говорящего, когда окружающие шумовые объекты или другие звуковые объекты, связанные другими людьми, которые тоже разговаривают (все вместе) подавляются, то есть они уменьшены в своем уровне.

Другими словами, обычные звуковые шифровальщики объекта кодируют множество звуковых объектов в элементарные потоки; каждый поток связан с одним единственным звуковым объектом. Обычный декодер расшифровывает эти потоки и формирует звуковое поле под контролем описания поля (двоичного формата для описания музыкального эпизода), произвольно основываясь на взаимодействии пользователя с системой. В рамках практического применения этот подход страдает из-за определенных недостатков. Из-за отдельного кодирования каждого индивидуального звука (звукового объекта) необходимый битрейт для передачи целостного эпизода, который значительно выше, чем нормы, используемые для монофонической/стереофонической передачи сжатого аудио (звука). Очевидно необходимый битрейт растет приблизительно пропорционально с количеством переданных звуковых объектов, то есть со сложностью звукового эпизода.

Следовательно, из-за отдельной расшифровки каждого звукового объекта вычислительная сложность для процесса расшифровки значительно превышает ту сложность обычного моно/стерео звукового декодера. Необходимая вычислительная сложность для расшифровки растет приблизительно пропорционально с числом переданных объектов (принимая во внимание невысокую сложность процедуры составления структуры). Используя усовершенствованные возможности структуры и состава, то есть используя различные вычислительные узлы, эти недостатки в дальнейшем отягощаются сложностью, связанной с синхронизацией соответствующих звуковых узлов и со сложностью в управлении структурированным звуковым двигателем. Кроме того, так как полная система вовлекает несколько звуковых компонентов декодера и единицу двоичного формата для описания музыкального эпизода, сложность необходимой структуры это - препятствие к применению в реальности. Усовершенствованные возможности структуры и состава, кроме того, требуют применение структурированного звукового двигателя с вышеупомянутым препятствием.

Фиг.2 показывает осуществление изобретенной концепции кодирования пространственного звукового объекта, позволяющей эффективное звуковое кодирование объекта, обходя предварительно упомянутые неудобства. Из фиг.3 становится ясно, что концепция может применяться с помощью изменения существующего MPEG объемного звука. Однако использование объемного звука MPEG не принудительно, так как могут использоваться и другие общие многоканальные структуры зашифровывания/расшифровки, чтобы осуществить данное изобретение. При использовании имеющейся кодирующей структуры для многоканального аудио (звука), например MPEG объемный звук, концепция изобретения вовлекает битрейт-эффективное и совместимое расширение имеющейся звуковой инфраструктуры для воспроизведения звука на основе объекта. Чтобы отличаться от предшествующих подходов (изобретений), касающихся кодировки звукового объекта (КЗО) и пространственной кодировки звука (многоканальное кодирование аудио); данное изобретение будет в последующем именоваться понятием - пространственное звуковое кодирование объекта или сокращенно (ПЗКО).

Кодирующая схема для пространственных звуковых объектов, показанная на фиг.2, использует индивидуальные объекты аудиовхода от 50а до 50d. Кодирующее устройство для пространственного звукового объекта 52 вырабатывает один или больше низведенных сигналов 54 (например, моно или стерео сигналы) вместе с информацией о состоянии канала 55, при этом имея в наличии информацию о характеристиках оригинальной звуковой среды.

ПЗКО - декодер 56 получает низведенный сигнал 54 с информацией о состоянии канала 55. Основанный на низведенном сигнале (уменьшении числа каналов) 54 соединения и информации о состоянии канала 55; декодер пространственного звукового объекта 56 восстанавливает (перестраивает) ряд звуковых объектов от 58а до 58d. Восстановленные (перестроенные) звуковые объекты от 58а до 58d смешиваются для воспроизведения 60, на этапе воспроизведения - звуковое содержание представляет собой смешанные индивидуальные звуковые объекты от 58а до 58d, чтобы впоследствии сгенерировать необходимое число каналов вывода 62а и 62b, которые обычно соответствуют многоканальной установке акустической системы, предназначенной, чтобы использоваться для воспроизведения. Параметры устройства смешивания/воспроизводства звука 60 управляются непосредственно пользователем или с панели управления 64, чтобы получить интерактивное воспроизведение звука и таким образом обеспечить высокое гибкое кодирование звукового объекта. Концепция пространственного кодирования звукового объекта, показанного на фиг.2, имеет несколько значительных преимуществ по сравнению с другими вариантами многоканального преобразования. Передача (трансмиссия) достаточно битрейт-эффективна из-за использования низведенных (уменьшенных) сигналов и сопровождающих параметров объекта. Таким образом, информация о состоянии канала, базирующаяся на объекте, передается вместе с низведенным сигналом, который составлен из звуковых сигналов, связанных с индивидуальными звуковыми объектами. Поэтому требования к скорости передачи битов значительно уменьшается по сравнению с теми подходами, где сигнал каждого индивидуального звукового объекта отдельно закодирован и передан. Кроме того, концепция сравнима с уже существующими структурами передачи (звука). Легальные устройства воспроизводят (составляют) низведенный сигнал. Восстановленные звуковые объекты от 58а до 58d могут быть непосредственно переданы устройству смешивания/воспроизводства звука 60 (компоновщику эпизода). Вообще, восстановленные звуковые объекты от 58а до 58d могут быть связаны с любым внешним устройством смешивания (смешивания / воспроизводства 60), таким образом, что идея изобретения может быть легко осуществлена в уже существующей среде воспроизведения (звука). Индивидуальные звуковые объекты 58а…d могут использоваться как соло воспроизведение, то есть они воспроизводятся как единый звуковой поток, хотя они (эти звуковые объекты) не предназначены для создания высококачественного соло.

Чтобы отделить SAOC декодирование (ПЗКО - пространственное звуковое кодирование объекта) и последующее смешивание, объединенный ПЗКО - декодер и устройство для смешивания/воспроизводства чрезвычайно удобно, потому что с ним не возникает сложности при использовании. По сравнению с прямым подходом, полной расшифровки/реконструкции объектов от 58а до 58d в качестве промежуточного воспроизведения этого можно избежать. Необходимое вычисление главным образом связано с намеченным числом выходных каналов 62а и 62b. Из фиг.2 видно, что устройство смешивания/воспроизведения 60, связанное с ПЗКО - декодером, может в принципе быть любым алгоритмом, подходящим для объединения единичных звуковых объектов в одно звуковое поле, то есть подходящим для производства выходных звуковых каналов 62а и 6b, которые подключены к разным громкоговорителям или акустическим системам многоканальной установки. Таким устройством, это может быть, например, смеситель для амплитудного панорамирования (или амплитудного и отсроченного панорамирования), амплитудное панорамирование базируется на векторе (схемы VBAP) и бинауральном воспроизведении, то есть воспроизведении, которое направлено на пространственное устойчивое восприятие при использовании только двух акустических систем или наушников. Например, MPEG объемный звук формат использует для воспроизведения такие бинауральные методы. В общем, передача низведенных сигналов 54 связана с соответствующей информацией о звуковом объекте 55; сигналы могут быть объединены с техникой кодирования произвольного многоканального звука, такого как, например, параметрический стерео звук, бинауральный (стереофонический) код начального сигнала или MPEG.

Фиг.3 показывает осуществление данного изобретения, в котором параметры объекта передаются вместе с низведенным сигналом. В структуре ПЗКО декодера 120 MPEG декодер объемного звука может использоваться вместе с многоканальным преобразователем параметра, который производит параметры MPEG, используя полученные (приобретенные) параметры объекта. Эта комбинация создает пространственный звуковой декодер объекта 120 с чрезвычайно низкой сложностью (самого устройства). Другими словами, этот специфический пример предлагает метод для преобразования (пространственного звука) параметров объекта и панорамирования информации, связанной с каждым звуковым объектом в стандартном MPEG потоке битов (потоке двоичных сигналов); таким образом, расширяя применение обычных MPEG декодеров объемного звука: от воспроизведения многоканального звукового содержания до интерактивного воспроизведения закодированных эпизодов пространственных звуковых объектов. Эта система работает без применения модификации к MPEG декодеру объемного звука. Осуществление изобретения, показанное на фиг.3, не имеет те недостатки, которые есть у обычной технологии использования многоканального преобразователя параметра вместе с MPEG декодером объемного звука. В то время как MPEG декодер объемного (окружающего звука) - обычно доступная технология; многоканальный преобразователь параметра обеспечивает транскодирование (преобразование одного кода в другой) из пространственного звукового кодированного объекта в MPEG формат объемного звука. Это будет детально рассмотрено в следующих параграфах, которые дополнительно ссылаются на фиг.4 и 5, иллюстрируя определенные аспекты объединенных технологий. На фиг.3 декодер 120 содержит MPEG декодер объемного звука 100, который получает низведенный сигнал 102, имеющий некое звуковое содержание. Низведенный сигнал может быть произведен кодирующим устройством со стороны низведения (понижения количества) каналов с помощью объединения (или добавления) сигналов звукового объекта каждого звукового сигнала в импульсе по типовой манере. Альтернативно, процесс объединения может также иметь место в спектральной области или в области фильтр-банка (банк цифровых фильтров предназначен для разбиения входного сигнала на несколько подканалов). Низведенный канал может быть отделен от параметрического потока битов 122 или может быть в том же самом потоке битов как параметр потока битов.

MPEG декодер объемного звука 100 дополнительно получает пространственные сигналы 104 из MPEG объемного звука потока битов, как когерентность параметров внутриканальной когерентности (ICC) и параметры выходного уровня CLD, оба понятия означают характеристики сигналов между двумя звуковыми сигналами в рамках схемы зашифровывания/расшифровки объемного звука MPEG, которая показана на фиг.5 и которая будет объясняться более подробно ниже.

Многоканальный преобразователь параметра 106 получает параметры ПЗКО (параметры объекта) 122, связанные со звуковыми объектами, которые указывают свойства дополнительной цели звуковых объектов, содержавшихся в пределах низведенного (редуцированного) сигнала 102. Кроме того, преобразователь 106 получает параметры воспроизведения объекта через ввод параметров воспроизведения объекта. Эти параметры могут быть параметрами воспроизводящей матрицы или параметрами, которые могут использоваться для картографии звуковых объектов в сценарии воспроизведения. В зависимости от положений объекта, которые настроены пользователем и введены в блок 12, воспроизводящая матрица вычисляется (подготавливается) блоком 112. Вывод блока 112 вводится в блок 106 и в генератор параметра 108 для того, чтобы вычислить пространственные звуковые параметры. Когда конфигурация акустической системы (громкоговорителя) изменяется, воспроизводящая матрица или, по крайней мере, некоторые параметры воспроизведения объекта тоже изменяются. Таким образом, параметры воспроизведения зависят от конфигурации воспроизведения, которая включает конфигурацию громкоговорителя/конфигурацию воспроизведения или переданных, или выбранных пользователем положений объектов, оба положения могут быть подсоединены к блоку 112.

Генератор параметра 108 производит пространственные сигналы MPEG объемного звука 104, основанные на параметрах объекта, которые обеспечиваются с помощью провайдера параметров объекта (анализатор ПЗКО) 110. Генератор параметра 108 дополнительно использует параметры воспроизведения, которые вырабатываются генератором весового множителя 112. Некоторые или все параметры воспроизведения являются весовыми параметрами, описывающими разбивку звуковых объектов, содержавшихся в низведенном сигнале 102 на каналы, созданные декодером пространственного звукового объекта 120. Весовые параметры могут, например, быть организованы в матрице, так как они служат для того, чтобы картографировать определенное количество звуковых объектов N по определенному количеству звуковых каналов М, которые связаны с индивидуальными громкоговорителями многоканальной установки акустической системы, используемой для воспроизведения. Есть два типа входных данных на многоканальный преобразователь параметра (ПЗКО 2 MPS транскодер). Первый вход - поток битов пространственного звукового кодирования объекта 122; этот выход подсоединяет параметры объекта к индивидуальным звуковым объектам, которые указывают на пространственные свойства (например, энергетическая информация) звуковых объектов, связанных с переданной многообъектной звуковой сценой. Второй вход - параметры воспроизведения (весовые параметры (весовые коэффициенты)) 124, используемые для составления схемы объектов N к звуковым каналам М..

Как предварительно было указано, поток битов ПЗКО 122 содержит параметрическую информацию о звуковых объектах, которые были смешаны вместе, чтобы впоследствии создать вход низведенного сигнала 102 в MPEG декодер объемного звука 100. Параметры объектов потока битов ПЗКО 122 вырабатываются, по крайней мере, для одного звукового объекта, связанного с низведенным каналом 102, который был, в свою очередь, произведен, используя, по крайней мере, один сигнал звукового объекта, связанный со звуковым объектом. Подходящий параметр, например параметр энергии, указывает на энергию сигнала звукового объекта, то есть на силу вклада сигнала звукового объекта в низведенный канал 102. В случае, если используется низведенное стерео, может вырабатываться параметр направления для определения местоположения звукового объекта в пределах низведенного стерео. Однако другие параметры объекта, очевидно, также подходят и могут использоваться для осуществления этого.

Переданный низведенный звук не обязательно должен быть монофоническим сигналом. Это может быть также, например, сигнал стерео. В таком случае 2 параметра энергии могут передаваться как параметры объекта; каждый параметр указывает вклад каждого объекта в один из двух каналов сигнала стерео. Таким образом, например, если бы 20 звуковых объектов использовались для выработки низведенного стереосигнала, 40 энергетических параметров были бы переданы как параметры объекта.

ПЗКО потока двоичных сигналов 122 вводится в ПЗКО аналитический блок, то есть в провайдер параметра объекта 110, который восстанавливает параметрическую информацию, а последняя помимо фактического числа звуковых объектов имеет дело главным образом с возвратным уровнем огибающей параметров объекта (OLE), который описывает переменные во времени огибающие спектра каждого звукового существующего объекта.

Параметры ПЗКО типично зависят от времени, поскольку они передают информацию относительно того, как изменяется со временем многоканальное звуковое поле, например, когда выделяются определенные объе