Устройство и способ генерирования выходных звуковых сигналов посредством использования объектно-ориентированных метаданных

Иллюстрации

Показать все

Изобретение относится к обработке сигналов в полосе звуковых частот. Технический результат изобретения заключается в обеспечении эффективной скорости передачи звукового сигнала. Устройство для генерирования, по крайней мере, одного выходного звукового сигнала, представляющего суперпозицию двух различных звуковых объектов, включает процессор для обработки входного звукового сигнала для обеспечения объектного представления входного звукового сигнала, где это объектное представление может быть сгенерировано параметрически управляемым приближением оригинальных объектов посредством использования сигнала понижающего микширования объекта. Манипулятор объекта индивидуально управляет объектами, используя объектно-ориентированные звуковые метаданные, относящиеся к индивидуальным звуковым объектам, чтобы получить управляемые звуковые объекты. Управляемые звуковые объекты микшируются посредством использования микшера объекта для того, чтобы в конце концов получить выходной звуковой сигнал, имеющий одно- или многоканальные сигналы в зависимости от конкретной установки рендеринга. 9 н. и 5 з.п. ф-лы, 17 ил.

Реферат

Область изобретения

Данное изобретение относится к обработке сигналов в полосе звуковых частот и, в частности, к обработке сигналов в полосе звуковых частот в контексте кодирования звуковых объектов, такого как пространственное кодирование звукового объекта.

Предпосылки изобретения и прототип

В современных радиовещательных системах, таких как телевидение, при определенных обстоятельствах желательно не воспроизводить звуковые дорожки в том виде, как их спроектировал звукооператор, а скорее произвести специальные настройки, чтобы адресоваться к ограничениям, заданным во время представления (визуализации). Хорошо известная технология управления такими настройками при окончательном монтаже заключается в предоставлении соответствующих метаданных наряду со звуковыми дорожками.

Традиционные системы воспроизведения звука, например старые домашние телевизионные системы, состоят из одного громкоговорителя или пары стереогромкоговорителей. Более сложные многоканальные системы воспроизведения используют пять или даже больше громкоговорителей.

Если рассматриваются многоканальные системы воспроизведения, звукооператоры имеют намного больше свободы маневрирования при размещении единичных источников в двухмерной плоскости и поэтому могут также использовать более высокий динамический диапазон для полных звуковых дорожек, так как голос становится более внятным благодаря известному эффекту «коктейльной вечеринки».

Однако реалистические, высоко динамические звуки могут вызвать проблемы на традиционных системах воспроизведения. Могут существовать сценарии, где потребитель, возможно, не захочет получать этот высокий динамический сигнал, потому что он прослушивает контент в шумной окружающей среде (например, в едущем автомобиле или при использовании мобильной системы развлечений в полете), она или он носит слуховые устройства, или она или он не хочет потревожить своих соседей (поздно вечером, например).

Кроме того, дикторы сталкиваются с той проблемой, что различные элементы одной программы (например, коммерческая реклама) могут быть на различных уровнях громкости из-за различных коэффициентов амплитуды, требующих регулирования уровня последовательных элементов.

В цепи классической вещательной передачи конечный пользователь получает уже микшированную звуковую дорожку. Любое дальнейшее управление на стороне приемника может быть сделано только в очень ограниченной форме. В настоящее время небольшой набор характеристик метаданных системы Долби позволяет пользователю изменять некоторые свойства звукового сигнала.

Обычно манипуляции, основанные на вышеупомянутых метаданных, осуществляются без какого бы то ни было частотного селективного распознавания, так как метаданные, традиционно приложенные к звуковому сигналу, не предоставляют достаточную информацию, чтобы сделать это.

Кроме того, можно управлять только целым звуковым потоком. К тому же, нельзя принять и выделить каждый звуковой объект внутри этого звукового потока. Это может быть неудовлетворительным, особенно в неподходящей окружающей среде прослушивания.

В полуночном режиме использующийся звуковой процессор не может отличить шумы окружения от диалога из-за недостатка управляющей информации. Поэтому в случае шумов высокого уровня (которые должны быть сжаты/ограничены по громкости) диалоги тоже будут управляться параллельно. Это могло бы повредить внятности речи.

Увеличение уровня диалога по сравнению с окружающим звуком помогает улучшить восприятие речи, особенно для прослушивания людьми с ослабленным слухом. Эта техника работает, только если звуковой сигнал действительно отделяется в диалоге и окружающих компонентах на стороне приемника помимо наличия информации о контроле качества. Если доступен только стереосигнал понижающего микширования, никакое дальнейшее разделение больше не может быть применено для отдельного распознавания и управления речевой информацией. Современные способы осуществления понижающего микширования позволяют регулировать динамический стереоуровень для центрального и окружающих каналов. Но для любой отличной конфигурации громкоговорителя вместо стерео нет никакого реального указания от передатчика того, как микшировать с понижением конечный многоканальный звуковой источник. Только формула по умолчанию в декодере выполняет микширование сигнала точным образом.

Во всех описанных сценариях обычно существуют два различных подхода. Первый подход состоит в том, что при генерировании звукового сигнала, который будет передан, ряд звуковых объектов является микшированным с понижением до моно, стерео или многоканального сигнала. Сигнал, который должен быть передан пользователю этого сигнала посредством радиопередачи, посредством любого другого протокола передачи или посредством распределения на считываемом компьютером носителе данных, обычно имеет число каналов, меньшее чем число оригинальных звуковых объектов, которые были микшированы с понижением звукооператором, например, в студийном окружении. Кроме того, метаданные могут быть приложены, чтобы позволить несколько различных модификаций, но эти модификации могут быть применены только к целому переданному сигналу или, если переданный сигнал имеет несколько различных переданных каналов, к индивидуальным переданным каналам целиком. Поскольку, однако, такие переданные каналы всегда являются суперпозициями нескольких звуковых объектов, индивидуальное управление определенным звуковым объектом, в то время как следующий звуковой объект не управляется, вообще невозможно.

Другой подход состоит не в осуществлении понижающего микширования объекта, а в передаче сигналов звуковых объектов, поскольку они являются отдельными переданными каналами. Такой сценарий хорошо работает, когда число звуковых объектов небольшое. Когда, например, существует только пять звуковых объектов, тогда можно передать эти пять различных звуковых объектов отдельно друг от друга в пределах сценария 5.1. Метаданные могут быть связаны с теми каналами, которые указывают на определенную природу объекта/канала. Тогда на стороне приемника переданные каналы могут управляться основываясь на переданных метаданных.

Неудобство этого подхода состоит в том, что он не является обратно-совместимым и работает хорошо только в контексте небольшого количества звуковых объектов. Когда число звуковых объектов увеличивается, также быстро увеличивается скорость передачи битов, требуемая для передачи всех объектов как отдельных определенных звуковых дорожек. Это увеличение скорости передачи битов особенно не полезно в контексте применения в радиопередачах.

Поэтому существующие подходы, эффективные относительно скорости передачи битов, не позволяют осуществлять индивидуальное управление отдельными звуковыми объектами. Такое индивидуальное управление доступно только, когда каждый объект будет передаваться отдельно. Этот подход, однако, не эффективен относительно скорости передачи битов и поэтому не подходит, конкретно, в сценариях радиопередач.

Задачей данного изобретения является обеспечение эффективной скорости передачи битов при гибком решения этих проблем.

Согласно первому аспекту данного изобретения это достигается посредством устройства для генерирования, по крайней мере, одного выходного звукового сигнала, представляющего суперпозицию, по крайней мере, двух различных звуковых объектов, включающего: процессор для обработки входного звукового сигнала, чтобы обеспечить объектное представление входного звукового сигнала, в котором, по крайней мере, два различных звуковых объекта отделены друг от друга, по крайней мере, два различных звуковых объекта доступны в качестве отдельных сигналов звуковых объектов и, по крайней мере, два различных звуковых объекта являются управляемыми независимо друг от друга;

манипулятор объекта для управления сигналом звукового объекта или микшированным сигналом звукового объекта, по крайней мере, одного звукового объекта, основанного на объектно-ориентированных метаданных, относящихся, по крайней мере, к одному звуковому объекту, чтобы получить управляемый сигнал звукового объекта или управляемый микшированный сигнал звукового объекта, по крайней мере, для одного звукового объекта; и микшер объекта для микширования объектного представления посредством объединения управляемого звукового объекта с неизмененным звуковым объектом или с другим управляемым звуковым объектом, управляемым иначе, чем, по крайней мере, одним звуковым объектом.

Согласно второму аспекту данного изобретения это достигается посредством способа генерирования, по крайней мере, одного выходного звукового сигнала, представляющего суперпозицию, по крайней мере, двух различных звуковых объектов, включающего:

обработку входного звукового сигнала, чтобы обеспечить объектное представление входного звукового сигнала, в котором, по крайней мере, два различных звуковых объекта отделены друг от друга, по крайней мере, два различных звуковых объекта доступны в качестве отдельных сигналов звуковых объектов и, по крайней мере, два различных звуковых объекта являются управляемыми независимо друг от друга; управление сигналом звукового объекта или микшированным сигналом звукового объекта, по крайней мере, одного звукового объекта, основанного на объектно-ориентированных метаданных, относящихся, по крайней мере, к одному звуковому объекту, чтобы получить управляемый сигнал звукового объекта или управляемый микшированный сигнал звукового объекта, по крайней мере, для одного звукового объекта; и микширование объектного представления посредством объединения управляемого звукового объекта с неизмененным звуковым объектом или с другим управляемым звуковым объектом, который управляется иначе, чем, по крайней мере, один звуковой объект.

Согласно третьему аспекту данного изобретения результат достигается посредством устройства для генерирования закодированного звукового сигнала, представляющего суперпозицию, по крайней мере, двух различных звуковых объектов, включающего:

форматер потока данных для форматирования потока данных таким образом, чтобы поток данных включал сигнал понижающего микширования объекта, представляющего собой комбинацию, по крайней мере, двух различных звуковых объектов, и в качестве дополнительной информации метаданные, относящиеся, по крайней мере, к одному из различных звуковых объектов.

Согласно четвертому аспекту данного изобретения результат достигается посредством способа генерирования закодированного звукового сигнала, представляющего суперпозицию, по крайней мере, двух различных звуковых объектов, включающего: форматирование потока данных таким образом, чтобы поток данных включал сигнал понижающего микширования объекта, представляющий собой комбинацию, по крайней мере, двух различных звуковых объектов, и в качестве дополнительной информации метаданные, относящиеся, по крайней мере, к одному из различных звуковых объектов.

Дальнейшие аспекты данного изобретения относятся к компьютерным программам, реализующим изобретения на способы, и к считываемому компьютером носителю данных, с сохраненным на нем сигналом понижающего микширования объекта и в качестве дополнительной информации параметрическими данными объекта и метаданными для одного или более звуковых объектов, включенных в сигнал понижающего микширования объекта.

Данное изобретение основывается на обнаружении того, что индивидуальное управление отдельными сигналами звуковых объектов или отдельными сериями микшированных сигналов звуковых объектов позволяет обеспечить индивидуальную связанную с объектом обработку, основанную на связанных с объектом метаданных. Согласно данному изобретению результат управления не выходит непосредственно на громкоговоритель, но предоставляется микшеру объекта, который генерирует выходные сигналы для определенного сценария предоставления, где выходные сигналы генерируются суперпозицией, по крайней мере, одного управляемого сигнала объекта, или ряда микшированных сигналов объекта вместе с другими управляемыми сигналами объекта и/или неизмененным сигналом объекта. Естественно, нет необходимости управлять каждым объектом, но в некоторых случаях бывает достаточно управлять только одним объектом и не управлять последующим объектом множества звуковых объектов. Результатом операции микширования объекта является один или множество выходных звуковых сигналов, которые основываются на управляемых объектах. Эти выходные звуковые сигналы могут быть переданы громкоговорителям или могут быть сохранены для дальнейшего использования, или могут даже быть переданы последующему приемнику в зависимости от определенного сценария применения.

Предпочтительно, чтобы входной сигнал в устройство управления/микширования, выполненное согласно изобретению, был сигналом понижающего микширования, сгенерированным посредством понижающего микширования множества сигналов звуковых объектов. Процесс понижающего микширования может контролироваться метаданными для каждого объекта индивидуально или может быть неконтролируемым, чтобы быть одинаковым для каждого объекта. В предыдущем случае управление объектом согласно метаданным является процессом индивидуального контролирования объекта и процессом микширования определенного объекта, в котором генерируется сигнал компонента громкоговорителя, представляющий этот объект. Предпочтительно, чтобы предоставлялись также пространственные параметры объекта, которые могут использоваться для реконструкции оригинальных сигналов посредством их приближенных версий, используя переданный сигнал понижающего микширования объекта. Тогда процессор для обработки входного звукового сигнала для обеспечения объектного представления входного звукового сигнала является эффективным для вычисления реконструированных версий оригинального звукового объекта, основанного на параметрических данных, где эти приближенные сигналы объекта могут затем индивидуально управляться объектно-ориентированными метаданными.

Предпочтительно, чтобы объектное представление (рендеринг) информации также предоставлялось там, где объектное представление информации включает информацию относительно предполагаемой звуковой установки воспроизведения и информацию относительно расположения индивидуальных звуковых объектов в пределах сценария воспроизведения. Определенные осуществления, однако, могут также работать без таких данных о местоположении объекта. Такие конфигурации являются, например, обеспечением стационарных положений объекта, которые могут быть прочно установлены или которые могут согласовываться между передатчиком и приемником для полной звуковой дорожки.

Краткое описание чертежей

Предпочтительные осуществления данного изобретения далее обсуждаются в контексте приложенных чертежей, в которых:

Фиг.1 иллюстрирует предпочтительное осуществление устройства для генерирования, по крайней мере, одного выходного звукового сигнала;

Фиг.2 иллюстрирует предпочтительное исполнение процессора фиг.1;

Фиг.3А иллюстрирует предпочтительное осуществление манипулятора для управления сигналами объекта;

Фиг.3В иллюстрирует предпочтительное исполнение микшера объекта в контексте манипулятора, как проиллюстрировано на фиг.3А;

Фиг.4 иллюстрирует конфигурацию процессора/манипулятора/микшера объекта в ситуации, в которой управление выполняется вслед за понижающим микшированием объекта, но до окончательного микширования объекта;

Фиг.5А иллюстрирует предпочтительное осуществление устройства для генерирования закодированного звукового сигнала;

Фиг.5В иллюстрирует сигнал передачи, имеющий понижающее микширование объекта, объектно-ориентированные метаданные и пространственные параметры объекта;

Фиг.6 иллюстрирует карту, показывающую несколько звуковых объектов, идентифицированных в соответствии с определенной идентификацией, имеющих файл звукового объекта, и матрицу Е объединенной информации о звуковом объекте;

Фиг.7 иллюстрирует объяснение матрицы Е ковариации объекта фиг.6:

Фиг.8 иллюстрирует матрицу понижающего микширования и звуковое кодирующее устройство объекта, управляемое матрицей D понижающего микширования;

Фиг.9 иллюстрирует заданную матрицу визуализации А, которая обычно предоставляется пользователем, и пример определенного заданного воспроизводящего сценария;

Фиг.10 иллюстрирует предпочтительное осуществление устройства для генерирования, по крайней мере, одного выходного звукового сигнала в соответствии с дальнейшим аспектом данного изобретения;

Фиг.11А иллюстрирует дальнейшее осуществление;

Фиг.1lВ иллюстрирует еще один вариант осуществления;

Фиг.11С иллюстрирует дальнейшее осуществление;

Фиг.12А иллюстрирует примерный сценарий применения; и

Фиг.12В иллюстрирует дальнейший примерный сценарий применения.

Детальное описание предпочтительных осуществлений

Чтобы разрешить вышеупомянутые проблемы, предпочтительный подход должен обеспечивать соответствующие метаданные наряду со звуковыми дорожками. Такие метаданные могут состоять из информации для управления следующими тремя факторами (три «классических» D):

- нормализация диалога,

- контроль динамического диапазона,

- понижающее микширование.

Такие звуковые метаданные помогают приемнику управлять полученным звуковым сигналом, основанным на настройках, выполненных слушателем. Чтобы отличить этот вид звуковых метаданных от других (например, описательные метаданные, такие как Автор, Название,..,), обычно делается ссылка на «Метаданные системы Долби» (потому что они выполняются только системой Долби). В дальнейшем рассматривается только этот вид звуковых метаданных и называется просто «метаданные».

Звуковые метаданные являются дополнительной управляющей информацией, которая переносится наряду со звуковой программой и имеет существенную для приемника информацию о звуке. Метаданные предоставляют многие важные функции, включая контроль динамического диапазона для далеко не идеальной окружающей среды прослушивания, приведение в соответствие уровня программ, информацию о понижающем микшировании для воспроизведения многоканального звука через меньшее количество каналов громкоговорителя и другую информацию.

Метаданные обеспечивают инструменты, необходимые для звуковых программ, которые будут воспроизведены точно и мастерски во многих различных ситуациях прослушивания от полнофункциональных домашних театров до средств развлечения в полете, независимо от числа каналов громкоговорителя, качества оборудования воспроизведения или относительного уровня окружающих шумов.

В то время как инженер или поставщик контента заботятся об обеспечении звука самого высокого качества, возможного в рамках программы, они не имеют возможности контролировать обширный массив бытовой электроники или окружающей среды прослушивания, которые будут воспроизводить оригинальную звуковую дорожку. Метаданные предоставляют инженеру или поставщику контента возможность контролировать то, как их работа воспроизводится и воспринимается почти в любой мыслимой окружающей среде прослушивания.

Метаданные системы Долби являются специальным форматом для предоставления информации для управления этими тремя упомянутыми факторами.

Три самые важные функциональные возможности метаданных системы Долби

- Нормализация диалога для достижения долгосрочного среднего уровня диалога в пределах представления, часто состоящего из различных типов программы, таких как игровой фильм, коммерческая реклама и т.д.

- Контроль динамического диапазона, чтобы доставить большей части аудитории удовольствие приятным звуковым сжатием, но в то же самое время позволить каждому индивидуальному потребителю управлять динамикой звукового сигнала и регулировать сжатие для ее или его личной окружающей среды прослушивания.

- Понижающее микширование для отображения звуков многоканального звукового сигнала до двух или одного канала в случае, если недоступно никакое многоканальное звуковое оборудование воспроизведения.

Метаданные системы Долби используются наряду с Цифровой системой Долби (АС-3) и системой Долби Е. Формат звуковых метаданных системы-Долби-Е, описанный в [16] Цифровой системы Долби (АС-3), предназначен для транслирования звука в дом посредством цифрового телевидения (высокого или стандартного разрешения), DVD или других носителей.

Цифровая система Долби может переносить все, что угодно, от одиночного звукового канала до полной программы с 5.1 каналами, включая метаданные. И в цифровом телевидении, и в DVD это часто используется для передачи стерео, а также полных 5.1 дискретных звуковых программ.

Система Долби Е определенно предназначена для распределения многоканального звука в пределах профессиональной окружающей среды производства и распределения. В любое время до доставки потребителю система Долби Е является предпочтительным способом распределения многоканальных/мультипрограммных звуков с видео. Система Долби Е может переносить до восьми дискретных звуковых каналов, скомпонованных в любое число индивидуальных программных конфигураций (включая метаданные для каждого) в пределах существующей двухканальной цифровой звуковой инфраструктуры. В отличие от Цифровой системы Долби система Долби Е может регулировать многие генерации кодировки/расшифровки и является синхронной с частотой видео кадров. Как и Цифровая система Долби, система Долби Е переносит метаданные для каждой индивидуальной звуковой программы, закодированной в пределах потока данных. Использование системы Долби Е позволяет расшифровывать, изменять и повторно кодировать получающийся звуковой поток данных без слышимой деградации. Поскольку поток системы Долби Е синхронен с частотой видео кадров, он может быть маршрутизирован, переключен и отредактирован в профессиональной окружающей среде радиопередачи.

Кроме этого, средство предоставляется наряду с MPEG ААС для осуществления контроля динамического диапазона и управления генерированием понижающего микширования.

Чтобы регулировать исходный материал с переменными пиковыми уровнями, средними уровнями и динамическим диапазоном способом, минимизирующим изменчивость для потребителя, необходимо контролировать воспроизведенный уровень таким образом, что, например, уровень диалога или средний музыкальный уровень устанавливался на контролируемый потребителем уровень при воспроизведении, независимо от того, как программа была создана. Дополнительно, не все потребители смогут слушать программы в хорошей (то есть с низким шумом) окружающей среде, без ограничения громкости звука при прослушивании. Автомобильная окружающая среда, например, имеет высокий уровень окружающего шума, и можно поэтому ожидать, что слушатель захочет уменьшить диапазон уровней, которые иначе были бы воспроизведены.

По обеим этим причинам контроль динамического диапазона должен быть доступным в пределах спецификации AAC (Advanced Audio Coding - усовершенствованное аудиокодирование). Чтобы достигнуть этого, необходимо сопровождать звук с пониженной скоростью передачи битов данными, используемыми для установки и контроля динамического диапазона пунктов программы. Этот контроль должен быть определен относительно контрольного уровня и в отношении к важным элементам программы, например диалогу.

Характеристики контроля динамического диапазона следующие.

1. Контроль динамического диапазона является полностью оптимальным. Поэтому при правильном синтаксисе не происходит изменение сложности для тех, кто не желает активизировать DRC (контроль соблюдения проектных норм).

2. Звуковые данные с пониженной скоростью передачи битов передаются с полным динамическим диапазоном исходного материала, с вспомогательными данными, чтобы способствовать контролю динамического диапазона.

3. Данные контроля динамического диапазона могут быть посланы на каждый фрейм, чтобы уменьшить до минимума время ожидания при установке коэффициентов усиления воспроизведения.

4. Данные контроля динамического диапазона посылаются посредством использования характеристики «элемент заполнения» (fill_element) AAC (формат усовершенствованного аудиокодирования).

5. Контрольный Уровень определяется как Полномасштабный.

6. Контрольный Уровень Программы передается, чтобы обеспечить равенство уровней воспроизведения различных источников и обеспечить ссылку, на которую может опираться контроль динамического диапазона. Именно эта характеристика исходного сигнала наиболее релевантна для субъективного впечатления от громкости программы, такого как уровень контента диалога программы или средний уровень музыкальной программы.

7. Контрольный Уровень Программы представляет тот уровень программы, который может быть воспроизведен при заданном уровне относительно Контрольного Уровня в аппаратных средствах потребителя, чтобы достигнуть равенства уровня воспроизведения. Относительно этого более тихие части программы могут быть усилены по уровню, а более громкие части программы могут быть ослаблены по уровню.

8. Контрольный Уровень Программы определяется в пределах диапазона от 0 до -31.75 децибел относительно Контрольного Уровня.

9. Контрольный Уровень Программы использует 7-битовое поле с шагом в 0.25 децибел.

10. Контроль динамического диапазона определяется в пределах диапазона ±31.75 децибел.

11. Контроль динамического диапазона использует 8-битовое поле (1 знак, 7 значений) с шагом в 0.25 децибел.

12. Контроль динамического диапазона может быть применен ко всем спектральным коэффициентам звукового канала или диапазонам частот как к единому объекту, или коэффициенты могут быть разделены на различные группы масштабных коэффициентов, каждый управляется отдельно отдельными наборами данных контроля динамического диапазона.

13. Контроль динамического диапазона может применяться ко всем каналам (стерео или многоканального битового потока) как к единому объекту или может быть разделен, при этом группы каналов будут управляться отдельно отдельными наборами данных контроля динамического диапазона.

14. Если предполагаемый набор данных контроля динамического диапазона отсутствует, должны использоваться полученные последними действительные значения.

15. Не все элементы данных контроля динамического диапазона посылаются каждый раз. Например, Контрольный Уровень Программы может посылаться в среднем только один раз каждые 200 миллисекунд.

16. Где необходимо, обнаружение/защита от ошибок обеспечивается Транспортным Уровнем (уровнем переноса).

17. Пользователю будет предоставлено средство для изменения степени контроля динамического диапазона, присутствующего в битовом потоке, который применяется к уровню сигнала.

Помимо возможности передать отдельные моно- или стереомикшированные с понижением каналы в передаче с 5.1 каналами, ААС также позволяет автоматическое генерирование понижающего микширования от исходной дорожки с 5-ю каналами. Канал LFE должен быть опущен в этом случае.

Этот способ матричного понижающего микширования может управляться редактором звуковой дорожки с небольшим набором параметров, определяющих количество задних каналов, добавленных к понижающему микшированию.

Способ матричного понижающего микширования применяется только для микширования 3-передняя/2-задняя конфигурации громкоговорителя, программы с 5 каналами, до стерео- или монопрограммы. Он не применяется ни к какой другой программе кроме 3/2 конфигурации.

В пределах MPEG предоставляются несколько средств для управления представлением звука (аудиорендерингом) на стороне приемника.

Типовая технология предоставляется языком описания сцены, например BIFS и LASeR. Обе технологии используются для воспроизведения аудиовизуальных элементов из разделенных закодированных объектов в сцену воспроизведения.

BIFS стандартизированы в [5] и LASeR в [6].

MPEG-D главным образом имеет дело с (параметрическими) описаниями (то есть метаданными):

- чтобы генерировать многоканальный звук, основанный на звуковых представлениях понижающего микширования (MPEG Surround (объемного звучания)); и

- чтобы генерировать параметры MPEG Surround, основанные на звуковых объектах (MPEG Пространственное звуковое кодирование объекта).

MPEG Surround использует межканальные различия в уровне, фазе и когерентности, эквивалентные репликам ILD, ITD и IC, чтобы захватить пространственное изображение многоканального звукового сигнала относительно переданного сигнала понижающего микширования, и кодирует эти реплики в очень компактной форме таким образом, что реплики и переданный сигнал могут быть расшифрованы, чтобы синтезировать высококачественное многоканальное представление. MPEG Surround кодирующее устройство получает многоканальный звуковой сигнал, где N - число входных каналов (например, 5.1). Ключевой аспект процесса кодирования - то, что сигнал понижающего микширования, xt1 и xt2, который обычно бывает стерео (но может также быть моно), получается из многоканального входного сигнала, и именно этот сигнал понижающего микширования сжимается для передачи по каналу, а не многоканальный сигнал. Кодирующее устройство может выгодно использовать процесс понижающего микширования таким образом, что оно создает точный эквивалент многоканального сигнала в моно- или стереопонижающем микшировании, а также создает самую лучшую многоканальную расшифровку, основанную на понижающем микшировании и закодированных пространственных репликах. Альтернативно, понижающее микширование может поставляться внешне. MPEG Surround процесс кодирования независим от алгоритма сжатия, используемого для переданных каналов; это может быть любой из многих высокоэффективных алгоритмов сжатия, таких как MPEG-1 Слой III, MPEG-4 ААС или MPEG-4 Высокопроизводительной ААС, или это может быть даже РСМ (ИКМ - импульсно-кодовая модуляция [сигнала]).

Технология MPEG Surround поддерживает очень эффективное параметрическое кодирование многоканальных звуковых сигналов. Идея MPEG SAOC (пространственное кодирование звукового объекта) состоит в том, чтобы применить аналогичные основные допущения вместе с аналогичным параметрическим представлением для очень эффективного параметрического кодирования индивидуальных звуковых объектов (дорожки). Дополнительно, включается функциональная возможность представления, чтобы в интерактивном режиме представлять звуковые объекты в акустической сцене для нескольких типов систем воспроизведения (1.0, 2.0, 5.0… для громкоговорителей или бинаурального для наушников). SAOC разработан, чтобы передать ряд звуковых объектов в объединенный моно- или стереосигнал понижающего микширования, чтобы позже обеспечить воспроизведение индивидуальных объектов в звуковой сцене, предоставленной в интерактивном режиме. С этой целью SAOC кодирует Разность Уровней Объекта (OLD), Межобъектные перекрестные когерентности (IOC) и Разность Уровней Канала Понижающего микширования (DCLD) в параметрический битовый поток. SAOC декодер превращает SAOC параметрическое представление в MPEG Surround параметрическое представление, которое потом расшифровывается вместе с сигналом понижающего микширования посредством MPEG Surround декодера, чтобы произвести желательную звуковую сцену. Пользователь в интерактивном режиме управляет этим процессом, чтобы изменить представление звуковых объектов в получающейся звуковой сцене. Среди многочисленных вероятных применений SAOC далее перечислены несколько типичных сценариев.

Потребители могут создать личные интерактивные ремиксы, используя виртуальный микшерный пульт. Определенные инструменты могут быть, например, ослаблены для подыгрывания (как Караоке), оригинальный микс может быть изменен, чтобы удовлетворить личный вкус, уровень диалога в кинофильмах/радиопередачах может быть приспособлен для лучшей разборчивости речи и т.д.

Для интерактивных игр SAOC - это память и в вычислительном отношении эффективный способ воспроизведения саундтреков. Перемещение в виртуальной сцене отражается адаптацией объекта, воспроизводящего параметры. Сетевые игры со многими игроками извлекают выгоду из эффективности передачи, используя один поток SAOC, чтобы представить все звуковые объекты, которые являются внешними, на терминал определенного игрока.

В контексте этого применения термин «звуковой объект» также включает термин «основа», известный в сценариях производства звука. В частности, основы - индивидуальные компоненты микса, отдельно сохраненные (обычно на диске) в целях использования в ремиксах. Родственные основы обычно возвращаются из того же самого оригинального местоположения. Примером может быть основа барабана (включает все родственные барабану инструменты в миксе), вокальная основа (включает только речевые дорожки) или ритмическая основа (включает все ритмически связанные инструменты, такие как барабаны, гитара, клавиатура,…).

Современная телекоммуникационная инфраструктура является монофонической и ее функциональные возможности могут быть расширены. Терминалы, оборудованные расширением SAOC, улавливают несколько звуковых источников (объектов) и производят монофонический сигнал понижающего микширования, который передается совместимым способом при использовании существующих (речевых) кодировщиков. Дополнительная информация может передаваться вложенным обратно совместимым способом. Традиционные терминалы продолжат производить монофонический вывод данных, в то время как SAOC-задействованные терминалы могут воспроизводить акустическую сцену и таким образом увеличивать разборчивость, пространственно разделяя различных говорящих субъектов («эффект коктейльной вечеринки»).

Краткий обзор реально доступных применений звуковых метаданных системы Долби описывается в следующем разделе.

Полуночный режим.

Как упомянуто выше, могут существовать сценарии, где слушатель, возможно, не захочет получать высокий динамический сигнал. Поэтому слушатель может активизировать так называемый «полуночный режим» своего приемника. Тогда компрессор применяется к полному звуковому сигналу. Чтобы контролировать параметры этого компрессора, переданные метаданные оцениваются и применяются к полному звуковому сигналу.

Чистый звук.

Другой сценарий - люди с ослабленным слухом, которые не хотят иметь высоко динамический окружающий шум, но хотят иметь довольно чистый сигнал, содержащий диалоги («Clean Audio» - чистый звук). Этот режим может также быть задействован посредством использования метаданных.

В настоящее время предлагаемое решение определено в [15] - Приложение Е. Баланс между главным стереосигналом и дополнительным моно каналом, описывающим диалог, регулируется здесь индивидуальным набором параметров уровня. Предложенное решение, основанное на отдельном синтаксисе, называется дополнительным звуковым обслуживанием в DVB (цифровое видео- и телевещание).

Понижающее микширование.

Существуют отдельные параметры метаданных, которые управляют L/R понижающим микшированием. Определенные параметры метаданных позволяют инженеру выбирать, как строится стереопонижающее микширование и какой стереоаналоговый сигнал предпочтителен. Здесь центральный и окружающий уровни понижающего микширования определяют окончательный баланс микширования сигнала понижающего микширования для каждого декодера.

Фиг.1 иллюстрирует устройство для генерирования, по крайней мере, одного выходного звукового сигнала, представляющего суперпозицию, по крайней мере, двух различных звуковых объектов в соответствии с предпочтительным осуществлением данного изобретения. Устройство фиг.1 включает процессор 10 для обработки входного звукового сигнала 11 для обеспечения представления объекта 12 входного звукового сигнала, в котором, по крайней мере, два различных звуковых объект