Декодер, кодер и способ информированной оценки громкости с использованием обходных сигналов аудиообъектов в системах основывающегося на объектах кодирования аудио

Иллюстрации

Показать все

Изобретение относится к кодированию и декодированию аудиосигналов. Технический результат изобретения заключается в улучшении эффективности кодирования, обработки и декодирования аудиосигналов. Декодер содержит интерфейс (110) приема входного аудиосигнала, содержащего множество сигналов аудиообъектов, для приема информации громкости о сигналах аудиообъектов и информации воспроизведения, указывающей, должен ли один или более из сигналов аудиообъектов усиливаться или ослабляться. Декодер содержит сигнальный процессор (120) для генерирования упомянутых одного или более выходных аудиоканалов выходного аудиосигнала. Сигнальный процессор (120) сконфигурирован с возможностью определять значение компенсации громкости в зависимости от информации громкости и в зависимости от информации воспроизведения. Сигнальный процессор (120) сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов выходного аудиосигнала из входного аудиосигнала в зависимости от информации воспроизведения и в зависимости от значения компенсации громкости. 7 н. и 9 з.п. ф-лы, 12 ил.

Реферат

Настоящее изобретение относится к кодированию аудиосигналов, обработке и декодированию, и, в частности, к декодеру, кодеру и способу информированной оценки громкости в системах основывающегося на объектах кодирования аудио.

В последнее время, параметрические способы для эффективных в отношении битовой скорости передачи/хранения аудиосцен, содержащих множество сигналов аудиообъектов, были предложены в области кодирования аудио [BCC, JSC, SAOC, SAOC1, SAOC2] и информированного разделения источников [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Эти способы направлены на восстановление требуемой выходной аудиосцены или объекта аудиоисточника на основе дополнительной вспомогательной информации, описывающей переданную/сохраненную аудиосцену и/или объекты источников в аудиосцене. Это восстановление происходит в декодере с использованием схемы информированного разделения источников. Восстановленные объекты могут комбинироваться, чтобы вырабатывать выходную аудиосцену. В зависимости от способа, с помощью которого объекты комбинируются, воспринимаемая громкость выходной сцены может изменяться.

В телевизионном и радиовещании, уровни звука аудиодорожек различных программ могут нормализовываться на основе различных аспектов, таких как пиковый уровень сигнала или уровень громкости. В зависимости от динамических свойств сигналов, два сигнала с одним и тем же пиковым уровнем могут иметь широко различающийся уровень воспринимаемой громкости. Теперь при переключении между программами или каналами различия в громкости сигнала являются очень раздражающими и являются главным источником жалоб конечных пользователей в широковещании.

В предшествующем уровне техники, было предложено нормализовывать все программы на всех каналах аналогично общему опорному уровню с использованием меры на основе воспринимаемой громкости сигнала. Одной такой рекомендацией в Европе является Рекомендация EBU R128 [EBU] (ниже упоминаемая как R128).

Рекомендация говорит, что "громкость программы", например, средняя громкость по одной программе (или одному рекламному ролику, или некоторой другой имеющей смысл программной сущности) должна равняться определенному уровню (с малыми разрешенными отклонениями). Когда больше и больше вещательных компаний находятся в соответствии с этой рекомендацией и требуемой нормализацией, различия в средней громкости между программами и каналами должны минимизироваться.

Оценка громкости может выполняться несколькими способами. Существует несколько математических моделей для оценки воспринимаемой громкости аудиосигнала. Рекомендация EBU R128 полагается на модель, представленную в ITU-R BS.1770 (ниже упоминаемую как BS.1770) (см. [ITU]) для оценки громкости.

Как указывалось ранее, например, согласно рекомендации EBU R128, громкость программы, например, средняя громкость по одной программе, должна равняться определенному уровню с малыми разрешенными отклонениями. Однако это ведет к значительным проблемам, когда выполняется воспроизведение аудио, нерешенным до сих пор в предшествующем уровне техники. Выполнение воспроизведения аудио на стороне декодера имеет значительное влияние на общую/полную громкость принятого входного аудиосигнала. Однако, несмотря на выполнение воспроизведения сцены, полная громкость принятого аудиосигнала должна оставаться одной и той же.

В текущее время, для этой проблемы никакого конкретного решения стороны декодера не существует.

EP 2 146 522 A1 ([EP]), относится к концепциям для генерирования выходных аудиосигналов с использованием основывающихся на объектах метаданных. Генерируется, по меньшей мере, один выходной аудиосигнал, представляющий суперпозицию, по меньшей мере, двух разных сигналов аудиообъектов, но не обеспечивает решение для этой проблемы.

WO 2008/035275 A2 ([BRE]) описывает аудиосистему, содержащую кодер, который кодирует аудиообъекты в блоке кодирования, который генерирует микшированный с понижением аудиосигнал и параметрические данные, представляющие множество аудиообъектов. Микшированный с понижением аудиосигнал и параметрические данные передаются в декодер, который содержит блок декодирования, который генерирует приблизительные дубликаты аудиообъектов, и блок воспроизведения, который генерирует выходной сигнал из аудиообъектов. Декодер дополнительно содержит процессор для генерирования данных модификации кодирования, которые посылаются в кодер. Кодер затем модифицирует кодирование аудиообъектов, и, в частности, модифицирует параметрические данные, в ответ на данные модификации кодирования. Подход обеспечивает возможность манипулирования аудиообъектами, подлежащими управлению посредством декодера, но выполняемого полностью или частично посредством кодера. Таким образом, манипулирование может выполняться над фактическими независимыми аудиообъектами, нежели над приблизительными дубликатами, тем самым, обеспечивая улучшенную производительность.

EP 2 146 522 A1 ([SCH]) раскрывает устройство для генерирования, по меньшей мере, одного выходного аудиосигнала, представляющего суперпозицию, по меньшей мере, двух разных аудиообъектов, содержащее процессор для обработки входного аудиосигнала, чтобы обеспечивать объектное представление входного аудиосигнала, где это объектное представление может генерироваться посредством параметрически направляемого приближения исходных объектов с использованием микшированного с понижением сигнала объектов. Модуль манипулирования объектами индивидуально манипулирует объектами с использованием основывающихся на аудиообъектах метаданных, ссылающихся на индивидуальные аудиообъекты, чтобы получать подвергнутые манипулированию аудиообъекты. Подвергнутые манипулированию аудиообъекты микшируются с использованием модуля микширования объектов для окончательного получения выходного аудиосигнала, имеющего один или несколько канальных сигналов в зависимости от конкретной настройки воспроизведения.

WO 2008/046531 A1 ([ENG]) описывает кодер аудиообъектов для генерирования кодированного сигнала объектов с использованием множества аудиообъектов, включающий в себя генератор информации понижающего микширования для генерирования информации понижающего микширования, указывающей распределение множества аудиообъектов в, по меньшей мере, двух каналах понижающего микширования, генератор параметров аудиообъектов для генерирования параметров объектов для аудиообъектов, и интерфейс вывода для генерирования импортированного выходного аудиосигнала с использованием информации понижающего микширования и параметров объектов. Синтезатор аудио использует информацию понижающего микширования для генерирования выходных данных, используемых для создания множества выходных каналов предварительно определенной выходной конфигурации аудио.

Было бы желательным иметь точную оценку выходной средней громкости или изменения в средней громкости без задержки, и когда программа не изменяется или сцена воспроизведения не изменяется, оценка средней громкости также должна оставаться статической.

Цель настоящего изобретения состоит в том, чтобы обеспечить улучшенные концепции кодирования, обработки и декодирования аудиосигналов. Цель настоящего изобретения решается посредством декодера согласно пункту 1 формулы изобретения, посредством кодера согласно пункту 9 формулы изобретения, посредством системы согласно пункту 11 формулы изобретения, посредством способа согласно пункту 12 формулы изобретения, посредством способа согласно пункту 13 формулы изобретения и посредством компьютерной программы согласно пункту 15 формулы изобретения.

Обеспечивается информированный способ оценки громкости вывода в системе основывающегося на объектах кодирования аудио. Обеспеченные концепции полагаются на информацию о громкости объектов в результате микширования аудио, подлежащем обеспечению в декодер. Декодер использует эту информацию вместе с информацией воспроизведения для оценки громкости выходного сигнала. Это обеспечивает возможность затем, например, оценивать различие громкости между устанавливаемым по умолчанию микшированным с понижением и воспроизводимым выводом. Тогда является возможным компенсировать различие, чтобы получать приблизительно постоянную громкость на выходе независимо от информации воспроизведения. Оценка громкости в декодере выполняется полностью параметрическим способом, и является вычислительно очень легкой и точной по сравнению с концепциями основывающейся на сигналах оценки громкости.

Обеспечиваются концепции для получения информации о громкости конкретной выходной сцены с использованием чисто параметрических концепций, которые затем обеспечивают возможность для обработки громкости без явной основывающейся на сигналах оценки громкости в декодере. Более того, описывается конкретная технология пространственного кодирования аудиообъектов (SAOC), стандартизированная посредством MPEG [SAOC], но обеспеченные концепции могут использоваться в соединении с другими технологиями кодирования аудиообъектов, также.

Обеспечивается декодер для генерирования выходного аудиосигнала, содержащего один или более выходных аудиоканалов. Декодер содержит интерфейс приема для приема входного аудиосигнала, содержащего множество сигналов аудиообъектов, для приема информации громкости о сигналах аудиообъектов, и для приема информации воспроизведения, указывающей, должен ли один или более из сигналов аудиообъектов усиливаться или ослабляться. Более того, декодер содержит сигнальный процессор для генерирования упомянутых одного или более выходных аудиоканалов выходного аудиосигнала. Сигнальный процессор сконфигурирован с возможностью определять значение компенсации громкости в зависимости от информации громкости и в зависимости от информации воспроизведения. Дополнительно, сигнальный процессор сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов выходного аудиосигнала из входного аудиосигнала в зависимости от информации воспроизведения и в зависимости от значения компенсации громкости.

Согласно одному варианту осуществления, сигнальный процессор может быть сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов выходного аудиосигнала из входного аудиосигнала в зависимости от информации воспроизведения и в зависимости от значения компенсации громкости, так что громкость выходного аудиосигнала равняется громкости входного аудиосигнала, или так что громкость выходного аудиосигнала является более близкой к громкости входного аудиосигнала, чем громкость модифицированного аудиосигнала, который бы проистекал из модификации входного аудиосигнала посредством усиления или ослабления сигналов аудиообъектов входного аудиосигнала согласно информации воспроизведения.

Согласно другому варианту осуществления, каждый из сигналов аудиообъектов входного аудиосигнала может назначаться в точности одной группе из двух или более групп, при этом каждая из упомянутых двух или более групп может содержать один или более из сигналов аудиообъектов входного аудиосигнала. В таком варианте осуществления, интерфейс приема может быть сконфигурирован с возможностью принимать значение громкости для каждой группы из упомянутых двух или более групп в качестве информации громкости, при этом упомянутое значение громкости указывает исходную полную громкость упомянутых одного или более сигналов аудиообъектов из упомянутой группы. Дополнительно, интерфейс приема может быть сконфигурирован с возможностью принимать информацию воспроизведения, указывающую для, по меньшей мере, одной группы из упомянутых двух или более групп, должны ли упомянутые один или более сигналов аудиообъектов из упомянутой группы усиливаться или ослабляться, посредством указания модифицированной полной громкости упомянутых одного или более сигналов аудиообъектов из упомянутой группы. Более того, в таком варианте осуществления, сигнальный процессор может быть сконфигурирован с возможностью определять значение компенсации громкости в зависимости от модифицированной полной громкости каждой из упомянутой, по меньшей мере, одной группы из упомянутых двух или более групп и в зависимости от исходной полной громкости каждой из упомянутых двух или более групп. Дополнительно, сигнальный процессор может быть сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов выходного аудиосигнала из входного аудиосигнала в зависимости от модифицированной полной громкости каждой из упомянутой, по меньшей мере, одной группы из упомянутых двух или более групп и в зависимости от значения компенсации громкости.

В конкретных вариантах осуществления, по меньшей мере, одна группа из упомянутых двух или более групп может содержать два или более из сигналов аудиообъектов.

Более того, обеспечивается кодер. Кодер содержит блок основывающегося на объектах кодирования для кодирования множества сигналов аудиообъектов, чтобы получать кодированный аудиосигнал, содержащий множество сигналов аудиообъектов. Дополнительно, кодер содержит блок кодирования громкости объектов для кодирования информации громкости о сигналах аудиообъектов. Информация громкости содержит одно или более значений громкости, при этом каждое из упомянутых одного или более значений громкости зависит от одного или более из сигналов аудиообъектов.

Согласно одному варианту осуществления, каждый из сигналов аудиообъектов из кодированного аудиосигнала может назначаться в точности одной группе из двух или более групп, при этом каждая из упомянутых двух или более групп содержит один или более из сигналов аудиообъектов из кодированного аудиосигнала. Блок кодирования громкости объектов может быть сконфигурирован с возможностью определять упомянутые одно или более значений громкости информации громкости посредством определения значения громкости для каждой группы из упомянутых двух или более групп, при этом упомянутое значение громкости упомянутой группы указывает исходную полную громкость упомянутых одного или более сигналов аудиообъектов из упомянутой группы.

Дополнительно, обеспечивается система. Система содержит кодер согласно одному из вышеописанных вариантов осуществления для кодирования множества сигналов аудиообъектов, чтобы получать кодированный аудиосигнал, содержащий множество сигналов аудиообъектов, и для кодирования информации громкости о сигналах аудиообъектов. Дополнительно, система содержит декодер согласно одному из вышеописанных вариантов осуществления для генерирования выходного аудиосигнала, содержащего один или более выходных аудиоканалов. Декодер сконфигурирован с возможностью принимать кодированный аудиосигнал в качестве входного аудиосигнала и информацию громкости. Более того, декодер сконфигурирован с возможностью дополнительно принимать информацию воспроизведения. Дополнительно, декодер сконфигурирован с возможностью определять значение компенсации громкости в зависимости от информации громкости и в зависимости от информации воспроизведения. Более того, декодер сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов выходного аудиосигнала из входного аудиосигнала в зависимости от информации воспроизведения и в зависимости от значения компенсации громкости.

Более того, обеспечивается способ генерирования выходного аудиосигнала, содержащего один или более выходных аудиоканалов. Способ содержит:

- Прием входного аудиосигнала, содержащего множество сигналов аудиообъектов.

- Прием информации громкости о сигналах аудиообъектов.

- Прием информации воспроизведения, указывающей, должен ли один или более из сигналов аудиообъектов усиливаться или ослабляться.

- Определение значения компенсации громкости в зависимости от информации громкости и в зависимости от информации воспроизведения. Кроме того:

- Генерирование упомянутых одного или более выходных аудиоканалов выходного аудиосигнала из входного аудиосигнала в зависимости от информации воспроизведения и в зависимости от значения компенсации громкости.

Дополнительно, обеспечивается способ кодирования. Способ содержит:

- Кодирование входного аудиосигнала, содержащего множество сигналов аудиообъектов. Кроме того:

- Кодирование информации громкости о сигналах аудиообъектов, при этом информация громкости содержит одно или более значений громкости, при этом каждое из упомянутых одного или более значений громкости зависит от одного или более из сигналов аудиообъектов.

Более того, обеспечивается компьютерная программа для осуществления вышеописанного способа при исполнении на компьютере или сигнальном процессоре.

Предпочтительные варианты осуществления обеспечиваются в зависимых пунктах формулы изобретения.

В последующем, варианты осуществления настоящего изобретения описываются более подробно со ссылкой на фигуры, на которых:

Фиг. 1 иллюстрирует декодер для генерирования выходного аудиосигнала, содержащего один или более выходных аудиоканалов согласно одному варианту осуществления,

Фиг. 2 иллюстрирует кодер согласно одному варианту осуществления,

Фиг. 3 иллюстрирует систему согласно одному варианту осуществления,

Фиг. 4 иллюстрирует систему пространственного кодирования аудиообъектов, содержащую кодер SAOC и декодер SAOC,

Фиг. 5 иллюстрирует декодер SAOC, содержащий декодер вспомогательной информации, разделитель объектов и модуль воспроизведения,

Фиг. 6 иллюстрирует поведение оценок громкости выходного сигнала при изменении громкости,

фиг. 7 изображает информированную оценку громкости согласно одному варианту осуществления, иллюстрируя компоненты кодера и декодера согласно одному варианту осуществления,

Фиг. 8 иллюстрирует кодер согласно другому варианту осуществления,

Фиг. 9 иллюстрирует кодер и декодер согласно одному варианту осуществления, относящемуся к улучшению диалогов SAOC, который содержит обходные каналы,

Фиг. 10 изображает первую иллюстрацию измеренного изменения громкости и результата использования обеспеченных концепций для оценки изменения в громкости параметрическим способом,

Фиг. 11 изображает вторую иллюстрацию измеренного изменения громкости и результат использования обеспеченных концепций для оценки изменения в громкости параметрическим способом, и

Фиг. 12 иллюстрирует другой вариант осуществления для выполнения компенсации громкости.

Перед подробным описанием предпочтительных вариантов осуществления, описываются оценка громкости, пространственное кодирование аудиообъектов (SAOC) и улучшение диалогов (DE).

Сначала, описывается оценка громкости.

Как уже указывалось ранее, рекомендация EBU R128 полагается на модель, представленную в ITU-R BS.1770, для оценки громкости. Эта мера будет использоваться в качестве примера, но описанные концепции ниже могут применяться также для других мер громкости.

Операция оценки громкости согласно BS.1770 является относительно простой и она основывается на следующих основных этапах [ITU]:

- Входной сигнал xi (или сигналы в случае многоканального сигнала) фильтруется с помощью K-фильтра (комбинации полочного и высокочастотного фильтров), чтобы получать сигнал (сигналы) yi.

- Вычисляется среднеквадратичная энергия zi сигнала yi.

- В случае многоканального сигнала, применяется Gi взвешивание по каналам, и взвешенные сигналы складываются. Громкость сигнала затем определяется как

где постоянное значение c=-0,691. Вывод затем выражается в единицах "LKFS" (громкость, K - взвешенная, по отношению к полной шкале), что является шкалой, аналогичной шкале в децибелах.

В вышеописанной формуле, Gi может, например, равняться 1 для некоторых из каналов, в то время как Gi может, например, равняться 1,41 для некоторых других каналов. Например, если рассматривается левый канал, правый канал, центральный канал, левый канал объемного звука и правый канал объемного звука, соответствующие веса Gi могут, например, равняться 1 для левого, правого и центрального канала, и могут, например, равняться 1.41 для левого канала объемного звука и правого канала объемного звука, см. [ITU].

Можно видеть, что значение громкости L близко связано с логарифмом энергии сигнала.

В последующем, описывается пространственное кодирование аудиообъектов.

Концепции основывающегося на объектах кодирования аудио обеспечивают возможность для большой гибкости на стороне декодера цепи. Примером концепции основывающегося на объектах кодирования аудио является пространственное кодирование аудиообъектов (SAOC).

Фиг. 4 иллюстрирует систему пространственного кодирования аудиообъектов (SAOC), содержащую кодер 410 SAOC и декодер 420 SAOC.

Кодер 410 SAOC принимает N сигналов аудиообъектов в качестве ввода. Более того, кодер 410 SAOC дополнительно принимает инструкции "Информация микширования D" в отношении того, как эти объекты должны комбинироваться, чтобы получать микшированный с понижением сигнал, содержащий M каналов понижающего микширования . Кодер 410 SAOC извлекает некоторую вспомогательную информацию из объектов и из обработки понижающего микширования, и эта вспомогательная информация передается и/или сохраняется вместе с микшированными с понижением сигналами.

Главное свойство системы SAOC состоит в том, что микшированный с понижением сигнал X, содержащий каналы понижающего микширования , формирует семантически содержательный сигнал. Другими словами, является возможным прослушивать микшированный с понижением сигнал. Если, например, приемник не имеет функциональной возможности декодера SAOC, приемник может несмотря ни на что всегда обеспечивать микшированный с понижением сигнал в качестве вывода.

Фиг. 5 иллюстрирует декодер SAOC, содержащий декодер 510 вспомогательной информации, разделитель 520 объектов и модуль 530 воспроизведения. Декодер SAOC, проиллюстрированный посредством фиг. 5, принимает, например, от кодера SAOC, микшированный с понижением сигнал и вспомогательную информацию. Микшированный с понижением сигнал может рассматриваться в качестве входного аудиосигнала, содержащего сигналы аудиообъектов, так как сигналы аудиообъектов микшированы внутри микшированного с понижением сигнала (сигналы аудиообъектов микшированы внутри упомянутых одного или более каналов понижающего микширования микшированного с понижением сигнала).

Декодер SAOC может, например, затем пытаться (виртуально) восстановить исходные объекты, например, посредством использования разделителя 520 объектов, например, с использованием декодированной вспомогательной информации. Эти (виртуальные) восстановления объектов , например, восстановленные сигналы аудиообъектов, затем комбинируются на основе информации воспроизведения, например, матрицы воспроизведения R, чтобы вырабатывать K выходных аудиоканалов выходного аудиосигнала Y.

В SAOC, часто, сигналы аудиообъектов, например, восстанавливаются, например, посредством использования ковариационной информации, например, ковариационной матрицы сигналов E, которая передается от кодера SAOC в декодер SAOC.

Например, может использоваться следующая формула, чтобы восстанавливать сигналы аудиообъектов на стороне декодера:

, где ,

где

N количество сигналов аудиообъектов,

Nsamples количество рассматриваемых выборок сигнала аудиообъекта

M количество каналов понижающего микширования,

X микшированный с понижением аудиосигнал, размер M×NSamples,

D матрица понижающего микширования, размер M×N

E ковариационная матрица сигналов, размер N×N, определяется как

S параметрически восстановленные N сигналов аудиообъектов, размер N×NSamples

самосопряженный (эрмитов) оператор, который представляет сопряженное транспонирование для

Тогда, матрица воспроизведения R может применяться на восстановленных сигналах аудиообъектов S, чтобы получать выходные аудиоканалы выходного аудиосигнала Y, например, согласно формуле:

,

где

K - количество выходных аудиоканалов выходного аудиосигнала Y.

R - матрица воспроизведения размера K×N

Y - выходной аудиосигнал, содержащий K выходных аудиоканалов, размер K×NSamples

На фиг. 5, обработка восстановления объектов, например, выполняемая посредством разделителя 520 объектов, упоминается с использованием признака "виртуальная", или "необязательная", так как она может не быть обязательно необходимой, чтобы выполняться, но требуемая функциональная возможность может получаться посредством комбинирования этапов восстановления и воспроизведения в параметрической области (то есть комбинирования уравнений).

Другими словами, вместо сначала восстановления сигналов аудиообъектов с использованием информации микширования D и ковариационной информации E, и затем применения информации воспроизведения R на восстановленных сигналах аудиообъектов, чтобы получать выходные аудиоканалы , оба этапа могут выполняться в одиночном этапе, так что выходные аудиоканалы напрямую генерируются из каналов понижающего микширования.

Например, может использоваться следующая формула:

, где .

В принципе, информация воспроизведения R может запрашивать любую комбинацию исходных сигналов аудиообъектов. На практике, однако, восстановления объектов могут содержать ошибки восстановления и запрошенная выходная сцена может не необходимо достигаться. Как грубое общее правило, охватывающее много практических случаев, чем больше запрошенная выходная сцена отличается от микшированного с понижением сигнала, тем больше будет слышимых ошибок восстановления.

В последующем, описывается улучшение диалогов (DE). Технология SAOC может, например, использоваться, чтобы реализовывать сценарий. Следует отметить, что даже хотя название "Улучшение диалогов" подсказывает сосредоточение на ориентированных на диалоги сигналах, тот же принцип может использоваться с другими типами сигналов, также.

В сценарии DE, степени свободы в системе ограничены от общего случая.

Например, сигналы аудиообъектов группируются (и возможно микшируются) в два метаобъекта из объекта переднего плана (FGO) SFGO и объекта заднего плана (BGO) SBGO.

Более того, выходная сцена имеет сходство с микшированным с понижением сигналом . Более конкретно, оба сигнала имеют одни и те же размерности, то есть K=M, и конечный пользователь может управлять только относительными уровнями микширования упомянутых двух метаобъектов FGO и BGO. Чтобы быть более точными, микшированный с понижением сигнал получается посредством микширования FGO и BGO с некоторыми скалярными весами

и выходная сцена получается аналогично с некоторым скалярным взвешиванием FGO и BGO:

В зависимости от относительных значений весов микширования, баланс между FGO и BGO может изменяться. Например, с помощью установки

является возможным увеличивать относительный уровень FGO в результате микширования. Если FGO является диалогом, эта установка обеспечивает функциональную возможность улучшения диалога.

В качестве примера случая использования, BGO может быть шумами стадиона и другим звуком заднего плана в течение события спортивных состязаний и FGO является речью комментатора. Функциональная возможность DE обеспечивает возможность конечному пользователю усиливать или ослаблять уровень комментатора по отношению к заднему плану.

Варианты осуществления основываются на обнаружении того, что использование технологии SAOC (или аналогичной) в сценарии широковещания обеспечивает возможность обеспечения конечного пользователя функциональной возможностью расширенного манипулирования сигналами. Обеспечивается больше функциональных возможностей, чем только изменение канала и регулировка уровня громкости проигрывания.

Одна возможность использовать технологию DE кратко описана выше. Если широковещательный сигнал, который является микшированным с понижением сигналом для SAOC, нормализован по уровню, например, согласно R128, разные программы имеют сходную среднюю громкость, когда никакая (SAOC-)обработка не применяется (или описание воспроизведения является таким же, как описание понижающего микширования). Однако, когда некоторая (SAOC-)обработка применяется, выходной сигнал отличается от устанавливаемого по умолчанию микшированного с понижением сигнала и громкость выходного сигнала может отличаться от громкости устанавливаемого по умолчанию микшированного с понижением сигнала. С точки зрения конечного пользователя, это может вести к ситуации, в которой громкость выходного сигнала между каналами или программами может снова иметь нежелательные скачки или различия. Другими словами, преимущества нормализации, применяемой вещательной компанией, частично теряются.

Эта проблема не является специфичной только для SAOC или для сценария DE, но может возникать также с другими концепциями кодирования аудио, которые обеспечивают возможность конечному пользователю взаимодействовать с контентом. Однако во многих случаях это не причиняет какого-либо вреда, если выходной сигнал имеет другую громкость, нежели устанавливаемое по умолчанию понижающее микширование.

Как указывалось ранее, полная громкость программы входного аудиосигнала должна равняться определенному уровню с малыми разрешенными отклонениями. Однако как уже очерчено, это ведет к значительным проблемам, когда выполняется воспроизведение аудио, так как воспроизведение может иметь значительное влияние на общую/полную громкость принятого входного аудиосигнала. Однако, несмотря на выполнение воспроизведения сцены, полная громкость принятого аудиосигнала должна оставаться одной и той же.

Одним подходом будет оценивать громкость сигнала, пока он проигрывается, и с соответствующей концепцией временной интеграции, оценка может сходиться к истинной средней громкости после некоторого времени. Время, требуемое для сходимости, является, однако, проблематичным с точки зрения конечного пользователя. Когда оценка громкости изменяется, даже когда никакие изменения не применяются на сигнале, компенсация изменения громкости должна также реагировать и изменять свое поведение. Это ведет к выходному сигналу с изменяющейся по времени средней громкостью, которая может восприниматься как достаточно раздражающая.

Фиг. 6 иллюстрирует поведение оценок громкости выходного сигнала при изменении громкости. Среди прочего, изображена основывающаяся на сигналах оценка громкости выходного сигнала, которая иллюстрирует эффект решения, как только что описано. Оценка приближается к корректной оценке достаточно медленно. Вместо основывающейся на сигналах оценки громкости выходного сигнала, была бы предпочтительной информированная оценка громкости выходного сигнала, которая немедленно корректно определяет громкость выходного сигнала.

В частности, на фиг. 6, пользовательский ввод, например, уровень объекта диалога, изменяется в момент времени T посредством увеличения в значении. Истинный уровень выходного сигнала, и соответствующим образом громкость, изменяется в один и тот же момент времени. Когда оценка громкости выходного сигнала выполняется из выходного сигнала с некоторым временем временной интеграции, оценка изменяется постепенно и достигает корректного значения после некоторой задержки. В течение этой задержки, значения оценки изменяются и не могут надежно использоваться для дополнительной обработки выходного сигнала, например, для коррекции уровня громкости.

Как уже указывалось, было бы желательным иметь точную оценку выходной средней громкости или изменения в средней громкости без задержки, и когда программа не изменяется или сцена воспроизведения не изменяется, оценка средней громкости также должна оставаться статической. Другими словами, когда применяется некоторая компенсация изменения громкости, параметр компенсации должен изменяться, только когда либо изменяется программа, либо имеется некоторое взаимодействие с пользователем.

Требуемое поведение проиллюстрировано на самой нижней иллюстрации из фиг. 6 (информированная оценка громкости выходного сигнала). Оценка громкости выходного сигнала должна изменяться немедленно, когда пользовательский ввод изменяется.

Фиг. 2 иллюстрирует кодер согласно одному варианту осуществления.

Кодер содержит блок 210 основывающегося на объектах кодирования для кодирования множества сигналов аудиообъектов, чтобы получать кодированный аудиосигнал, содержащий множество сигналов аудиообъектов.

Дополнительно, кодер содержит блок 220 кодирования громкости объектов для кодирования информации громкости о сигналах аудиообъектов. Информация громкости содержит одно или более значений громкости, при этом каждое из упомянутых одного или более значений громкости зависит от одного или более из сигналов аудиообъектов.

Согласно одному варианту осуществления, каждый из сигналов аудиообъектов из кодированного аудиосигнала назначается в точности одной группе из двух или более групп, при этом каждая из упомянутых двух или более групп содержит один или более из сигналов аудиообъектов из кодированного аудиосигнала. Блок 220 кодирования громкости объектов сконфигурирован с возможностью определять упомянутые одно или более значений громкости информации громкости посредством определения значения громкости для каждой группы из упомянутых двух или более групп, при этом упомянутое значение громкости упомянутой группы указывает исходную полную громкость упомянутых одного или более сигналов аудиообъектов из упомянутой группы.

Фиг. 1 иллюстрирует декодер для генерирования выходного аудиосигнала, содержащего один или более выходных аудиоканалов согласно одному варианту осуществления.

Декодер содержит интерфейс 110 приема для приема входного аудиосигнала, содержащего множество сигналов аудиообъектов, для приема информации громкости о сигналах аудиообъектов, и для приема информации воспроизведения, указывающей, должен ли один или более из сигналов аудиообъектов усиливаться или ослабляться.

Более того, декодер содержит сигнальный процессор 120 для генерирования упомянутых одного или более выходных аудиоканалов выходного аудиосигнала. Сигнальный процессор 120 сконфигурирован с возможностью определять значение компенсации громкости в зависимости от информации громкости и в зависимости от информации воспроизведения. Дополнительно, сигнальный процессор 120 сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов выходного аудиосигнала из входного аудиосигнала в зависимости от информации воспроизведения и в зависимости от значения компенсации громкости.

Согла