Способ и устройство для нормализованного проигрывания аудио медиаданных с вложенными метаданными громкости и без них на новых медиаустройствах

Патент 2639663

Авторы

БЛЕЙДТ Роберт (US)

Правообладатели

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Классы МПК

G10L19 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Способ и устройство для нормализованного проигрывания аудио медиаданных с вложенными метаданными громкости и без них на новых медиаустройствах

Иллюстрации

Показать все

Изобретение относится к управлению громкостью аудио, видео и мультимедийного контента. Технический результат – обеспечение возможности нормализации громкости проигрывания как контента, содержащего метаданные громкости, так и контента, не содержащего метаданные громкости. Устройство обеспечивает декодирование битового потока, содержащего аудиоданные и метаданные громкости, содержащие значение опорной громкости, для формирования выходного аудиосигнала. Устройство содержит процессор сигналов, содержащий устройство управления усилением, выполненное с возможностью регулирования уровня выходного аудиосигнала. При этом устройство управления усилением содержит декодер опорной громкости, выполненный с возможностью создания значения громкости, калькулятор усиления, выполненный с возможностью вычисления значения усиления на основе значения громкости и на основе значения управления силой звука, и процессор громкости, выполненный с возможностью управления громкостью выходного аудиосигнала на основе значения усиления. 4 н. и 12 з.п. ф-лы, 5 ил.

Реферат

Данное изобретение относится к управлению громкостью аудио, видео и мультимедийного контента, проигрываемого в цифровой форме в электронном устройстве воспроизведения, конкретно, но не исключительно, к управлению громкостью проигрывания с контентом, который подготовлен как с вложенными метаданными громкости, так и без них, как обычно происходит в новых медиаустройствах.

При производстве и передаче музыки, видео и другого мультимедийного контента, проводится процесс нормализации громкости, чтобы гарантировать, что потребитель слышит аудиосигнал с соответствующей громкостью от песни к песне или от программы к программе. С первых дней возникновения записей и кинофильмов это осуществлялось во время процесса производства или посредством стандартов воспроизведения для кинотеатров. Общей практикой в музыкальной индустрии и индустрии радиовещания сегодня является регулирование громкости до значения, близкого к уровню максимального пика данного носителя, тогда как практикой в кинематографической и телевизионной индустриях является использование одного из нескольких стандартных уровней громкости, которые могут составлять 20-31 дБ ниже уровня максимального пика. Во времена до слияния носителей это не замечалось потребителями, так как для проигрывания каждого типа контента использовались раздельные устройства или настройки силы звука.

С приходом мобильных устройств, таких как мобильные телефоны или портативные медиапроигрыватели, которые предназначены для проигрывания как музыкального, так и кинематографического контента, эта разница в производственных практиках приводит к разностям громкостей, которые могут составлять до 30 дБ, если контент передается на устройство без изменения. Это может привести к кинофильмам, которые являются слишком тихими, или музыке, которая является слишком громкой, при переключении с одного типа контента на другой.

Похожей тенденцией является увеличение громкости многих жанров записанной музыки посредством использования сильного сжатия динамического диапазона, ограничения и усечения во время мастеринга записи. Такой мастеринг осуществляется, рассматривая только носители записи без потерь, такие как компакт-диски, хотя большая часть музыки, продаваемой сегодня, имеет форматы сжатия данных с потерями, такие как MPEG AAC и MP3. Процесс сжатия данных может вносить изменения формы колебания во временной области, реконструированной в декодере во время проигрывания, которые вызывают перерегулирования в форме колебания выше полномасштабных ограничений или значения максимального пика сигнала. В декодере с фиксированной запятой (или декодере с плавающей запятой с насыщением), обычно используемом в мобильных устройствах, это может привести к усечению перерегулирования до полномасштабного ограничения, вызывая дополнительное слышимое усечение в воспроизводимом сигнале.

Это сильное сжатие и усечение музыки осуществляется в некоторых случаях в художественных целях, но чаще обычно осуществляется либо как попытка увеличения коммерческой привлекательности записи, заставляя ее "звучать громче", чем другие, или для предоставления контента, который может быть понятен при всех обстоятельствах прослушивания, как например, в аэропортах или шумных местах, также как и в тихих окружениях.

В кинематографических и видео индустриях, в некоторых жанрах широкий динамический диапазон аудио используется для драматического эффекта и для создания более захватывающего восприятия. При подаче потребителю посредством кодеков Dolby Digital или MPEG-4 AAC, часто включаются метаданные управления динамическим диапазоном аудио для обеспечения возможности опционального уменьшения динамического диапазона в приемнике или проигрывателе для случаев, когда есть шумное окружение, или когда громкие сцены были бы слишком беспокоящими.

Традиционные метаданные, включенные в DVD или BluRay-контент, кодированный с помощью Dolby Digital, или переданный в TV-сигналах, кодированных с помощью Dolby Digital (стандартизированным в стандарте сжатия аудио A/52 корпорации Комитет по перспективным телевизионным системам) или MPEG-4 AAC (стандартизированным в ISO/IEC 14496-3 и ETSI TS 101 154) включают в себя нижеследующие компоненты:

1. Одиночное, статичное значение метаданных, указывающее общую долговременную суммарную громкость программы, называемую опорным уровнем программы в стандартах MPEG.

2. Статические значения метаданных для значений усиления понижающего микширования, используемых для управления понижающим микшированием многоканального контента для вывода посредством стерео или монофонического устройства.

3. Два набора значений управления динамическим диапазоном или коэффициентов масштабирования, отправленные для каждого кадра битового потока со сжатием данных для множества полос частот или областей в аудиосигнале. Один используется для "слабого" сжатия в производственных терминах и другой для "сильного" сжатия. Использование этих значений слабого и сильного DRC обычно привязывается к функционированию на целевых уровнях громкости декодера, установленных для режимов функционирования "режим Линии" и "RF-режим". Соглашения о наименовании и рабочие точки для этих режимов были установлены на заре цифровых медиаданных, когда могло быть необходимо преобразовать цифровое аудио в аналоговые сигналы, отправляемые по узкополосным кабелям во входы линий на последующем устройстве или передаваемые через RF носитель на аналоговый телевизор.

Использование этих метаданных обеспечивает возможность привязки воспроизведения к окружению прослушивания недеструктивным образом во время проигрывания. Один и тот же поток или файл может проигрываться с разным набором метаданных, или совсем не используя метаданные, для произведения разного динамического диапазона. В отличие от использования устройства сжатия, которое находится полностью в проигрывающем устройстве, управление динамическим диапазоном, использующее метаданные, обеспечивает возможность контролирования и управления природой сжатия посредством творческих художников во время производственного процесса, по желанию.

К сожалению, метаданные управления динамическим диапазоном, которые обычно реализованы в кодеках с потерями, таких как семейство MPEG AAC или Dolby Digital, не могут сжать сигнал достаточно сильно, чтобы совпасть с громкостью современной музыкой, так как метаданные влияют на среднюю мощность сигнала (потенциально в нескольких полосах частот) на основе покадрового сжатия аудио, с общими периодами кадров 20-40 мс. Это покадровое управление усилением является недостаточно быстрым для уменьшения пика до среднего отношения сигнала к сигналу сильно обработанной современной музыки.

Данным подходом, рассмотренным Wolters et al, как описано в [5], для решения этой проблемы, является использование ограничителя аудио вслед за декодером в проигрывающем устройстве для увеличения средней громкости. Это решит проблему сопоставления громкости, так, чтобы музыкальный и кинематографический контент имел равную громкость, но имеет несколько недостатков. Когда потребитель проигрывает контент в тихом окружении, возможно с помощью мобильного устройства, соединенного с динамиками, в тихой комнате или, используя наушники или наушники с сильной акустической изоляцией, кинематографический контент будет нежелательно сжат также сильно, как и музыка. Также, ограничитель вносит дополнительную рабочую нагрузку на CPU или DSP устройства, сокращая срок службы батареи.

Другой подход описывается Camerer et al в [6], который предлагает кодирование измерения громкости, как описано в стандарте ITU BS. 1770-2, в качестве метаданных в музыкальных файлах, и нормализацию проигрывания каждого файла до целевого уровня, заданного посредством управления силой звука устройством. Это основывается на предыдущих системах нормализации громкости музыки, таких как SoundCheck (www.apple.com) и ReplayGain (www.replaygain.org), которые являлись опциональными признаками некоторых музыкальных проигрывателей, таких как iPod. В их подходе они пропагандируют обязательную установку нормализации громкости как включенной по умолчанию; однако, они точно не определяют, что должно случиться, когда пользователь выключит нормализацию громкости, или более важно, что случится, когда проигрывается контент, который не был кодирован с метаданными громкости. Их предположение состоит в том, что весь контент будет проанализирован проигрывающим устройством или безопасным доверенным распространителем, таким как iTunes, перед проигрыванием. Дополнительно, не предусмотрено регулирование общего динамического диапазона контента для привязки его к окружению прослушивания.

Вследствие этого, целью данного изобретения является предусмотрение унифицированного подхода к проблеме нормализации громкости проигрывания контента как в кинематографическом/видео стиле, с потенциально широким динамическим диапазоном и возможно вложенными метаданными громкости, так и музыкального или радио/подкаст-контента, с потенциально очень узким динамическим диапазоном и сильным сжатием, ограничением и усечением, потенциально, но вероятно не содержащего вложенные метаданные громкости, из-за огромного количества предшествующего музыкального контента, который уже удерживается или обменивается потребителями.

Другой целью этого изобретения является обеспечение возможности регулирования динамического диапазона контента, содержащего метаданные управления динамическим диапазоном, под окружение прослушивания или вкус потребителя.

Дополнительной целью этого изобретения является предотвращение потенциального усечения в аудиодекодерах со сжатием данных с потерями, таких как декодер AAC, MP3 или Dolby Digital, вызванного изменениями в составляющих сигнала, внесенных процессом сжатия данных.

Дополнительной целью этого изобретения является обеспечение мягкого стимулирования музыкальной записывающей индустрии для прекращения погони за еще более сильным сжатием динамического диапазона, ограничением и усечением их контента.

Еще одной целью этого изобретения является ограничение дополнительной рабочей нагрузки на CPU или DSP устройства, вызванной обработкой громкости или предотвращением усечения.

Один вариант осуществления данного изобретения включает в себя устройство декодирования для декодирования битового потока для того, чтобы произвести из него выходной аудиосигнал, причем битовый поток, содержащий аудиоданные и опционально метаданные громкости, содержащие значение опорной громкости, причем устройство декодирования, содержащее:

устройство декодирования аудио, выполненное с возможностью реконструирования аудиосигнала из аудиоданных; и

процессор сигналов, выполненный с возможностью производства выходного аудиосигнала на основе аудиосигнала;

при этом процессор сигналов содержит устройство управления усилением, выполненное с возможностью регулирования уровня выходного аудиосигнала;

при этом устройство управления усилением содержит декодер опорной громкости, выполненный с возможностью создания значения громкости, при этом значением громкости является значение опорной громкости в случае, когда значение опорной громкости присутствует в битовом потоке;

при этом устройство управления усилением содержит калькулятор усиления, выполненный с возможностью вычисления значения усиления на основе значения громкости и на основе значения управления силой звука, которое предоставляется пользовательским интерфейсом, обеспечивающим пользователю возможность управления значением управления силой звука;

при этом устройство управления усилением содержит процессор громкости, выполненный с возможностью управления громкостью выходного аудиосигнала на основе значения усиления.

Устройством декодирования аудио может быть любое устройство, которое способно реконструировать аудиосигнал из аудиоданных сжатого битового потока. Процессором сигналов может быть любое устройство, которое имеет возможность производства выходного аудиосигнала, когда в него подается аудиосигнал от устройства декодирования аудио, и которое имеет устройство управления усилением, которое рассмотрено ниже. Устройством управления усилением является устройство, которое настроено для управления громкостью выходного аудиосигнала.

Декодер опорной громкости выполнен с возможностью декодирования метаданных громкости, содержащихся в битовом потоке. Если метаданные громкости содержат значение опорной громкости, декодер опорной громкости выводит только это значение опорной громкости в качестве значения громкости.

Калькулятором усиления является устройство для вычисления значения усиления, которое основано на значении громкости, выведенном декодером опорной громкости, и значении управления силой звука, заданном пользователем устройства декодирования. Для задания значения управления силой звука может быть использован любой пользовательский интерфейс. Калькулятор усиления в частности может быть вычитателем.

Процессор громкости способен управлять уровнем громкости выходного аудиосигнала на основе значения усиления, предоставленного калькулятором усиления. Процессор громкости может быть в частности умножителем.

В отличие от устройства декодирования с обыкновенным сжатием, такого как устройство декодирования Dolby Digital или AAC, используемого в портативных устройствах или в потребительском электронном оборудовании, устройством декодирования со сжатием оперируют с помощью переменного значения усиления или целевого порогового значение декодера (соответствующего декодированному уровню полномасштабного битового потока), которым управляется посредством управления силой звука пользователем. Это обеспечивает устройству декодирования возможность нормального функционирования гораздо ниже максимального полномасштабного диапазона цифровой аудиосистемы устройства. Такое функционирование предотвращает возможность усечения перерегулирования декодера и обеспечивает возможность нормализации громкости контента в фирменном стиле без сильного сжатия динамического диапазона и ограничения динамическим диапазоном музыкального контента с сильным сжатием и ограничением, без дополнительного сжатия или ограничения контента в фирменном стиле, как обычно требуется. Данное изобретение выполняет эту нормализацию без уменьшения динамического диапазона содержимого только в целях сопоставления громкости.

В предпочтительном варианте осуществления данного изобретения значением громкости является предварительно заданное значение громкости в случае, когда значение опорной громкости не присутствует в битовом потоке. Эти признаки обеспечивают возможность высококачественного проигрывания битовых потоков, не имеющих метаданные громкости.

В предпочтительном варианте осуществления данного изобретения предварительно заданное значение громкости задается в значение между -4 дБ и -10 дБ, в частности между -6 дБ и -8 дБ, связанным с полномасштабной амплитудой. Эмпирические изучения современной музыки показывают, что наблюдаемый верхний предел громкости для музыкального контента, который предназначен для полномасштабного проигрывания, составляет около -7 дБ. Поэтому, предварительно заданные значения громкости, как заявлено, обеспечивают оптимизированный режим для проигрывания битовых потоков, не имеющих метаданные громкости.

В предпочтительном варианте осуществления данного изобретения процессор сигналов содержит устройство управления динамическим диапазоном, выполненное с возможностью регулирования динамического диапазона выходного аудиосигнала,

при этом устройство управления динамическим диапазоном содержит переключатель управления динамическим диапазоном, выполненный с возможностью получения по меньшей мере одного значения управления динамическим диапазоном из метаданных громкости и вывода в качестве альтернативы одного из полученных значений управления динамическим диапазоном или предварительно заданного значения управления динамическим диапазоном,

при этом устройство управления динамическим диапазоном содержит калькулятор динамического диапазона, выполненный с возможностью вычисления значения динамического диапазона на основе значения управления динамическим диапазоном, выведенного переключателем управления динамическим диапазоном, и на основе значения управления сжатием, которое предоставлено посредством пользовательского интерфейса, обеспечивающего пользователю возможность управления значением управления сжатием;

при этом устройство управления динамическим диапазоном содержит процессор динамического диапазона, выполненный с возможностью управления динамическим диапазоном выходного аудиосигнала на основе значения динамического диапазона.

Устройство управления динамическим диапазоном содержит переключатель управления динамическим диапазоном, который выполнен с возможностью декодирования метаданных громкости битового потока таким образом, что может быть получено по меньшей мере одно значение управления динамическим диапазоном. Обычно переключатель управления динамическим диапазоном сконфигурирован так, чтобы могли быть получены одно значение управления динамическим диапазоном для слабого управления динамическим диапазоном и другое значение управления динамическим диапазоном для сильного управления динамическим диапазоном. Переключатель управления динамическим диапазоном может вывести одно из этих полученных значений управления динамическим диапазоном или предварительно заданное значение управления динамическим диапазоном в качестве альтернативы. Переключатель управления динамическим диапазоном можно управлять автоматически, например, в зависимости от последующего оборудования используя выходной аудиосигнал, или вручную посредством действия пользователя. Предварительно заданное значение управления динамическим диапазоном может быть задано, например, в значение 0 дБ.

Устройство управления динамическим диапазоном может содержать калькулятор динамического диапазона, который способен вычислить значение динамического диапазона на основе значения управления динамическим диапазоном, выведенного переключателем управления динамическим диапазоном, и на основе значения управления сжатием, которое предоставлено посредством пользовательского интерфейса, обеспечивающего пользователю возможность управления значением управления сжатием. Калькулятор динамического диапазона может, в частности, быть умножителем.

Кроме того, предусматривается процессор динамического диапазона, который способен управлять динамическим диапазоном выходного аудиосигнала на основе значения динамического диапазона. Посредством этих признаков проигрывание битового потока может быть адаптировано к окружению прослушивания и/или вкусу слушателей.

Согласно предпочтительному варианту осуществления данного изобретения процессор сигналов содержит ограничивающее устройство, выполненное с возможностью ограничения амплитуды выходного аудиосигнала, при этом ограничивающее устройство содержит ограничивающий компонент, имеющий ограничитель и управляющий компонент, выполненный с возможностью управления ограничивающим компонентом, при этом обработанный аудиосигнал, который получен из аудиосигнала посредством обработки по меньшей мере устройством управления усилением, вводится в ограничивающий компонент, и при этом выходной аудиосигнал выводится из ограничивающего компонента.

Ограничивающее устройство обеспечивает ограничение в целях предотвращения усечения перерегулирования декодера, ограничения силы звука для предотвращения потери слуха или предпочтения пользователя, и художественное сжатие для обеспечения возможности обратимого генерирования контента с ограничением пика, когда это необходимо ввиду окружения прослушивания или вкуса пользователя.

Согласно предпочтительному варианту осуществления данного изобретения управляющий компонент выполнен с возможностью управления ограничивающим компонентом в зависимости от скорости передачи битов битового потока. Вероятность усечения перерегулирования декодера повышается при понижении скорости передачи битов. Вследствие этого, предотвращение усечения перерегулирования декодера улучшается, когда ограничивающий компонент управляется в зависимости от скорости передачи битов битового потока.

Согласно предпочтительному варианту осуществления данного изобретения, управляющий компонент выполнен с возможностью управления ограничивающим компонентом в зависимости от эффективности сжатия устройства декодирования аудио. Эффективность сжатия устройства аудиокодера, производящего битовый поток, и в то же время устройства декодирования аудио, декодирующего битовый поток, описывает, насколько уменьшается количество данных при кодировании первоначальных аудиоданных, для того, чтобы произвести битовый поток. Чем больше уменьшается количество данных, тем больше увеличивается вероятность усечения перерегулирования декодера. Поэтому, предотвращение усечения перерегулирования декодера улучшается, когда ограничивающий компонент управляется в зависимости от эффективности сжатия устройства декодирования аудио.

Согласно предпочтительному варианту осуществления данного изобретения управляющий компонент выполнен с возможностью управления ограничивающим компонентом в зависимости от значения истинного пика, переданного в метаданных громкости битового потока и указывающего уровень максимального пика источника аудио, преобразованного в битовый поток внешним кодером. Использование этого значения истинного пика обеспечивает возможность вычисления более точного значения для максимально возможного уровня пика выходного аудиосигнала.

Согласно предпочтительному варианту осуществления данного изобретения, управляющий компонент выполнен с возможностью управления ограничивающим компонентом в зависимости от значения усиления устройства управления усилением. Максимально возможный уровень пика выходного аудиосигнала определяется в этом подслучае значением усиления устройства управления усилением. Если вышеуказанное значение составляет 0 дБ, устройство декодирования функционирует при своих полномасштабных ограничениях, как диктуется максимальным заданием значения управления силой звука. По мере уменьшения вышеуказанного значения управления силой звука, устройство декодирования будет функционировать так, чтобы полномасштабный битовый поток значения достиг только максимального уровня, заданного значением усиления устройства управления усилением.

Согласно предпочтительному варианту осуществления данного изобретения, управляющий компонент выполнен с возможностью управления ограничивающим компонентом в зависимости от значения ограничения силы звука, заданного пользователем или изготовителем, для того, чтобы предотвратить повреждение слуха. Посредством этих признаков, повреждения слуха могут быть эффективно предотвращены.

Согласно предпочтительному варианту осуществления данного изобретения, управляющий компонент выполнен с возможностью управления ограничивающим компонентом в зависимости от параметров художественного ограничителя, переданных в метаданных громкости битового потока и указывающих пороговые значения художественного ограничителя, значения времени срабатывания художественного ограничителя и/или значения времени освобождения художественного ограничителя. Эти признаки обеспечивают возможность функционирования ограничивающего устройства под творческим управлением художника или создателя контента. Значения управления динамическим диапазоном, содержащиеся в метаданных громкости, рассмотренных ранее, обеспечивают возможность привязки общего динамического диапазона контента к окружению прослушивания посредством использования значений усиления сжатия, которые действуют с типичными временными константами 100 мс - 3 секунды. В сложных окружениях прослушивания, сжатие аудиосигнала с этими временными константами могут не производить сигнал с достаточной громкостью для разборчивости или удовлетворения без неприятно высоких уровней пиков. Есть также вероятность, что создатели музыки, которые обычно производили только сильно сжатый "сдавленный" микс, могут захотеть использовать гибкость этого изобретения, чтобы производить как "сдавленный" микс, так и "несдавленный" микс с меньшим ограничением и сжатием, так чтобы потребители могли слышать "несдавленную" версию в тихих окружениях или по желанию.

Согласно предпочтительному варианту осуществления данного изобретения управляющий компонент выполнен с возможностью непрерывного или циклического управления ограничивающим компонентом. Эти признаки обеспечивают возможность переменного управления ограничивающим компонентом во времени.

Согласно предпочтительному варианту осуществления данного изобретения, ограничивающее устройство выполнено с возможностью обхода ограничителя посредством обходного устройства, имеющего функцию пересылки, которая, касательно усиления и задержки, аналогична функции пересылки ограничителя. Посредством этих признаков рабочая нагрузка процессора сигналов может быть значительно уменьшена.

Один вариант осуществления данного изобретения включает в себя систему, содержащую декодер и кодер, в которой декодер спроектирован как заявлено.

Один вариант осуществления данного изобретения включает в себя способ декодирования битового потока для того, чтобы произвести из него выходной аудиосигнал, битовый поток, содержащий аудиоданные и опционально метаданные громкости, содержащие значение опорной громкости, причем способ, содержащий этапы:

реконструирования аудиосигнала из аудиоданных с использованием устройства декодирования аудио; и

производства выходного аудиосигнала на основе аудиосигнала с использованием процессора сигналов;

при этом уровень громкости выходного аудиосигнала регулируется с использованием устройства управления усилением, содержащегося в процессоре сигналов;

при этом значение громкости создается декодером опорной громкости, содержащимся в устройстве управления усилением, при этом значение громкости является значением опорной громкости в случае, когда значение опорной громкости присутствует в битовом потоке;

при этом значение усиления вычисляется на основе значения громкости и на основе значения управления силой звука, которое предоставляется посредством пользовательского интерфейса, обеспечивающего пользователю возможность управления значением управления силой звука, посредством калькулятора усиления, содержащегося в устройстве управления усилением;

при этом уровнем громкости выходного аудиосигнала управляют на основе значения усиления посредством процессора громкости, содержащегося в устройстве управления усилением.

Один вариант осуществления данного изобретения включает в себя компьютерную программу для выполнения, при выполнении на компьютере или процессоре, способа, который заявлен в настоящем документе.

Предпочтительные варианты осуществления данного изобретения впоследствии рассматриваются по отношению к прилагаемым чертежам, на которых:

Фиг. 1 показывает блок-схему существующего аудиодекодера со сжатием данных предшествующего уровня техники с поддержкой метаданных громкости, такого как точно определен посредством ISO/IEC 14496-3 и ETSI TS 101 154, как интегрированного в обычный мобильный телефон, планшетный компьютер, или портативный медиапроигрыватель;

Фиг. 2 показывает вариант осуществления декодера с устройством декодирования аудио со сжатием данных и опциональный ограничитель аудио согласно данному изобретению, который подходит для интеграции в обычный мобильный телефон, планшетный компьютер, или портативный медиапроигрыватель;

Фиг. 3 показывает эмпирически полученную функцию возможного дополнительного усечения из-за перерегулирования формы колебания реконструированного сигнала в стереодекодере AAC-LC против скорости передачи битов битового потока;

Фиг. 4 показывает блок-схему предпочтительного варианта осуществления опционального ограничивающего устройства согласно данному изобретению; и

Фиг. 5 показывает блок-схему предпочтительного варианта осуществления операционного ограничивающего устройства, функционирующего в режиме художественного ограничения согласно данному изобретению.

В качестве помощи в понимании функционирования данного изобретения, на Фиг. 1 представлено функционирование существующего устройства 21 декодирования со сжатием данных предшествующего уровня техники, такого как точно определенное посредством ISO/IEC 14496-3 и ETSI TS 101 154, как интегрированного в обычный мобильный телефон, планшетный компьютер, или портативный медиапроигрыватель. Сжатый битовый поток 1 аудио может включать в себя как сжатые сущностные данные 2 аудио, так и метаданные 3 громкости. Устройство 21 декодирования содержит устройство 9 декодирования аудио, выполненное с возможностью реконструирования аудиосигнала 8 из аудиоданных 2; и процессор сигналов 26, выполненный с возможностью производства выходного аудиосигнала 18 на основе аудиосигнала 8. Метаданные 3 громкости включают в себя значение 4 опорной громкости для общей суммарной громкости всего файла, программы, песни или альбома, известной как опорный уровень программы в ISO/IEC 14496-3. Это значение 4 опорной громкости может быть передано в битовом потоке 1 один раз на файл или с частотой повторения, достаточной для обеспечения возможности присоединения широковещательного битового потока 1 при выполнении программы. Это значение 4 опорной громкости сравнивается с фиксированным значением целевого уровня декодера, которое предоставляется поставщиком 17 целевого уровня, посредством калькулятора 16 усиления, который обозначен как вычитатель 16. Выводом калькулятора 16 усиления является разность громкости между входящим битовым потоком 1 и желаемым целевым уровнем. Это применяется к процессору 15 громкости, который спроектирован как умножитель 15, для регулирования уровня выходного аудиосигнала 18 так, чтобы была достигнута целевая долговременная громкость для песни или программы.

Переключатель 12 управления динамическим диапазоном обеспечивает возможность применения либо значений 6 слабого управления динамическим диапазоном, которые обычно используются в "режиме Линия", либо значений 7 сильного управления динамическим диапазоном, которые обычно используются в "RF-режиме", либо ни одного из них. Эти значения 6, 7 отправляются для каждого кадра битового потока со сжатием данных для множества полос частот или областей в битовом потоке 1 и применяются к процессору 13 динамического диапазона, который спроектирован как умножитель 13, для изменения уровня вывода устройства 9 декодирования аудио так, что бы кратковременная (порядка секунд) громкость выходного аудиосигнала 18 была сжата согласно желаемому динамическому диапазону. Обычно, целевой уровень декодера, предоставленный поставщиком 17 статического целевого уровня, также регулируется с помощью выбора от 12 до -20 дБ для RF-режима и до -31 дБ режима "Линия". Операция значений 6 и/или 7 управления динамическим диапазоном обычно вычисляется заранее, так что любое увеличение уровня, созданное операцией умножителя 16 вместе с умножителем 13, управляется так, чтобы усечение на выходном аудиосигнале 18 было предотвращено.

Метаданные 3 также содержат значения 5 усиления понижающего микширования, которые используются для регулирования микширования каналов многоканального контента (такого как программа 5.1-канального окружения) в стерео или моновывод, когда требуется. Так как данное изобретение может быть применено к битовому потоку 1, содержащему любое число каналов, этот признак далее не рассматривается.

Важно, если значение 4 опорной громкости не присутствует в заданном битовом потоке 1, значение громкости 31, выводимое декодером 10 опорной громкости, задается равным целевому уровню декодера, выводимому поставщиком 17 статического целевого уровня, так чтобы не было регулирования усиления выходного аудиосигнала 18, и устройство 21 декодирования функционирует как простое устройство декодирования со своим выходным диапазоном, равным полномасштабному динамическому диапазону выходного аудиосигнала 18.

Вывод аудиодекодера 21 затем обычно подается в аудиомикшер 23 системы, где выходной аудиосигнал 18 объединяется со звуками пользовательского интерфейса (звуками UI), тонами звонков или другими аудиосигналами 22, так чтобы был создан микшированный аудиосигнал 19. Общая сила звука управляется значением 20 управления силой звука. Функционирование микшера аудиосигнала 23 может включать в себя вторичные элементы управления силой звука для регулирования относительных уровней каждого типа аудиосигнала или изменения их амплитуды в зависимости от режима функционирования устройства, что не относится к пониманию функционирования данного изобретения. Важно то, что выходной аудиосигнал 18 устройства 21 декодирования обычно масштабируется так, чтобы полномасштабный выходной сигнал соответствовал максимальному значению с фиксированной запятой или номинальному полномасштабному (обычно в диапазоне -1,0 -1,0) с плавающей запятой. При сильно сжатых аудиоданных, что является обычным для современной музыки, выходной сигнал 18 декодера будет иметь пики, которые приближаются к его полномасштабным значениям при прослушивании с номинальными уровнями прослушивания. Таким образом, полномасштабный пик в 0 дБ FS (относящихся к полномасштабной амплитуде выходного аудиосигнала) на выходном аудиосигнале 18 будет понижен в аудиомикшере 23 системы и будет соответствовать уровню давления звука (SPL) в ушах слушателя возможно в 75 дБ SPL при прослушивании в тихом окружении.

Фиг. 2 изображает устройство 41 декодирования для декодирования битового потока 1 для того, чтобы произвести из него выходной аудиосигнал 42, причем битовый поток 1, содержащий аудиоданные 2 и опционально метаданные 3 громкости, содержащие значение 4 опорной громкости, причем устройство 41 декодирования, содержащее:

устройство 9 декодирования аудио, выполненное с возможностью реконструирования аудиосигнала 8 из аудиоданных 2; и

процессор 27 сигналов, выполненный с возможностью производства выходного аудиосигнала 42 на основе аудиосигнала 8;

при этом процессор 27 сигналов содержит устройство 10, 15, 28 управления усилением, выполненное с возможностью регулирования уровня выходного аудиосигнала 42;

при этом устройство 10, 15, 28 управления усилением содержит декодер 10 опорной громкости, выполненный с возможностью создания значения 37 громкости, при этом значением 37 громкости является значение 4 опорной громкости в случае, когда значение 4 опорной громкости присутствует в битовом потоке 1;

при этом устройство 10 , 15, 28 управления усилением содержит калькулятор 28 усиления, выполненный с возможностью вычисления значения 33 усиления на основе значения 37 громкости и на основе значения 20 управления силой звука, которое предоставляется пользовательским интерфейсом, обеспечивающим пользователю возможность управления значением 20 управления силой звука;

при этом устройство 10, 15, 28 управления усилением содержит процессор 28 громкости, выполненный с возможностью управления громкостью выходного аудиосигнала 42 на основе значения 33 усиления.

Устройством 9 декодирования аудио может быть любое устройство 9, которое способно реконструировать аудиосигнал 8 из аудиоданных 2 сжатого битового потока 1. Процессором 27 сигналов может быть любое устройство 27, которое имеет возможность производства выходного аудиосигнала 42, когда в него подается аудиосигнал 8 от устройства 9 декодирования аудио, и которое имеет устройство 10, 15, 28 управления усилением, которое разъяснено ниже. Устройством 10, 15, 28 управления усилением является устройство, которое настроено для управления громкостью выходного аудиосигнала 42.

Декодер 10 опорной громкости в