Оптимизация громкости и динамического диапазона через различные устройства воспроизведения
Иллюстрации
Показать всеИзобретение относится к области обработки аудиосигналов. Технический результат заключается в повышении эффективности обработки аудиосигналов. Технический результат достигается за счет того, что контейнер метаданных начинается с синхрослова, идентифицирующего начало контейнера метаданных, одни или более рабочие данные метаданных включают в себя параметр, указывающий профиль сжатия динамического диапазона (DRC), выбранный из множества профилей DRC, при этом каждый из множества профилей DRC соответствует уникальной кривой сжатия с ассоциированными постоянными времени, и упомянутые одни или более рабочие данные метаданных следуют за защитными данными, которые могут быть использованы для дешифрования, аутентификации или проверки допустимости упомянутых одних или более рабочих данных метаданных. 10 з.п. ф-лы, 16 ил.
Реферат
ПЕРЕКРЕСТНЫЕ ССЫЛКИ НА РОДСТВЕННЫЕ ЗАЯВКИ
[0001] Данная заявка притязает на приоритет предварительной заявки на патент (США) № 61/754,882, поданной 21 января 2013 года; предварительной заявки на патент (США) № 61/809,250, поданной 5 апреля 2013 года; и предварительной заявки на патент (США) № 61/824,010, поданной 16 мая 2013 года, все из которых настоящим содержатся по ссылке.
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
[0002] Один или более вариантов осуществления, в общем, относятся к обработке аудиосигналов, а более конкретно, к обработке потоков битов аудиоданных с метаданными, указывающими характеристики громкости и динамического диапазона аудиоконтента на основе окружений и устройств воспроизведения.
УРОВЕНЬ ТЕХНИКИ
[0003] Предмет изобретения, поясненный в разделе "Уровень техники", не должен предполагаться в качестве предшествующего уровня техники только в результате его упоминания в разделе "Уровень техники". Аналогично, проблема, упомянутая в разделе "Уровень техники" или ассоциированная с предметом изобретения раздела "Уровень техники", не должна предполагаться как ранее распознанная в предшествующем уровне техники. Предмет изобретения в разделе "Уровень техники" просто представляет разные подходы, которые сами также могут быть изобретениями.
[0004] Динамический диапазон аудиосигнала, в общем, является отношением между наибольшими и наименьшими возможными значениями звука, осуществленного в сигнале, и обычно измеряется в качестве значения в децибелах (по основанию 10). Во многих системах аудиообработки, управление динамическим диапазоном (или сжатие динамического диапазона, DRC) используется для того, чтобы уменьшать уровень громких звуков и/или усиливать уровень тихих звуков, чтобы вмещать исходный контент с широким динамическим диапазоном в более узкий записанный динамический диапазон, который может быть более легко сохранен и воспроизведен с использованием электронного оборудования. Для аудиовизуального (AV) контента опорный уровень диалога может использоваться для того, чтобы задавать "нулевую" точку для сжатия через DRC-механизм. DRC действует с возможностью усиливать контент ниже опорного уровня диалога и обрезать контент выше опорного уровня.
[0005] В известной системе кодирования аудио метаданные, ассоциированные с аудиосигналом, используются для того, чтобы задавать DRC-уровень на основе типа и предназначенного использования контента. DRC-режим задает объем сжатия, примененный к аудиосигналу, и задает выходной опорный уровень декодера. Такие системы могут быть ограничены двумя настройками DRC-уровня, которые программируются в кодере и выбираются пользователем. Например, значение диалнормы (нормализации диалога) в -31 дБ (линейный выход) традиционно использовано для контента, который воспроизводится на AVR или на устройствах с поддержкой полного динамического диапазона, и значение диалнормы в -20 дБ (RF) используется для контента, воспроизводимого на телевизионных приемниках или аналогичных устройствах. Этот тип системы предоставляет возможность использования одного потока аудиобитов в двух общих, но существенно отличающихся сценариях воспроизведения с помощью двух различных наборов DRC-метаданных. Тем не менее, такие системы ограничены предварительно установленными значениями диалнормы, а не оптимизированы для воспроизведения в широком спектре различных устройств воспроизведения и окружений прослушивания, которые теперь являются возможными в силу появления цифрового мультимедиа и технологии потоковой Интернет-передачи.
[0006] В современных системах кодирования аудио на основе метаданных, поток аудиоданных может включать в себя как аудиоконтент (например, один или более каналов аудиоконтента), так и метаданные, указывающие, по меньшей мере, одну характеристику аудиоконтента. Например, в AC-3-потоке битов предусмотрено несколько параметров аудиометаданных, которые специально предназначены для использования при изменении звука программы, доставляемой в окружение прослушивания. Один из параметров метаданных представляет собой параметр диалнормы, который указывает средний уровень громкости диалога (или среднюю громкость контента), возникающий в аудиопрограмме, и используется для того, чтобы определять уровень сигнала воспроизведения аудио.
[0007] Во время воспроизведения потока битов, содержащего последовательность различных сегментов аудиопрограммы (имеющих различный параметр диалнормы), AC-3-декодер использует параметр диалнормы каждого сегмента, чтобы выполнять тип обработки громкости, которая модифицирует уровень или громкость воспроизведения сегмента таким образом, что воспринимаемая громкость диалога сегмента имеет согласованный уровень. Каждый кодированный аудиосегмент (элемент) в последовательности кодированных аудиоэлементов (в общем) должен иметь различный параметр диалнормы, и декодер должен масштабировать уровень каждого из элементов таким образом, что уровень или громкость воспроизведения диалога для каждого элемента является идентичным или почти идентичным, хотя это может требовать применения различных коэффициентов усиления к различным элементов во время воспроизведения.
[0008] В некоторых вариантах осуществления, параметр диалнормы задается пользователем, а не формируется автоматически, хотя имеется значение диалнормы по умолчанию, если значение не задается пользователем. Например, создатель контента может проводить измерения громкости с помощью устройства, внешнего для AC-3-кодера, и затем передавать результат (указывающий громкость разговорного диалога аудиопрограммы) в кодер, чтобы задавать значение диалнормы. Таким образом, именно от создателя контента зависит корректное задание параметра диалнормы.
[0009] Существует несколько различных причин, по которым параметр диалнормы в AC-3-потоке битов может быть некорректным. Во-первых, каждый AC-3-кодер имеет значение диалнормы по умолчанию, которое используется во время формирования потока битов, если значение диалнормы не задается посредством создателя контента. Это значение по умолчанию может существенно отличаться от фактического уровня громкости диалога аудио. Во-вторых, даже если создатель контента измеряет громкость и задает значение диалнормы, соответственно, возможно, использован алгоритм или счетчик для измерения громкости, который не соответствует рекомендуемому способу измерения громкости, приводя к некорректному значению диалнормы. В-третьих, даже если AC-3-поток битов создан со значением диалнормы, измеренным и заданным корректно посредством создателя контента, оно, возможно, изменено на некорректное значение посредством промежуточного модуля в ходе передачи и/или хранения потока битов. Например, довольно часто в телевизионных широковещательных вариантах применения AC-3-потоки битов должны декодироваться, модифицироваться и затем повторно кодироваться с использованием некорректной информации метаданных диалнормы. Таким образом, значение диалнормы, включенное в AC-3-поток битов, может быть некорректным или неточным, и, следовательно, может оказывать негативное влияние на качество восприятия при прослушивании.
[0010] Дополнительно, параметр диалнормы не указывает состояние обработки громкости соответствующих аудиоданных (например, какой тип(ы) обработки громкости выполнен(ы) для аудиоданных). Дополнительно, текущие развернутые системы управления громкостью и DRC-системы, к примеру, системы Dolby Digital (DD) и системы Dolby Digital Plus (DD+), спроектированы с возможностью осуществлять рендеринг AV-контента в гостиной потребителя или кинотеатре. Чтобы адаптировать такое содержимое для воспроизведения в других окружениях и на аппаратуре прослушивания (например, на мобильном устройстве), постобработка должна применяться "вслепую" в устройстве воспроизведения, чтобы адаптировать AV-контент для этого окружения прослушивания. Другими словами, постпроцессор (или декодер) предполагает то, что уровень громкости принимаемого контента имеет конкретный уровень (например, -31 или -20 дБ), и постпроцессор задает уровень равным предварительно определенному фиксированному целевому уровню, подходящему для конкретного устройства. Если предполагаемый уровень громкости или предварительно определенный целевой уровень является некорректным, постобработка может приводить к противоположному от намеченного эффекта; т.е. постобработка может делать выходное аудио менее желательным для пользователя.
[0011] Раскрытые варианты осуществления не ограничены использованием с AC-3-потоком битов, E-AC-3-потоком битов или Dolby E-потоком битов, тем не менее, для удобства, такие потоки битов поясняются в сочетании с системой, которая включает в себя метаданные состояния обработки громкости. Dolby, Dolby Digital, Dolby Digital Plus и Dolby E являются торговыми марками Dolby Laboratories Licensing Corporation. Dolby Laboratories предоставляет собственные реализации AC-3 и E-AC-3, известные как Dolby Digital и Dolby Digital Plus, соответственно.
СУЩНОСТЬ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
[0012] Варианты осуществления направлены на способ для декодирования аудиоданных посредством приема потока битов, который содержит метаданные, ассоциированные с аудиоданными, и анализа метаданных в потоке битов, чтобы определять то, доступен или нет параметр громкости для первой группы устройств воспроизведения аудио в потоке битов. В ответ на определение того, что параметры присутствуют для первой группы, компонент обработки использует параметры и аудиоданные для того, чтобы осуществлять рендеринг аудио. В ответ на определение того, что параметры громкости не присутствуют для первой группы, компонент обработки анализирует одну или более характеристик первой группы и определяет параметр на основе одной или более характеристик. Способ дополнительно может использовать параметры и аудиоданные для того, чтобы осуществлять рендеринг аудио посредством передачи параметра и аудиоданных в нижележащий модуль, который осуществляет рендеринг аудио для воспроизведения. Параметр и аудиоданные также могут использоваться для того, чтобы осуществлять рендеринг аудио посредством рендеринга аудиоданных на основе параметра и аудиоданных.
[0013] В варианте осуществления, способ также содержит определение устройства вывода, которое должно осуществлять рендеринг принимаемого аудиопотока, и определение того, принадлежит или нет устройство вывода первой группе устройств воспроизведения аудио; при этом этап анализа метаданных в потоке, чтобы определять то, доступен или нет параметр громкости для первой группы устройств воспроизведения аудио, выполняется после этапа определения того, что устройство вывода принадлежит первой группе устройств воспроизведения аудио. В одном варианте осуществления, этап определения того, что устройство вывода принадлежит первой группе устройств воспроизведения аудио, содержит: прием индикатора из модуля, соединенного с устройством вывода, указывающего идентификационные данные устройства вывода или указывающее идентификационные данные группы устройств, которая включает в себя устройство вывода, и определение того, что устройство вывода принадлежит первой группе устройств воспроизведения аудио, на основе принимаемого индикатора.
[0014] Варианты осуществления дополнительно направлены на устройство или систему, которая включает в себя компоненты обработки, которые совершают действия, описанные в вышеуказанных вариантах осуществления способа кодирования.
[0015] Варианты осуществления еще дополнительно направлены на способ декодирования аудиоданных посредством приема аудиоданных и метаданных, ассоциированных с аудиоданными, анализа метаданных в потоке битов, чтобы определять то, доступна или нет информация громкости, ассоциированная с параметрами громкости для первой группы аудиоустройств, в потоке, и в ответ на определение того, что информация громкости присутствует для первой группы, определение информации громкости из потока и передачу аудиоданных и информации громкости для использования при рендеринге аудио, либо если информация громкости не присутствует для первой группы, определение информации громкости, ассоциированной с выходным профилем, и передачу определенной информации громкости для выходного профиля для использования при рендеринге аудио. В одном варианте осуществления, этап определения информации громкости, ассоциированной с выходным профилем, дополнительно может включать в себя анализ характеристик выходного профиля, определение параметров на основе характеристик, и передача определенной информации громкости содержит передачу определенных параметров. Информация громкости может включать в себя параметры громкости или характеристики выходного профиля. В варианте осуществления, способ дополнительно может содержать определение кодированного потока с низкой скоростью передачи битов, который должен передаваться, при этом информация громкости содержит характеристики для одного или более выходных профилей.
[0016] Варианты осуществления дополнительно направлены на устройство или систему, которая включает в себя компоненты обработки, которые совершают действия, описанные в вышеуказанных вариантах осуществления способа декодирования.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0017] На нижеприведенных чертежах аналогичные ссылки с номерами используются для того, чтобы означать аналогичные элементы. Хотя нижеприведенные чертежи иллюстрируют различные примеры, реализации, описанные в данном документе, не ограничены примерами, проиллюстрированными на чертежах.
[0018] Фиг. 1 является блок-схемой варианта осуществления системы аудиообработки, выполненной с возможностью осуществлять оптимизацию громкости и динамического диапазона в некоторых вариантах осуществления.
[0019] Фиг. 2 является блок-схемой кодера для использования в системе по фиг. 1, в некоторых вариантах осуществления.
[0020] Фиг. 3 является блок-схемой декодера для использования в системе по фиг. 1, в некоторых вариантах осуществления.
[0021] Фиг. 4 является схемой AC-3-кадра, включающего в себя сегменты, на которые он разделен.
[0022] Фиг. 5 является схемой сегмента информации синхронизации (SI) AC-3-кадра, включающего в себя сегменты, на которые он разделен.
[0023] Фиг. 6 является схемой сегмента информации потока битов (BSI) AC-3-кадра, включающего в себя сегменты, на которые он разделен.
[0024] Фиг. 7 является схемой E-AC-3-кадра, включающего в себя сегменты, на которые он разделен.
[0025] Фиг. 8 является таблицей, иллюстрирующей определенные кадры кодированного потока битов и формат метаданных в некоторых вариантах осуществления.
[0026] Фиг. 9 является таблицей, иллюстрирующей формат метаданных состояния обработки громкости в некоторых вариантах осуществления.
[0027] Фиг. 10 является более подробной блок-схемой системы аудиообработки по фиг. 1, которая может быть выполнена с возможностью осуществлять оптимизацию громкости и динамического диапазона в некоторых вариантах осуществления.
[0028] Фиг. 11 является таблицей, которая иллюстрирует различные требования по динамическому диапазону для множества устройств воспроизведения и фоновых окружений прослушивания в примерном случае использования.
[0029] Фиг. 12 является блок-схемой системы оптимизации динамического диапазона в варианте осуществления.
[0030] Фиг. 13 является блок-схемой, иллюстрирующей интерфейс между различными профилями для множества различных классов устройств воспроизведения в варианте осуществления.
[0031] Фиг. 14 является таблицей, которая иллюстрирует корреляцию между долговременной громкостью и кратковременным динамическим диапазоном для множества заданных профилей в варианте осуществления.
[0032] Фиг. 15 иллюстрирует примеры профилей громкости для различных типов аудиоконтента в варианте осуществления.
[0033] Фиг. 16 является блок-схемой последовательности операций способа, которая иллюстрирует способ оптимизации громкости и динамического диапазона через устройства и приложения для воспроизведения в варианте осуществления.
ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
ОПРЕДЕЛЕНИЯ И ТЕРМИНОЛОГИЯ
[0034] В ходе этого раскрытия сущности, в том числе и в формуле изобретения, выражение "выполнение операции "над" сигналом или данными" (например, фильтрация, масштабирование, преобразование или применение усиления к сигналу или данным) используется в широком смысле для того, чтобы обозначать выполнение операции непосредственно над сигналом или данными, либо над обработанной версией сигнала или данных (например, над версией сигнала, который подвергнут предварительной фильтрации или предварительной обработке до выполнения операции). Выражение "система" используется в широком смысле для того, чтобы обозначать устройство, систему или подсистему. Например, подсистема, которая реализует декодер, может упоминаться в качестве системы декодера, а система, включающая в себя такую подсистему (например, система, которая формирует X выходных сигналов в ответ на несколько вводов, в которых подсистема формирует M вводов, и другие X-M вводов принимаются из внешнего источника), также может упоминаться в качестве системы декодера. Термин "процессор" используется в широком смысле для того, чтобы обозначать систему или устройство, запрограммированное или иным способом сконфигурированное (например, с помощью программного обеспечения или микропрограммного обеспечения) с возможностью осуществлять операции для данных (например, аудио или видео или других данных изображений). Примеры процессоров включают в себя программируемую пользователем вентильную матрицу (либо другую конфигурируемую интегральную схему или набор микросхем), процессор цифровых сигналов, запрограммированный и/или иным способом сконфигурированный с возможностью осуществлять конвейерную обработку для аудио или других звуковых данных, программируемый процессор общего назначения или компьютер и программируемую микропроцессорную интегральную схему или набор микросхем.
[0035] Выражения "аудиопроцессор" и "аудиопроцессорный блок" используются взаимозаменяемо и в широком смысле для того, чтобы обозначать систему, выполненную с возможностью обрабатывать аудиоданные. Примеры аудиопроцессоров включают в себя, но не только, кодеры (например, транскодеры), декодеры, кодеки, системы предварительной обработки, системы постобработки и системы обработки потоков битов (иногда называемые инструментальными средствами обработки потоков битов). Выражение "метаданные состояния обработки" (например, как в выражении "метаданные состояния обработки громкости") означает отдельные и различные данные из соответствующих аудиоданных (аудиоконтента потока аудиоданных, который также включает в себя метаданные состояния обработки). Метаданные состояния обработки ассоциированы с аудиоданными, указывает состояние обработки громкости соответствующих аудиоданных (например, какой тип(ы) обработки уже выполнены для аудиоданных), и необязательно также указывает, по меньшей мере, один признак или характеристику аудиоданных. В некотором варианте осуществления, ассоциирование метаданных состояния обработки с аудиоданными является синхронным во времени. Таким образом, текущие (последние принятые или обновленные) метаданные состояния обработки указывают то, что соответствующие аудиоданные одновременно содержат результаты указываемого типа(ов) обработки аудиоданных. В некоторых случаях, метаданные состояния обработки могут включать в себя предысторию обработки и/или некоторые или все параметры, которые используются в и/или извлекаются из указываемых типов обработки. Дополнительно, метаданные состояния обработки могут включать в себя, по меньшей мере, один признак или характеристику соответствующих аудиоданных, которая вычислена или извлечена из аудиоданных. Метаданные состояния обработки также могут включать в себя другие метаданные, которые не связаны или извлечены из обработки соответствующих аудиоданных. Например, сторонние данные, информация отслеживания, идентификаторы, внутренняя или стандартная информация, данные пользовательских примечаний, данные пользовательских настроек и т.д. могут добавляться посредством конкретного аудиопроцессора, чтобы передаваться в другие аудиопроцессоры.
[0036] Выражение "метаданные состояния обработки громкости" (или "LPSM") обозначает метаданные состояния обработки, указывающие состояние обработки громкости соответствующих аудиоданных (например, какой тип(ы) обработки громкости выполнены для аудиоданных), и необязательно также, по меньшей мере, один признак или характеристику (например, громкость) соответствующих аудиоданных. Метаданные состояния обработки громкости могут включать в себя данные (например, другие метаданные), которые не представляют собой (т.е. когда они рассматриваются отдельно) метаданные состояния обработки громкости. Термин "соединяется" или "соединенный" используется для того, чтобы означать прямое или косвенное соединение.
[0037] Системы и способы описываются для аудиокодера/декодера, который недеструктивно нормализует громкость и динамический диапазон аудио через различные устройства, которые требуют или используют различные целевые значения громкости и имеют отличающиеся характеристики динамического диапазона. Способы и функциональные компоненты согласно некоторым вариантам осуществления отправляют информацию относительно аудиоконтента из кодера в декодер для одного или более профилей устройств. Профиль устройства указывает требуемую целевую громкость и динамический диапазон для одного или более устройств. Система является наращиваемой, так что могут поддерживаться новые профили устройств с различными "номинальными" целевыми показателями громкости.
[0038] В варианте осуществления, система формирует надлежащие усиления на основе требований по управления громкостью и динамическому диапазону в кодере или формирует усиления в декодере, под управлением из кодера через параметризацию исходных усилений, чтобы уменьшать скорость передачи данных. Система регулирования динамического диапазона включает в себя два механизма для реализации управления громкостью: профиль художественного динамического диапазона, который предоставляет создателям контента управление касательно того, как должно воспроизводиться аудио, и отдельный механизм защиты, чтобы обеспечивать то, что перегрузка не возникает для различных профилей воспроизведения. Система также выполнена с возможностью давать возможность использования других параметров метаданных (внутренних или внешних) для того, чтобы надлежащим образом управлять усилениями и/или профилями громкости и динамического диапазона. Декодер выполнен с возможностью поддерживать n-канальный вспомогательный ввод, который использует настройки/обработку громкости и динамического диапазона на стороне декодера.
[0039] В некоторых вариантах осуществления, метаданные состояния обработки громкости (LPSM) встраиваются в одно или более зарезервированных полей (или квантов) сегментов метаданных потока аудиобитов, который также включает в себя аудиоданные в других сегментах (сегментах аудиоданных). Например, по меньшей мере, один сегмент каждого кадра потока битов включает в себя LPSM, и, по меньшей мере, один другой сегмент кадра включает в себя соответствующие аудиоданные (т.е. аудиоданные, состояние обработки громкости и громкость которых указываются посредством LPSM). В некоторых вариантах осуществления, объем данных LPSM может быть достаточно небольшим для переноса без влияния на скорость передачи битов, выделяемую для того, чтобы переносить аудиоданные.
[0040] Передача метаданных состояния обработки громкости в цепочке обработки аудиоданных является, в частности, полезной, когда два или более аудиопроцессоров должны работать совместно друг с другом во всей цепочке обработки (или в жизненном цикле контента). Без включения метаданных состояния обработки громкости в поток аудиобитов могут возникать проблемы обработки мультимедиа, такие как ухудшение качества, уровня и пространственных характеристик, например, когда два или более аудиокодеков используются в цепочке, и несимметричная авторегулировка громкости применяется несколько раз в ходе перемещения потока битов в устройство потребления мультимедиа (или в точку рендеринга аудиоконтента потока битов).
СИСТЕМА ОБРАБОТКИ МЕТАДАННЫХ ГРОМКОСТИ И ДИНАМИЧЕСКОГО ДИАПАЗОНА
[0041] Фиг. 1 является блок-схемой варианта осуществления системы аудиообработки, которая может быть выполнена с возможностью осуществлять оптимизацию громкости и динамического диапазона, в некоторых вариантах осуществления с использованием определенных компонентов обработки метаданных (например, предварительной обработка и постобработки). Фиг. 1 иллюстрирует примерную цепочку аудиообработки (систему обработки аудиоданных), в которой один или более элементов системы могут быть сконфигурированы в соответствии с вариантом осуществления настоящего изобретения. Система 10 по фиг. 1 включает в себя следующие элементы, соединенные между собой так, как показано: препроцессор 12, кодер 14, узел 16 анализа сигналов и коррекции метаданных, транскодер 18, декодер 20 и постпроцессор 24. В изменениях показанной системы, один или более элементов опускаются, либо дополнительные процессоры аудиоданных включаются. Например, в одном варианте осуществления, постпроцессор 22 является частью декодера 20, а не отдельным узлом.
[0042] В некоторых реализациях, препроцессор по фиг. 1 выполнен с возможностью принимать выборки PCM (временной области), содержащие аудиоконтент, в качестве ввода 11 и выводить обработанные PCM-выборки. Кодер 14 может быть выполнен с возможностью принимать PCM-выборки в качестве ввода и выводить кодированный (например, сжатый) поток аудиобитов, указывающий аудиоконтент. Данные потока битов, которые служат признаком аудиоконтента, иногда упоминаются в данном документе в качестве "аудиоданных". В одном варианте осуществления, поток аудиобитов, выводимый из кодера, включает в себя метаданные состояния обработки громкости (и необязательно также другие метаданные), а также аудиоданные.
[0043] Узел 16 анализа сигналов и коррекции метаданных может принимать один или более кодированных потоков аудиобитов в качестве ввода и определять (например, проверять допустимость) то, являются или нет метаданные состояния обработки в каждом кодированном потоке аудиобитов корректными, посредством выполнения анализа сигналов. В некоторых вариантах осуществления, проверка допустимости может выполняться посредством компонента узла проверки допустимости состояния, к примеру, элемента 102, показанного на фиг. 2, и одна такая технология проверки допустимости описывается ниже в контексте узла 102 проверки допустимости состояния. В некоторых вариантах осуществления, узел 16 включен в кодер, и проверка допустимости выполняется либо посредством узла 16, либо посредством узла 102 проверки допустимости. Если узел анализа сигналов и коррекции метаданных обнаруживает то, что включенные метаданные являются недопустимыми, узел 16 коррекции метаданных выполняет анализ сигналов, чтобы определять корректное значение(я), и заменяет некорректное значение(я) определенным корректным значением(ями). Таким образом, каждый кодированный поток аудиобитов, выводимый из узла анализа сигналов и коррекции метаданных может включать в себя скорректированные метаданные состояния обработки, а также кодированные аудиоданные. Узел 16 анализа сигналов и коррекции метаданных может быть частью препроцессора 12, кодера 14, транскодера 18, декодера 20 или постпроцессора 22. Альтернативно, узел 16 анализа сигналов и коррекции метаданных может быть отдельным узлом или частью другого узла в цепочке аудиообработки.
[0044] Транскодер 18 может принимать кодированные потоки аудиобитов в качестве модифицированного ввода и выводить (например, по-другому кодированные) потоки аудиобитов в ответ (например, посредством декодирования входного потока и повторного кодирования декодированного потока в другом формате кодирования). Поток аудиобитов, выводимый из транскодера, включает в себя метаданные состояния обработки громкости (и необязательно также другие метаданные), а также кодированные аудиоданные. Метаданные, возможно, включены в поток битов.
[0045] Декодер 20 по фиг. 1 может принимать кодированные (например, сжатые) потоки аудиобитов в качестве ввода и выводить (в ответ) потоки декодированных PCM-аудиовыборок. В одном варианте осуществления, выход декодера представляет собой или включает в себя любое одно из следующего: поток аудиовыборок и соответствующий поток метаданных состояния обработки громкости (и необязательно также других метаданных), извлеченных из входного кодированного потока битов; поток аудиовыборок и соответствующий поток управляющих битов, определенных из метаданных состояния обработки громкости (и необязательно также других метаданных), извлеченных из входного кодированного потока битов; или поток аудиовыборок, без соответствующего потока метаданных состояния обработки или управляющих битов, определенных из метаданных состояния обработки. В этом последнем случае, декодер может извлекать метаданные состояния обработки громкости (и/или другие метаданные) из входного кодированного потока битов и выполнять, по меньшей мере, одну операцию для извлеченных метаданных (например, проверку допустимости), даже если он не выводит извлеченные метаданные или управляющие биты, определенные из них.
[0046] Посредством конфигурирования постпроцессора по фиг. 1 в соответствии с вариантом осуществления настоящего изобретения, постпроцессор 22 выполнен с возможностью принимать поток декодированных PCM-аудиовыборок и выполнять постобработку для них (например, авторегулировку громкости аудиоконтента) с использованием метаданных состояния обработки громкости (и необязательно также других метаданных), принимаемых с выборками, или управляющих битов (определенных посредством декодера из метаданных состояния обработки громкости и необязательно также других метаданных), принимаемых с выборками. Постпроцессор 22 необязательно также выполнен с возможностью осуществлять рендеринг постобработанного аудиоконтенто для воспроизведения посредством одного или более динамиков. Эти динамики могут быть осуществлены в любом из множества различных устройств прослушивания или элементов оборудования для воспроизведения, таких как компьютеры, телевизионные приемники, стереосистемы (домашние или кино-), мобильные телефоны и другие портативные устройства воспроизведения. Динамики могут иметь любой надлежащий размер и номинальную мощность и могут предоставляться в форме автономных головок громкоговорителя, акустических экранов динамиков, систем объемного звучания, звуковых панелей, наушников, наушников-вкладышей и т.д.
[0047] Некоторые варианты осуществления предоставляют усовершенствованную цепочку аудиообработки, в которой аудиопроцессоры (например, кодеры, декодеры, транскодеры и пре- и постпроцессоры) адаптируют свою соответствующую обработку, которая должна применяться к аудиоданным согласно текущему состоянию мультимедийных данных, как указано посредством метаданных состояния обработки громкости, соответственно, принимаемых посредством аудиопроцессоров. Ввод 11 аудиоданных в любой аудиопроцессор системы 100 (например, кодер или транскодер по фиг. 1) может включать в себя метаданные состояния обработки громкости (и необязательно также другие метаданные), а также аудиоданные (например, кодированные аудиоданные). Эти метаданные, возможно, включены во входное аудио посредством другого элемента или другого источника в соответствии с некоторыми вариантами осуществления. Процессор, который принимает входное аудио (с метаданными), может быть выполнен с возможностью осуществлять, по меньшей мере, одну операцию для метаданных (например, проверку допустимости) или в ответ на метаданные (например, адаптивную обработку входного аудио), и необязательно также включать в свое выходное аудио метаданные, обработанную версию метаданных или управляющие биты, определенные из метаданных.
[0048] Вариант осуществления аудиопроцессора (audio processing unit) (или аудиопроцессора (audio processor)) выполнен с возможностью осуществлять адаптивную обработку аудиоданных на основе состояния аудиоданных, как указано посредством метаданных состояния обработки громкости, соответствующих аудиоданным. В некоторых вариантах осуществления, адаптивная обработка представляет собой (или включает в себя) обработку громкости (если метаданные указывают то, что обработка громкости или обработка, аналогичная ей, уже не выполнена для аудиоданных, но не представляет собой (и не включает в себя) обработку громкости (если метаданные указывают то, что такая обработка громкости или обработка, аналогичная ей, уже выполнена для аудиоданных). В некоторых вариантах осуществления, адаптивная обработка представляет собой или включает в себя проверку допустимости метаданных (например, выполняемую в подузле проверки допустимости метаданных), чтобы обеспечивать то, что аудиопроцессор выполняет другую адаптивную обработку аудиоданных на основе состояния аудиоданных, как указано посредством метаданных состояния обработки громкости. В некоторых вариантах осуществления, проверка допустимости определяет надежность метаданных состояния обработки громкости, ассоциированных (например, включенных в поток битов) с аудиоданными. Например, если подтверждено то, что метаданные являются надежными, то результаты из типа ранее выполняемой аудиообработки могут быть многократно использованы, и может исключаться дополнительное выполнение идентичного типа аудиообработки. С другой стороны, если обнаружено то, что метаданные подделаны (либо являются ненадежными в иных отношениях), то тип обработки мультимедиа, предположительно ранее выполняемой (как указано посредством ненадежных метаданных), может повторяться посредством аудиопроцессора, и/или другая обработка может выполняться посредством аудиопроцессора для метаданных и/или аудиоданных. Аудиопроцессор также может быть выполнен с возможностью передавать в служебных сигналах в другие аудиопроцессоры ниже в усовершенствованной цепочке обработки мультимедиа то, что метаданные состояния обработки громкости (например, присутствующие в потоке мультимедийных битов) являются допустимыми, если узел определяет то, что метаданные состояния обработки являются допустимыми (например, на основе соответствия извлеченного криптографического значения и опорного криптографического значения).
[0049] Для варианта осуществления по фиг. 1, компонент 12 предварительной обработки может быть частью кодера 14, и компонент 22 постобработки может быть частью декодера 22.
Альтернативно, компонент 12 предварительной обработки может быть осуществлен в функциональном компоненте, который является отдельным от кодера 14. Аналогично, компонент 22 постобработки может быть осуществлен в функциональном компоненте, который является отдельным от декодера 20.
[0050] Фиг. 2 является блок-схемой кодера 100, который может использоваться в сочетании с системой 10 по фиг. 1. Любые из компонентов или элементов кодера 100 могут быть реализованы как один или более процессов и/или одна или более схем (например, ASIC, FPGA или другие интегральные схемы), в аппаратных средствах, в программном обеспечении либо в комбинации аппаратных средств и программного обеспечения. Кодер 100 содержит буфер 110 кадров, синтаксический анализатор 111, декодер 101, узел 102 проверки допустимости состояния аудио, каскад 103 обработки громкости, каскад 104 выбора аудиопотока, кодер 105, каскад 107 узла форматирования/согласования скорости передачи данных, каскад 106 формирования метаданных, подсистему 108 измерения громкости диалога и буфер 109 кадров, соединенные так, как показано. Необязательно также кодер 100 включает в себя другие элементы обработки (не показаны). Кодер 100 (который представляет собой транскодер) выполнен с возможностью преобразовывать входной поток аудиобитов (который, например, может представлять собой одно из AC-3-потока битов, E-AC-3-потока битов или Dolby E-потока битов) в кодированный выходной поток