2589362 - Аудиокодер и аудиодекодер с метаданными громкости и границы программы

Аудиокодер и аудиодекодер с метаданными громкости и границы программы

Иллюстрации

Показать все

Изобретение относится к средствам кодирования и декодирования аудиоданных. Технический результат заключается в повышении эффективности обработки аудиоданных. Кодированный битовый аудиопоток содержит аудиоданные и контейнер метаданных, причем контейнер метаданных включает заголовок, одну или несколько полезных нагрузок метаданных и защитные данные. Синтаксический анализатор, соединенный с аудиодекодером или интегрированный в него предназначен для выполнения синтаксического анализа кодированного битового аудиопотока. Заголовок содержит синхрослово, идентифицирующее начало контейнера метаданных, одна или несколько полезных нагрузок метаданных описывают аудиопрограмму, связанную с аудиоданными, защитные данные расположены после одной или нескольких полезных нагрузок метаданных, защитные данные имеют возможность быть использованными для проверки целостности контейнера метаданных и одной или нескольких полезных нагрузок в контейнере метаданных. 2 н. и 21 з.п. ф-лы, 2 табл., 11 ил.

Реферат

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ

Эта заявка имеет приоритет по предварительной заявке на патент США № 61/754882, поданной 21 января 2013 года, и предварительной заявке на патент США № 61/824010, поданной 16 мая 2013 года, каждая из которых включена в данное описание посредством ссылки во всей полноте.

ОБЛАСТЬ ТЕХНИКИ

Изобретение относится к обработке звуковых сигналов, а более конкретно к кодированию и декодированию битовых потоков аудиоданных с метаданными, являющимися индикатором состояния обработки громкости аудиоконтента и расположения границ аудиопрограмм, индицированных битовым потоком. Некоторые варианты осуществления настоящего изобретения формируют или декодируют аудиоданные в один из форматов, известных как AC-3, Enhanced AC-3 или Е-АС-3, или Dolby E.

ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ

Dolby, Dolby Digital, Dolby Digital Plus и Dolby E являются товарными знаками Dolby Laboratories Licensing Corporation. Dolby Laboratories обеспечивает запатентованные воплощения АС-3 и E-AC-3, известные как Dolby Digital и Dolby Digital Plus, соответственно.

Блоки обработки аудиоданных обычно работают «вслепую» и не обращают внимание на характер протекания процессов с аудиоданными, которые происходили до получения данных. Это может работать при условиях обработки аудиоданных, когда один объект полностью выполняет обработку и кодирование аудиоданных для различных целевых воспроизводящих медиа-устройств при том, что целевое воспроизводящее медиа-устройство полностью выполняет декодирование и воспроизведение кодированных аудиоданных. Тем не менее такая «слепая» обработка является неэффективной (или вообще неработоспособной) в ситуациях, когда множество блоков обработки звукового сигнала разнесено по неоднородной сети или установлено последовательно (то есть, в виде цепи) и, как ожидается, должно оптимально выполнять соответствующие типы обработки звуковых сигналов. Например, некоторые аудиоданные могут быть закодированы для медиа-систем высокой производительности и, возможно, их придется преобразовать в упрощенную форму, подходящую для мобильного устройства, находящегося в тракте обработки медиа-информации. Соответственно, блоку обработки звукового сигнала нет необходимости совершать выполненный ранее вид обработки аудиоданных. Например, блок авторегулировки громкости может выполнять обработку входного аудиоклипа, независимо от того, была ли такая же или аналогичная авторегулировка громкости для этого входного аудиоклипа выполнена ранее. В результате блок авторегулировки громкости может выполнять авторегулировку, даже когда это не нужно. Такая излишняя обработка также может быть причиной ухудшения и/или удаления характерных особенностей при воспроизведении контента аудиоданных.

Типовой поток аудиоданных включает в себя как аудиоконтент (например, один или более каналов аудиоконтента), так и метаданные, индицирующие по меньшей мере одну характеристику аудиоконтента. Например, в битовом потоке АС-3 присутствует несколько параметров метаданных звукового сигнала, которые специально предназначены для использования при изменении звука программы, передаваемой в среду прослушивания. Одним из параметров метаданных является параметр DIALNORM, который предназначен для индицирования среднего уровня диалога, встречающегося в аудиопрограмме, и используется для определения уровня воспроизведения звукового сигнала.

Во время воспроизведения битового потока, содержащего последовательность различных сегментов аудиопрограммы (каждый из которых имеет различный параметр DIALNORM), АС-3 декодер использует параметр DIALNORM каждого сегмента, чтобы выполнить тип обработки громкости, при котором он изменяет уровень воспроизведения или громкость так, что воспринимаемая громкость диалога последовательности сегментов поддерживается на постоянном уровне. Каждый кодированный аудиосегмент (элемент) в последовательности кодированных аудиоэлементов будет (в общем) иметь различные параметры DIALNORM, и декодер будет масштабировать уровень каждого из элементов таким образом, чтобы уровень воспроизведения или громкость диалога каждого элемента была одинаковой или очень похожей даже, если потребуется применение коэффициентов усиления различной величины для различных элементов во время воспроизведения.

DIALNORM обычно задается пользователем, и не формируется автоматически, хотя существует значение DIALNORM по умолчанию, если значение не задано пользователем. Например, создатель контента может производить измерения громкости с внешнего устройства по отношению к AC-3 кодеру, а затем передать результат (показывающий громкость разговорного диалога аудиопрограммы) кодеру, чтобы установить значение DIALNORM. Таким образом, правильность установки параметра DIALNORM зависит от создателя контента.

Существует несколько разных причин, из-за которых параметр DIALNORM в битовом потоке AC-3 может быть неверным. Во-первых, каждый АС-3 кодер имеет значение DIALNORM по умолчанию, которое используется при формировании битового потока, если значение DIALNORM не задано создателем контента. Это значение по умолчанию может существенно отличаться от фактической громкости диалога аудиоконтента. Во-вторых, даже если создатель контента измеряет громкость и задает значение DIALNORM соответствующим образом, алгоритм измерения громкости или измерительный прибор могут не соответствовать рекомендованному методу измерения громкости для AC-3, в результате будет получено неверное значение DIALNORM. В-третьих, даже если битовый поток AC-3 был создан с правильно измеренным и заданным создателем контента значением DIALNORM, он может быть изменен на неверное значение при передаче и/или хранении битового потока. Например, в телевизионных вещательных приложениях для битовых потоков AC-3, подлежащих декодированию, модификации, а затем перекодированию, не редко использование информации метаданных с неправильным DIALNORM. Таким образом, значение DIALNORM, включенное в битовый поток AC-3, может быть неправильным или неточным и, следовательно, может отрицательно влиять на качество звучания.

Кроме того, параметр DIALNORM не показывает состояние обработки громкости соответствующих аудиоданных (например, какие тип(ы) обработки громкости были выполнены с аудиоданными). До настоящего изобретения звуковой битовый поток никогда не включал метаданные, индицирующие состояние обработки громкости (например, применяемый(е) тип(ы) обработки громкости) аудиоконтента битового аудиопотока или состояние обработки громкости и громкость аудиоконтента битового потока в формате типа, который описан в настоящем изобретении. Метаданные состояния обработки громкости в таком формате являются полезными для обеспечения, в частности, эффективной адаптивной обработки громкости битового аудиопотока и/или проверки достоверности состояния обработки громкости и громкости аудиоконтента.

Хотя настоящее изобретение не ограничивается использованием битового потока AC-3, битового потока E-AC-3 или битового потока Dolby E, для удобства оно будет описано в вариантах осуществления, в которых оно генерирует, декодирует или иным образом обрабатывает такие битовые потоки, которые включают метаданные состояния обработки громкости.

Кодированный битовый поток AC-3 содержит метаданные и от одного до шести каналов аудиоконтента. Аудиоконтент - это аудиоданные, которые были сжаты с использованием перцепционного аудиокодирования. Метаданные включают в себя несколько параметров метаданных аудиоконтента, которые предназначены для использования при изменении звучания программ, передаваемых в среду прослушивания.

Подробное описание AC-3 кодирования (также известного как Dolby Digital) хорошо известно и изложено во многих опубликованных источниках, в том числе в следующих:

ATSC Standard A52/A: Digital Audio Compression Standard (AC-3), Revision A, Advanced Television Systems Committee, 20 Aug. 2001; и

патенты США № 5583962; 5632005; 5633981; 5727119; и 6021386, каждый из которых включен в данное описание посредством ссылки во всей своей полноте.

Подробное описание кодирования Dolby Digital Plus (E-AC-3) изложено в “Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System,” AES Convention Paper 6196, 117th AES Convention, October 28, 2004.

Подробное описание кодирования Dolby E изложено в "Efficient Bit Allocation, Quantization, and Coding in an Audio Distribution System", AES Preprint 5068, 107th AES Conference, August 1999 and "Professional Audio Coder Optimized for Use with Video", AES Preprint 5033, 107th AES Conference August 1999.

Каждый фрейм кодированного битового аудиопотока AC-3 содержит аудиоконтент и метаданные для 1536 семплов цифровой звукозаписи. Что представляет 32 миллисекунды цифровой звукозаписи или скорость звукозаписи 31,25 фреймов в секунду для частоты дискретизации 48 кГц.

Каждый фрейм кодированного битового аудиопотока E-AC-3 содержит аудиоконтент и метаданные для 256, 512, 768 или 1536 семплов цифровой звукозаписи в зависимости от того, содержит ли фрейм один, два, три или шесть блоков аудиоданных соответственно. Для частоты дискретизации 48 кГц это представляет 5,333, 10,667, 16 или 32 миллисекунды цифровой аудиозаписи соответственно или скорость аудиозаписи 189,9, 93,75, 62,5 или 31,25 фреймов в секунду соответственно.

Как показано на фиг. 4, каждый фрейм AC-3 делится на разделы (сегменты): раздел синхронизирующей информации (SI), который содержит (как показано на фиг. 5) синхрослово (SW) и первое из двух слов коррекции ошибок (CRC1); информационный раздел битового потока (BSI), который содержит большую часть метаданных; шесть аудиоблоков (AB0 - AB5), которые содержат данные сжатого аудиоконтента (а также могут включать метаданные); сегменты лишних битов (W), которые содержат все неиспользуемые биты, оставшиеся после сжатия аудиоконтента; вспомогательный информационный раздел (AUX), который может содержать дополнительные метаданные и второе из двух слов коррекции ошибок (CRC2). Сегмент лишних битов (W) также может упоминаться как «поле игнорируемых данных».

Как показано на фиг. 7, каждый фрейм E-AC-3 делится на разделы (сегменты): раздел синхронизирующей информации (SI), который содержит (как показано на фиг. 5) синхрослово (SW); информационный раздел битового потока (BSI), который содержит большую часть метаданных; от одного до шести аудиоблоков (AB0 - AB5), которые содержат данные сжатого аудиоконтента (а также могут включать в себя метаданные); сегмент лишних битов (W), который содержит все неиспользуемые биты, оставшиеся после сжатия аудиоконтента (хотя показан только один сегмент лишних битов, как правило, за каждым аудиоблоком следуют другие сегменты лишних битов); вспомогательный информационный раздел (AUX), который может содержать дополнительные метаданные и слово коррекции ошибок (CRC). Сегмент лишних битов (W) также может упоминаться как «поле игнорируемых данных».

В битовом потоке AC-3 (или E-AC-3) присутствует несколько параметров метаданных звукозаписи, которые специально предназначены для использования при изменении звучания программы, передаваемой в среду прослушивания. Одним из параметров метаданных является параметр DIALNORM, который входит в сегмент BSI.

Как показано на фиг. 6, сегмент BSI фрейма AC-3 содержит пятибитовый параметр («DIALNORM»), указывающий значение DIALNORM для программы. Пятибитовый параметр («DIALNORM2»), указывающий передаваемое в том же фрейме AC-3 значение DIALNORM для второй аудиопрограммы, содержится в битовом потоке, если режим аудиокодирования («acmod») фрейма АС-3 равен «0», индицируя использование конфигурации канала «дуальное моно» или «1 + 1».

Сегмент BSI также содержит флаг («addbsie»), индицирующий наличие (или отсутствие) дополнительной информации битового потока после бита «addbsie», параметр («addbsil»), индицирующий длину любой дополнительной информации битового потока, следующей за значением «addbsil», а также до 64 бит дополнительной информации потока («addbsi»), следующей за значением «addbsil».

Сегмент BSI содержит другие значения метаданных, в частности, не показанных на фиг. 6.

Краткое описание изобретения

В одном классе вариантов осуществления настоящее изобретение представляет собой блок обработки звукового сигнала, который включает буферное запоминающее устройство, аудиодекодер и синтаксический анализатор. Буферное запоминающее устройство хранит по меньшей мере один фрейм кодированного битового аудиопотока. Кодированный битовый аудиопоток включает аудиоданные и контейнер метаданных. Контейнер метаданных содержит заголовок, одно или несколько информационных наполнений метаданных и защитные данные. Заголовок включает синхрослово, идентифицирующее начало контейнера. Одно или несколько информационных наполнений метаданных описывают аудиопрограмму, связанную с аудиоданными. Защитные данные располагаются после одного или нескольких информационных наполнений метаданных. Защитные данные также могут быть использованы для проверки целостности контейнера метаданных и одного или нескольких информационных наполнений в контейнере метаданных. Аудиодекодер подключен к буферному запоминающему устройству и способен декодировать аудиоданные. Синтаксический анализатор подключен к или интегрирован в аудиодекодер и способен выполнять синтаксический анализ контейнера метаданных.

В типовых вариантах осуществления изобретения способ включает прием кодированного битового аудиопотока, причем кодированный битовый аудиопоток сегментирован на один или несколько фреймов. Аудиоданные, наряду с контейнером метаданных, извлекаются из кодированного битового аудиопотока. Контейнер метаданных содержит заголовок с последующим одним или несколькими информационными наполнениями метаданных, за которыми следуют защитные данные. И, наконец, целостность контейнера и одного или нескольких информационных наполнений метаданных проверяется посредством использования защитных данных. Одно или несколько информационных наполнений метаданных могут включать информационное наполнение громкости программы, которое содержит данные, индицирующие измеренную громкость аудиопрограммы, связанной с аудиоданными.

Информационное наполнение метаданных громкости программы называют метаданными состояния обработки громкости («LPSM»), встроенными в битовый аудиопоток, для которых в соответствии с типовыми вариантами осуществления изобретения может быть установлена подлинность и подтверждена достоверность, например, для того, чтобы объекты, регулирующие громкость, могли убедиться в том, что громкость конкретной программы находится в пределах установленного диапазона, и что соответствующие аудиоданные не изменились (обеспечивая тем самым соблюдение действующих регулирующих требований). Для подтверждения этого вместо повторного вычисления громкости может быть считано значение громкости, содержащееся в блоке данных, содержащем метаданные состояния обработки громкости. Благодаря LPSM, регулирующий орган без необходимости вычисления громкости аудиоконтента может определить, что соответствующий аудиоконтент находится в соответствии (как индицировано LPSM) с законодательно установленным уровнем громкости и/или с нормативными требованиями (например, постановлениями, принятыми в соответствии с Законом об уменьшении громкости коммерческой рекламы, также известным как Закон «CALM»).

Измерения громкости, которые необходимы для соблюдения законодательно установленного уровня громкости и/или некоторых нормативных требований (например, постановлений, принятых в соответствии с Законом об уменьшении громкости коммерческой рекламы), основываются на интегральной громкости программы. Интегральная громкость программы требует, чтобы измерения громкости, либо уровня громкости диалога, либо уровня громкости смешанной звукозаписи, проводились в течение всей аудиопрограммы. Таким образом, крайне важно знать, какие аудиоданные (и метаданные) определяют всю аудиопрограмму, чтобы выполнить измерения громкости программы (например, на разных этапах в вещательной цепи) для проверки соответствия настоящим требованиям законодательства, а это, как правило, требует знания местоположения начала и конца программы (например, во время обработки битового потока, индицирующего последовательность аудиопрограмм).

В соответствии с типовыми вариантами осуществления настоящего изобретения кодированный битовый аудиопоток индицирует по меньшей мере одну аудиопрограмму (например, последовательность аудиопрограмм), а метаданные границы программы и LPSM, включенные в битовый поток, позволяют сбросить измерения громкости программы в конце программы и, тем самым, обеспечить автоматизированный способ измерения интегральной громкости программы. Типовые варианты осуществления настоящего изобретения включают эффективные метаданные границы программы в кодированном битовом аудиопотоке, позволяющие выполнить точное и надежное определение по меньшей мере одной границы между последовательными аудиопрограммами, индицированными битовым потоком. Типовые варианты осуществления позволяют точное и надежное определение границы программы в том смысле, что они позволяют точно определить границу программы, даже в тех случаях, когда битовые потоки, указывающие различные программы, смонтированы друг с другом (для формирования битового потока согласно изобретению) таким образом, что обрезан один или оба смонтированных битовых потока (и, таким образом, удалены метаданные границы программы, которые входили по меньшей мере в один из битовых потоков до монтажа).

В типовых вариантах осуществления метаданные границы программы во фрейме битового потока, согласно изобретению, представляют собой флаг границы программы, индицирующий число фреймов. Как правило, флаг указывает количество фреймов между текущим фреймом (фреймом, который включает в себя флаг) и границей программы (началом или концом текущей аудиопрограммы). В некоторых предпочтительных вариантах осуществления изобретения флаги программы расставляют симметрично, эффективным способом в начале и в конце каждого сегмента битового потока, который индицирует одну программу (т.е. во фреймах, встречающихся в течение некоторого заданного числа фреймов после начала сегмента, и во фреймах, встречающихся в течение некоторого заданного числа фреймов до конца сегмента), таким образом, когда два таких сегмента битового потока соединяются (т.е. будет присутствовать признак последовательности двух программ), метаданные границы программы могут присутствовать (например, симметрично) на обеих сторонах границы между двумя программами.

Чтобы ограничить увеличение скорости передачи данных, что является результатом включения метаданных границы программы в кодированный битовый аудиопоток (который может содержать признаки одной аудиопрограммы или последовательности аудиопрограмм), в типовых вариантах осуществления изобретения флаги границ программы вставляют только в подмножестве фреймов битового потока. Как правило, коэффициент размещения флага границы является невозрастающей функцией в зависимости от увеличения интервала между каждым из фреймов битового потока (в котором флаг установлен) и границей программы, которая ближе к указанному фрейму, где «коэффициент размещения флага границы» является средним значением отношения количества фреймов (индицирующих программу), которые включают в себя флаги границ программы к числу фреймов (индицирующих программу), которые не включают в себя флаг границы программы, где среднее значение является скользящим средним количества (например, относительно небольшого числа) последовательных фреймов кодированного битового аудиопотока. В классе вариантов осуществления изобретения, коэффициент размещения флага границы логарифмически убывает по мере увеличения интервала (от каждого места вставки флага) до ближайшей границы программы, а для каждого флагосодержащего фрейма, который включает в себя один из флагов, размер флага в указанном флагосодержащем фрейме равен или больше, чем размер каждого флага во фрейме, расположенном ближе к ближайшей границе программы, чем указанный флагосодержащий фрейм (то есть, размер флага границы программы в каждом флагосодержащем фрейме является неубывающей функцией от увеличения интервала от указанного флагосодержащего фрейма до ближайшей границы программы).

Другой аспект настоящего изобретения представляет собой блок обработки звукового сигнала (APU), сконфигурированный с возможностью выполнения любого варианта осуществления способа согласно изобретению. В другом классе вариантов осуществления изобретение представляет собой APU, включающий буферное запоминающее устройство (буфер), который хранит (например, неизменяемым способом) по меньшей мере, один фрейм кодированного битового аудиопотока, который сформирован любым вариантом осуществления способа согласно изобретению. Примеры APU включают, но не ограничиваются ими: кодеры (например, транскодеры), декодеры, кодеки, системы предварительной обработки (препроцессоры), системы постобработки (постпроцессоры), системы обработки битового аудиопотока и комбинации таких элементов.

В другом классе вариантов осуществления изобретение представляет собой блок обработки звукового сигнала (APU), выполненный с возможностью генерации кодированного битового аудиопотока, включающего сегменты аудиоданных и сегменты метаданных, где сегменты аудиоданных являются индикаторами аудиоданных, а каждый из, по меньшей мере, некоторых сегментов метаданных включает метаданные состояния обработки громкости (LPSM) и, возможно, также метаданные границы программы. Как правило, по меньшей мере один такой сегмент метаданных во фрейме битового потока включает по меньшей мере один сегмент LPSM, с признаком, был ли выполнен первый тип обработки громкости с аудиоданными фрейма (то есть, аудиоданными по меньшей мере в одном сегменте аудиоданных фрейма), и по меньшей мере один другой сегмент LPSM, индицирующий громкость, по меньшей мере, некоторых аудиоданных фрейма (например, громкость диалога, по меньшей мере, некоторых из аудиоданных во фрейме, имеющих признаки диалога). В одном из вариантов осуществления изобретения в этом классе, APU представляет собой кодер, выполненный с возможностью кодирования входного аудиосигнала для формирования кодированного аудиосигнала, а сегменты аудиоданных включают в себя кодированный аудиосигнал. В типовых вариантах осуществления изобретения в этом классе каждый из сегментов метаданных имеет предпочтительный формат, который будет описан далее.

В некоторых вариантах осуществления изобретения каждый из сегментов метаданных кодированного битового потока (битового потока AC-3 или битового потока E-AC-3 в некоторых вариантах осуществления изобретения), который включает LPSM (например, LPSM и метаданные границы программы), входит в сегмент лишних битов поля игнорируемых данных фрейма битового потока (например, сегмент лишних битов W типа, показанного на фиг. 4 или фиг. 7). В других вариантах осуществления изобретения каждый из сегментов метаданных кодированного битового потока (битового потока AC-3 или битового потока E-AC-3 в некоторых вариантах осуществления изобретения), который включает FPSM (например, FPSM и метаданные границы программы), входит в качестве дополнительной информации битового потока в поле «addbsi» информационного сегмента битового потока («BSI») фрейма битового потока или в поле вспомогательных данных (например, сегмент AUX типа, показанного на фиг. 4 или фиг. 7) в конце фрейма битового потока. Каждый сегмент метаданных, включающий FPSM, может иметь формат, определенный в данном описании со ссылкой на таблицу 1 и таблицу 2, приведенные ниже, (то есть, он включает в себя основные элементы, указанные в таблице 1, или варианты, после чего идентификатор информационного наполнения (идентифицирующий метаданные такие, как LPSM) и значение размера информационного наполнения, а затем информационное наполнение (LPSM данные, которые имеют формат, показанный в таблице 2, или формат, показанный в варианте таблицы 2, приведенный в данном описании). В некоторых вариантах осуществления изобретения фрейм может включать один или два сегмента метаданных, каждый из которых включает LPSM, а если фрейм включает два сегмента метаданных, один может присутствовать в поле фрейма addbsi, а другой в поле фрейма AUX.

В классе вариантов осуществления изобретения настоящее изобретение представляет собой способ, включающий в себя этапы кодирования аудиоданных для формирования AC-3 или Е-АС-3 кодированного битового аудиопотока, в том числе за счет включения в сегмент метаданных (по меньшей мере одного фрейма битового потока) LPSM и метаданных границы программы и, возможно, также и других метаданных для аудиопрограммы, к которой принадлежит этот фрейм. В некоторых вариантах осуществления изобретения каждый такой сегмент метаданных включен в поле фрейма addbsi или поле вспомогательных данных фрейма. В других вариантах осуществления изобретения каждый такой сегмент метаданных включен в сегмент лишних битов фрейма. В некоторых вариантах осуществления изобретения каждый сегмент, который содержит метаданные LPSM и метаданные границы программы, содержит заголовок фрейма (и в некоторых случаях также дополнительные основные элементы), и после заголовка фрейма (или заголовка фрейма и других основных элементов) сегмент информационного наполнения LPSM (или контейнера), имеющий следующий формат:

заголовок, как правило, включающий по меньшей мере одно идентификационное значение (например, версию формата LPSM, длину, период, число и ассоциативные значения вложенного потока данных, как указано в таблице 2, приведенной в настоящем описании), и

после заголовка - LPSM и метаданные границы программы. Метаданные границы программы могут включать в себя число фреймов до границы программы и значение кода (например, значение «offset_exist»), указывающее, содержит ли кадр только число фреймов до границы программы или

число фреймов до границы программы и значение смещения, и (в некоторых случаях) значение смещения. LPSM может включать:

по меньшей мере одно индицирующее диалог значение, указывающее одно из двух - соответствующие аудиоданные имеют признак диалога или не имеют признак диалога (например, какие каналы соответствующих аудиоданных имеют признак диалога). Индицирующее значение(я) диалога может указать, присутствует ли диалог в любой комбинации каналов или во всех каналах соответствующих аудиоданных;

по меньшей мере одно значение соблюдения нормативных требований по громкости, указывающее соответствуют ли соответствующие аудиоданные указанному пакету нормативных требований по громкости;

по меньшей мере одно значение обработки громкости, указывающее по меньшей мере один тип обработки громкости, который был выполнен с соответствующими аудиоданными; и

по меньшей мере одно значение громкости, указывающее по меньшей мере одну характеристику громкости (например, пиковое или среднее значение громкости) соответствующих аудиоданных.

В других вариантах осуществления изобретения кодированный битовый поток представляет собой битовый поток, который не является битовым потоком АС-3 или битовым потоком E-AC-3, а каждый из сегментов метаданных, который включает LPSM (и в некоторых случаях также метаданные границы программы), входит в сегмент (или поле, или слот) битового потока, зарезервированный для хранения дополнительных данных. Каждый сегмент метаданных, включающий LPSM, может иметь формат аналогичный или идентичный, указанному в данном описании со ссылкой на таблицу 1 и таблицу 2, которые приведены ниже (то есть он включает в себя основные элементы, аналогичные или идентичные тем, которые указаны в таблице 1, за которыми следует ID (идентификатор) информационного наполнения (идентификационные метаданные как LPSM) и значения объема информационного наполнения, а затем информационное наполнение (LPSM данные, которые имеют формат, аналогичный или идентичный формату, указанному в таблице 2, или в варианте таблицы 2, приведенной в настоящем описании)).

В некоторых вариантах осуществления изобретения кодированный битовый поток содержит последовательность фреймов, каждый из фреймов включает информационный сегмент битового потока («BSI»), включающий поле «addbsi» (иногда именуемое сегмент или слот) и поле или слот вспомогательных данных (например, кодированный битовый поток является битовым потоком AC-3 или битовым потоком E-AC-3), и включает сегменты аудиоданных (например, сегменты фрейма AB0 - AB5, показанные на фиг. 4) и сегменты метаданных, где сегменты аудиоданных являются признаком аудиоданных, причем каждый из, по меньшей мере, некоторых сегментов метаданных включает метаданные состояния обработки громкости (LPSM) и, в некоторых случаях также метаданные границы программы. LPSM присутствуют в битовом потоке в следующем формате. Каждый из сегментов метаданных, который включает LPSM, включен в поле «addbsi» сегмента BSI фрейма битового потока, или в поле вспомогательных данных битового потока, или в сегмент лишних битов фрейма битового потока. Каждый сегмент метаданных, включающий LPSM, содержит сегмент информационного наполнения (или контейнера) LPSM, имеющий следующий формат:

заголовок (обычно включающий, по меньшей мере, одно идентифицирующее значение, например, версию формата LPSM, длину, период, число и ассоциативные значения вложенного потока данных, указанные ниже в таблице 2); и

после заголовка, LPSM и в некоторых случаях также метаданные границы программы. Метаданные границы программы могут включать в себя число фреймов до границы программы и значение кода (например, значение «offset_exist»), которое указывает, содержит ли фрейм только число фреймов до границы программы или и число фреймов до границы программы, и значение смещения), и (в некоторых случаях) значение смещения, LPSM может содержать:

по меньшей мере одно значение, индицирующее диалог (например, параметр «Канала(ов) диалога» из таблицы 2), указывающий, что соответствующие аудиоданные индицируют или не индицируют диалог (например, какие каналы соответствующих аудиоданных индицируют диалог). Значение(я), индицирующее диалог, может указать, присутствует ли диалог в любой комбинации каналов или во всех каналах соответствующих аудиоданных;

по меньшей мере одно значение соблюдения нормативных требований по громкости (например, параметр «Тип регулирования громкости» из таблицы 2), указывающее, соответствуют ли соответствующие аудиоданные указанному пакету нормативных требований по громкости;

по меньшей мере одно значение обработки громкости (например, один или несколько параметров «Флаг коррекции стробированной громкости диалога», «Тип коррекции громкости» из таблицы 2), указывающее по меньшей мере один тип обработки громкости, который был выполнен с соответствующими аудиоданными; и

по меньшей мере одно значение громкости (например, один или несколько из параметров: «Относительная стробированная громкость по рекомендации МСЭ (Международный союз электросвязи)», «Стробированная громкость речи по рекомендации МСЭ», «Краткосрочная громкость (3-секундный временной интервал) по рекомендации МСЭ (EBU 3341)», и «Истинное пиковое значение», приведенные в Таблице 2), указывающее по меньшей мере одну характеристику громкости (например, пиковую или среднюю громкость) соответствующих аудиоданных.

В любом из вариантов осуществления изобретения, который предполагает, использует или формирует по меньшей мере одно значение громкости, указывающего соответствующие аудиоданные, значение(я) громкости может указывать по меньшей мере одну измерительную характеристику уровня громкости, используемую для обработки уровня громкости и/или динамический диапазон аудиоданных.

В некоторых воплощениях изобретения каждый из сегментов метаданных в поле «addbsi», или в поле вспомогательных данных, или сегмента лишних битов фрейма битового потока имеет следующий формат:

заголовок фрейма (обычно включающий синхрослово, идентифицирующее начало сегмента метаданных, а затем идентификационные значения, например версию основного элемента, длину и период, число расширенных элементов, и ассоциативные значения вложенного потока данных, указанные в таблице 1 ниже; и

после заголовка фрейма по меньшей мере одно защитное значение (например, HMAC дайджест и значения цифрового отпечатка, где HMAC дайджест может являться 256-битным HMAC дайджестом (при использовании алгоритма SHA-2), вычисляемым по аудиоданным, основному элементу, и всем расширенным элементам, из всего фрейма, как указано в таблице 1), подходящее по меньшей мере для одного из: декодирования, аутентификации, или проверки достоверности по меньшей мере одного из метаданных состояния обработки уровня громкости или соответствующих аудиоданных); и

также после заголовка фрейма, если сегмент метаданных включает LPSM, идентификатор («ID») информационного наполнения LPSM и значения объема (размер) информационного наполнения LPSM, которое идентифицируют следующие метаданные как информационное наполнение LPSM, и указывает размер информационного наполнения LPSM. Сегмент информационного наполнения LPSM (преимущественно имеющий формат, указанный выше) следует за ID информационного наполнения LPSM и числовым значением размера информационного наполнения LPSM.

В некоторых вариантах осуществления типа, описанного в предыдущем абзаце, каждый сегмент метаданных в поле вспомогательных данных (или в поле «addbsi», или в сегменте лишних битов) фрейма имеет три уровня структуры:

структура высокого уровня, содержащая флаг, указывающий, включает ли поле вспомогательных данных (или поле addbsi) метаданные, по меньшей мере, одно значение ID, указывающее, какой тип(ы) метаданных присутствует, и, как правило, также значение, указывающее, сколько бит метаданных (например, каждого типа) присутствует (если метаданные присутствуют). Один тип метаданных, которые могут присутствовать в LSPM, другой тип метаданных, которые могут присутствовать в метаданных границы программы, и другой тип метаданных, которые могут присутствовать в метаданных медиа-исследований;

структура среднего уровня, содержащая основной элемент для каждого идентифицированного типа метаданных (например, заголовок фрейма, защитные значения, ID информационного наполнения и числовое значение размера информационного наполнения, например, из упомянутого выше типа, для каждого идентифицированного типа метаданных); и

структура низкого уровня, включающая каждое информационное наполнение для одного из основных элементов (например, информационное наполнение LPSM, если оно идентифицируется основным элементом как присутствующее, и/или информационное наполнение метаданных другого типа, если оно идентифицируется основным элементом как присутствующее).

Значения данных в такой трехуровневой структуре могут быть вложенными. Например, защитные значение(я) для информационного наполнения LPSM и/или другого информационного наполнения метаданных, определяемого основным элементом, могут быть включены после каждого информационного наполнения, определяемого основным элементом (и, таким образом, после заголовка фрейма основного элемента). В одном примере, заголовок фрейма может идентифицировать информационное наполнение LPSM и другое информационное наполнение метаданных, ID информационного наполнения и значение размера информационного наполнения для первого информационного наполнения (например, информационного наполнения LPSM) может следовать за заголовком фрейма, само первое информационное наполнение может следовать за ID и значениями размера, значения размера информационного наполнения и ID информационного наполнения для второго информационного наполнения могут следовать за первым информационным наполнением, само второе информационное наполнение может следовать за этими ID и значениями размера, а защитное значение(я) для одного или обоих информационных наполнений (или для значений основного элемента одного или обоих информационных наполнений) может следовать за последним информационным наполнением.

В некоторых вариантах осуществления изобретения основной элемент сегмента метаданных в поле вспомогательных данных (или в поле «addbsi» или в сегменте лишних битов) фрейма содержит заголовок фрейма (как правило, включающий идентификационные значения, например, версию основного элемента), и после заголовка фрейма: значения, указывающие, входят ли данные цифрового отпечатка в метаданные сегмента мета

Аудиокодер и аудиодекодер с метаданными громкости и границы программы

Патент 2589362