Аудиокодер и аудиодекодер с метаданными сведений о программе или структуры вложенных потоков

Иллюстрации

Показать все

Изобретение относится к средствам генерирования кодированного битового аудиопотока, которое заключается во включении в битовый поток метаданных структуры вложенных потоков и/или метаданных сведений о программе и аудиоданных. Технический результат заключается в повышении качества генерируемых аудиоданных. Модуль обработки аудиоданных содержит подсистему обработки данных, связанную с указанной буферной памятью. Буферная память хранит один кадр кодированного битового аудиопотока, и указанный кадр содержит метаданные сведений о программе или метаданные структуры вложенных потоков в одном сегменте метаданных одного поля игнорируемых данных этого кадра и аудиоданные - в еще одном сегменте этого кадра. Указанная подсистема обработки данных выполнена с возможностью выполнения следующих операций: генерирования битового потока, декодирования битового потока или адаптивной обработки аудиоданных битового потока с использованием метаданных этого битового потока, или следующих операций: аутентификации, проверки достоверности аудиоданных или метаданных битового потока с использованием метаданных этого битового потока. Указанный сегмент метаданных содержит одну полезную нагрузку метаданных. 2 н. и 20 з.п. ф-лы, 8 ил., 2 табл.

Реферат

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ

Данная заявка заявляет приоритет предварительной заявки на патент США №61/836865, поданной 19 июня 2013 г., которая ссылкой полностью включается в настоящий документ.

ОБЛАСТЬ ТЕХНИЧЕСКОГО ПРИМЕНЕНИЯ

Изобретение относится к обработке звуковых сигналов и, в частности, к кодированию и декодированию битовых потоков аудиоданных с метаданными, служащими признаками, структуры вложенных потоков и/или сведений о программе в отношении звукового содержимого, указываемого этими битовыми потоками. Некоторые варианты осуществления изобретения генерируют или декодируют аудиоданные в одном из форматов, известных как Dolby Digital (AC-3), Dolby Digital Plus (Enhanced AC-3, или E-AC-3) или Dolby E.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ

Dolby, Dolby Digital, Dolby Digital Plus и Dolby E являются торговыми марками Dolby Laboratories Licensing Corporation. Dolby Laboratories представляет собственные реализации AC-3 и E-AC-3, известные, соответственно, как Dolby Digital и Dolby Digital Plus.

Модули обработки аудиоданных, как правило, действуют вслепую и не уделяют внимание истории обработки аудиоданных, происходившей перед приемом этих данных. Это может работать в инфраструктуре обработки данных, где всю обработку и кодирование аудиоданных для разнообразных целевых устройств представления мультимедийных данных осуществляет единственный субъект, в то время как целевое устройство представления мультимедийных данных осуществляет все декодирование и представление этих кодированных аудиоданных. Однако такая обработка данных вслепую не очень хорошо подходит (или совершенно не подходит) для ситуаций, в которых множество модулей обработки аудиоданных разбросаны по разнотипной сети или размещены последовательно (т.е. в цепочке) и, как ожидается, оптимально выполняют соответствующие им типы обработки аудиоданных. Например, некоторые аудиоданные могут быть закодированы для высокопроизводительных мультимедийных систем, и на всем протяжении цепочки обработки мультимедийных данных может возникнуть необходимость в их преобразовании в приведенную форму, подходящую для мобильного устройства. Соответственно, модуль обработки аудиоданных может без необходимости выполнять обработку аудиоданных одного из типов, которая уже была выполнена. Например, модуль регулировки уровня громкости может выполнять обработку входного аудиоклипа независимо от того, была ли такая же или аналогичная регулировка уровня громкости выполнена ранее на этом входном аудиоклипе. В результате модуль регулировки уровня громкости может выполнять регулировку уровня даже тогда, когда это не является необходимым. Такая не являющаяся необходимой обработка данных также может вызывать ухудшение и/или устранение характерных признаков при представлении содержимого аудиоданных.

КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

В одном из классов вариантов осуществления изобретение представляет собой модуль обработки аудиоданных, способный декодировать кодированный битовый поток, содержащий метаданные структуры вложенных потоков и/или метаданные сведений о программе (а также, необязательно, и другие метаданные, например, метаданные состояния обработки громкости) по меньшей мере в одном сегменте, по меньшей мере одного кадра битового потока, и аудиоданные по меньшей мере в еще одном сегменте этого кадра. В настоящем документе термин «метаданные структуры вложенных потоков» (или «SSM») обозначает метаданные кодированного битового потока (или набора кодированных битовых потоков), служащие признаком структуры вложенных потоков звукового содержимого этого кодированного битового потока (потоков), а термин «метаданные сведений о программе» (или «PIM») обозначает метаданные кодированного битового потока, служащие признаком по меньшей мере одной звуковой программы (например, двух или большего количества звуковых программ), где метаданные сведений о программе служат признаком по меньшей мере одного свойства, или характеристики, звукового содержимого по меньшей мере одной указанной программы (например, метаданные, указывающие тип или параметр обработки данных, выполненной на аудиоданных этой программы, или метаданные, указывающие, какие каналы программы являются активными каналами).

В типичных случаях (например, тогда, когда кодированный битовый поток представляет собой битовый поток AC-3 или E-AC-3), метаданные сведений о программе (PIM) служат признаком сведений о программе, которые практически невозможно перенести в других частях битового потока. Например, PIM могут служить признаком обработки данных, примененной к аудиоданным РСМ перед кодированием (например, кодированием AC-3 или E-AC-3), когда полосы частот звуковой программы были закодированы с использованием специальных методик кодирования звука, и профиля сжатия, использованного для создания данных сжатия динамического диапазона (DRC) в этом битовом потоке.

В другом классе вариантов осуществления способ включает этап уплотнения кодированных аудиоданных с SSM и/или PIM в каждом кадре (или каждом из по меньшей мере некоторых кадров) битового потока. При типичном декодировании декодер извлекает SSM и/или PIM из битового потока (что включает синтаксический анализ и разуплотнение SSM и/или PIM и аудиоданных) и обрабатывает аудиоданные для генерирования потока декодированных аудиоданных (и, в некоторых случаях, также выполняет адаптивную обработку этих аудиоданных). В некоторых вариантах осуществления декодированные аудиоданные и SSM и/или PIM направляются из декодера в постпроцессор, выполненный с возможностью адаптивной обработки данных на декодированных аудиоданных с использованием SSM и/или PIM.

В одном из классов вариантов осуществления изобретательский способ кодирования генерирует кодированный битовый аудиопоток (например, битовый поток AC-3 или E-AC-3), содержащий сегменты аудиоданных (например, сегменты AB0-AB5 кадра, показанного на Фиг. 4, или все, или некоторые из сегментов AB0-AB5 кадра, показанного на Фиг. 7), содержащие кодированные аудиоданные, и сегменты метаданных (содержащие SSM и/или PIM, а также, необязательно, другие метаданные), уплотненные с временным разделением с сегментами аудиоданных. В некоторых вариантах осуществления каждый сегмент метаданных (иногда именуемый в настоящем документе «контейнером») имеет формат, содержащий заголовок сегмента метаданных (а также, необязательно, другие обязательные, или «базовые», элементы) и одну или несколько полезных нагрузок метаданных, следующих за заголовком сегмента метаданных. Метаданные SIM, если они присутствуют, заключены в одной из полезных нагрузок метаданных (идентифицируемых посредством заголовка полезной нагрузки и, как правило, имеющих формат первого типа). Метаданные PIM, если они присутствуют, заключены в другой полезной нагрузке метаданных (идентифицируемой посредством заголовка полезной нагрузки и, как правило, имеющей формат второго типа). Аналогично, другие типы метаданных (если они присутствуют) заключены в других полезных нагрузках метаданных (идентифицируемых посредством заголовка полезной нагрузки и, как правило, имеющих формат, специфичный для этого типа метаданных). Этот иллюстративный формат делает возможным удобный доступ к SSM, PIM и другим метаданным в иные моменты времени, чем во время декодирования (например, доступ постпроцессора вслед за декодированием, или для процессора, выполненного с возможностью распознавания метаданных без выполнения полного декодирования на кодированном битовом потоке), и делает возможным удобное и эффективное обнаружение и исправление ошибок (например, ошибок идентификации вложенных потоков) в ходе декодирования битового потока. Например, в отсутствие доступа к SSM в иллюстративном формате декодер может неверно идентифицировать правильное количество вложенных потоков, ассоциированных с программой. Одна полезная нагрузка метаданных в сегменте метаданных может содержать SSM, друга полезная нагрузка метаданных в сегменте метаданных может содержать PIM, а также, необязательно, по меньшей мере еще одна полезная нагрузка метаданных в сегменте метаданных может содержать другие метаданные (например, метаданные состояния обработки громкости, или «LPSM»).

КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ

ФИГ. 1 - блок-схема одного из вариантов осуществления системы, которая может быть выполнена с возможностью выполнения одного из вариантов осуществления способа изобретения.

ФИГ. 2 - блок-схема кодера, представляющего собой один из вариантов осуществления изобретательского модуля обработки аудиоданных.

ФИГ. 3 - блок-схема декодера, представляющего собой один из вариантов осуществления изобретательского модуля обработки аудиоданных, и связанного с ним постпроцессора, представляющего собой еще один вариант осуществления изобретательского модуля обработки аудиоданных.

ФИГ. 4 - схема кадра AC-3, содержащего сегменты, на которые он разделен.

ФИГ. 5 - схема сегмента сведений о синхронизации (SI) кадра AC-3, содержащего сегменты, на которые он разделен.

ФИГ. 6 - схема сегмента сведений о битовом потоке (BSI) кадра AC-3, содержащего сегменты, на которые он разделен.

ФИГ. 7 - схема кадра E-AC-3, содержащего сегменты, на которые он разделен.

ФИГ. 8 - схема сегмента метаданных кодированного битового потока, сгенерированного в соответствии с одним из вариантов осуществления изобретения и содержащего заголовок сегмента метаданных, содержащий синхрослово контейнера (идентифицируемое на Фиг. 8 как «container sync») и значения версии и идентификатора ключа (key ID), за которыми следуют полезные нагрузки метаданных и биты защиты.

ОБОЗНАЧЕНИЯ И ТЕРМИНОЛОГИЯ

Повсюду в данном раскрытии, включая формулу изобретения, выражение выполнения операции «на» сигнале или данных (например, фильтрации, масштабирования, преобразования или применения коэффициента усиления к сигналу или данным) используется в широком смысле для обозначения выполнения операции непосредственно на сигнале или данных, или на обработанной версии этого сигнала или данных (например, на версии сигнала, претерпевшего предварительную фильтрацию или предварительную обработку данных перед выполнением на нем этой операции).

Повсюду в данном раскрытии, включая формулу изобретения, выражение «система» используется в широком смысле для обозначения устройства, системы или подсистемы. Например, подсистема, реализующая декодер, может именоваться системой декодера, а система, содержащая такую подсистему (например, система, генерирующая Х выходных сигналов в ответ на несколько вводов, причем эта подсистема генерирует М из вводов, а остальные Х-М вводов принимаются из внешнего источника), также может именоваться системой декодера.

Повсюду в данном раскрытии, включая формулу изобретения, термин «процессор» используется в широком смысле для обозначения системы или устройства, программируемого или иначе конфигурируемого (например, программным или программно-аппаратным обеспечением) для выполнения операций на данных (например, на аудиоданных, видеоданных или данных других изображений). Примеры процессоров включают вентильную матрицу с эксплуатационным программированием (или другую конфигурируемую интегральную микросхему, или набор микросхем), процессор цифровой обработки сигналов, программируемый и/или иначе конфигурируемый для выполнения конвейерной обработки аудиоданных или других звуковых данных, программируемый процессор общего назначения или компьютер и программируемый корпусированный микропроцессор или набор микросхем.

Повсюду в данном раскрытии, включая формулу изобретения, выражения «процессор аудиоданных» и «модуль обработки аудиоданных» используются взаимозаменяемо и в широком смысле для обозначения системы, выполненной с возможностью обработки аудиоданных. Примеры модулей обработки аудиоданных включают, без ограничения, кодеры (например, преобразователи кода), декодеры, кодеки, системы предварительной обработки данных, системы постобработки данных и системы обработки битовых потоков (иногда именуемые инструментальными средствами обработки битовых потоков).

Повсюду в данном раскрытии, включая формулу изобретения, выражение «метаданные» (кодированного битового потока) относится к отдельным данным, отличающимся от соответствующих аудиоданных битового потока.

Повсюду в данном раскрытии, включая формулу изобретения, выражение «метаданные структуры вложенных потоков» (или «SSM») обозначает метаданные кодированного битового аудиопотока (или набора кодированных битовых аудиопотоков), служащие признаком структуры вложенных потоков звукового содержимого кодированного битового потока (потоков).

Повсюду в данном раскрытии, включая формулу изобретения, выражение «метаданные сведений о программе» (или «PIM») обозначает метаданные кодированного битового аудиопотока, служащие признаком по меньшей мере одной звуковой программы (например, двух или большего количества звуковых программ), где указанные метаданные служат признаком по меньшей мере одного свойства или характеристики, звукового содержимого по меньшей мере одной указанной программы (например, метаданные, указывающие тип или параметр обработки данных, выполненной на аудиоданных этой программы, или метаданные, указывающие, какие каналы этой программы являются активными каналами).

Повсюду в данном раскрытии, включая формулу изобретения, выражение «метаданные состояния обработки данных» (как, например, в выражении «метаданные состояния обработки громкости») относится к метаданным (кодированного битового аудиопотока), ассоциированным с аудиоданными этого битового потока и указывающим состояние обработки соответствующих (ассоциированных) аудиоданных (например, указывающими, обработка данных какого типа (типов) уже была выполнена на этих аудиоданных), и, как правило, также указывающим по меньшей мере один признак, или характеристику этих аудиоданных. Ассоциация метаданных состояния обработки данных с аудиоданными является синхронной по времени. Таким образом, настоящие (последние принятые или обновленные) метаданные состояния обработки данных указывают, что соответствующие аудиоданные одновременно содержат результаты обработки аудиоданных указанного типа (типов). В некоторых случаях метаданные состояния обработки данных могут содержать историю обработки данных и/или некоторые или все параметры, которые были использованы при обработке данных указанных типов и/или получены при такой обработке данных. В дополнение, метаданные состояния обработки данных могут содержать по меньшей мере один признак, или характеристику, соответствующих аудиоданных, которая была вычислена или извлечена из этих аудиоданных. Метаданные состояния обработки данных могут также содержать другие метаданные, не относящиеся или не полученные в результате какой-либо обработки соответствующих аудиоданных. Например, частным модулем обработки аудиоданных для передачи другим модулям обработки аудиоданных могут быть добавлены данные третьей стороны, данные сопровождения, идентификаторы, сведения о собственниках или стандартах, данные пользовательских комментариев, данные пользовательских предпочтений и т.д.

Повсюду в данном раскрытии, включая формулу изобретения, выражение «метаданные состояния обработки громкости» (или «LPSM») обозначает метаданные состояния обработки данных, служащие признаком состояния обработки громкости соответствующих аудиоданных (например, признаком того, обработка громкости какого типа (типов) была выполнена на этих аудиоданных), а также, как правило - по меньшей мере одного признака, или характеристики (например, громкости) соответствующих аудиоданных. Метаданные состояния обработки громкости могут содержать данные, не являющиеся (тогда, когда они рассматриваются сами по себе) метаданными состояния обработки громкости.

Повсюду в данном раскрытии, включая формулу изобретения, выражение «канал» (или «аудиоканал») обозначает монофонический звуковой сигнал.

Повсюду в данном раскрытии, включая формулу изобретения, выражение «звуковая программа» обозначает набор из одного или нескольких аудиоканалов, а также, необязательно, ассоциированные метаданные (например, метаданные, описывающие требуемое пространственное представление звука и/или PIM, и/или SSM, и/или LPSM, и/или метаданные границ программы).

Повсюду в данном раскрытии, включая формулу изобретения, выражение «метаданные границ программы» обозначает метаданные кодированного битового аудиопотока, где этот кодированный битовый аудиопоток служит признаком по меньшей мере одной звуковой программы (например, двух или большего количества звуковых программ), а граничные метаданные программы служат признаком местоположения в битовом потоке по меньшей мере одной границы (начала и/или конца) по меньшей мере одной указанной звуковой программы. Например, метаданные границ программы (из кодированного битового аудиопотока, служащего признаком звуковой программы) могут содержать метаданные, служащие признаком местоположения (например, начала «N»-го кадра битового потока или местоположения «М»-го дискретного значения в «N»-м кадре битового потока) начала этой программы, а дополнительные метаданные служат признаком местоположения (например, начала «J»-го кадра битового потока или местоположения «K»-го дискретного значения в «J»-м кадре битового потока) конца программы.

Повсюду в данном раскрытии, включая формулу изобретения, термин «связывается», или «связанный», используется как обозначающий либо прямое, либо непрямое соединение. Так, если первое устройство связывается со вторым устройством, то соединение может осуществляться через прямое соединение или через непрямое соединение через другие устройства и соединения.

ПОДРОБНОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

Типичный поток аудиоданных содержит как звуковое содержимое (например, один или несколько каналов звукового содержимого), так и метаданные, служащие признаком по меньшей мере одной характеристики звукового содержимого. Например, в битовом потоке АС-3 имеется несколько параметров метаданных аудиоданных, специально предназначенных для использования при изменении звучания программы, доставленной в среду для прослушивания. Одним из этих параметров метаданных является параметр DIALNORM, предназначенный для указания среднего уровня диалога в звуковой программе и используемый для определения уровня сигнала воспроизведения звука.

В ходе воспроизведения битового потока, содержащего последовательность разных сегментов звуковой программы (каждый из которых содержит отличающийся параметр DIALNORM), кодер АС-3 использует параметр DIALNORM каждого из сегментов для выполнения обработки громкости того типа, который модифицирует уровень воспроизведения, или громкость, так, чтобы воспринимаемая громкость диалога из указанной последовательности сегментов находилась на согласованном уровне. Каждый кодированный сегмент (элемент) аудиоданных в последовательности кодированных элементов аудиоданных мог бы (в общем) содержать отличающийся параметр DIALNORM, и декодер масштабировал бы уровень каждого из этих элементов так, чтобы уровень воспроизведения, или громкость диалога для каждого такого элемента был одинаков или очень похож, хотя это может потребовать применения различных величин усиления к различным элементам в ходе воспроизведения.

Как правило, DIALNORM устанавливается пользователем, и он не генерируется автоматически, хотя существует выбираемое по умолчанию значение DIALNORM, или пользователь не устанавливает никакое значение. Например, создатель содержимого может предпринять измерения громкости посредством устройства, внешнего по отношению к кодеру АС-3, а затем передать результат (служащий признаком громкости речевого диалога из звуковой программы) в кодер для установки значения DIALNORM. Таким образом, верная установка параметра DIALNORM доверяется создателю содержимого.

Имеется несколько различных причин того, почему параметр DIALNORM в битовом потоке АС-3 может быть неверным. Во-первых, каждый кодер АС-3 содержит используемое по умолчанию значение DIALNORM, которое используется в ходе генерирования битового потока, если создатель содержимого не установил значение DIALNORM. Это используемое по умолчанию значение может существенно отличаться от фактического уровня громкости диалога в звуковом сигнале. Во-вторых, даже если создатель содержимого измеряет громкость и соответственно устанавливает значение DIALNORM, при этом мог быть использован алгоритм измерения громкости или измеритель, не соответствующий рекомендованному способу измерения громкости АС-3, что в результате приводит к неверному значению DIALNORM. В-третьих, даже если битовый поток АС-3 был создан со значением DIALNORM, верно измеренным и установленным создателем содержимого, оно могло быть изменено на неверное значение в ходе передачи и/или хранения этого битового потока. Например, для телевещательных приложений не является редкостью декодирование, модификация, а затем повторное кодирование битовых потоков АС-3 с использованием неверных сведений о DIALNORM в метаданных. Таким образом, значение DIALNORM, заключенное в битовом потоке АС-3, может быть неверным или неточным и, таким образом, может оказывать отрицательное воздействие на качество впечатлений от прослушивания.

Кроме того, параметр DIALNORM не указывает состояние обработки громкости соответствующих аудиоданных (например, то, обработка громкости какого типа (типов) была выполнена на этих аудиоданных). Метаданные состояния обработки громкости (в формате, который предусмотрен в некоторых вариантах осуществления настоящего изобретения) являются полезными для облегчения адаптивной обработки громкости битового аудиопотока и/или проверки достоверности состояния обработки громкости и громкости звукового содержимого особенно эффективным образом.

Несмотря на то, что настоящее изобретение не ограничено использованием с битовым потоком АС-3 или битовым потоком Е-АС-3, для удобства оно будет описано в вариантах осуществления, где оно генерирует, декодирует или иначе обрабатывает такой битовый поток.

Кодированный битовый поток АС-3 содержит метаданные и от одного до шести каналов звукового содержимого. Это звуковое содержимое представляет собой аудиоданные, которые были сжаты с использованием перцепционного звукового кодирования. Указанные метаданные содержат несколько параметров метаданных аудиоданных, предназначенных для использования при изменении звучания программы, доставленной в среду для прослушивания.

Каждый кадр кодированного битового аудиопотока АС-3 содержит звуковое содержимое и метаданные для 1536 дискретных значений цифровых аудиоданных. При частоте дискретизации 48 кГц это представляет собой 32 миллисекунд цифрового звука или частоту 31,25 кадров, приходящихся на секунду звука.

Каждый кадр кодированного битового аудиопотока Е-АС-3 содержит звуковое содержимое и метаданные для 256, 512, 768 или 1536 дискретных значений цифровых аудиоданных в зависимости от того, содержит этот кадр, соответственно, один, два, три или шесть блоков аудиоданных. При частоте дискретизации 48 кГц это представляет, соответственно, 5,333, 10,667, 16 или 32 миллисекунд цифрового звука или частоту, соответственно, 189,9, 93,75, 62,5 или 31,25 кадров, приходящихся на секунду звука.

Как указано на Фиг. 4, каждый кадр АС-3 разделен на секции (сегменты), содержащие: секцию сведений о синхронизации (SI), содержащую (как показано на Фиг. 5) синхрослово (SW) и первое из двух слов исправления ошибок (CRC1); секцию сведений о битовом потоке (BSI), содержащую большую часть метаданных; шесть аудиоблоков (AB0-AB5), содержащих сжатые данные звукового содержимого (а также способных содержать метаданные); сегменты лишних битов (W) (также известны как «поля игнорируемых данных»), содержащие какие-либо лишние биты, оставшиеся после сжатия звукового содержимого; секцию вспомогательных сведений (AUX), которая также может содержать метаданные; и второе из двух слов исправления ошибок (CRC2).

Как указано на Фиг. 7, каждый кадр Е-АС-3 разделен на секции (сегменты), содержащие: секцию сведений о синхронизации (SI), содержащую (как показано на Фиг. 5) синхрослово (SW); секцию сведений о битовом потоке (BSI), содержащую большую часть метаданных; от одного до шести аудиоблоков (AB0-AB5), содержащих сжатые данные звукового содержимого (а также способных включать метаданные); сегменты лишних битов (W) (также известны как «поля игнорируемых данных»), содержащие какие-либо лишние биты, оставшиеся после сжатия звукового содержимого (несмотря на то, что показан только один сегмент лишних битов, за каждым аудиоблоком, как правило, может следовать отличающийся сегмент лишних битов); секцию вспомогательных сведений (AUX), которая также может содержать метаданные; и слово исправления ошибок (CRC).

В битовом потоке АС-3 (или Е-АС-3) имеется несколько параметров метаданных аудиоданных, специально предназначенных для использования при изменении звучания программы, доставленной в среду для прослушивания. Одним из таких параметров метаданных является параметр DIALNORM, заключенный в сегменте BSI.

Как показано на Фиг. 6, сегмент BSI кадра АС-3 содержит пятибитный параметр («DIALNORM»), указывающий значение DIALNORM для этой программы. Пятибитный параметр («DIALNORM2»), указывающий значение DIALNORM для второй звуковой программы, переносимой в том же кадре АС-3, включают, если режим звукового кодирования («acmod») кадра АС-3 равен «0», что указывает на то, что в употреблении находится двойная монофоническая конфигурация каналов, или «1+1».

Сегмент BSI также содержит флаг («addbsie»), указывающий присутствие (или отсутствие) дополнительных сведений о битовом потоке, следующих за битом «addbsie», параметр («addbsil»), указывающий длину каких-либо дополнительных сведений о битовом потоке, следующих за значением «addbsil», и до 64 битов дополнительных сведений о битовом потоке («addbsi»), следующих за значением «addbsil».

Сегмент BSI содержит и другие значения метаданных, не показанные конкретно на Фиг. 6.

В соответствии с одним из классов вариантов осуществления, кодированный битовый аудиопоток служит признаком нескольких вложенных потоков звукового содержимого. В некоторых случаях эти вложенные потоки служат признаком звукового содержимого многоканальной программы, а каждый из вложенных потоков служит признаком одного или нескольких каналов этой программы. В других случаях, несколько вложенных потоков кодированного битового аудиопотока служат признаками звукового содержимого нескольких звуковых программ, как правило, «главной» звуковой программы (которая может представлять собой многоканальную программу) и по меньшей мере еще одной звуковой программы (например, программы, представляющей собой комментарии к главной звуковой программе).

Кодированный битовый аудиопоток, служащий признаком по меньшей мере одной звуковой программы, непременно содержит по меньшей мере один «независимый» вложенный поток звукового содержимого. Этот независимый вложенный поток служит признаком по меньшей мере одного канала звуковой программы (например, этот независимый вложенный поток может служить признаком пяти каналов широкополосных громкоговорителей традиционной 5.1-канальной звуковой программы). В настоящем документе эта звуковая программа именуется «главной» программой.

В некоторых классах вариантов осуществления кодированный битовый аудиопоток служит признаком двух или большего количества звуковых программ («главной» программы и по меньшей мере еще одной звуковой программы). В таких случаях, этот битовый поток содержит два или большее количество независимых вложенных потоков: первый независимый вложенный поток, служащий признаком по меньшей мере одного канала главной программы; и по меньшей мере еще один независимый вложенный поток, служащий признаком по меньшей мере одного канала другой звуковой программы (программы, отдельной от главной программы). Каждый независимый битовый поток может быть декодирован независимо, и декодер может действовать для декодирования только подмножества (а не всех) независимых вложенных потоков кодированного битового потока.

В одном из типичных примеров кодированного битового аудиопотока, служащего признаком двух независимых вложенных потоков, один из этих независимых вложенных потоков служит признаком каналов громкоговорителей стандартного формата многоканальной звуковой программы (например, левого, правого, центрального, левого окружающего, правого окружающего каналов широкополосных громкоговорителей 5.1-канальной главной программы), а другой независимый вложенный поток служит признаком монофонического звукового комментария к главной программе (например, комментария режиссера кинофильма, где главная программа представляет собой звуковую дорожку этого кинофильма). В другом примере кодированного битового аудиопотока, служащего признаком нескольких независимых вложенных потоков, один из этих независимых вложенных потоков служит признаком каналов громкоговорителей стандартного формата многоканальной главной программы (например, 5.1-канальной главной программы), содержащей диалог на первом языке (например, признаком диалога может служить один из каналов громкоговорителей главной программы), а каждый следующий независимый вложенный поток служит признаком монофонического перевода этого диалога (на другой язык).

Необязательно, кодированный битовый аудиопоток, служащий признаком главной программы (а также, необязательно, по меньшей мере еще одной звуковой программы), содержит по меньшей мере один «зависимый» вложенный поток звукового содержимого. Каждый зависимый вложенный поток ассоциирован с одним независимым вложенным потоком битового потока и служит признаком по меньшей мере одного дополнительного канала программы (например, главной программы), содержимое которого указывается этим ассоциированным независимым вложенным потоком (т.е. указанный зависимый вложенный поток служит признаком по меньшей мере одного канала программы, не указанного ассоциированным независимым вложенным потоком, а этот ассоциированный независимый вложенный поток служит признаком по меньшей мере одного канала программы).

В одном из примеров кодированного битового потока, содержащего независимый вложенный поток (служащий признаком по меньшей мере одного канала главной программы), этот битовый поток также содержит зависимый вложенный поток (ассоциированный с этим независимым вложенным потоком), служащий признаком одного или нескольких каналов громкоговорителей главной программы. Такие дополнительные каналы громкоговорителей являются дополнительными к каналу (каналам) главной программы, указываемым независимым вложенным потоком. Например, если независимый вложенный поток служит признаком стандартного формата левого, правого, центрального, левого окружающего, правого окружающего каналов широкополосных громкоговорителей 7.1-канальной главной программы, то зависимый вложенный поток может служить признаком двух других каналов широкополосных громкоговорителей этой главной программы.

В соответствии со стандартом Е-АС-3, битовый поток Е-АС-3 должен служить признаком по меньшей мере одного независимого вложенного потока (например, единственного битового потока АС-3) и может служить признаком до восьми независимых вложенных потоков. Каждый независимый вложенный поток битового потока Е-АС-3 может быть ассоциирован с количеством до восьми зависимых вложенных потоков.

Битовый поток Е-АС-3 содержит метаданные, служащие признаком структуры вложенных потоков битового потока. Например, поле «chanmap» в секции сведений о битовом потоке (BSI) битового потока Е-АС-3 определяет схему каналов для каналов программы, указываемых зависимым вложенным потоком этого битового потока. Однако метаданные, служащие признаком структуры вложенных потоков, обычно заключены в битовом потоке Е-АС-3 в таком формате, что к ним было удобно получать доступ и использовать их (в ходе декодирования кодированного битового потока Е-АС-3) только посредством декодера Е-АС-3; а не в формате для доступа и использования после декодирования (например, при использовании постпроцессора) или перед декодированием (например, при использовании процессора, выполненного с возможностью распознавания метаданных). Также существует риск того, что декодер может неверно идентифицировать вложенные потоки традиционного кодированного битового потока Е-АС-3, используя метаданные, включенные традиционным образом, и до настоящего изобретения не было известно, каким образом включать метаданные структуры вложенных потоков в кодированный битовый поток (например, в кодированный битовый поток Е-АС-3) в таком формате, чтобы сделать возможным удобное и эффективное обнаружение и исправление ошибок в идентификации вложенных потоков в ходе декодирования указанного битового потока.

Битовый поток Е-АС-3 также может содержать метаданные, относящиеся к звуковому содержимому звуковой программы. Например, битовый поток Е-АС-3, служащий признаком звуковой программы, содержит метаданные, служащие признаком минимальной и максимальной частот, к которым для кодирования содержимого программы была применена обработка растягивания спектра (и кодирования со связыванием каналов). Однако такие метаданные обычно включены в битовый поток Е-АС-3 в таком формате, что получать к ним доступ и использовать их (в ходе декодирования кодированного битового потока Е-АС-3) удобно только посредством декодера Е-АС-3; а не посредством доступа и использования после декодирования (например, при использовании постпроцессора) или перед декодированием (например, при использовании процессора, выполненного с возможностью распознавания метаданных). Кроме того, такие метаданные не включены в битовый поток Е-АС-3 в формате, который позволял бы удобное и эффективное обнаружение ошибок и исправление ошибок идентификации таких метаданных в ходе декодирования битового потока.

В соответствии с типичными вариантами осуществления изобретения, PIM и/или SSM (а также, необязательно, другие метаданные, например, метаданные состояния обработки громкости, или «LPSM») встраивают в одно или несколько зарезервированных полей (или областей) сегментов метаданных битового аудиопотока, также содержащего аудиоданные в других сегментах (сегментах аудиоданных). Как правило, по меньшей мере один сегмент каждого кадра этого битового потока содержит PIM или SSM, и по меньшей мере еще один сегмент этого кадра содержит соответствующие аудиоданные (т.е. аудиоданные, структура вложенных потоков которых указывается посредством SSM, и/или аудиоданных, имеющих по меньшей мере одну характеристику или свойство, указываемое PIM).

В одном из классов вариантов осуществления каждый сегмент метаданных представляет собой структуру данных (иногда именуемую в настоящем документе контейнером), способную содержать одну или несколько полезных нагрузок метаданных. Каждая полезная нагрузка включает заголовок, содержащий индивидуальный идентификатор полезной нагрузки (и конфигурационные данные полезной нагрузки), предусматривающий точно выраженный указатель типа метаданных, присутствующих в этой полезной нагрузке. Порядок полезных нагрузок в контейнере является неопределенным, поэтому полезные нагрузки могут храниться в любом порядке, и синтаксический анализатор должен иметь возможность выполнять синтаксический анализ всего контейнера для извлечения значимых полезных нагрузок и пренебрежения теми из них, которые не являются значимыми или являются неподдерживаемыми. Фигура 8 (описываемая ниже) иллюстрирует структуру такого контейнера и полезных нагрузок в контейнере.

Сообщение метаданных (например, SSM и/или PIM, и/или LPSM) по цепочке обработки аудиоданных является особенно полезным тогда, когда двум или большему количеству модулей обработки аудиоданных необходимо работать совместно друг с другом повсюду в цепочке обработки данных (или в течение всего жизненного цикла содержимого). В отсутствие включения метаданных в битовый аудиопоток могут возникать серьезные трудности обработки мультимедийных данных, такие, как ухудшения качества, уровня или пространственные ухудшени