2589399 - Расположение элемента кадра в кадрах потока битов, представляющего аудио содержимое

Расположение элемента кадра в кадрах потока битов, представляющего аудио содержимое

Иллюстрации

Показать все

Изобретение относится к области кодирования. Технический результат - обеспечение компромисса между слишком высоким потоком битов и расходами на декодирование. Цифровой носитель данных имеет сохраненные на нем данные, для выполнения способа позиционирования элемента кадра, причем данные представляют поток битов, содержащий: блок конфигурации и последовательность кадров, соответственно представляющие последовательные периоды времени аудио содержимого, при этом блок конфигурации, содержит поле, указывающее количество N элементов в кадре на кадр, и часть синтаксиса индикации типа, указывающую, для каждой позиции элемента для последовательности из N позиций элемента, тип элемента из множества типов элемента; и при этом каждый кадр из последовательности кадров содержит последовательность из N элементов кадра, в которой каждый элемент кадра имеет тип элемента, указанный частью синтаксиса индикации типа, для соответствующей позиции элемента, в которой соответствующий элемент кадра позиционирован в последовательности из N элементов кадра соответствующего кадра в потоке битов. 7 н. и 21 з.п. ф-лы, 39 ил., 16 табл.

Реферат

Настоящее изобретение относится к кодированию аудио, например, так называемому USAC кодеку (USAC = объединенное кодирование речи и аудио), и, в частности, расположению элементов кадра в пределах кадров соответствующих потоков битов.

В последние годы несколько кодеков аудио были сделаны доступными, причем каждый кодек аудио специально разработан, чтобы соответствовать специализированному приложению. Главным образом, эти аудио кодеки в состоянии закодировать больше чем один канал аудио или сигнал аудио параллельно. Некоторые кодеки аудио являются даже подходящими для того, чтобы отличным образом кодировать содержимое аудио, по-другому группируя аудио каналы или аудио объекты содержимого аудио и подвергая эти группы различным принципам кодирования аудио. Кроме того, некоторые из этих кодеков аудио обеспечивают вставку данных расширения в поток битов так, чтобы приспособиться к будущим расширениям/событиям кодека аудио.

Одним примером таких кодеков аудио является USAC кодек, как определено в ISO/IEC CD 23003-3. Этот стандарт, названный "Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding", описывает подробно функциональные блоки опорной модели вызова для предложений по объединенному кодированию речи и аудио.

Фиг. 5A и 5B иллюстрируют блок-схемы декодера и кодера. Ниже кратко объяснены общие функциональные возможности отдельных блоков. Затем, проблемы в объединении всех получающихся частей синтаксиса в поток битов объяснены со ссылками на фиг. 6.

Фиг. 5A и 5B иллюстрируют блок-схемы кодера и декодера. Блок-схемы кодера и декодера USAC отражают структуру кодирования USAC MPEG-D. Общая структура может быть описана, подобно следующей: сначала имеется общая предварительная/пост-обработка, состоящая из функционального блока MPEG Surround (MPEGS) для управления стерео или многоканальной обработкой, и блок расширенного SBR (eSBR), который обрабатывает параметрическое представление аудио более высоких частот во входном сигнале. Затем имеются две ветви, одна, состоящая из тракта модифицированного инструмента усовершенствованного кодирования аудио (AAC), и другая, состоящая из тракта, основанного на кодировании с линейным предсказанием (область LP или LPC), что, в свою очередь, означает или представление в частотной области или представление во временной области остатка LPC. Все переданные спектры и для AAC и для LPC представлены в области MDCT после квантования и арифметического кодирования. Представление во временной области использует схему кодирования с ACELP возбуждением.

Базовая структура USAC MPEG-D показана на фиг. 5A и 5B. Поток данных в этой диаграмме направлен слева направо, сверху вниз. Функции декодера заключаются в том, чтобы найти описание квантованных спектров аудио или представления во временной области в полезных данных потока битов и декодировать квантованные значения и другую информацию реконструкции.

В случае переданной спектральной информации декодер должен восстановить квантованные спектры, обработать восстановленные спектры с помощью любых инструментов, которые являются активными в полезных данных потока битов, чтобы получить фактические спектры сигнала, как описано полезными данными введенного потока битов, и, наконец, преобразовать спектры из частотной области во временную область. После начальной реконструкции и масштабирования реконструкции спектра, имеются необязательные инструменты, которые модифицируют один или более спектров, чтобы обеспечить более эффективное кодирование.

В случае переданного представления сигнала во временной области декодер должен восстановить квантованный временной сигнал, обработать восстановленный временной сигнал с помощью любых инструментов, которые являются активными в полезных данных потока битов, чтобы получить фактический сигнал во временной области, который описан полезными данными введенного потока битов.

Для каждого из необязательных инструментов, которые оперирует над данными сигнала, опция "пройти через" («выполнить посредством») сохраняется, и во всех случаях, где обработка пропускается, спектры или выборки времени при их вводе передают непосредственно через этот инструмент без модификации.

В местах, где поток битов изменяет свое представление сигнала из временной области в представление в частотной области или из области LP в область не-LP или наоборот, декодер должен облегчить переход от одной области к другой посредством соответствующего вырезания окна наложения - добавления перехода.

Обработка eSBR и MPEGS применяется одинаковым образом к обоим трактам кодирования после обработки перехода.

Входными данными в инструмент демультиплексора полезных данных потока битов являются полезные данные USAC MPEG-D потока битов. Демультиплексор разделяет полезные данные потока битов на части для каждого инструмента и снабжает каждый из инструментов информацией полезных данных потока битов, относящихся к этому инструменту.

Выходными из инструмента демультиплексора полезных данных потока битов являются:

* В зависимости от основного типа кодирования в текущем кадре любые из:

- квантованных и свободных от шумов кодированных спектров, представленных посредством

- информации коэффициента масштабирования;

- арифметически кодированных спектральных линий

* или: параметров линейного предсказания (LP) вместе с сигналом возбуждения, представленным также любым из:

- квантованных и арифметически кодированных спектральных линий (возбуждение с кодированным преобразованием, TCX), или

- ACELP-кодированного возбуждения временной области

* Информации заполнения спектральным шумом (опционально)

* Информации решения M/S (опционально)

* Информации формирования временного шума (TNS) (опционально)

* Информации управления банком фильтров

* Информации управления обращенной деформацией шкалы времени (TW) (опционально)

* Информации управления расширенным спектральным ответом полосы пропускания (eSBR) (опционально)

* Информация управления MPEG Surround (MPEGS) (опционально)

Инструмент свободного от шумов декодирования коэффициента масштабирования принимает информацию от демультиплексора полезных данных потока битов, синтаксически анализирует эту информацию, и декодирует кодированные по Хаффману и DPCM коэффициенты масштабирования.

Входными данными для инструмента свободного от шумов декодирования коэффициента масштабирования являются:

* Информация коэффициента масштабирования для свободных от шумов кодированных спектров

Выходными данными для инструмента свободного от шумов декодирования коэффициента масштабирования являются:

* Декодированное целочисленное представление коэффициентов масштабирования:

Инструмент спектрального свободного от шумов декодирования принимает информацию от демультиплексора полезных данных потока битов, синтаксически анализирует эту информацию, декодирует арифметически кодированные данные, и восстанавливает квантованные спектры. Входными данными для этого инструмента свободного от шумов декодирования являются:

* Свободные от шумов кодированные спектры

Выходными данными для этого инструмента свободного от шумов декодирования являются:

* Квантованные значения спектров

Инструмент обратного квантователя принимает квантованные значения для спектров, и преобразует целочисленные значения в немасштабированные восстановленные спектры. Этот квантователь является квантователем компандирования, чей коэффициент компандирования зависит от выбранного основного режима кодирования.

Выходными данными для инструмента обратного квантователя являются:

* Квантованные значения для спектров

Выходными данными для инструмента обратного квантователя являются:

* Немасштабированные обратно квантованные спектры.

Инструмент заполнения шумом используется, чтобы заполнить спектральные промежутки в декодированных спектрах, которые имеют место, когда спектральное значение квантуется в ноль, например, из-за сильного ограничения требования битов в кодере. Использование инструмента заполнения шума является опциональным.

Входными данными для инструмента заполнения шумом являются:

* Немасштабированные обратно квантованные спектры

* параметры заполнения шумом

* Декодированное целочисленное представление коэффициентов масштабирования

Выходными данными для инструмента заполнения шума являются:

* Немасштабированные обратно квантованные спектральные значения для спектральных линий, которые ранее были квантованы в нуль.

* Модифицированное целочисленное представление коэффициентов масштабирования

Инструмент перемасштабирования преобразует целочисленное представление коэффициентов масштабирования к реальным значениям, и умножает немасштабированные обратно квантованные спектры на релевантные коэффициенты масштабирования.

Входными данными для коэффициентов масштабирования являются:

* Декодированное целочисленное представление коэффициентов масштабирования

* Немасштабированные обратно квантованные спектры

Выходными данными от коэффициентов масштабирования являются:

* Масштабированные обратно квантованные спектры.

Для краткого обзора по инструменту M/S см. ISO/IEC 14496-3:2009, 4.1.1.2.

Для краткого обзора по инструменту временного формирования шума (TNS), см. ISO/IEC 14496-3:2009, 4.1.1.2.

Инструмент переключения блока/банка фильтров применяет инверсию отображения частоты, которое было выполнено в кодере. Обратное модифицированное дискретное косинусное преобразование (IMDCT) используется для инструмента банка фильтров. IMDCT может быть сконфигурировано, чтобы поддерживать 120, 128, 240, 256, 480, 512, 960 или 1024 спектральных коэффициентов.

Входными данными для инструмента банка фильтров являются:

* (Обратно квантованные) спектры

* Информация управления банком фильтров

Выходными данными для инструмента банка фильтров являются:

* Аудио сигнал(ы), восстановленные во временной области.

Инструмент переключения банка/блока фильтров с деформированной шкалой времени заменяет нормальный инструмент переключения банка/блока фильтров, когда режим деформации шкалы времени разрешен. Банк фильтров является тем же самым (IMDCT), что и для нормального банка фильтров, дополнительно вырезанные в виде окна выборки временной области отображаются из области деформированной шкалы времени в область с линейной шкалой временем посредством повторной дискретизации с изменением шкалы времени.

Входными данными для инструментов банка фильтров с деформированной шкалой времени являются:

* Обратно квантованные спектры

* Информация управления банком фильтров

* Информация управления деформированной шкалой времени

Выходом(ами) инструмента банка фильтров является:

* восстановленный аудио сигнал(ы) области с линейной шкалой времени

Инструмент расширенного SBR (eSBR) восстанавливает диапазон высоких частот аудио сигнала. Он основан на репликации последовательностей гармоник, усеченных во время кодирования. Он регулирует спектральную огибающую генерированного диапазона высоких частот и применяет обратное фильтрование, и добавляет шум и синусоидальные компоненты, чтобы заново создать спектральные характеристики первоначального сигнала.

Входными данными для инструмента eSBR являются:

* Квантованные данные огибающей

* смешанные данные управления

* сигнал временной области от базового декодера частотной области или базового декодера ACELP/TCX

Выходными данными для инструмента eSBR является любое из:

* сигнала временной области или

* представления сигнала в QMF-области, например, используется в инструменте MPEG Surround.

Инструмент MPEG Surround (MPEGS) формирует множественные сигналы из одного или более сигналов ввода, применяя сложную процедуру смешения с увеличением числа каналов к сигналу(ам) ввода, которым управляют соответствующие пространственные параметры. В контексте USAC MPEGS используется для того, чтобы кодировать многоканальный сигнал посредством передачи параметрической побочной информации вместе с переданным смешанным с пониженным числом каналов сигналом.

Входными данными для инструмента MPEGS являются:

* сигнал временной области с пониженным числом каналов, или

* представление в QMF-области сигнала с пониженным числом каналов из инструмента eSBR

Выходными данными для инструмента MPEGS являются:

* многоканальный сигнал временной области

Инструмент Классификатор Сигнала анализирует первоначальный сигнал ввода и генерирует из него информацию управления, которая инициирует выбор различных режимов кодирования. Анализ сигнала ввода является зависимым от реализации и пытается выбрать оптимальный базовый режим кодирования для заданного кадра сигнала ввода. Выходные данные классификатора сигнала могут (необязательно) также использоваться, чтобы влиять на поведение других инструментов, например, MPEG Surround, расширенного SBR, банка фильтров с деформацией временной шкалы и других.

Входными данными для инструмента Классификатора сигнала являются:

* первоначальный немодифицированный сигнал ввода

* дополнительные параметры, зависимые от реализации

Выходными данными для инструмента Классификатора сигнала являются:

* управляющий сигнал, чтобы управлять выбором базового кодера-декодера (не-LP фильтрованное кодирование в частотной области, LP фильтрованная частотная область или LP фильтрованное кодирование во временной области).

Инструмент ACELP обеспечивает способ, чтобы эффективно представить сигнал возбуждения во временной области посредством комбинирования долгосрочного предсказателя (адаптивное кодовое слово) с импульсно-подобной последовательностью (обновленное кодовое слово). Восстановленное возбуждение посылают через фильтр LP-синтеза, чтобы сформировать сигнал временной области.

Входными данными для инструмента ACELP являются:

* индексы адаптивной и обновленной кодовой книги

* значения адаптивного и обновленного коэффициентов усиления кодов

* другие данные управления

* обратно квантованные и интерполированные коэффициенты LPC фильтра.

Выходными данными для инструмента ACELP являются:

* восстановленный аудио сигнал временной области.

Инструмент основанного на MDCT средства декодирования TCX используется, чтобы вернуть взвешенное представление остатка LP из MDCT-области назад в сигнал временной области и выводит сигнал временной области, включающий в себя взвешенную фильтрацию LP-синтеза. IMDCT может быть сконфигурирован, чтобы поддерживать 256, 512, или 1024 спектральных коэффициентов.

Входными данными для инструмента TCX являются:

* (Обратно квантованные) спектры MDCT

* обратно квантованные и интерполированные коэффициенты LPC фильтра.

Выходными данными для инструмента TCX являются:

* восстановленный аудио сигнал временной области.

Технология, раскрытая в ISO/IEC CD 23003-3, который включен здесь по ссылке, обеспечивает определение канальных элементов, которые являются, например, элементами единственного канала, содержащими полезные данные только для единственного канала, или элементами пары каналов, содержащими полезные данные для двух каналов, или канальными элементами LFE (низкочастотное расширение), содержащими полезные данные для канала LFE.

Естественно, кодек USAC не является единственным кодеком, который в состоянии кодировать и передавать информацию относительно более сложного кодека аудио более чем одного или двух аудио каналов или аудио объектов с помощью одного потока битов. Соответственно, кодек USAC просто служил конкретным примером.

Фиг. 6 показывает более общий пример кодера и декодера, соответственно, оба изобразили в одном общем виде, где кодер кодирует аудио содержимое 10 в поток 12 битов, с декодером, декодирующим аудио содержимое или по меньшей мере его часть, из потока 12 битов. Результат декодирования, то есть реконструкция, указана как 14. Как иллюстрировано на Фиг. 6, аудио содержимое 10 может быть составлено из многих аудио сигналов 16. Например, аудио содержимое 10 может быть пространственной аудио сценой, составленной из ряда аудио каналов 16. Альтернативно, аудио содержимое 10 может представить конгломерат аудио сигналов 16 с аудио сигналами 16, представляющими, отдельно и/или в группах, отдельные аудио объекты, которые могут быть соединены в аудио сцену на усмотрение пользователя декодера, чтобы получить реконструкцию 14 аудио содержимого 10 в форме, например, пространственной аудио сцены для конкретной конфигурации громкоговорителей. Кодер кодирует аудио содержимое 10 в блоках последовательных периодов времени. Такой период времени в качестве примера показан как 18 на Фиг. 6. Кодер кодирует последовательные периоды 18 аудио содержимого 10, используя один и тот же способ: то есть, кодер вставляет в поток 12 битов один кадров 20 за период 18 времени. При этом кодер разлагает аудио содержимое в пределах соответствующего периода 18 времени в элементы кадра, количество и значение/тип которого является одинаковым для каждого периода 18 времени и кадра 20, соответственно. Относительно кодека USAC, описанного в общих чертах выше, например, кодер кодирует одну и ту же пару аудио сигналов 16 в каждом периоде 18 времени в элемент пары каналов элементов 22 кадров 20, используя другой принцип кодирования, такой как кодирование единственного канала для другого аудио сигнала 16, чтобы получить единственный элемент 22 канала и т.д. Параметрическая побочная информация для получения аудио сигналов повышающего микширования из аудио сигнала понижающего микширования как определено одним или более элементами 22 кадра, собирается, чтобы сформировать другой элемент кадра в пределах кадра 20. В этом случае элемент кадра, передающий эту побочную информацию, ссылается на, или формирует некоторый вид данных расширения для других элементов кадра. Естественно, такие расширения не ограничены многоканальной или многообъектной побочной информацией.

Одна возможность состоит в том, чтобы указать в пределах каждого элемента 22 кадра то, какого типа является соответствующий элемент кадра. Выгодно, если такая процедура обеспечивает согласование с будущими расширениями синтаксиса потока битов. Декодеры, которые не в состоянии иметь дело с некоторыми типами элемента кадра, будут просто пропускать соответствующие элементы кадра в потоке битов, используя соответствующую информацию длины в пределах этих элементов кадра. Кроме того, возможно обеспечить соответствующие стандарту декодеры различного типа: некоторые в состоянии понять первый набор типов, в то время как другие понимают и могут обращаться с другим набором типов; альтернативные типы элемента могут быть просто игнорированы соответствующими декодерами. Дополнительно, кодер может быть в состоянии сортировать элементы кадра по своему усмотрению так, чтобы на декодеры, которые в состоянии обработать такие дополнительные элементы кадра, можно было подавать эти элементы кадра в пределах кадров 20 в порядке, который, например, минимизирует потребности буферизации в пределах декодера. Невыгодно, однако, если поток битов должен передавать информацию типа элемента кадра для каждого элемента кадра, потребность в чем, в свою очередь, отрицательно влияет на частоту сжатия потока 12 битов с одной стороны и сложность декодирования с другой стороны, так как служебные расходы на синтаксический разбор для проверки соответствующей информации типа элемента кадра имеют место в пределах каждого элемента кадра.

Естественно, возможно иначе фиксировать порядок среди элементов 22 кадра, например, по соглашению, но такая процедура препятствует тому, чтобы кодеры имели свободу перекомпоновывать элементы кадра из-за, например, специфических свойств будущих элементов кадра расширения, повлекших необходимость или предлагающих, например, различный порядок среди элементов кадра.

Соответственно, есть потребность в другой концепции потока битов, кодера и декодера, соответственно.

Соответственно, задачей настоящего изобретения является обеспечить поток битов, кодер и декодер, которые решают выше описанную проблему и обеспечивают получение более эффективного способа позиционирования элемента кадра.

Этот задача решается объектами согласно независимым пунктам формулы изобретения.

Настоящее изобретение основано на обнаружении, что лучший компромисс между слишком высоким потоком битов и декодированием служебных расходов, с одной стороны, и гибкостью позиционирования элемента кадра, с другой стороны, может быть получен, если каждая из последовательности кадров потока битов содержит последовательность из N элементов кадра и, с другой стороны, поток битов содержит блок конфигурации, содержащий поле, указывающее количество элементов N, и часть синтаксиса индикации типа, указывающую, для каждой позиции элемента последовательности из N позиций элементов, тип элемента из множества типов элемента с, в последовательностях из N элементов кадра этих кадров, каждым элементом кадра, являющимся типом элемента, указанным упомянутой частью индикации типа, для соответствующей позиции элемента, в которую соответствующий элемент кадра позиционирован в пределах последовательности из N элементов кадра соответствующего кадра в потоке битов. Таким образом, кадры одинаково структурированы в том, что каждый кадр содержит одну и ту же последовательность из N элементов кадра типа элемента кадра, обозначенного частью синтаксиса индикации типа, позиционированной в пределах этого потока битов в одном и том же последовательном порядке. Этот последовательный порядок обычно является настраиваемым для последовательности кадров посредством использования части синтаксиса индикации типа, которая указывает, для каждой позиции элемента последовательности из N позиций элемента, тип элемента из множества типов элемента.

С помощью с помощью этой меры типы элемента кадра могут быть скомпонованы в любом порядке, таком как по усмотрению кодера, чтобы выбрать порядок, который является наиболее подходящим для используемых типов элемента кадра, например.

Множество типов элемента кадра могут, например, включать в себя тип элемента расширения с элементами кадра типа элемента расширения, содержащего информацию длины в отношении длины соответствующего элемента кадра так, чтобы декодеры, не поддерживающие этот конкретный тип элемента расширения, были в состоянии пропустить эти элементы кадра упомянутого типа элемента расширения, используя информацию длины в качестве длины интервала пропуска. С другой стороны, декодеры, способные обращаться с этими элементами кадра упомянутого типа элемента расширения, соответственно обрабатывают часть содержимого или полезных данных их и, поскольку кодер в состоянии произвольно помещать эти элементы кадра упомянутого типа элемента расширения в пределах последовательности элементов кадра кадров, буферизация служебных расходов в декодерах может быть минимизирована посредством выбора порядка типа элемента кадра подходящим образом и сигнализации этого в пределах части синтаксиса индикации типа.

Выгодные реализации вариантов осуществления настоящего изобретения являются предметом зависимых пунктов формулы изобретения.

Ниже предпочтительные варианты осуществления настоящей заявки описаны ниже со ссылками на чертежи, среди которых:

Фиг. 1 показывает схематическую блок-схему кодера и его вход и выход в соответствии с вариантом осуществления;

Фиг. 2 показывает схематическую блок-схему декодера и его вход и выход в соответствии с вариантом осуществления;

Фиг. 3 схематично показывает поток битов в соответствии с вариантом осуществления;

4A-Z и ZA-ZC показывает таблицы псевдокода, иллюстрирующие конкретный синтаксис потока битов в соответствии с вариантом осуществления; и

Фиг. 5A и B показывает блок-схему кодера USAC и декодера; и

Фиг. 6 показывает типичную пару кодера и декодера

Фиг. 1 показывает кодер 24 в соответствии с вариантом осуществления. Кодер 24 предназначен для того, чтобы кодировать аудио содержимое 10 в поток 12 битов.

Как описано во вводной части описания настоящей заявки, аудио содержимое 10 может быть конгломератом нескольких аудио сигналов 16. Аудио сигналы 16 представляют, например, отдельные аудио каналы пространственной аудио сцены. Альтернативно, аудио сигналы 16 формируют аудио объекты набора аудио объектов, вместе определяющих аудио сцену для свободного микширования на стороне декодирования. Аудио сигналы 16 определены в общем временном базисе t, как иллюстрировано позицией 26. Таким образом, аудио сигналы 16 могут относиться к одному и тому же временному интервалу и могут, соответственно, быть выровнены по времени друг относительно друга.

Кодер 24 конфигурируется так, чтобы кодировать последовательные периоды 18 времени аудио содержимого 10 в последовательность кадров 20 так, чтобы каждый кадр 20 представлял соответствующий один из периодов 18 времени аудио содержимого 10. Кодер 24 конфигурируется, в некотором смысле, чтобы кодировать каждый период времени одинаково таким образом, чтобы каждый кадр 20 содержал последовательность из количества N элементов из элементов кадра. В пределах каждого кадра 20 справедливо, что каждый элемент 22 кадра имеет соответствующий один из множества типов элемента, и что элементы 22 кадра, помещенные в некоторую позицию элемента, имеют один и тот же или равный тип элемента. Таким образом, первые элементы 22 кадра в кадрах 20 имеют один и тот же тип элемента и формируют первую последовательность (или подпоток) элементов кадра, вторые элементы 22 кадра из всех кадров 20 имеют тип элемента, равный друг другу, и формируют вторую последовательность элементов кадра, и т.д.

В соответствии с некоторым вариантом осуществления, например, кодер 24 конфигурируется таким образом, что множество типов элемента содержит следующее:

a) элементы кадра типа элемента единственного канала, например, могут генерироваться кодером 24, чтобы представить один единственный аудио сигнал. Соответственно, последовательность элементов 22 кадра в некоторой позиции элемента в пределах кадров 20, например i^-й элемент в кадрах с 0>i>N+1, которые, следовательно, формируют i^-й подпоток элементов кадра, вместе могут представлять последовательные периоды 18 времени такого единственного аудио сигнала. Аудио сигнал, представленный таким образом, может непосредственно соответствовать любому одному из аудио сигналов 16 аудио содержимого 10. Альтернативно, однако, и как описано более подробно ниже, такой представленный аудио сигнал может быть одним каналом из сигнала понижающего микширования, который, наряду с данными полезных данных элементов кадра другого типа элемента кадра, позиционированного в другой позиции элемента в пределах кадров 20, дает количество аудио сигналов 16 аудио содержимого 10, которое выше, чем количество каналов упомянутого выше сигнала понижающего микширования. В случае варианта осуществления, описанного более подробно ниже, элементы кадра такого типа элемента единственного канала обозначены UsacSingleChannelElement. В случае MPEG Surround и SAOC, например, имеется только единственный сигнал понижающего микширования, который может быть моно, стерео, или даже многоканальным в случае MPEG Surround. В последнем случае такой, например сигнал 5.1 понижающего микширования, состоит из двух элементов пары каналов и одного элемента единственного канала. В этом случае элемент единственного канала, так же как два элемента пары каналов, является только частью сигнала понижающего микширования. В случае понижающего микширования стерео будет использоваться элемент пары каналов.

b) Элементы кадра типа элемента пары каналов могут быть сгенерированы кодером 24, чтобы представить стерео пару аудио сигналов. Таким образом, элементы 22 кадра этого типа, которые позиционированы в общую позицию элемента в пределах кадров 20, вместе могут формировать соответствующий подпоток элементов кадра, которые представляют последовательные периоды 18 времени такой стерео аудио пары. Эта стерео пара аудио сигналов, представленных таким образом, может быть непосредственно любой парой аудио сигналов 16 аудио содержимого 10, или может представлять, например, сигнал понижающего микширования, который наряду с данными полезных данных элементов кадра другого типа элемента, которые позиционированы в другую позицию элемента, приводят к количеству аудио сигналов 16 аудио содержимого 10, которое выше, чем 2. В варианте осуществления, описанном более подробно ниже, элементы кадра такого типа элемента пары каналов обозначены как UsacChannelPairElement.

c) Чтобы передать информацию относительно аудио сигналов 16 аудио содержимого 10, которые нуждаются в меньшей полосе частот, например, каналы сабвуфера или подобные, кодер 24 может поддерживать элементы кадра конкретного типа с элементами кадра такого типа, которые позиционированы в общую позицию элемента, представляющую, например, последовательные периоды 18 времени единственного аудио сигнала. Этот аудио сигнал может быть любым одним из аудио сигналов 16 аудио содержимого 10 непосредственно, или может быть частью сигнала понижающего микширования как описано выше в отношении единственного типа элемента канала и типа элемента пары каналов. В варианте осуществления, описанном более подробно ниже, элементы кадра такого конкретного типа элемента кадра обозначены UsacLfeElement.

d) Элементы кадра типа элемента расширения могут генерироваться кодером 24, чтобы передать побочную информацию наряду с потоком битов, чтобы разрешить декодеру выполнить повышающее микширование любого из аудио сигналов, представленных элементами кадра любого из типов a, b и/или c, чтобы получить более высокое количество аудио сигналов. Элементы кадра такого типа элемента расширения, которые позиционированы в некоторую общую позицию элемента в пределах кадров 20, могут соответственно передавать побочную информацию, относящуюся к последовательному периоду 18 времени, которая позволяет выполнить повышающее микширование соответствующего периода времени одного или более аудио сигналов, представленных любым из других элементов кадра, чтобы получить соответствующий период времени более высокого количества аудио сигналов, в котором последние могут соответствовать первоначальным аудио сигналам 16 аудио содержимого 10. Примеры для такой побочной информации могут, например, быть параметрической побочной информацией такой как, например, MPS или побочная информация SAOC.

В соответствии с вариантом осуществления, описанным подробно ниже, доступные типы элемента просто состоят из вышеупомянутых описанных в общих чертах четырех типов элемента, но другие типы элемента также могут быть доступными. С другой стороны, только один или два из типов элемента a-c могут быть доступными.

Как стало ясно из вышеприведенного описания, пропуски элементов 22 кадра этого типа элемента расширения из потока 12 битов или пренебрежение этими элементами кадра при декодировании, не полностью представляет реконструкцию аудио содержимого 10 невозможной: по меньшей мере остающиеся элементы кадра других типов элемента передают достаточно информации, чтобы обеспечить аудио сигналы. Эти аудио сигналы не обязательно соответствуют первоначальным аудио сигналам аудио содержимого 10 или надлежащему их поднабору, но могут представлять своего рода "смесь" аудио содержимого 10. То есть, элементы кадра типа элемента расширения могут передавать информацию (данные полезных данных), которая представляет побочную информацию относительно одного или более элементов кадра, позиционированных в различные позиции элемента в пределах кадров 20.

В варианте осуществления, описанном ниже, однако, элементы кадра типа элемента расширения не ограничены таким видом передачи побочной информации. Вместо этого элементы кадра типа элемента расширения, в нижеследующем, обозначены UsacExtElement и определены, чтобы передавать данные полезных данных наряду с информацией длины, причем последняя информация длины позволяет декодерам принимать поток 12 битов, чтобы пропустить эти элементы кадра типа элемента расширения в случае, например, неспособности декодера обработать соответствующие данные полезных данных в пределах этих элементов кадра. Это описано более подробно ниже.

Перед продолжением описания кодера согласно Фиг. 1, однако, нужно отметить, что имеется несколько возможностей для альтернатив для типов элемента, описанных выше. Это особенно верно для типа элемента расширения, описанного выше. В частности, в случае типа элемента расширения, конфигурируемого таким образом, что данные полезных данных пропускаются декодерами, которые, например, не в состоянии обработать соответствующие данные полезных данных, эти данные полезных данных этих элементов кадра типа элемента расширения могут быть любым типом данных полезных данных. Эти данные полезных данных могут формировать побочную информацию относительно данных полезных данных других элементов кадра других типов элемента кадра, или могут формировать самостоятельные данные полезных данных, представляющие другой аудио сигнал, например. Кроме того, даже в случае данных полезных данных элементов кадра типа элемента расширения, представляющих побочную информацию данных полезных данных элементов кадра других типов элемента кадра, эти данные полезных данных этих элементов кадра типа элемента расширения не ограничены только описанным видом, а именно, многоканальной или многообъектной побочной информацией. Полезные данные многоканальной побочной информации сопровождают, например, сигнал понижающего микширования, представленный любым из элементов кадра другого типа элемента, с пространственными признаками, такими как параметры кодирования бинаурального сигнала (BCC), например, значения межканальной когерентности (ICC), межканальные разности уровней (ICLD), и/или межканальные разности времени (ICTD) и, необязательно, коэффициенты предсказания канала, причем эти параметры известны в уровне техники из, например, стандарта MPEG Surround. Только упомянутые параметры пространственных признаков могут, например, быть переданы в пределах данных полезных данных элементов кадра типа элемента расширения с время/частотным разрешением, то есть один параметр на каждую ячейку времени/частоты сетки времени/частоты. В случае многообъектной побочной информации эти данные полезных данных элемента кадра типа элемента расширения могут содержать аналогичную информацию, такую как параметры кросс-корреляции между объектами (IOC), разности уровней объекта (OLD), так же как параметры понижающего микширования, показывающие, как первоначальные аудио сигналы были преобразованы понижающим микшированием в канал(ы) сигнала понижающего микширования, представленного любым из элементов кадра другого типа элемента. Последние параметры, например, известны в уровне техники из стандарта SAOC. Однако, примером другой побочной информации, которую могут представлять данные полезных данных элементов кадра типа элемента расширения, являются, например, данные SBR для того, чтобы параметрически кодировать огибающую высокочастотной части аудио сигнала, представленного любым из элементов кадра других типов элемента кадра, позиционированных в различную позицию элемента в пределах кадров 20, и разрешающих, например, репликацию спектрального диапазона с использованием низкочастотной части, которая получена из последнего аудио сигнала, в качестве базиса для высокочастотной части, с последующим формированием огибающей высокочастотной части, таким образом полученной посредством огибающей данных SBR. В более широком смысле, данные полезных данных элементов кадра типа элемента расширения могут передавать побочную информацию для того, чтобы модифицировать аудио сигналы, представленные элементами кадра любого из других типов элемента, позиционированных в различную позицию элемента в пределах кадра 20 или во временной области или в частотной области, причем частотная область может, например, быть областью QMF или некоторой другой областью банка фильтров или областью преобразования.

Возобновляя далее описание функциональ

Расположение элемента кадра в кадрах потока битов, представляющего аудио содержимое

Патент 2589399