2571388 - Передача длины элемента кадра при кодировании аудио

Передача длины элемента кадра при кодировании аудио

Иллюстрации

Показать все

Изобретение относится к кодированию аудиосигнала, в частности к передаче длины элемента кадра. Технический результат - повышение точности кодирования аудиосигнала. Для этого элементы кадра, которые должны быть сделаны доступными для пропуска, могут быть переданы более эффективно посредством компоновки так, что информация длины полезных данных по умолчанию передается отдельно внутри блока конфигурации с информацией длины в элементах кадра, в свою очередь, разделяемой на флаг длины полезных данных по умолчанию, с последующим, если этот флаг длины полезных данных по умолчанию не установлен, значением длины полезных данных, явно кодирующим длину полезных данных соответствующего элемента кадра. Однако, если флаг длины полезных данных по умолчанию установлен, явной передачи длины полезных данных можно избежать. Вместо этого любой элемент кадра, флаг длины полезных данных расширения по умолчанию которого установлен, имеет длину полезных данных по умолчанию, и любой элемент кадра, флаг длины полезных данных расширения по умолчанию которого не установлен, имеет длину полезных данных, соответствующую значению длины полезных данных. 6 н. и 13 з.п. ф-лы, 16 табл., 39 ил.

Реферат

Изобретение относится к кодированию аудио, например, так называемому USAC кодеку (USAC = объединенное кодирование речи и аудио), и, в частности, к передаче длины элемента кадра.

В последние годы несколько кодеков аудио были сделаны доступными, причем каждый кодек аудио специально разработан, чтобы соответствовать специализированному приложению. Главным образом, эти аудио кодеки в состоянии закодировать больше чем один канал аудио или сигнал аудио параллельно. Некоторые кодеки аудио являются даже подходящими для того, чтобы отличным образом кодировать содержимое аудио, по-разному группируя аудио каналы или аудио объекты содержимого аудио и подвергая эти группы различным принципам кодирования аудио. Кроме того, некоторые из этих кодеков аудио обеспечивают вставку данных расширения в поток битов так, чтобы приспособиться к будущим расширениям/событиям кодека аудио.

Одним примером таких кодеков аудио является USAC кодек, как определено в ISO/IEC CD 23003-3. Этот стандарт, названный "Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding", описывает подробно функциональные блоки опорной модели вызова для предложений по объединенному кодированию речи и аудио.

Фиг. 5a и 5b иллюстрируют блок-схемы декодера и кодера. Ниже кратко объяснены общие функциональные возможности отдельных блоков. Затем, проблемы при объединении всех получающихся частей синтаксиса в поток битов объяснены со ссылками на фиг. 6.

Фиг. 5a и 5b иллюстрируют блок-схемы кодера и декодера. Блок-схемы кодера и декодера USAC отражают структуру кодирования USAC MPEG-D. Общая структура может быть описана, подобно следующей: сначала имеется общая предварительная/пост-обработка, состоящая из функционального блока MPEG Surround (MPEGS) для управления стерео или многоканальной обработкой, и блок расширенного SBR (eSBR), который обрабатывает параметрическое представление аудио более высоких частот во входном сигнале. Затем имеются две ветви, одна, состоящая из тракта модифицированного инструмента усовершенствованного кодирования аудио (AAC), и другая, состоящая из тракта, основанного на кодировании с линейным предсказанием (область LP или LPC), что, в свою очередь, означает или представление в частотной области или представление во временной области остатка LPC. Все переданные спектры и для AAC и для LPC представлены в области MDCT после квантования и арифметического кодирования. Представление во временной области использует схему кодирования с ACELP возбуждением.

Базовая структура USAC MPEG-D показана на фиг. 5a и 5b. Поток данных в этой диаграмме направлен слева направо, сверху вниз. Функции декодера заключаются в том, чтобы найти описание квантованных спектров аудио или представления во временной области в полезных данных потока битов и декодировать квантованные значения и другую информацию реконструкции.

В случае переданной спектральной информации декодер должен восстановить квантованные спектры, обработать восстановленные спектры с помощью любых инструментов, которые являются активными в полезных данных потока битов, чтобы получить фактические спектры сигнала, как описано полезными данными введенного потока битов, и, наконец, преобразовать спектры из частотной области во временную область. После начальной реконструкции и масштабирования реконструкции спектра, имеются необязательные инструменты, которые модифицируют один или более спектров, чтобы обеспечить более эффективное кодирование.

В случае переданного представления сигнала во временной области декодер должен восстановить квантованный временной сигнал, обработать восстановленный временной сигнал с помощью любых инструментов, которые являются активными в полезных данных потока битов, чтобы получить фактический сигнал во временной области, который описан полезными данными введенного потока битов.

Для каждого из необязательных инструментов, которые оперирует над данными сигнала, опция "пройти через" («выполнить посредством») сохраняется, и во всех случаях, где обработка пропускается, спектры или выборки времени при их вводе передают непосредственно через этот инструмент без модификации.

В местах, где поток битов изменяет свое представление сигнала из временной области в представление в частотной области или из области LP в область не-LP или наоборот, декодер должен облегчить переход от одной области к другой посредством соответствующего вырезания окна наложения - добавления перехода.

Обработка eSBR и MPEGS применяется одинаковым образом к обоим трактам кодирования после обработки перехода.

Входными данными в инструмент демультиплексора полезных данных потока битов являются полезные данные USAC MPEG-D потока битов. Демультиплексор разделяет полезные данные потока битов на части для каждого инструмента и снабжает каждый из инструментов информацией полезных данных потока битов, относящихся к этому инструменту.

Выходными из инструмента демультиплексора полезных данных потока битов являются:

* В зависимости от типа базового кодирования в текущем кадре любые из:

- квантованных и свободных от шумов кодированных спектров, представленных посредством

- информации коэффициента масштабирования;

- арифметически кодированных спектральных линий

* или: параметров линейного предсказания (LP) вместе с сигналом возбуждения, представленным также любым из:

- квантованных и арифметически кодированных спектральных линий (возбуждение с кодированным преобразованием, TCX), или

- ACELP-кодированного возбуждения временной области

* Информация заполнения спектральным шумом (опционально)

* Информация решения M/S (опционально)

* Информация формирования временного шума (TNS) (опционально)

* Информация управления банком фильтров

* Информация управления обращенной деформацией шкалы времени (TW) (опционально)

* Информация управления расширенным спектральным ответом полосы пропускания (eSBR) (опционально)

* Информация управления MPEG Surround (MPEGS) (опционально)

Инструмент свободного от шумов декодирования коэффициента масштабирования принимает информацию от демультиплексора полезных данных потока битов, синтаксически анализирует эту информацию, и декодирует кодированные по Хаффману и DPCM коэффициенты масштабирования.

Входными данными для инструмента свободного от шумов декодирования коэффициента масштабирования являются:

* Информация коэффициента масштабирования для свободных от шумов кодированных спектров

Выходными данными для инструмента свободного от шумов декодирования коэффициента масштабирования являются:

* Декодированное целочисленное представление коэффициентов масштабирования:

Инструмент спектрального свободного от шумов декодирования принимает информацию от демультиплексора полезных данных потока битов, синтаксически анализирует эту информацию, декодирует арифметически кодированные данные, и восстанавливает квантованные спектры. Входными данными для этого инструмента свободного от шумов декодирования являются:

* Свободные от шумов кодированные спектры

Выходными данными для этого инструмента свободного от шумов декодирования являются:

* Квантованные значения спектров

Инструмент обратного квантователя принимает квантованные значения для спектров, и преобразует целочисленные значения в немасштабированные восстановленные спектры. Этот квантователь является квантователем компандирования, чей коэффициент компандирования зависит от выбранного основного режима кодирования.

Выходными данными для инструмента обратного квантователя являются:

* Квантованные значения для спектров

Выходными данными для инструмента обратного квантователя являются:

* Немасштабированные обратно квантованные спектры.

Инструмент заполнения шумом используется, чтобы заполнить спектральные промежутки в декодированных спектрах, которые имеют место, когда спектральное значение квантуется в ноль, например, из-за сильного ограничения требования битов в кодере. Использование инструмента заполнения шума является опциональным.

Входными данными для инструмента заполнения шумом являются:

* Немасштабированные обратно квантованные спектры

* параметры заполнения шумом

* Декодированное целочисленное представление коэффициентов масштабирования

Выходными данными для инструмента заполнения шума являются:

* Немасштабированные обратно квантованные спектральные значения для спектральных линий, которые ранее были квантованы в нуль.

* Модифицированное целочисленное представление коэффициентов масштабирования

Инструмент перемасштабирования преобразует целочисленное представление коэффициентов масштабирования к реальным значениям, и умножает немасштабированные обратно квантованные спектры на релевантные коэффициенты масштабирования.

Входными данными для коэффициентов масштабирования являются:

* Декодированное целочисленное представление коэффициентов масштабирования

* Немасштабированные обратно квантованные спектры

Выходными данными от коэффициентов масштабирования являются:

* Масштабированные обратно квантованные спектры.

Для краткого обзора по инструменту M/S см. ISO/IEC 14496-3:2009, 4.1.1.2.

Для краткого обзора по инструменту временного формирования шума (TNS), см. ISO/IEC 14496-3:2009, 4.1.1.2.

Инструмент переключения блока/банка фильтров применяет инверсию отображения частоты, которое было выполнено в кодере. Обратное модифицированное дискретное косинусное преобразование (IMDCT) используется для инструмента банка фильтров. IMDCT может быть сконфигурировано, чтобы поддерживать 120, 128, 240, 256, 480, 512, 960 или 1024 спектральных коэффициентов.

Входными данными для инструмента банка фильтров являются:

* (Обратно квантованные) спектры

* Информация управления банком фильтров

Выходными данными для инструмента банка фильтров являются:

* Аудио сигнал(ы), восстановленные во временной области.

Инструмент переключения банка/блока фильтров с деформированной шкалой времени заменяет нормальный инструмент переключения банка/блока фильтров, когда режим деформации шкалы времени разрешен. Банк фильтров является тем же самым (IMDCT), что и для нормального банка фильтров, дополнительно вырезанные в виде окна выборки временной области отображаются из области деформированной шкалы времени в область с линейной шкалой временем посредством повторной дискретизации с изменением шкалы времени.

Входными данными для инструментов банка фильтров с деформированной шкалой времени являются:

* Обратно квантованные спектры

* Информация управления банком фильтров

* Информация управления деформированной шкалой времени

Выходом(ами) инструмента банка фильтров является:

* восстановленный аудио сигнал(ы) области с линейной шкалой времени

Инструмент расширенного SBR (eSBR) восстанавливает диапазон высоких частот аудио сигнала. Он основан на репликации последовательностей гармоник, усеченных во время кодирования. Он регулирует спектральную огибающую генерированного диапазона высоких частот и применяет обратное фильтрование, и добавляет шум и синусоидальные компоненты, чтобы заново создать спектральные характеристики первоначального сигнала.

Входными данными для инструмента eSBR являются:

* Квантованные данные огибающей

* смешанные данные управления

* сигнал временной области от базового декодера частотной области или базового декодера ACELP/TCX

Выходными данными для инструмента eSBR являются любое из:

* сигнала временной области или

* представления сигнала в QMF-области, например, используется в инструменте MPEG Surround.

Инструмент MPEG Surround (MPEGS) формирует множественные сигналы из одного или более сигналов ввода, применяя сложную процедуру смешения с увеличением числа каналов к сигналу(ам) ввода, которым управляют соответствующие пространственные параметры. В контексте USAC MPEGS используется для того, чтобы кодировать многоканальный сигнал посредством передачи параметрической побочной информации вместе с переданным смешанным с пониженным числом каналов сигналом.

Входными данными для инструмента MPEGS являются:

* сигнал временной области с пониженным числом каналов, или

* представление в QMF-области сигнала с пониженным числом каналов из инструмента eSBR

Выходными данными для инструмента MPEGS являются:

* многоканальный сигнал временной области

Инструмент Классификатор Сигнала анализирует первоначальный сигнал ввода и генерирует из него информацию управления, которая инициирует выбор различных режимов кодирования. Анализ сигнала ввода является зависимым от реализации и пытается выбрать оптимальный базовый режим кодирования для заданного кадра сигнала ввода. Выходные данные классификатора сигнала могут (необязательно) также использоваться, чтобы влиять на поведение других инструментов, например MPEG Surround, расширенного SBR, банка фильтров с деформацией временной шкалы и других.

Входными данными для инструмента Классификатора сигнала являются:

* первоначальный немодифицированный сигнал ввода

* дополнительные параметры, зависимые от реализации

Выходными данными для инструмента Классификатора сигнала являются:

* управляющий сигнал, чтобы управлять выбором базового кодера-декодера (не-LP фильтрованное кодирование в частотной области, LP фильтрованная частотная область или LP фильтрованное кодирование во временной области).

Инструмент ACELP обеспечивает способ, чтобы эффективно представить сигнал возбуждения во временной области посредством комбинирования долгосрочного предсказателя (адаптивное кодовое слово) с импульсно-подобной последовательностью (обновленное кодовое слово). Восстановленное возбуждение посылают через фильтр LP-синтеза, чтобы сформировать сигнал временной области.

Входными данными для инструмента ACELP являются:

* индексы адаптивной и обновленной кодовой книги

* значения адаптивного и обновленного коэффициентов усиления кодов

* другие данные управления

* обратно квантованные и интерполированные коэффициенты LPC фильтра

Выходными данными для инструмента ACELP являются:

* восстановленный аудио сигнал временной области

Инструмент основанного на MDCT средства декодирования TCX используется, чтобы вернуть взвешенное представление остатка LP из MDCT-области назад в сигнал временной области и выводит сигнал временной области, включающий в себя взвешенную фильтрацию LP-синтеза. IMDCT может быть сконфигурирован, чтобы поддерживать 256, 512, или 1024 спектральных коэффициентов.

Входными данными для инструмента TCX являются:

* (Обратно квантованные) спектры MDCT

* обратно квантованные и интерполированные коэффициенты LPC фильтра

Выходными данными для инструмента TCX являются:

* восстановленный аудио сигнал временной области

Технология, раскрытая в ISO/IEC CD 23003-3, который включен здесь по ссылке, обеспечивает определение канальных элементов, которые являются, например, элементами единственного канала, содержащими полезные данные только для единственного канала, или элементами пары каналов, содержащими полезные данные для двух каналов, или канальными элементами LFE (низкочастотное расширение), содержащими полезные данные для канала LFE.

Естественно, кодек USAC не является единственным кодеком, который в состоянии кодировать и передавать информацию относительно более сложного кодека аудио более чем одного или двух аудио каналов или аудио объектов с помощью одного потока битов. Соответственно, кодек USAC просто служил конкретным примером.

Фиг. 6 показывает более общий пример кодера и декодера, соответственно, оба изображенные в одном общем виде, где кодер кодирует аудио содержимое 10 в поток 12 битов, с декодером, декодирующим аудио содержимое или по меньшей мере его часть, из потока 12 битов. Результат декодирования, то есть реконструкция, указана как 14. Как иллюстрировано на Фиг. 6, аудио содержимое 10 может быть составлено из многих аудио сигналов 16. Например, аудио содержимое 10 может быть пространственной аудио сценой, составленной из ряда аудио каналов 16. Альтернативно, аудио содержимое 10 может представить конгломерат аудио сигналов 16 с аудио сигналами 16, представляющими, отдельно и/или в группах, отдельные аудио объекты, которые могут быть соединены в аудио сцену на усмотрение пользователя декодера, чтобы получить реконструкцию 14 аудио содержимого 10 в форме, например, пространственной аудио сцены для конкретной конфигурации громкоговорителей. Кодер кодирует аудио содержимое 10 в блоках последовательных периодов времени. Такой период времени в качестве примера показан как 18 на Фиг. 6. Кодер кодирует последовательные периоды 18 аудио содержимого 10, используя один и тот же способ: то есть, кодер вставляет в поток 12 битов один кадров 20 за период 18 времени. При этом кодер разлагает аудио содержимое в пределах соответствующего периода 18 времени в элементы кадра, количество и значение/тип которого являются одинаковыми для каждого периода 18 времени и кадра 20, соответственно. Относительно кодека USAC, описанного в общих чертах выше, например, кодер кодирует одну и ту же пару аудио сигналов 16 в каждом периоде 18 времени в элемент пары каналов элементов 22 кадров 20, используя другой принцип кодирования, такой как кодирование единственного канала для другого аудио сигнала 16, чтобы получить единственный элемент 22 канала и т.д. Параметрическая побочная информация для получения аудио сигналов повышающего микширования из аудио сигнала понижающего микширования как определено одним или более элементами 22 кадра, собирается, чтобы сформировать другой элемент кадра в пределах кадра 20. В этом случае элемент кадра, передающий эту побочную информацию, ссылается на, или формирует некоторый вид данных расширения для других элементов кадра. Естественно, такие расширения не ограничены многоканальной или многообъектной побочной информацией.

Одна возможность состоит в том, чтобы указать в пределах каждого элемента 22 кадра то, какого типа является соответствующий элемент кадра. Выгодно, если такая процедура обеспечивает согласование с будущими расширениями синтаксиса потока битов. Декодеры, которые не в состоянии иметь дело с некоторыми типами элемента кадра, будут просто пропускать соответствующие элементы кадра в потоке битов, используя соответствующую информацию длины в пределах этих элементов кадра. Кроме того, возможно обеспечить соответствующие стандарту декодеры различного типа: некоторые в состоянии понять первый набор типов, в то время как другие понимают и могут обращаться с другим набором типов; альтернативные типы элемента могут быть просто игнорированы соответствующими декодерами. Дополнительно, кодер может быть в состоянии сортировать элементы кадра по своему усмотрению так, чтобы на декодеры, которые в состоянии обработать такие дополнительные элементы кадра, можно было подавать эти элементы кадра в пределах кадров 20 в порядке, который, например, минимизирует потребности буферизации в пределах декодера. Невыгодно, однако, если поток битов должен передавать информацию типа элемента кадра для каждого элемента кадра, потребность в чем, в свою очередь, отрицательно влияет на частоту сжатия потока 12 битов с одной стороны и сложность декодирования с другой стороны, так как служебные расходы на синтаксический разбор для проверки соответствующей информации типа элемента кадра имеют место в пределах каждого элемента кадра.

Кроме того, чтобы обеспечить пропуск элементов кадра, которые должны быть пропущены, поток 12 битов должен передать вышеупомянутую информацию длины относительно элементов кадра, потенциально подлежащие пропуску. Эта передача, в свою очередь, уменьшает эффективность сжатия.

Естественно, возможно иначе фиксировать порядок среди элементов 22 кадра, например, по соглашению, но такая процедура препятствует тому, чтобы кодеры имели свободу перекомпоновывать элементы кадра из-за, например, специфических свойств будущих элементов кадра расширения, повлекших необходимость или предлагающих, например, различный порядок среди элементов кадра.

Кроме того, было бы выгодно, если передача информации длины могла бы быть выполнена более эффективно.

Соответственно, есть потребность в другой концепции потока битов, кодера и декодера, соответственно.

Соответственно, задачей настоящего изобретения является обеспечить поток битов, кодер и декодер, которые решают выше описанную проблему и обеспечивают получение более эффективного способа передачи информации длины.

Этот задача решается объектами согласно независимым пунктам формулы изобретения.

Настоящее изобретение основано на обнаружении факта, что элементы кадра, которые должны быть сделаны доступными для пропуска, могут быть переданы более эффективно, если информация длины полезных данных по умолчанию передается отдельно в пределах блока конфигурации, причем информация длины в пределах элементов кадра, в свою очередь, подразделяется на флаг длины полезных данных по умолчанию, с последующим, если флаг длины полезных данных по умолчанию не установлен, значением длины полезных данных, явно кодирующим длину полезных данных соответствующего элемента кадра. Однако, если флаг длины полезных данных по умолчанию установлен, явной передачи длины полезных данных можно избежать. Вместо этого любой элемент кадра, флаг длины расширенных полезных данных по умолчанию которого установлен, имеет длину полезных данных по умолчанию, и любой элемент кадра, флаг длины полезных данных расширения по умолчанию которого не установлен, имеет длину полезных данных, соответствующую этому значению длины полезных данных. С помощью этой меры эффективность передачи повышается.

В соответствии с вариантом осуществления настоящей заявки, синтаксис потока битов далее разработан так, чтобы использовать преимущество обнаружения, что лучший компромисс между слишком высоким потоком битов и декодированием служебных расходов, с одной стороны, и гибкостью позиционирования элемента кадра, с другой стороны, может быть получен, если каждая из последовательности кадров потока битов содержит последовательность из N элементов кадра и, с другой стороны, поток битов содержит блок конфигурации, содержащий поле, указывающее количество элементов N, и часть синтаксиса индикации типа, указывающую, для каждой позиции элемента последовательности из N позиций элементов, тип элемента из множества типов элемента с, в последовательностях из N элементов кадра этих кадров, каждым элементом кадра, являющимся типом элемента, указанным упомянутой частью индикации типа, для соответствующей позиции элемента, в которую соответствующий элемент кадра позиционирован в пределах последовательности из N элементов кадра соответствующего кадра в потоке битов. Таким образом, кадры одинаково структурированы в том, что каждый кадр содержит одну и ту же последовательность из N элементов кадра типа элемента кадра, обозначенного частью синтаксиса индикации типа, позиционированной в пределах этого потока битов в одном и том же последовательном порядке. Этот последовательный порядок обычно является настраиваемым для последовательности кадров посредством использования части синтаксиса индикации типа, которая указывает, для каждой позиции элемента последовательности из N позиций элемента, тип элемента из множества типов элемента.

С помощью с помощью этой меры типы элемента кадра могут быть скомпонованы в любом порядке, таком как по усмотрению кодера, чтобы выбрать порядок, который является наиболее подходящим для используемых типов элемента кадра, например.

Множество типов элемента кадра могут, например, включать в себя тип элемента расширения с просто элементами кадра типа элемента расширения, содержащего эту информацию длины в отношении длины соответствующего элемента кадра так, чтобы декодеры, не поддерживающие этот конкретный тип элемента расширения, были в состоянии пропустить эти элементы кадра упомянутого типа элемента расширения, используя информацию длины в качестве длины интервала пропуска. С другой стороны, декодеры, способные обращаться с этими элементами кадра упомянутого типа элемента расширения, соответственно обрабатывают часть содержимого или полезных данных их. Элементы кадра других типов элемента могут не содержать такую информацию длины. Если, в соответствии с упомянутым выше более конкретным вариантом осуществления, кодер в состоянии произвольно помещать эти элементы кадра упомянутого типа элемента расширения в пределах последовательности элементов кадра кадров, буферизация служебных расходов в декодерах может быть минимизирована посредством выбора порядка типа элемента кадра подходящим образом и сигнализации этого в пределах части синтаксиса индикации типа.

Выгодные реализации вариантов осуществления настоящего изобретения являются предметом зависимых пунктов формулы изобретения.

Ниже предпочтительные варианты осуществления настоящей заявки описаны ниже со ссылками на чертежи, среди которых:

Фиг. 1 показывает схематическую блок-схему кодера и его вход и выход в соответствии с вариантом осуществления;

Фиг. 2 показывает схематическую блок-схему декодера и его вход и выход в соответствии с вариантом осуществления;

Фиг. 3 схематично показывает поток битов в соответствии с вариантом осуществления;

Фиг. 4а-z и za-zc показывает таблицы псевдокода, иллюстрирующие конкретный синтаксис потока битов в соответствии с вариантом осуществления; и

Фиг. 5a и b показывает блок-схему кодера USAC и декодера; и

Фиг. 6 показывает типичную пару кодера и декодера.

Фиг. 1 показывает кодер 24 в соответствии с вариантом осуществления. Кодер 24 предназначен для того, чтобы кодировать аудио содержимое 10 в поток 12 битов.

Как описано в вводной части описания настоящей заявки, аудио содержимое 10 может быть конгломератом нескольких аудио сигналов 16. Аудио сигналы 16 представляют, например, отдельные аудио каналы пространственной аудио сцены. Альтернативно, аудио сигналы 16 формируют аудио объекты набора аудио объектов, вместе определяющих аудио сцену для свободного микширования на стороне декодирования. Аудио сигналы 16 определены в общем временном базисе t, как иллюстрировано позицией 26. Таким образом, аудио сигналы 16 могут относиться к одному и тому же временному интервалу и могут, соответственно, быть выровнены по времени друг относительно друга.

Кодер 24 конфигурируется так, чтобы кодировать последовательные периоды 18 времени аудио содержимого 10 в последовательность кадров 20 так, чтобы каждый кадр 20 представлял соответствующий один из периодов 18 времени аудио содержимого 10. Кодер 24 конфигурируется, в некотором смысле, чтобы кодировать каждый период времени одинаково таким образом, чтобы каждый кадр 20 содержал последовательность из количества элементов N из элементов кадра. В пределах каждого кадра 20 справедливо, что каждый элемент 22 кадра имеет соответствующий один из множества типов элемента. В частности, последовательность кадров 20 является композицией из последовательностей N элементов кадра 22, с каждым элементом 22 кадра, имеющим один из соответствующего множества типов элемента таким образом, что каждый кадр 20 содержит один элемент 22 кадра из каждой из N последовательностей элементов 22 кадра, соответственно, и для каждой последовательности элементов 22 кадра элементы 22 кадра имеют равный тип элемента друг относительно друга. В вариантах осуществления, описанных ниже, N элементов кадра в пределах каждого кадра 20 скомпонованы в потоке 12 битов таким образом, что элементы кадра 22, помещенные в некоторую позицию элемента, имеют тот же самый или равный тип элемента и формируют одну из N последовательностей элементов кадра, иногда называемых подпотоками в нижеследующем описании. Таким образом, первые элементы 22 кадра в кадрах 20 имеют один и тот же тип элемента и формируют первую последовательность (или подпоток) элементов кадра, вторые элементы 22 кадра из всех кадров 20 имеют тип элемента, равный друг другу, и формируют вторую последовательность элементов кадра, и т.д. Однако, следует подчеркнуть, что этот аспект следующих вариантов осуществления является просто дополнительным, и все из далее описанных в общих чертах вариантов осуществления могут быть модифицированы в этом отношении: например, вместо того, чтобы сохранять порядок среди элементов кадра N подпотоков в пределах каждого кадра 20 постоянным с передачей информации относительно типов элемента подпотоков в блоке конфигурации, все ниже поясненные варианты осуществления могут быть пересмотрены в том, чтобы соответствующий тип элемента из элементов кадра содержался в пределах самого синтаксиса элемента кадра, так чтобы порядок среди подпотоков в пределах каждого кадра 20 мог изменяться между различными кадрами. Естественно, такая модификация может иметь место за счет отказа от преимущества относительно эффективности передачи, как далее объяснено ниже. Еще в качестве альтернативы, порядок может быть фиксированным, но так или иначе заранее определенным в соответствии с соглашением, так чтобы никакая индикация в пределах блока конфигурации не была бы необходима.

Как описано в общих чертах более подробно ниже, подпотоки, переданные последовательностью кадров 20, передают информацию, которая позволяет декодеру восстановить аудио содержимое. В то время как некоторые из подпотоков могут быть обязательными, другие являются так или иначе опциональными и могут быть пропущены некоторыми из декодеров. Например, некоторые из подпотоков могут представить побочную информацию относительно других подпотоков и могут, например, быть необязательными. Это объяснено более подробно ниже. Однако, чтобы позволить декодерам пропустить некоторые из элементов кадра или, более точно, элементы кадра по меньшей мере одной из последовательностей элементов кадра, то есть, одного из подпотоков, кодер 24 конфигурируется, чтобы записать блок 28 конфигурации в поток 12 битов, который содержит информацию длины полезных данных по умолчанию в отношении длины полезных данных по умолчанию. Далее, кодер записывает для каждого элемента 22 кадра этого по меньшей мере одного подпотока информацию длины в поток 12 битов, содержащую, для по меньшей мере поднабора элементов 22 кадра этого по меньшей мере одного подпотока, флаг длины полезных данных по умолчанию, с последующим, если флаг длины полезных данных по умолчанию не установлен, значением длины полезных данных. Любой элемент кадра этой по меньшей мере одной из последовательностей элементов 22 кадра, флаг длины расширенных полезных данных по умолчанию которой установлен, имеет длину полезных данных по умолчанию, и любой элемент кадра этой по меньшей мере одной из последовательностей элементов 22 кадра, флаг 64 длины полезных данных расширения по умолчанию которой не установлен, имеет длину полезных данных, соответствующую значению длины полезных данных. С помощью этой меры явной передачи длины полезных данных для каждого элемента кадра пропускаемого подпотока можно избежать. Вместо этого, в зависимости от типа полезных данных, переданного такими элементами кадра, статистика длины полезных данных может быть такой, что эффективность передачи значительно увеличивается, при обращении к длине полезных данных по умолчанию, вместо того, чтобы явно передавать длину полезных данных для каждого элемента кадра снова и снова.

Таким образом, вместо общего описания потока битов, ниже то, что упомянуто выше, описано более подробно со ссылками на более конкретные варианты осуществления. Как упомянуто выше, в этих вариантах осуществления постоянный, но настраиваемый порядок среди подпотоков в последовательных кадрах 20 просто представляет необязательный признак и может быть изменен в этих вариантах осуществления.

В соответствии с некоторым вариантом осуществления, например, кодер 24 конфигурируется таким образом, что множество типов элемента содержит следующее:

a) элементы кадра типа элемента единственного канала, например, могут генерироваться кодером 24, чтобы представить один единственный аудио сигнал. Соответственно, последовательность элементов 22 кадра в некоторой позиции элемента в пределах кадров 20, например, i^-й элемент в кадрах с 0>i>N+1, которые, следовательно, формируют i^-й подпоток элементов кадра, вместе могут представлять последовательные периоды 18 времени такого единственного аудио сигнала. Аудио сигнал, представленный таким образом, может непосредственно соответствовать любому одному из аудио сигналов 16 аудио содержимого 10. Альтернативно, однако, и как описано более подробно ниже, такой представленный аудио сигнал может быть одним каналом из сигнала понижающего микширования, который, наряду с данными полезных данных элементов кадра другого типа элемента кадра, позиционированного в другой позиции элемента в пределах кадров 20, дает количество аудио сигналов 16 аудио содержимого 10, которое выше, чем количество каналов упомянутого выше сигнала понижающего микширования. В случае варианта осуществления, описанного более подробно ниже, элементы кадра такого типа элемента единственного канала обозначены UsacSingleChannelElement. В случае MPEG Surround и SAOC, например, имеется только единственный сигнал понижающего микширования, который может быть моно, стерео, или даже многоканальным в случае MPEG Surround. В последнем случае такой, например, сигнал 5.1 понижающего микширования, состоит из двух элементов пары каналов и одного элемента единственного канала. В этом случае элемент единственного канала, так же как два элемента пары каналов, является только частью сигнала понижающего микширования. В случае понижающего микширования стерео будет использоваться элемент пары каналов.

b) Элементы кадра типа элемента пары каналов могут быть сгенерированы кодером 24, чтобы представить стерео пару аудио сигналов. Таким образом, элементы 22 кадра этого типа, которые позиционированы в общую позицию элемента в пределах кадров 20, вместе могут формировать соответствующий подпоток элементов кадра, которые представляют последовательные периоды 18 времени такой стерео аудио пары. Эта стерео пара аудио сигналов, представленных таким образом, может быть непосредственно любой парой аудио сигналов 16 аудио содержимого 10, или может представлять, например, сигнал понижающего микширования, который наряду с данными полезных данных элементов кадра другого типа элемента, которые позиционированы в другую позицию элемента, приводят к количеству аудио сигналов 16 аудио содержимого 10, которое выше, чем 2. В варианте осуществления, описанном более подробно ниже, элементы кадра такого типа элемента пары каналов обозначены как UsacChannelPairElement.

c) Чтобы передать информацию относительно аудио сигналов 16 аудио содержимого 10, которые нуждаются в меньшей полосе частот, например, каналы сабвуфера или подобные, кодер 24 может поддерживать элементы кадра конкретного типа с элементами кадра такого типа, которые позиционированы в общую позицию элемента, представляющую, например, последовательные периоды 18 времени единственного аудио сигнала. Этот аудио сигнал может быть любым одним из аудио сигналов 16 аудио содержимого 10 непосредственно, или может быть частью сигнала понижающего микширования, как описано выше в отношении единственного типа элемента канала и типа элемента пары каналов. В варианте осуществления, описанном более подробно ниже, элементы кадра такого конкретного типа элемента кадра обозначены UsacLfeElement.

d) Элементы кадра типа элемента расширения могут генерироваться кодером 24, чтобы передать побочную информацию наряду с потоком битов, чтобы разрешить декодеру выполнить повышающее микширование любого из аудио сигналов, представленных элементами кадра любого из типов a, b и/или c, чтобы получить большее количество аудио сигналов. Элементы кадра такого типа элемента расширения, которые позиционированы в некоторую общую позицию элемента в пределах кадров 20, могут соответственно передавать побочную информацию, относящуюся к последовательному периоду 18 времени, которая позволяет выполнить повышающее микширование соответствующе

Передача длины элемента кадра при кодировании аудио

Патент 2571388