2665887 - Декодирование битовых аудиопотоков с метаданными расширенного копирования спектральной полосы по меньшей мере в одном заполняющем элементе

Декодирование битовых аудиопотоков с метаданными расширенного копирования спектральной полосы по меньшей мере в одном заполняющем элементе

Иллюстрации

Показать все

Изобретение относится к средствам для декодирования битового аудиопотока с метаданными расширенного копирования спектральной полосы. Технический результат заключается в повышении эффективности декодирования. Принимают по меньшей мере один блок кодированного битового аудиопотока. Демультиплексируют часть по меньшей мере одного блока кодированного битового аудиопотока. Декодируют часть по меньшей мере одного блока кодированного битового аудиопотока. Причем по меньшей мере один блок кодированного битового аудиопотока включает в себя: заполняющий элемент с идентификатором, указывающим начало заполняющего элемента, и заполняющие данные после идентификатора. Причем заполняющие данные включают в себя: по меньшей мере один флаг, идентифицирующий, должна ли быть выполнена обработка расширенного копирования спектральной полосы для аудиосодержимого по меньшей мере одного блока кодированного битового аудиопотока; и метаданные расширенного копирования спектральной полосы. 2 н. и 22 з.п. ф-лы, 7 ил., 3 табл.

Реферат

Область техники, к которой относится изобретение

Изобретение относится к обработке аудиосигналов. Некоторые варианты осуществления относятся к кодированию и декодированию битовых аудиопотоков (например, битовых потоков, имеющих формат MPEG-4 AAC), включающих в себя метаданные для управления расширенным копированием спектральной полосы (eSBR). Другие варианты осуществления относятся к декодированию таких битовых потоков посредством декодеров прежних версий, которые не выполнены с возможностью выполнения обработки eSBR, и которые игнорируют такие метаданные, или к декодированию битового аудиопотока, который не включает в себя такие метаданные, включающему в себя формирование управляющих данных eSBR в ответ на битовый поток.

Уровень техники

Обычно битовый аудиопоток включает в себя как аудиоданные (например, кодированные аудиоданные), указывающие один или более каналов аудиосодержимого, так и метаданные, указывающие по меньшей мере одну характеристику аудиоданных или аудиосодержимого. Одним известным форматом для формирования кодированного битового аудиопотока является формат усовершенствованного аудиокодирования MPEG-4 (MPEG-4 Advanced Audio Coding, AAC), описанный в стандарте ISO/IEC 14496-3:2009. В стандарте MPEG-4 аббревиатура AAC обозначает ʺadvanced audio coding (усовершенствованное аудиокодирование)ʺ, и аббревиатура HE-AAC обозначает ʺhigh-efficiency advanced audio coding (высокоэффективное усовершенствованное аудиокодирование)ʺ.

Стандарт MPEG-4 AAC определяет несколько аудиопрофилей, которые определяют, какие объекты и инструменты кодирования присутствуют в совместимом кодере или декодере. Три из этих аудиопрофилей представляют собой (1) профиль AAC, (2) профиль HE-AAC и (3) профиль HE-AAC v2. Профиль AAC включает в себя тип объекта AAC низкой сложности (или "AAC-LC"). Объект AAC-LC является аналогом профиля MPEG-2 AAC низкой сложности с некоторыми корректировками и не включает в себя ни тип объекта копирования спектральной полосы ("SBR"), ни тип объекта параметрического стерео ("PS"). Профиль HE-AAC является надмножеством профиля AAC и дополнительно включает в себя тип объекта SBR. Профиль HE-AAC v2 является надмножеством профиля HE-AAC и дополнительно включает в себя тип объекта PS.

Тип объекта SBR содержит инструмент копирования спектральной полосы, являющийся важным инструментом кодирования, который значительно повышает эффективность сжатия перцепционных аудиокодеков. SBR воссоздает высокочастотные компоненты аудиосигнала на стороне приемника (например, в декодере). Таким образом, кодер должен только закодировать и передать низкочастотные компоненты, что дает намного более высокое качество звука на низких скоростях передачи данных. SBR основан на копировании последовательностей гармоник, предварительно усеченной, чтобы сократить скорость передачи данных, из сигнала с ограниченной доступной шириной полосы и управляющих данных, полученных от кодера. Отношение между тональными и шумоподобными компонентами поддерживается посредством адаптивной обратной фильтрации, а также факультативным добавлением шума и синусоид. В стандарте MPEG-4 AAC инструмент SBR выполняет спектральную вставку, в которой несколько смежных поддиапазонов квадратурного зеркального фильтра (Quadrature Mirror Filter, QMF) копируются из переданной низкополосной части аудиосигнала в высокополосной участок аудиосигнала, который формируется в декодере.

Спектральная вставка может не являться идеальной для некоторых типов звука, например, для музыки с относительно низким переходом по частотам. Таким образом, необходимы методики для улучшения копирования спектральной полосы.

Раскрытие изобретения

Первый класс вариантов осуществления относится к блокам обработки аудиоданных, которые включают в себя память, блок удаления форматирования полезной нагрузки битового потока и подсистему декодирования. Память выполнена с возможностью хранения по меньшей мере одного блока кодированного битового аудиопотока (например, битового потока MPEG-4 AAC). Блок удаления форматирования полезной нагрузки битового потока выполнен с возможностью демультиплексирования кодированного аудиоблока. Подсистема декодирования выполнена с возможностью декодирования аудиосодержимого кодированного аудиоблока. Кодированный аудиоблок включает в себя заполняющий элемент с идентификатором, указывающим начало заполняющего элемента, и заполняющие данные после идентификатора. Заполняющие данные включают в себя по меньшей мере один флаг, идентифицирующий, должна ли быть выполнена обработка расширенного копирования спектральной полосы (eSBR) для аудиосодержимого кодированного аудиоблока.

Второй класс вариантов осуществления относится к способам декодирования кодированного битового аудиопотока. Способ включает в себя прием по меньшей мере одного блока кодированного битового аудиопотока, демультиплексирование по меньшей мере некоторых частей по меньшей мере одного блока кодированного битового аудиопотока и декодирование по меньшей мере некоторых частей по меньшей мере одного блока кодированного битового аудиопотока. По меньшей мере один блок кодированного битового аудиопотока включает в себя заполняющий элемент с идентификатором, указывающим начало заполняющего элемента, и заполняющие данные после идентификатора. Заполняющие данные включают в себя по меньшей мере один флаг, идентифицирующий, должна ли быть выполнена обработка расширенного копирования спектральной полосы (eSBR) для аудиосодержимого по меньшей мере одного блока кодированного битового аудиопотока.

Другие классы вариантов осуществления относятся к кодированию и транскодированию битовых аудиопотоков, содержащих метаданные, идентифицирующие, должна ли быть выполнена обработка расширенного копирования спектральной полосы (eSBR).

Краткое описание чертежей

Фиг. 1 - блок-схема варианта осуществления системы, которая может быть выполнена с возможностью выполнения варианта осуществления способа изобретения.

Фиг. 2 - блок-схема кодера, который является вариантом осуществления блока обработки аудиоданных изобретения.

Фиг. 3 - блок-схема системы, включающей в себя декодер, который является вариантом осуществления блока обработки аудиоданных изобретения, и при необходимости также постпроцессор, соединенный с ним.

Фиг. 4 - блок-схема декодера, который является вариантом осуществления блока обработки аудиоданных изобретения.

Фиг. 5 - блок-схема декодера, который является другим вариантом осуществления блока обработки аудиоданных изобретения.

Фиг. 6 - блок-схемой другого варианта осуществления блока обработки аудиоданных изобретения.

Фиг. 7 - схема блока битового потока MPEG-4 AAC, включающего в себя сегменты, на которые он разделен.

Обозначения и терминология

В этом раскрытии, в том числе в формуле изобретения, выражение «выполнять операцию над» сигналом или данными (например, фильтрацию, масштабирование, преобразование сигнала или данных, или применение коэффициента усиления к сигналу или данным) используется в широком смысле для обозначения выполнения операции непосредственно над сигналом или данными, или над обработанной версией сигнала или данных (например, над версией сигнала, который подвергся предварительной фильтрации или предварительной обработке до выполнения дальнейшей операции).

В этом раскрытии, в том числе в формуле изобретения, выражение «блок обработки аудиоданных» используется в широком смысле для обозначения системы или устройства, выполненных с возможностью обработки аудиоданных. Примеры блоков обработки аудиоданных включают в себя, но без ограничения, кодеры (например, транскодеры), декодеры, кодер-декодеры, системы предварительной обработки, системы последующей обработке и системы обработки битового потока (иногда называемые инструментами обработки битового потока). Фактически вся бытовая электроника, такая как мобильные телефоны, телевизоры, ноутбуки и планшетные компьютеры, содержит блок обработки аудиоданных.

В этом раскрытии, в том числе в формуле изобретения, термин «соединяет» или «соединенный» используется в широком смысле для обозначения либо прямого, либо опосредованного соединения. Таким образом, если первое устройство соединяется со вторым устройством, то соединение может быть через прямое соединение, или через косвенное соединение через другие устройства и соединения. Кроме того, компоненты, которые интегрированы в другие компоненты или с другими компонентами, также соединены друг с другом.

Осуществление изобретения

Стандарт MPEG-4 AAC предполагает, что кодированный битовый поток MPEG-4 AAC включает в себя метаданные, указывающие каждый тип обработки SBR, которая должна быть применена (если должна быть применена) декодером, чтобы декодировать аудиосодержимое битового потока, и/или которые управляют такой обработкой SBR, и/или указывающие по меньшей мере одну характеристику или параметр по меньшей мере одного инструмента SBR, который должен использоваться, чтобы декодировать аудиосодержимое битового потока. В настоящем документе мы используем выражение ʺметаданные SBRʺ для обозначения метаданных этого типа, которые описаны или упомянуты в стандарте MPEG-4 AAC.

Верхний уровень битового потока MPEG-4 AAC является последовательностью блоков данных (элементов "raw_data_block"), каждый из которых является сегментом данных (в настоящем документе называемым «блоком»), который содержит аудиоданные (как правило, для периода времени из 1024 или 960 отсчетов) и соответствующую информацию и/или другие данные. В настоящем документе мы используем термин «блок» для обозначения сегмента битового потока MPEG-4 AAC, содержащего аудиоданные (и соответствующие метаданные, и при необходимости также другие соответствующие данные), которые определяют или являются показателем одного (но не более чем одного) элемента "raw_data_block".

Каждый блок битового потока MPEG-4 AAC может включать в себя несколько синтаксических элементов (каждый из которых также осуществлен в битовом потоке как сегмент данных). Семь типов таких синтаксических элементов определены в стандарте MPEG-4 AAC. Каждый синтаксический элемент идентифицируется различным значением элемента данных "id_syn_ele". Примеры синтаксических элементов включают в себя ʺsingle_channel_element()ʺ, ʺchannel_pair_element()ʺ и ʺfill_element()ʺ. Элемент одиночного канала является контейнером, включающим в себя аудиоданные одного аудиоканала (монофонический аудиосигнал). Элемент пары каналов включает в себя аудиоданные двух аудиоканалов (то есть стереофонический аудиосигнал).

Заполняющий элемент является контейнером информации, включающим в себя идентификатор (например, значение упомянутого выше элемента "id_syn_ele"), за которым следуют данные, которые упоминаются как "заполняющие данные". Заполняющие элементы исторически использовались для корректировки текущей скорости передачи данных битовых потоков, которые должны передаваться по каналу с постоянной скоростью. Посредством добавления подходящего количества заполняющих данных к каждому блоку может быть достигнута постоянная скорость передачи данных.

В соответствии с вариантами осуществления изобретения заполняющие данные могут включать в себя одну или более добавочных полезных нагрузок, которые расширяют тип данных (например, метаданных), которые могут быть переданы в битовом потоке. Декодер, который принимает битовые потоки с заполняющими данными, содержащими новый тип данных, может при необходимости использоваться устройством, принимающим битовый поток (например, декодером), чтобы расширить функциональность устройства. Таким образом, как может оценить специалист в области техники, заполняющие элементы являются специальным типом структуры данных и отличаются от структур данных, обычно используемых для передачи аудиоданных (например, полезной нагрузки аудиоданных, содержащей данные канала).

В некоторых вариантах осуществления изобретения идентификатор, используемый для идентификации заполняющего элемента, может состоять из трехбитного целого без знака, у которого сначала передается старший значащий бит ("uimsbf"), имеющего значение 0×6. В одном блоке могут встречаться несколько экземпляров синтаксического элемента одинакового типа (например, несколько заполняющих элементов).

Другим стандартом для кодирования битовых аудиопотоков является стандарт унифицированного кодирования речи и звука MPEG (MPEG Unified Speech and Audio Coding, USAC) (ISO/IEC 23003-3:2012). Стандарт MPEG USAC описывает кодирование и декодирование аудиосодержимого с использованием обработки копирования спектральной полосы (в том числе обработка SBR, как описано в стандарте MPEG-4 AAC, а также в том числе другие расширенные формы обработки копирования спектральной полосы). Эта обработка применяет инструменты копирования спектральной полосы (иногда упоминаемые в настоящем документе как «ʺинструменты расширенного SBR» или «инструменты eSBR») расширенной и усовершенствованной версии набора инструментов SBR, описанных в стандарте MPEG-4 AAC. Таким образом, eSBR (как определено в стандарте USAC) представляет собой улучшение SBR (как определено в стандарте MPEG-4 AAC).

В настоящем документе мы используем выражение ʺобработка расширенного SBRʺ (или ʺобработка eSBRʺ) для обозначения обработки копирования спектральной полосы с использованием по меньшей мере одного инструмента eSBR (например, по меньшей мере одного инструмента eSBR, который описан или упомянут в стандарте MPEG USAC), который не описан и не упомянут в стандарте MPEG-4 AAC. Примерами таких инструментов eSBR являются гармоническая транспозиция, дополнительная предварительная обработка QMF-вставки, или «предварительное сглаживание», и формирование временной огибающей (Temporal Envelope Shaping) отсчетов между поддиапазонами, или «интер-TES».

Битовый поток, сформированный в соответствии со стандартом MPEG USAC (иногда упоминаемый в настоящем документе как ʺбитовый поток USACʺ), включает в себя кодированное аудиосодержимое и обычно включает в себя метаданные, указывающие каждый тип обработки копирования спектральной полосы, которая должна быть применена декодером, чтобы декодировать аудиосодержимое битового потока USAC, и/или метаданные, которые управляют такой обработкой копирования спектральной полосы, и/или указывающие по меньшей мере одну характеристику или параметр по меньшей мере одного инструмента SBR и/или инструмента eSBR, который должен использоваться, чтобы декодировать аудиосодержимое битового потока USAC.

В настоящем документе мы используем выражение ʺметаданные расширенного SBRʺ (или «метаданные eSBR») для обозначения метаданных, указывающих каждый тип обработки копирования спектральной полосы, которая должна быть применена декодером, чтобы декодировать аудиосодержимое кодированного битового аудиопотока (например, битового потока USAC), и/или которые управляют такой обработкой копирования спектральной полосы, и/или указывающие по меньшей мере одну характеристики или параметр по меньшей мере одного инструмента SBR и/или инструмента eSBR, который должен использоваться, чтобы декодировать такое аудиосодержимое, но который не описан и не упомянут в стандарте MPEG-4 AAC. Примером метаданных eSBR являются метаданные (указывающие обработку копирования спектральной полосы или управляющие ей), которые описаны или упомянуты в стандарте MPEG USAC, но не в стандарте MPEG-4 AAC. Таким образом, метаданные eSBR в настоящем документе обозначают метаданные, которые не являются метаданными SBR, и метаданные SBR в настоящем документе обозначают метаданные, которые не являются метаданными eSBR.

Битовый поток USAC может включать в себя и метаданные SBR, и метаданные eSBR. Более конкретно, битовый поток USAC может включать в себя метаданные eSBR, которые управляют функционированием обработки eSBR посредством декодера, и метаданные SBR, которые управляют функционированием обработки SBR посредством декодера. В соответствии с типичными вариантами осуществления настоящего изобретения метаданные eSBR (например, специфичные для eSBR данные конфигурации) включены (в соответствии с настоящим изобретением) в битовый поток MPEG-4 AAC (например, в контейнер sbr_extension() в конце полезной нагрузки SBR).

Функционирование обработки eSBR во время декодирования кодированного битового потока с использованием множества инструментов eSBR (содержащих по меньшей мере один инструмент eSBR) посредством декодера восстанавливает высокочастотную полосу аудиосигнала на основе копирования последовательностей гармоник, которые были отсечены во время кодирования. Такая обработка eSBR обычно корректирует огибающую спектра сформированной высокочастотной полосы и применяет обратную фильтрацию и добавляет шумовые и синусоидальные компоненты, чтобы воссоздать спектральные характеристики первоначального аудиосигнала.

В соответствии с типичными вариантами осуществления изобретения метаданные eSBR включены (например, включено небольшое количество управляющих битов, которые являются метаданными eSBR) в один или более сегментов метаданных кодированного битового аудиопотока (например, битового потока MPEG-4 AAC), который также включает кодированные аудиоданные в другие сегменты (сегменты аудиоданных). Как правило, по меньшей мере один такой сегмент метаданных каждого блока битового потока представляет собой (или включает в себя) заполняющий элемент (включающий в себя идентификатор, указывающий начало заполняющего элемента), и метаданные eSBR включены в заполняющий элемент после идентификатора.

Фиг. 1 является блок-схемой иллюстративной последовательности обработки аудиосигналов (системы обработки аудиоданных), в которой один или более элементов системы могут конфигурированы в соответствии с вариантом осуществления настоящего изобретения. Система включает в себя следующие элементы, соединенные вместе, как показано: кодер 1, подсистему 2 передачи, декодер 3 и блок 4 последующей обработки. В вариациях показанной системы один или более элементов опущены, или включены дополнительные блоки обработки аудиоданных.

В некоторых реализациях кодер 1 (который при необходимости включает в себя блок предварительной обработки) выполнен с возможностью приёма отсчетов PCM (во временной области), содержащие аудиосодержимое, в качестве входной информации и выдавать кодированный битовый аудиопоток (имеющий формат, который совместим со стандартом MPEG-4 AAC), указывающий аудиосодержимое. Данные битового потока, указывающие аудиосодержимого, иногда упоминаются в настоящем документе как «аудиоданные» или «кодированные аудиоданные». Если кодер выполнен в соответствии с типичным вариантом осуществления настоящего изобретения, вывод битового аудиопотока из кодера включает в себя метаданные eSBR (и, как правило, также другие метаданные), а также аудиоданные.

Один или более кодированный битовый аудиопоток, выданный из кодера 1, может помещен в подсистему 2 передачи кодированного аудио. Подсистема 2 выполнена с возможностью сохранения и/или передачи каждого кодированного битового потока, выданного из кодера 1. Кодированный битовый аудиопоток, выданный из кодера 1, может быть сохранен подсистемой 2 (например, в форме диска DVD или Blu-ray) или передан подсистемой 2 (которая может реализовать линию передачи или сеть), или может быть и сохранен, и передан подсистемой 2.

Декодер 3 выполнен с возможностью декодирования кодированного битового аудиопотока MPEG-4 AAC (сформированного кодером 1), который он принимает через подсистему 2. В некоторых вариантах осуществления декодер 3 выполнен с возможностью извлечения метаданных eSBR из каждого блока битового потока и декодирования битового потока (в том числе посредством выполнения обработки eSBR с использованием извлеченных метаданных eSBR), чтобы сформировать декодированные аудиоданные (например, потоки декодированных отсчетов аудиоданных PCM). В некоторых вариантах осуществления декодер 3 выполнен с возможностью извлечения метаданных SBR из битового потока (но игнорирования метаданных eSBR, включенных в битовый поток) и декодирования битового потока (в том числе посредством выполнения обработки SBR с использованием извлеченных метаданных SBR), чтобы сформировать декодированные аудиоданные (например, потоки декодированных отсчетов аудиоданных PCM). Как правило, декодер 3 включает в себя буфер, который хранит (например, постоянным образом) сегменты кодированного битового аудиопотока, принятого от подсистемы 2.

Блок 4 последующей обработки на фиг. 1 выполнен с возможностью приёма потока декодированных аудиоданных от декодера 3 (например, декодированных отсчетов аудиоданных PCM) и выполнения их последующей обработки. Блок последующей обработки также может быть выполнен с возможностью рендеринга подвергнутого последующей обработке аудиосодержимого (или декодированных аудиоданных, принятых от декодера 3) для воспроизведения посредством одного или более динамиков.

Фиг. 2 является блок-схемой кодера (100), который является вариантом осуществления блока обработки аудиоданных изобретения. Любой из компонентов или элементов кодера 100 может быть реализован как один или более процессов и/или одна или более схем (например, специализированных интегральных схем (ASIC), программируемых пользователем вентильных матриц (FPGA) или других интегральных схем), в аппаратных средствах, в программном обеспечении или в комбинации аппаратных средств и программного обеспечения. Кодер 100 включает в себя кодер 105, модуль 107 форматирования, модуль 106 формирования метаданных и буферную память 109, соединенные, как показано. Как правило, также кодер 100 включает в себя другие элементы обработки (не показаны). Кодер 100 выполненным с возможностью преобразования входного битового аудиопотока в выходной кодированный битовый поток MPEG-4 AAC.

Генератор 106 метаданных соединен и выполнен с возможностью формирования (и/или пропуска в модуль 107) метаданных (включающих в себя метаданные eSBR и метаданные SBR), которые должны быть включены посредством модуля 107 в кодированный битовый поток, который должен быть выдан из кодера 100.

Кодер 105 соединен и выполнен с возможностью кодирования (например, посредством выполнения сжатия) входных аудиоданных и помещения полученных кодированных аудиоданных в модуль 107 для включения в кодированный битовый поток, который должен быть выдан из модуля 107.

Модуль 107 выполнен с возможностью мультиплексирования кодированных аудиоданных из кодера 105 и метаданных (включающих в себя метаданные eSBR и метаданные SBR) из генератора 106, чтобы сформировать кодированный битовый поток, который должен быть выдан из модуля 107, предпочтительно таким образом, чтобы кодированный битовый поток имел формат, определенный одним из вариантов осуществления настоящего изобретения.

Буферная память 109 выполнена с возможностью хранения (например, постоянным образом) по меньшей мере одного блока кодированного битового аудиопотока, выданного из модуля 107, и последовательность блоков кодированного битового аудиопотока затем перемещается из буферной памяти 109 как вывод из кодера 100 в систему передачи.

Фиг. 3 является блок-схемой системы, включающей в себя декодер (200), который является вариантом осуществления блока обработки аудиоданных, и при необходимости также постпроцессор (300), соединенный с ним. Любой из компонентов или элементов декодера 200 и постпроцессора 300 может быть реализован как один или более процессов и/или одна или более схем (например, специализированных интегральных схем (ASIC), программируемых пользователем вентильных матриц (FPGA) или других интегральных схем), в аппаратных средствах, в программном обеспечении или в комбинации аппаратных средств и программного обеспечения. Декодер 200 содержит буферную память 201, блок 205 удаления форматирования (синтаксического разбора) полезной нагрузки битового потока, подсистему 202 аудиодекодирования (иногда называемую «базовым» модулем декодирования или «базовой» подсистемой декодирования), модуль 203 обработки eSBR и модуль 204 формирования управляющих битов, соединенные, как показано. Как правило, декодер 200 также включает в себя другие элементы обработки (не показаны).

Буферная память (буфер) 201 хранит (например, постоянным образом) по меньшей мере один блок кодированного битового аудиопотока, принятого декодером 200. При работе декодера 200, последовательность блоков битового потока перемещается из буфера 201 в блок 205 удаления форматирования.

В вариациях вариантов осуществления на фиг. 3 (или вариантов осуществления на фиг. 4, которые будут описаны), блок APU, который не является декодером (например, блок 500 APU на фиг. 6) включает в себя буферную память (например, буферную память, идентичную буферу 201), которая хранит (например, постоянным образом) по меньшей мере один блок кодированного битового аудиопотока (например, битового аудиопотока MPEG-4 AAC) такого же типа, принятого буфером 201 на фиг. 3 или фиг. 4 (т.е. кодированный битовый аудиопоток, который включает в себя метаданные eSBR).

Снова со ссылкой на фиг. 3, блок 205 удаления форматирования соединен и выполнен с возможностью демультиплексирования каждого блока битового потока, чтобы извлечь оттуда метаданные SBR (включающие в себя квантованные данные огибающей) и метаданные eSBR (и, как правило, также другие метаданные), помещать по меньшей мере метаданные eSBR и метаданные SBR в модуль 203 обработки eSBR и, как правило, также помещать другие извлеченные метаданные в подсистему 202 декодирования (и при необходимости также в генератор 204 управляющих битов). Блок 205 удаления форматирования также соединен и выполнен с возможностью извлечения аудиоданных из каждого блока битового потока и помещения извлеченных аудиоданных в подсистему 202 декодирования (модуль декодирования).

Система на фиг. 3 при необходимости также включает в себя постпроцессор 300. Постпроцессор 300 включает в себя буферную память (буфер) 301 и другие элементы обработки (не показаны), включающие в себя по меньшей мере один элемент обработки, соединенный с буфером 301. Буфер 301 хранит (например, постоянным образом) по меньшей мере один блок (или кадр) декодированных аудиоданных, принятых постпроцессором 300 от декодера 200. Элементы обработки постпроцессора 300 соединены и выполнены с возможностью приёма и адаптивной обработки последовательности блоков (или кадров) декодированной аудиоданных, выданной из буфера 301, с использованием метаданных, выданных из подсистемы декодирования 202 (и/или блока 205 удаления форматирования), и/или управляющих битов, выданных из модуля 204 декодера 200.

Подсистема 202 аудиодекодирования декодера 200 выполнена с возможностью декодирования аудиоданных, извлеченных блоком 205 синтаксического разбора (такое декодирование может упоминаться как «базовая» операция декодирования), чтобы сформировать декодированные аудиоданные, и помещать декодированные аудиоданные в модуль 203 обработки eSBR. Декодирование выполняется в частотной области и, как правило, включает в себя обратное квантование, за которым следует спектральная обработка. Как правило, заключительный этап обработки в подсистеме 202 применяет преобразование из частотной области во временную область к декодированным аудиоданным частотной области, таким образом, выводом подсистемы являются декодированные аудиоданные во временной области. Модуль 203 выполнен с возможностью применения инструментов SBR и инструментов eSBR, указанных посредством метаданных SBR и метаданных eSBR (извлеченных блоком 205 синтаксического разбора) к декодированным аудиоданным (т.е. выполнять обработку SBR и обработку eSBR на выходе подсистемы 202 декодирования с использованием метаданных SBR и метаданных eSBR), чтобы сформировать полностью декодированные аудиоданные, которые выдаются (например, постпроцессору 300) из декодера 200. Как правило, декодер 200 включает в себя память (доступную для подсистемы 202 и модуля 203), которая хранит подвергнутые удалению форматирования аудиоданные и метаданные, выданные из блока 205 удаления форматирования, и модуль 203 выполнен с возможностью осуществления доступа к аудиоданным и метаданным (включающим в себя метаданные SBR и метаданные eSBR) по мере необходимости во время обработки SBR и обработки eSBR. Обработка SBR и обработка eSBR в модуле 203 могут рассматриваться как последующая обработка на выходе основной подсистемы 202 декодирования. При необходимости декодер 200 также включает в себя подсистему финального повышающего микширования (которая может применить инструменты параметрического стерео ("PS"), определенные в стандарте MPEG-4 AAC, с использованием метаданных PS, извлеченных блоком 205 удаления форматирования, и/или управляющих битов, сформированных в подсистеме 204), которая соединена и выполнена с возможностью выполнения повышающего микширования на выходе модуля 203, чтобы сформировать полностью декодированную, подвергнутую повышающему микшированию аудиоданных, которые выдается из декодера 200. В качестве альтернативы постпроцессор 300 выполнен с возможностью выполнения повышающего микширования на выходе декодера 200 (например, с использованием метаданных PS, извлеченных блоком 205 удаления форматирования, и/или управляющих битов, сформированных в подсистеме 204).

В ответ на метаданные, извлеченные блоком 205 удаления форматирования, генератор 204 управляющих битов может сформировать управляющие данные, и управляющие данные могут быть использованы в декодере 200 (например, в системе финального повышающего микширования) и/или размещены как вывод декодера 200 (например, в постпроцессоре 300 для использования при последующей обработке). В ответ на метаданные, извлеченные из входного битового потока (и при необходимости также в ответ на управляющие данные), модуль 204 может сформировать (и поместить в постпроцессор 300), управляющие биты, указывающие, что декодированные аудиоданные, выданные из модуля 203 обработки eSBR, должен быть подвергнуты определенному типу последующей обработки. В некоторых реализациях декодер 200 выполнен с возможностью помещения метаданных, извлеченных блоком 205 удаления форматирования из входного битового потока, в постпроцессор 300, и постпроцессор 300 выполнен с возможностью выполнения последующей обработки декодированных аудиоданных, выданных из декодера 200, с использованием метаданных.

Фиг. 4 является блок-схемой блока (210) обработки аудиоданных ("APU"), который является другим вариантом осуществления блока обработки аудиоданных изобретения. Блок 210 APU является декодером прежних версий, который не выполнен с возможностью выполнения обработки eSBR. Любой из компонентов или элементов APU 210 может быть реализован как один или более процессов и/или одна или более схем (например, специализированных интегральных схем (ASIC), программируемых пользователем вентильных матриц (FPGA) или других интегральных схем), в аппаратных средствах, в программном обеспечении или в комбинации аппаратных средств и программного обеспечения. Блок 210 APU содержит буферную память 201, блок 215 удаления форматирования (блок синтаксического разбора) полезной нагрузки битового потока, подсистему 202 аудиодекодирования (иногда называемую «базовым» модулем декодирования или «базовой» подсистемой декодирования), и модуль 213 обработки SBR, соединенные, как показано. Как правило, Блок 210 APU также включает в себя другие элементы обработки (не показаны).

Элементы 201 и 202 блока 210 APU идентичны идентично пронумерованным элементам декодера 200 (фиг. 3), и их приведенное выше описание не будет повторяться. При работе блока 210 APU последовательность блоков кодированного битового аудиопотока (битовый поток MPEG-4 AAC), принятого блоком 210 APU, перемещается из буфера 201 в блок 215 удаления форматирования.

Блок 215 удаления форматирования соединен и выполнен с возможностью демультиплексирования каждого блока битового потока, чтобы извлечь оттуда метаданные SBR (включающие в себя квантованные данные огибающей), и, как правило, также другие метаданные, но игнорирования метаданных eSBR, которые могут быть включены в битовый поток, в соответствии с любым вариантом осуществления настоящего изобретения. Блок 215 удаления форматирования выполнен с возможностью помещения по меньшей мере метаданных SBR в модуль 213 обработки SBR. Блок 215 удаления форматирования также соединен и выполнен с возможностью извлечения аудиоданных из каждого блока битового потока и помещения извлеченных аудиоданных в подсистему 202 декодирования (модуль декодирования).

Подсистема 202 аудиодекодирования декодера 200 выполнена с возможностью декодирования аудиоданных, извлеченных блоком 215 удаления форматирования (такое декодирование может упоминаться как «базовая» операция декодирования), чтобы сформировать декодированные аудиоданные, и помещения декодированных аудиоданных в модуль 213 обработки SBR. Декодирование выполняется в частотной области. Как правило, заключительный этап обработки в подсистеме 202 применяет преобразование из частотной области во временную область к декодированным аудиоданным частотной области, таким образом, выводом подсистемы являются декодированные аудиоданные во временной области. Модуль 213 выполнен с возможностью применения инструментов SBR (но не инструментов eSBR), указанных посредством метаданных SBR (извлеченных блоком 215 удаления форматирования) к декодированным аудиоданным (т.е. выполнения обработки SBR на выходе подсистемы 202 декодирования с использованием метаданных SBR), чтобы сформировать полностью декодированные аудиоданные, которые выдаются (например, постпроцессору 300) из блока 210 APU. Как правило, Блок 210 APU включает в себя память (доступную для подсистемы 202 и модуля 213), которая хранит подвергнутые удалению форматирования аудиоданные и метаданные, выданные из блока 215 удаления форматирования, и модуль 213 выполнен с возможностью осуществления доступа к аудиоданным и метаданным (включающим в себя метаданные SBR) по мере необходимости во время обработки SBR. Обработка SBR в модуле 213 может рассматриваться как последующая обработка на выходе основной подсистемы 202 декодирования. При необходимости блок 210 APU также включает в себя подсистему финального повышающего микширования (которая может применить инструменты параметрического стерео ("PS"), определенные в стандарте MPEG-4 AAC, с использованием метаданных PS, извлеченных блоком 215 удаления форматирования), который соединен и выполнен с возможностью выполнения повышающего микширования на выходе модуля 213, чтобы сформировать полностью декодированную, подвергнутую повышающему микшированию аудиоданные, которые выдаются из блока 210 APU. В качестве альтернативы постпроцессор выполнен с возможностью выполнения повышающего микширования на выходе блока 210 APU (например, с использованием метаданных PS, извлеченных блоком 215 удаления форматирования и/или управляющих битов, сформированных в блоке 210 APU).

Различные реализации кодера 100, декодера 200 и блока 210 APU выполнены с возможностью выполнения различных вариантов осуществления способа согласно изобретению.

В соответствии с некоторыми вариантами осуществления метаданные eSBR (например, включено небольшое количество управляющих битов, которые являются метаданными eSBR) включены в кодированный битовый аудиопоток (например, битовый поток MPEG-4 AAC), в результате чего декодеры прежних версий (которые не выполнены с возможностью анализа метаданных eSBR или использования какого-либо инструмента eSBR, к которому относятся метаданные eSBR), может проигнорировать метаданные eSBR, но тем не менее декодировать битовый поток по мере возможности без использования метаданных eSBR или какого-либо инструмента eSBR, к которому относятся метаданные eSBR, как правило, без каких-либо значительных потерь качества декодированного звука. Однако декодеры eSBR, выполненные с возможностью анализа битового потока, чтобы идентифицировать метаданные eSBR и использовать по меньшей мере один инструмент eSBR в ответ на метаданные eSBR, будут обладать преимуществами использования по меньшей мере одного такого инструмента eSBR. Таким образом, варианты осуществления изобретения обеспечивают средство для эффективной передачи управляющих данных или метаданных расширенного копирования спектральной полосы (eSBR) с соблюдением обратной совместимости.

Как правило, метаданные eSBR в битовом потоке указывают (например, указывают по меньшей мере одну характеристику или параметр) один или более из следующих инструментов eSBR (которые описаны в стандарте MPEG USAC, и которые

Декодирование битовых аудиопотоков с метаданными расширенного копирования спектральной полосы по меньшей мере в одном заполняющем элементе

Патент 2665887