Система обработки аудио
Иллюстрации
Показать всеИзобретение относится к аудиокодированию и декодированию. Технический результат – восстановление дискретизированной звуковой волны в одноканальном, стереофоническом или многоканальном формате. Система обработки аудио содержит компонент предварительной обработки, который принимает квантованные спектральные компоненты и выполняет обратное квантование, получая в результате представление временной области для промежуточного сигнала, каскад обработки в частотной области, сконфигурированный для предоставления представления временной области для обработанного аудиосигнала, и преобразователь частоты дискретизации, предоставляющий восстановленный аудиосигнал, дискретизированный с целевой частотой дискретизации. Соответствующие внутренние частоты дискретизации представления временной области для промежуточного аудиосигнала и представления временной области для обработанного аудиосигнала равны. В конкретных вариантах осуществления каскад обработки содержит каскад параметрического повышающего микширования, который работает в двух разных режимах и ассоциируется с каскадом задержки, который обеспечивает постоянную суммарную задержку. 3 н. и 12 з.п. ф-лы, 34 ил., 4 табл.
Реферат
ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ
Данная заявка испрашивает приоритет по предварительной патентной заявке США № 61/809,019, поданной 5 апреля 2013 г., и 61/875,959, поданной 10 сентября 2013 г., каждая из которых настоящим полностью включается в этот документ посредством отсылки.
ОБЛАСТЬ ТЕХНИКИ
Данное раскрытие изобретения в целом относится к аудиокодированию и декодированию. Различные варианты осуществления предоставляют системы аудиокодирования и декодирования (называемые системами аудиокодеков), особенно подходящие для кодирования и декодирования речи.
УРОВЕНЬ ТЕХНИКИ
Сложные технологические системы, включающие в себя системы аудиокодеков, обычно развиваются с нарастанием за длительный период времени и часто благодаря неслаженным усилиям в независимых научно-исследовательских коллективах. В результате такие системы могут включать в себя неудобные сочетания компонентов, которые представляют разные парадигмы проектирования и/или неодинаковые уровни технологического прогресса. Частое пожелание сохранить совместимость с унаследованным оборудованием накладывает дополнительное ограничение на проектировщиков и может привести к менее связной архитектуре системы. В системах параметрических многоканальных аудиокодеков обратная совместимость может включать в себя, в частности, предоставление кодированного формата, где сигнал понижающего микширования вернет оптимально звучащий выход при проигрывании в системе монофонического или стереофонического воспроизведения без возможностей обработки.
Доступные форматы аудиокодирования, представляющие уровень техники, включают в себя MPEG Surround, USAC и Высокоэффективное AAC v2. Они всесторонне описаны и проанализированы в литературе.
Было бы желательно предложить универсальную и к тому же архитектурно однородную систему аудиокодека с приемлемой производительностью, особенно для речевых сигналов.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Далее будут подробно описываться варианты осуществления в рамках идеи изобретения со ссылкой на прилагаемые чертежи, на которых
фиг.1 - обобщенная блок-схема, показывающая общую структуру системы обработки аудио в соответствии с примерным вариантом осуществления;
фиг.2 показывает тракты обработки для двух разных режимов монофонического декодирования в системе обработки аудио;
фиг.3 показывает тракты обработки для двух разных режимов параметрического стереофонического декодирования, без включения дополнения после повышающего микширования кодированным по форме низкочастотным содержимым и с включением такового,
фиг.4 показывает тракт обработки для режима декодирования, в котором система обработки аудио обрабатывает полностью кодированный по форме стереофонический сигнал с дискретно кодированными каналами;
фиг.5 показывает тракт обработки для режима декодирования, в котором система обработки аудио предоставляет пятиканальный сигнал путем параметрического повышающего микширования трехканального сигнала понижающего микширования после применения копирования спектральных полос;
фиг.6 показывает структуру системы обработки аудио в соответствии с примерным вариантом осуществления, а также внутренние механизмы компонента в системе;
фиг.7 - обобщенная блок-схема системы декодирования в соответствии с примерным вариантом осуществления;
фиг.8 иллюстрирует первую часть системы декодирования на фиг.7;
фиг.9 иллюстрирует вторую часть системы декодирования на фиг.7;
фиг.10 иллюстрирует третью часть системы декодирования на фиг.7;
фиг.11 - обобщенная блок-схема системы декодирования в соответствии с примерным вариантом осуществления;
фиг.12 иллюстрирует третью часть системы декодирования из фиг.11; и
фиг.13 - обобщенная блок-схема системы декодирования в соответствии с примерным вариантом осуществления;
фиг.14 иллюстрирует первую часть системы декодирования на фиг.13;
фиг.15 иллюстрирует вторую часть системы декодирования на фиг.13;
фиг.16 иллюстрирует третью часть системы декодирования на фиг.13;
фиг.17 - обобщенная блок-схема системы кодирования в соответствии с первым примерным вариантом осуществления;
фиг.18 - обобщенная блок-схема системы кодирования в соответствии со вторым примерным вариантом осуществления;
фиг.19a показывает блок-схему примерного аудиокодера, предоставляющего поток битов с постоянной скоростью передачи битов;
фиг.19b показывает блок-схему примерного аудиокодера, предоставляющего поток битов с переменной скоростью передачи битов;
фиг.20 иллюстрирует формирование примерной огибающей на основе множества блоков коэффициентов преобразования;
фиг.21a иллюстрирует примерные огибающие у блоков коэффициентов преобразования;
фиг.21b иллюстрирует определение примерной интерполированной огибающей;
фиг.22 иллюстрирует примерные наборы квантователей;
фиг.23a показывает блок-схему примерного аудиодекодера;
фиг.23b показывает блок-схему примерного декодера огибающей в аудиодекодере из фиг.23a;
фиг.23c показывает блок-схему примерного блока предсказания субполосы в аудиодекодере из фиг.23a;
фиг.23d показывает блок-схему примерного декодера спектра в аудиодекодере из фиг.23a;
фиг.24a показывает блок-схему примерного набора допустимых квантователей;
фиг.24b показывает блок-схему примерного квантователя с добавлением псевдослучайного шума;
фиг.24c иллюстрирует примерный выбор квантователей на основе спектра блока коэффициентов преобразования;
фиг.25 иллюстрирует примерную схему для определения набора квантователей в кодере и в соответствующем декодере;
фиг.26 показывает блок-схему примерной схемы для декодирования энтропийно кодированных индексов квантования, которые определены с использованием квантователя с добавлением псевдослучайного шума; и
фиг.27 иллюстрирует примерный процесс распределения битов.
Все фигуры являются схематическими и показывают, как правило, только части, которые необходимы, чтобы объяснить изобретение, тогда как другие части могут пропускаться или всего лишь предполагаться.
ПОДРОБНОЕ ОПИСАНИЕ
Система обработки аудио принимает аудиопоток битов, сегментированный на кадры, переносящие аудиоданные. Аудиоданные могут быть подготовлены путем дискретизации звуковой волны и преобразования полученных таким образом электронных временных выборок в спектральные коэффициенты, которые затем квантуют и кодируют в формат, подходящий для передачи или хранения. Система обработки аудио приспособлена для восстановления дискретизированной звуковой волны в одноканальном, стереофоническом или многоканальном формате. При использовании в данном документе аудиосигнал может относиться к чистому аудиосигналу либо к аудиочасти видеосигнала, аудиовизуального или мультимедийного сигнала.
Система обработки аудио, как правило, разделяется на компонент предварительной обработки, каскад обработки и преобразователь частоты дискретизации. Компонент предварительной обработки включает в себя: каскад деквантования, приспособленный для приема квантованных спектральных коэффициентов и для вывода первого представления частотной области для промежуточного сигнала; и каскад обратного преобразования для приема первого представления частотной области для промежуточного сигнала и синтеза на его основе представления временной области для промежуточного сигнала. Каскад обработки, который в некоторых вариантах осуществления можно полностью обходить, включает в себя: гребенку фильтров анализа для приема представления временной области для промежуточного сигнала и вывода второго представления частотной области для промежуточного сигнала; по меньшей мере один компонент обработки для приема упомянутого второго представления частотной области для промежуточного сигнала и вывода представления частотной области для обработанного аудиосигнала; и гребенку фильтров синтеза для приема представления частотной области для обработанного аудиосигнала и вывода представления временной области для обработанного аудиосигнала. Преобразователь частоты дискретизации в конечном счете конфигурируется для приема представления временной области для обработанного аудиосигнала и для вывода восстановленного аудиосигнала, дискретизированного с целевой частотой дискретизации.
В соответствии с примерным вариантом осуществления система обработки аудио имеет одночастотную архитектуру, в которой равны соответствующие внутренние частоты дискретизации представления временной области для промежуточного аудиосигнала и представления временной области для обработанного аудиосигнала.
В конкретных примерных вариантах осуществления, в которых каскад предварительной обработки содержит базовый кодировщик, а каскад обработки содержит каскад параметрического повышающего микширования, базовый кодировщик и каскад параметрического повышающего микширования работают с одинаковой частотой дискретизации. Дополнительно или в качестве альтернативы базовый кодировщик можно расширить для обработки большего диапазона длин преобразования, а преобразователь частоты дискретизации можно сконфигурировать для соответствия стандартным частотам видеокадров, чтобы сделать возможным декодирование синхронных с видео аудиокадров. Это будет подробнее описываться ниже в разделе "Кодирование в аудиорежиме".
В еще одних конкретных примерных вариантах осуществления компонент предварительной обработки работает в аудиорежиме и речевом режиме, отличном от аудиорежима. Поскольку речевой режим специально приспособлен для речевого содержимого, такие сигналы могут проигрываться точнее. В аудиорежиме компонент предварительной обработки может работать аналогично тому, что раскрывается на фиг.6 и в связанных разделах данного описания. В речевом режиме компонент предварительной обработки может работать так, как подробно обсуждается ниже в разделе "Кодирование в речевом режиме".
Вообще говоря, в примерных вариантах осуществления речевой режим отличается от аудиорежима компонента предварительной обработки в том, что каскад обратного преобразования работает с меньшей длиной кадра (или размером преобразования). Выявлено, что сокращенная длина кадра эффективнее захватывает речевое содержимое. В некоторых примерных вариантах осуществления длина кадра является переменной в аудиорежиме и в видеорежиме; ее можно, например, периодически уменьшать для захвата переходов в сигнале. В таких обстоятельствах изменение режима с аудиорежима на речевой режим - при прочих равных условиях - будет подразумевать сокращение длины кадра в каскаде обратного преобразования. Иначе говоря, такое изменение режима с аудиорежима на речевой режим будет подразумевать сокращение максимальной длины кадра (среди выбираемых длин кадров в каждом из аудиорежима и речевого режима). В частности, длина кадра в речевом режиме может быть постоянной долей (например, 1/8) текущей длины кадра в аудиорежиме.
В примерном варианте осуществления обходная линия, параллельная каскаду обработки, позволяет обходить каскад обработки в режимах декодирования, где не нужна обработка в частотной области. Это может быть применимым, когда система декодирует дискретно кодированные стереофонические или многоканальные сигналы, в частности, сигналы, где кодирован по форме полный спектральный диапазон (в соответствии с чем может не требоваться копирование спектральных полос). Чтобы избежать временных сдвигов в случаях, когда обходная линия включается в тракт обработки или исключается из него, обходная линия предпочтительно может содержать каскад задержки, соответствующий задержке (или алгоритмической задержке) каскада обработки в текущем режиме. В вариантах осуществления, в которых каскад обработки выполнен с возможностью иметь постоянную (алгоритмическую) задержку независимо от его текущего режима работы, каскад задержки на обходной линии может вызывать постоянную, заранее установленную задержку; в противном случае каскад задержки на обходной линии предпочтительно является адаптивным и меняется в соответствии с текущим режимом работы каскада обработки.
В примерном варианте осуществления каскад параметрического повышающего микширования работает в режиме, где принимает 3-канальный сигнал понижающего микширования и возвращает 5-канальный сигнал. При желании компонент копирования спектральных полос может располагаться раньше каскада параметрического повышающего микширования. В конфигурации каналов воспроизведения с тремя передними каналами (например, L, R, C) и двумя каналами окружения (например, Ls, Rs), где у кодированного сигнала доминирует передний канал, этот примерный вариант осуществления может добиться более эффективного кодирования. В действительности доступная полоса пропускания у аудиопотока битов в основном расходуется на попытку кодировать по форме как можно больше из трех передних каналов. Устройство кодирования, готовящее аудиопоток битов, декодируемый системой обработки аудио, может адаптивно выбирать декодирование в этом режиме путем измерения свойств кодируемого аудиосигнала. Примерный вариант осуществления процедуры повышающего микширования, состоящей в повышающем микшировании одного канала понижающего микширования в два канала, и соответствующей процедуры понижающего микширования обсуждается ниже под заголовком "Стереофоническое кодирование".
В дальнейшем развитии предыдущего примерного варианта осуществления два из трех каналов в сигнале понижающего микширования соответствуют совместно кодированным каналам в аудиопотоке битов. Такое совместное кодирование может повлечь за собой, например, выделение масштаба одного канала по сравнению с другим каналом. Аналогичный подход реализован в интенсивном стереофоническом кодировании AAC, в котором два канала могут кодироваться как элемент канальной пары. Экспериментами по прослушиванию доказано, что на заданной скорости передачи битов воспринимаемое качество восстановленного аудиосигнала повышается, когда некоторые каналы сигнала понижающего микширования кодируются совместно.
В примерном варианте осуществления система обработки аудио дополнительно содержит модуль копирования спектральных полос. Модуль копирования спектральных полос (или каскад высокочастотного восстановления) подробнее обсуждается ниже под заголовком "Стереофоническое кодирование". Модуль копирования спектральных полос предпочтительно активен, когда каскад параметрического повышающего микширования выполняет операцию повышающего микширования, то есть когда он возвращает сигнал с большим количеством каналов, нежели сигнал, который он принимает. Однако, когда каскад параметрического повышающего микширования действует как транзитный компонент, модулем копирования спектральных полос можно управлять независимо от конкретного текущего режима у каскада параметрического повышающего микширования; иначе говоря, в режимах непараметрического декодирования функциональные возможности копирования спектральных полос необязательны.
В примерном варианте осуществления по меньшей мере один компонент обработки дополнительно включает в себя каскад кодирования по форме, который подробнее описывается ниже в разделе "Многоканальное кодирование".
В примерном варианте осуществления система обработки аудио работает для предоставления сигнала понижающего микширования, подходящего для унаследованного воспроизводящего оборудования. Точнее говоря, стереофонический сигнал понижающего микширования получается путем добавления синфазного содержимого канала окружения в первый канал в сигнал понижающего микширования и путем добавления сдвинутого по фазе (например, на 90 градусов) содержимого канала окружения во второй канал. Это позволяет воспроизводящему оборудованию вывести содержимое канала окружения путем объединенной операции обратного сдвига по фазе и вычитания. Сигнал понижающего микширования может быть допустимым для воспроизводящего оборудования, сконфигурированного для приема общего левого/общего правого сигнала понижающего микширования. Предпочтительно, чтобы функциональные возможности сдвига по фазе не были настройкой по умолчанию в системе обработки аудио, а могли отключаться, когда система обработки аудио готовит сигнал понижающего микширования, не предназначенный для воспроизводящего оборудования этого типа. В действительности известны отдельные типы содержимого, которые плохо воспроизводятся со сдвинутыми по фазе окружающими сигналами; в частности, звук, записанный из источника с ограниченным пространственным объемом, который затем панорамируется между левым передним и левым окружающим сигналом, как и предполагается, не будет восприниматься как расположенный между соответствующими левым передним и левым окружающими динамиками, но не будет ассоциирован с четким пространственным расположением в соответствии с мнением многих слушателей. Этого артефакта можно избежать путем реализации фазового сдвига канала окружения в виде необязательных, нестандартных функциональных возможностей.
В примерном варианте осуществления компонент предварительной обработки содержит блок предсказания, декодер спектра, узел добавления и узел обратного выравнивания. Эти элементы, которые повышают производительность системы, когда она обрабатывает сигналы речевого типа, будут подробнее описываться ниже под заголовком "Кодирование в речевом режиме".
В примерном варианте осуществления система обработки аудио дополнительно содержит декодер Lfe (низкочастотных эффектов) для подготовки по меньшей мере одного дополнительного канала на основе информации в аудиопотоке битов. Предпочтительно, чтобы декодер Lfe предоставлял канал низкочастотных эффектов, который кодируется по форме, отдельно от других каналов, переносимых аудиопотоком битов. Если дополнительный канал кодируется дискретно с другими каналами восстановленного аудиосигнала, то соответствующий тракт обработки может не зависеть от остальной части системы обработки аудио. Подразумевается, что каждый дополнительный канал добавляется к общему количеству каналов в восстановленном аудиосигнале; например, в варианте использования, где каскад параметрического повышающего микширования - если предоставляется - работает в режиме N = 5, и где имеется один дополнительный канал, общее количество каналов в восстановленном аудиосигнале будет равно N + 1 = 6.
Дополнительные примерные варианты осуществления предоставляют способ, включающий в себя этапы, соответствующие операциям, выполняемым вышеупомянутой системой обработки аудио, когда она используется, и компьютерный программный продукт для побуждения программируемого компьютера выполнить такой способ.
Идея изобретения дополнительно относится к системе обработки аудио кодирующего типа для кодирования аудиосигнала в аудиопоток битов, имеющий подходящий формат для декодирования в описанной выше системе обработки аудио (декодирующего типа). Первая идея изобретения дополнительно включает в себя способы кодирования и компьютерные программные продукты для подготовки аудиопотока битов.
Фиг.1 показывает систему 100 обработки аудио в соответствии с примерным вариантом осуществления. Базовый декодер 101 принимает аудиопоток битов и выводит, по меньшей мере, квантованные спектральные коэффициенты, которые поступают в компонент предварительной обработки, содержащий каскад 102 деквантования и каскад 103 обратного преобразования. Компонент предварительной обработки в некоторых примерных вариантах осуществления может быть двухрежимным. В тех вариантах осуществления им можно выборочно управлять в универсальном аудиорежиме и в специальном аудиорежиме (например, в речевом режиме). После компонента предварительной обработки каскад обработки ограничивается гребенкой 104 фильтров анализа на входе и гребенкой 108 фильтров синтеза на выходе. Компоненты, размещенные между гребенкой 104 фильтров анализа и гребенкой 108 фильтров синтеза, выполняют обработку в частотной области. В варианте осуществления первой идеи, показанном на фиг.1, эти компоненты включают в себя:
• компонент 105 компандирования;
• объединенный компонент 106 для высокочастотного восстановления, параметрического стерео и повышающего микширования; и
• компонент 107 динамического управления диапазоном.
Компонент 106, например, может выполнять повышающее микширование, которое описано ниже в разделе "Стереофоническое кодирование" настоящего описания.
После каскада обработки система 100 обработки аудио дополнительно содержит преобразователь 109 частоты дискретизации, сконфигурированный для предоставления восстановленного аудиосигнала, дискретизированного с целевой частотой дискретизации.
На выходе система 100 при желании может включать в себя компонент ограничения сигнала (не показан), отвечающий за выполнение условия без срезания.
Кроме того, система 100 при желании может содержать параллельный тракт обработки для предоставления одного или нескольких дополнительных каналов (например, канала низкочастотных эффектов). Параллельный тракт обработки можно реализовать в виде декодера Lfe (не показан ни на какой из фиг.1 и 3-11), который принимает аудиопотоки битов или их часть и который выполнен с возможностью вставки подготовленного таким образом дополнительного канала (каналов) в восстановленный аудиосигнал; точка вставки может находиться непосредственно перед преобразователем 109 частоты дискретизации.
Фиг.2 иллюстрирует два режима монофонического декодирования в системе обработки аудио, показанной на фиг.1, с соответствующим обозначением. Точнее говоря, фиг.2 показывает те компоненты системы, которые активны в течение декодирования и которые образуют тракт обработки для подготовки восстановленного (монофонического) аудиосигнала на основе аудиопотока битов. Отметим, что тракты обработки на фиг.2 дополнительно включают в себя завершающий компонент ограничения сигнала ("Lim"), выполненный с возможностью уменьшения масштаба значений сигналов для выполнения условия без срезания. Верхний режим декодирования на фиг.2 использует высокочастотное восстановление, тогда как нижний режим декодирования на фиг.2 декодирует полностью кодированный по форме канал. Поэтому в нижнем режиме декодирования компонент высокочастотного восстановления ("HFR") заменен каскадом задержки ("Задержка"), вызывающим задержку, равную алгоритмической задержке компонента HFR.
Как предлагает нижняя часть фиг.2, дополнительно можно полностью обойти каскад обработки ("QMF", "Задержка", "DRC", "QMF-1"); это может применяться, когда над сигналом не выполняется никакая обработка по динамическому управлению диапазоном (DRC). Обход каскада обработки устраняет любое возможное ухудшение сигнала из-за анализа QMF с последующим синтезом QMF, который может содержать несовершенное восстановление. Обходная линия включает в себя каскад второй линии задержки, сконфигурированный для задержки сигнала на величину, равную общей (алгоритмической) задержке каскада обработки.
Фиг.3 иллюстрирует два режима параметрического стереофонического декодирования. В обоих режимах стереофонические каналы получаются путем применения высокочастотного восстановления к первому каналу, которое дает его декоррелированную версию с использованием декоррелятора ("D"), а затем образования линейной комбинации обеих версий для получения стереофонического сигнала. Линейная комбинация вычисляется каскадом повышающего микширования ("Повышающее микширование"), размещенным раньше каскада DRC. В одном из режимов - который показан в нижней части чертежа - аудиопоток битов дополнительно переносит кодированное по форме низкочастотное содержимое для обоих каналов (область, заштрихованная "\ \ \"). Подробности реализации последнего режима описываются с помощью фиг.7-10 и соответствующих разделов настоящего описания.
Фиг.4 иллюстрирует режим декодирования, в котором система обработки аудио обрабатывает полностью кодированный по форме стереофонический сигнал с дискретно кодированными каналами. Это высокоскоростной стереофонический режим. Если обработка DRC не считается необходимой, то каскад обработки можно полностью обойти, используя две обходные линии с соответствующими каскадами задержки, показанными на фиг.4. Каскады задержки предпочтительно вызывают задержку, равную задержке у каскада обработки в других режимах декодирования, чтобы переключение режима могло происходить непрерывно относительно содержимого сигнала.
Фиг.5 иллюстрирует режим декодирования, в котором система обработки аудио предоставляет пятиканальный сигнал путем параметрического повышающего микширования трехканального сигнала понижающего микширования после применения копирования спектральных полос. Как уже упоминалось, выгодно кодировать два канала (область, заштрихованная "/ / /") совместно (например, в виде элемента канальной пары), и система обработки аудио предпочтительно проектируется для обработки потока битов с этим свойством. С этой целью система обработки аудио содержит два приемных участка, причем нижний конфигурируется для декодирования элемента канальной пары, а верхний - для декодирования оставшегося канала (область, заштрихованная "\ \ \"). После высокочастотного восстановления в области QMF каждый канал в канальной паре декоррелируется отдельно, после чего первый каскад повышающего микширования образует первую линейную комбинацию первого канала и его декоррелированной версии, а второй каскад повышающего микширования образует вторую линейную комбинацию второго канала и его декоррелированной версии. Подробности реализации этой обработки описываются с помощью фиг.7-10 и соответствующих разделов настоящего описания. Все пять каналов затем подвергаются обработке DRC перед синтезом QMF.
Кодирование в аудиорежиме
Фиг.6 - обобщенная блок-схема системы 100 обработки аудио, принимающей кодированный аудиопоток P битов, с восстановленным аудиосигналом, показанным в виде пары стереофонических основополосных сигналов L, R на фиг.6, в качестве окончательного результата. В этом примере допустим, что поток P битов содержит квантованные двухканальные аудиоданные, кодированные с преобразованием. Система 100 обработки аудио может принимать аудиопоток P битов из сети связи, от беспроводного приемника или из запоминающего устройства (не показано). Выход системы 100 может поступать в громкоговорители для воспроизведения или может перекодироваться в таком же или другом формате для дальнейшей передачи по сети связи либо беспроводной линии связи или для сохранения в запоминающем устройстве.
Система 100 обработки аудио содержит декодер 108 для декодирования потока P битов на квантованные спектральные коэффициенты и управляющие данные. Компонент 110 предварительной обработки, структура которого подробнее будет обсуждаться ниже, деквантует эти спектральные коэффициенты и выдает представление временной области для промежуточного аудиосигнала, обрабатываемое каскадом 120 обработки. Промежуточный аудиосигнал преобразуется гребенками 122L, 122R фильтров анализа во вторую частотную область, отличную от области, ассоциированной с ранее упомянутым кодирующим преобразованием; второе представление частотной области может быть представлением квадратурного зеркального фильтра (QMF), и в этом случае гребенки 122L, 122R фильтров анализа могут предоставляться в виде гребенок фильтров QMF. После гребенок 122L, 122R фильтров анализа модуль 124 копирования спектральных полос (SBR), отвечающий за высокочастотное восстановление, и модуль 126 динамического управления диапазоном (DRC) обрабатывают второе представление частотной области для промежуточного аудиосигнала. После них гребенки 128L, 128R фильтров синтеза создают представление временной области для обработанного таким образом аудиосигнала. Как поймет специалист после изучения данного раскрытия изобретения, ни модуль 124 копирования спектральных полос, ни модуль 126 динамического управления диапазоном не являются необходимыми элементами изобретения; наоборот, система обработки аудио в соответствии с другим примерным вариантом осуществления может включать в себя дополнительные или альтернативные модули в каскаде 120 обработки. После каскада 120 обработки преобразователь 130 частоты дискретизации работает для регулирования частоты дискретизации обработанного аудиосигнала до нужной частоты дискретизации аудио, например 44,1 кГц или 48 кГц, для которой спроектировано предназначенное воспроизводящее оборудование (не показано). В данной области техники хорошо известно, как спроектировать преобразователь 130 частоты дискретизации с низким количеством артефактов на выходе. Преобразователь 130 частоты дискретизации можно отключать в моменты, где не нужно преобразование частоты дискретизации - то есть там, где каскад 120 обработки выдает обработанный аудиосигнал, который уже имеет целевую частоту дискретизации. Необязательный модуль 140 ограничения сигнала, размещенный после преобразователя 130 частоты дискретизации, конфигурируется для ограничения значений основополосного сигнала при необходимости в соответствии с условием без срезания, которое опять может выбираться в связи с конкретным предназначенным воспроизводящим оборудованием.
Как показано в нижней части фиг.6, компонент 110 предварительной обработки содержит каскад 114 деквантования, которым можно управлять в одном из нескольких режимов с разными размерами блоков, и каскад 118L, 118R обратного преобразования, который также может работать с разными размерами блоков. Предпочтительно, чтобы изменения режима у каскада 114 деквантования и каскада 118L, 118R обратного преобразования были синхронными, так что размер блока все время совпадает. Перед этими компонентами компонент 110 предварительной обработки содержит демультиплексор 112 для отделения квантованных спектральных коэффициентов от управляющих данных; обычно он перенаправляет управляющие данные в каскад 118L, 118R обратного преобразования и перенаправляет квантованные спектральные коэффициенты (и управляющие данные, при желании) в каскад 114 деквантования. Каскад 114 деквантования выполняет отображение из одного кадра индексов квантования (обычно представленных целыми числами) в один кадр спектральных коэффициентов (обычно представленных числами с плавающей запятой). Каждый индекс квантования ассоциируется с уровнем квантования (или точкой восстановления). Предполагая, что аудиопоток битов подготовлен с использованием неравномерного квантования, как обсуждалось выше, эта ассоциация не уникальна, пока не задается, к какой полосе частот относится индекс квантования. Иначе говоря, процесс деквантования может придерживаться разной кодовой книги для каждой полосы частот, и набор кодовых книг может меняться в зависимости от длины кадра и/или скорости передачи битов. На фиг.6 это проиллюстрировано схематически, где вертикальная ось обозначает частоту, а горизонтальная ось обозначает выделенное количество битов кодирования на единичную частоту. Отметим, что полосы частот обычно шире для более высоких частот и оканчиваются на половине внутренней частоты fi дискретизации. Внутреннюю частоту дискретизации можно отобразить в отличную в числовом отношении физическую частоту дискретизации в результате передискретизации в преобразователе 130 частоты дискретизации; например, повышающая дискретизация на 4,3% отобразит fi = 46,034 кГц в приблизительную физическую частоту 48 кГц и увеличит границы полосы низких частот с таким же коэффициентом. Как дополнительно предлагает фиг.6, кодер, готовящий аудиопоток битов, обычно выделяет разные количества битов кодирования разным полосам частот в соответствии со сложностью кодированного сигнала и предполагаемыми колебаниями чувствительности слуха человека.
В таблице 1 приводятся количественные данные, характеризующие режимы работы системы 100 обработки аудио и, в частности, компонента 110 предварительной обработки.
Таблица 1 Примерные режимы a-m работы системы обработки аудио | |||||||||
Режим | Частота кадров | Длительность кадра | Длина кадра в компоненте предварительной обработки | Ширина элемента разрешения в компоненте предварительной обработки | Внутренняя частота дискретизации | Гребенка фильтров анализа | Ширина полосы частот анализа | Коэффициент SRC | Внешняя частота дискретизации |
[Гц] | [мс] | [выборки] | [Гц] | [кГц] | [полосы] | [Гц] | [кГц] | ||
A | 23,976 | 41,708 | 1920 | 11,988 | 46,034 | 64 | 359,640 | 0,9590 | 48,000 |
B | 24,000 | 41,667 | 1920 | 12,000 | 46,080 | 64 | 360,000 | 0,9600 | 48,000 |
C | 24,975 | 40,040 | 1920 | 12,488 | 47,952 | 64 | 374,625 | 0,9990 | 48,000 |
D | 25,000 | 40,000 | 1920 | 12,500 | 48,000 | 64 | 375,000 | 1,0000 | 48,000 |
E | 29,970 | 33,367 | 1536 | 14,985 | 46,034 | 64 | 359,640 | 0,9590 | 48,000 |
F | 30,000 | 33,333 | 1536 | 15,000 | 46,080 | 64 | 360,000 | 0,9600 | 48,000 |
G | 47,952 | 20,854 | 960 | 23,976 | 46,034 | 64 | 359,640 | 0,9590 | 48,000 |
H | 48,000 | 20,833 | 960 |