2586841 - Многорежимный аудио кодировщик и celp кодирование, адаптированное к нему

Многорежимный аудио кодировщик и celp кодирование, адаптированное к нему

Иллюстрации

Показать все

Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении регулировки общего усиления без декодирования и дополнительного этапа повторного кодирования. Многорежимный аудио декодировщик для формирования декодированного представления аудио контента на основе закодированного потока, который настроен на декодирование значения коэффициента общего усиления в фрейме из закодированного потока битов, причем первое подмножество фреймов кодируется в первом режиме кодирования, а второе подмножество фреймов кодируется во втором режиме кодирования, причем каждый фрейм второго подмножества состоит более чем из одного подфрейма, декодирование, для подфрейма, состоящего, по крайней мере, из подмножества подфреймов второго подмножества фреймов, соответствующего элемента битового потока независимо от значения глобального коэффициента усиления соответствующего фрейма и завершающее декодирование битового потока с использованием значения коэффициента общего усиления и соответствующего элемента битового потока при декодировании подфреймов из подмножества подфреймов второго подмножества фреймов и значения коэффициента общего усиления при декодировании первого подмножества фреймов. 19 н. и 19 з.п. ф-лы, 11 ил.

Реферат

Настоящее изобретение относится к многорежимному аудио кодированию, такому как единое речевое и звуковое кодирование или кодирование, адаптированное к звуковым сигналам общего вида, таким как музыка, речь, смешанные и другие сигналы, и схемам кодирования CELP, адаптированным к нему.

Выгодно объединять различные режимы кодирования при кодировании звуковых сигналов общего типа, представляющих собой наложение звуковых сигналов различных типов, таких как речь, музыка, и подобных им. Отдельные режимы кодирования могут быть адаптированы для конкретных аудио типов и, таким образом, многорежимное аудио кодирование может иметь преимущество в возможности изменения режима кодирования в течение времени, соответствующего изменению типа аудио контента. Иными словами, многорежимный аудио кодировщик может принять решение, например, при кодировании части аудио сигнала с речевым контентом путем использования режима кодирования, специально предназначенного для кодирования речи, и использования другого режима (-ов) кодирования для кодирования различных частей аудио контента, представляющих собой неречевой тип, такой как музыка. Режимы кодирования с линейным предсказанием, как правило, больше подходят для кодирования речевого контента, в то время как режимы кодирования в частотной области, как правило, оказываются предпочтительнее режимов кодирования с линейным предсказанием, в крайней мере, если это связано с кодированием музыки.

Тем не менее, использование различных режимов кодирования усложняет регулировку общего усиления в закодированном потоке или, более точно, усиление декодированного представления аудио контента закодированных битов, при отсутствии фактического декодированного представления закодированного потока битов, и последующее повторное кодирование нового декодированного представления с отрегулированным усилением, т.е. существует дополнительный этап, который будет обязательно снижать качество отрегулированного усиления потока битов в связи с деквантованием, выполняемым при повторном кодировании декодированного и отрегулированного по усилению представления аудио контента.

Например, в ААС [улучшенное аудио кодирование] регулировка уровня выходного сигнала может быть легко получена на уровне битового потока при изменении значения 8-битного поля "global gain" ["общее усиление"]. Этот элемент битового потока может просто передаваться и редактироваться без необходимости полного и повторного кодирования. Таким образом, этот процесс не вносит ухудшения качества и может быть отменен без каких-либо затрат. Существуют приложения, которые фактически используют эту опцию. Например, имеется свободное программное обеспечение под названием "ААС усиление" [ААС усиление], которое использует именно такой, только что описанный подход. Это программное обеспечение является производным от свободного программного обеспечения "МР3 усиление", которое применяет тот же способ MPEG1 / 2 для МР3.

В только что появившемся USAC кодировщике режим FD кодирования унаследовал 8-битное общее усиление от ААС. Таким образом, если USAC работает только в FD-режиме, например, для более высоких битрейтов, функциональность регулировки уровня, по сравнению с ААС, будет полностью сохранена. Однако, если используется режим переходов, такая возможность отсутствует для этого случая. В режиме ТСХ, например, также есть элемент битового потока с той же функциональностью, имеющий длину всего лишь 7-бит, которую также называют "общее усиление". Другими словами, количество битов для кодирования отдельных элементов усиления отдельных мод в первую очередь адаптировано к соответствующему режиму кодирования в целях достижения лучшего компромисса между желанием, с одной стороны, использовать меньшее число битов для контроля усиления, а с другой стороны, стремлением избежать ухудшения качества из-за слишком грубого квантования при настройке усиления. Очевидно, что этот компромисс приводит к различному количеству битов при сравнении режимов ТСХ и FD. В настоящее время в режиме ACELP разрабатывается USAC стандарт, в котором уровень можно контролировать с помощью элемента битового потока "mean energy" [средний уровень энергии], который имеет длину 2-бита. Опять же, очевидно, что компромисс между слишком большим количеством битов для средней энергии и слишком малым количеством битов для средней энергии, при сравнении различных режимов кодирования, а именно ТСХ и FD режимов кодирования, приводит к различному числу битов.

Таким образом, до сих пор общая регулировка усиления декодированного представления битов, закодированных при многорежимном кодировании, является громоздкой и имеет тенденцию к снижению качества. При этом должно быть выполнено либо декодирование с последующей регулировкой усиления и повторным кодированием, либо эвристически должна быть выполнена регулировка уровня громкости только путем адаптации для различных режимов соответствующих элементов битового потока, влияющих на усиление соответствующего режима кодирования различных частей битового потока. Тем не менее, последняя возможность, скорее всего, внесет артефакты в отрегулированное усиление декодированного представления.

Таким образом, задачей настоящего изобретения является создание многорежимного аудио кодировщика, позволяющего выполнять регулировку общего усиления без декодирования и дополнительного этапа повторного кодирования при умеренных потерях с точки зрения качества и уровня компрессии, и CELP кодировщика, пригодного для встраивания в многорежимное аудио кодирование с достижением аналогичных свойств.

Эта задача достигается путем реализации приведенных независимых пунктов формулы изобретения.

В соответствии с первым аспектом настоящего изобретения, одна из проблем, возникающих при попытке согласования регулировки общего усиления для различных режимов кодирования, связана с тем, что различные режимы кодирования имеют различные размеры фреймов и различным образом раскладываются по подфреймам. В соответствии с первым аспектом настоящей заявки, эта трудность преодолевается при кодировании элементов битового потока подфреймов в зависимости от значения общего коэффициента усиления, так что изменения значения общего коэффициента усиления фреймов приводят к корректировке уровня выходного сигнала декодированного представления аудио контента. Одновременно независимое кодирование экономит биты в другом случае, возникающем при использовании новых элементов синтаксиса в закодированном потоке. Кроме того, независимое кодирование позволяет снизить нагрузку на регулировку общего усиления закодированного потока битов, позволяя задавать более низкое разрешение во времени при формировании значения общего усиления, чем разрешение во времени, при котором вышеупомянутый элемент потока битов независимо кодируется в значение общего коэффициента усиления, регулирующего усиление соответствующих подфреймов.

Таким образом, первым аспектом настоящего воплощения изобретения является многорежимный аудио декодировщик для обеспечения декодированного представления аудио контента на основе закодированного потока битов, настроенный на декодирование значения общего коэффициента усиления фрейма с закодированным потоком битов, причем первое подмножество фреймов кодируется в первом режиме кодирования, а второе подмножество фреймов кодируется во втором режиме кодирования, причем каждый фрейм второго подмножества состоит более чем из одного подфрейма, и для каждого подфрейма, являющегося, по крайней мере, подмножеством подфреймов из второго множества фреймов, аудио декодировщик выполняет декодирование соответствующего элемента битового потока, с независимым значением коэффициента общего усиления соответствующих фреймов, и окончательное декодирование битового потока выполняется с использованием значения коэффициента общего усиления, соответствующего элемента битового потока и декодированных фреймов из подмножества подфреймов второго подмножества фреймов, и значения общего коэффициента усиления из декодированного первого подмножества фреймов, причем многорежимный аудио декодировщик настроен таким образом, что значение общего коэффициента усиления фреймов при независимом кодировании в результирующем закодированном потоке битов управляет уровнем выходного сигнала представления аудио контента в декодировщике. Многорежимный аудио кодировщик, в соответствии с этим первым аспектом, настраивается для кодирования аудио контента в закодированный поток с кодировкой первого подмножества фреймов в первом режиме кодирования, а второго подмножества фреймов во втором режиме кодирования, в случае, когда второе подмножество фреймов состоит из одного или нескольких подфреймов, тогда многорежимное аудио кодирование настроено на определение и кодирование значения общего коэффициента усиления в фрейме, и определение и кодирование подфреймов, по крайней мере, подмножества подфреймов из второго подмножества, а соответствующий элемент битового потока имеет отличающееся значение общего коэффициента усиления соответствующих фреймов, причем многорежимное аудио кодирование настроено таким образом, что общее значение коэффициента усиления фреймов при независимом кодировании в результирующем закодированном потоке битов управляет уровнем выходного сигнала декодированного представления аудио контента в декодировщике.

В соответствии со вторым аспектом настоящего приложения, авторы настоящей заявки обнаружили, что регулировка общего усиления закодированных по CELP фреймов и закодированных с помощью преобразования фреймов может быть выполнена путем использования изложенных выше преимуществ, если усиление кодовой таблицы возбуждения CELP кодировщика (CELP=возбуждение кодовой таблицы линейного предсказания) управляется вместе с уровнем преобразования или обратного преобразования преобразованных закодированных фреймов. Конечно, такое совместное использование может быть выполнено с помощью независимого кодирования.

Таким образом, предлагается многорежимный аудио декодировщик для обеспечения декодированного представления аудио контента на основе закодированного потока битов, в котором первое подмножество фреймов закодировано с помощью CELP, а второе подмножество фреймов закодировано с помощью преобразования, включающего в себя, в соответствии со вторым аспектом, CELP декодировщик, настроенный на декодирование текущего фрейма первого подмножества, CELP декодировщик, содержащий генератор возбуждения, настроенный на генерацию текущего возбуждения текущего фрейма первого подмножества путем построения кодовой таблицы возбуждения, основанной на предыдущем возбуждении и индексе кодовой таблицы текущего фрейма первого подмножества в закодированном потоке битов, и установку значения усиления кодовой таблицы возбуждения на основе значения общего коэффициента усиления в закодированном потоке битов, а также фильтр синтеза линейного предсказания, настроенный на фильтрацию текущего возбуждения на основе коэффициентов фильтра линейного предсказания для текущего фрейма первого подмножества в закодированном потоке битов, и декодировщик преобразования, настроенный на декодирование текущего фрейма второго подмножества путем формирования спектральной информации для текущего фрейма второго подмножества из закодированных битов и формирования преобразования из спектральной во временную область на основе спектрального преобразования для получения временного сигнала так, что уровень сигнала во временной области зависит от значения общего коэффициента усиления.

Кроме того, предлагается аудио кодировщик с многооконным режимом для кодирования аудио контента в закодированный поток битов на основе CELP кодирования первого подмножества фреймов аудио контента и кодирования с преобразованием второго подмножества фреймов, аудио кодировщик, включающий в себя, в соответствии со вторым аспектом, CELP кодировщик, настроенный на кодирование текущего фрейма первого подмножества, CELP кодировщик, содержащий анализатор линейного предсказания, настроенный на генерацию коэффициентов фильтра линейного предсказания для текущего фрейма первого подмножества и кодирование его в закодированный поток битов, аудио кодировщик, также включающий в себя генератор возбуждения, сконфигурированный для определения текущего возбуждения текущего фрейма из первого подмножества, которое затем фильтруется фильтром синтеза линейного предсказания на основе коэффициентов фильтра линейного предсказания в закодированном потоке битов для восстановления текущего фрейма первого подмножества, путем построения кодовой таблицы возбуждения на основе предыдущего возбуждения и индекса кодовой таблицы текущего фрейма первого подмножества, причем кодирование с преобразованием настроено на кодирование текущего фрейма второго подмножества с помощью преобразования из временной в спектральную область в сигнал во временной области для текущего фрейма второго подмножества для получения спектральной информации и кодирования спектральной информации в закодированном битовом потоке, причем многорежимное аудио кодирование настроено на кодирование значения общего коэффициента усиления в закодированном потоке битов, значения общего коэффициента усиления, зависящего от энергии версии аудио контента текущего фрейма первого подмножества, фильтруется с помощью фильтра анализа линейного предсказания в зависимости от коэффициентов линейного предсказания, или энергии сигнала во временной области.

В соответствии с третьим аспектом настоящего изобретения, авторы обнаружили, что изменение громкости CELP кодированного битового потока при изменении соответствующего значения коэффициента общего усиления лучше адаптировано к свойствам преобразования, кодирующего уровень корректировки, если значение общего усиления при CELP кодировании вычисляется и применяется к взвешенной области сигнала возбуждения, а не непосредственно к сигналу возбуждения. Кроме того, расчет и использование значения общего коэффициента усиления во взвешенной области сигнала возбуждения также является уникальным преимуществом при применении режима кодирования CELP, в то же время CELP имеет и другие преимущества, так как кодирование усиления и LTP усиление также вычисляются во взвешенной области.

Таким образом, в соответствии с третьим аспектом изобретения, CELP декодировщик включает в себя генератор возбуждения, настроенный на генерацию текущего возбуждения для текущего фрейма битового потока путем построения адаптивной кодовой таблицы возбуждения на основе предыдущего возбуждения и индекса адаптивной кодовой таблицы для текущего фрейма в битовом потоке, построение обновления кодовой таблицы возбуждения, основанное на обновленном индексе кодовой таблицы для текущего фрейма в потоке битов, вычислении оценочного значения энергии обновления кодовой таблицы возбуждения спектрально взвешенного с помощью взвешивающего фильтра синтеза линейного предсказания, применяющего коэффициенты линейного предсказания к потоку битов, устанавливающего усиление для обновления кодовой таблицы возбуждения, на основе соотношения между значением усиления в потоке битов оцениваемой энергии, суммарным адаптивным возбуждением кодовой таблицы и обновлением кодовой таблицы возбуждения для получения текущего возбуждения; также CELP декодировщик включает в себя фильтр синтеза линейного предсказания, настроенный на фильтрацию текущего возбуждения на основе коэффициентов фильтра линейного предсказания.

Кроме того, CELP кодировщик включает в себя, в соответствии с третьим аспектом изобретения, анализатор линейного предсказания, настроенный на генерацию коэффициентов фильтра линейного предсказания для текущего фрейма аудио контента и кодирование коэффициентов фильтра линейного предсказания в потоке битов; генератор возбуждения настроен на определение текущего возбуждения текущего фрейма путем суммирования адаптивной кодовой таблицы возбуждения и обновления кодовой таблицы возбуждения, которое затем фильтруется с помощью фильтра синтеза линейного предсказания на основе коэффициентов фильтра линейного предсказания, генератор возбуждения восстанавливает текущий фрейм путем построения адаптивной кодовой таблицы возбуждения, определенной предыдущим возбуждением, генератор возбуждения формирует индекс адаптивной кодовой таблицы для текущего фрейма и кодирует индекс адаптивной кодовой таблицы в потоке битов, генератор возбуждения создает обновление кодовой таблицы возбуждения, определяемое индексом обновления кодовой таблицы для текущего фрейма, и кодирует индекс обновления кодовой таблицы в потоке битов, а определитель энергии сконфигурирован для определения энергии версии аудио контента текущего фрейма, отфильтрованного с помощью фильтра синтеза линейного предсказания в зависимости от коэффициентов фильтра линейного предсказания и фильтра взвешивания качества восприятия, для получения значений коэффициента усиления и кодирования значения усиления в поток битов, взвешивающий фильтр использует коэффициенты фильтра линейного предсказания.

Краткое описание чертежей

Предпочтительные варианты осуществления настоящего изобретения являются предметом прилагаемых пунктов формулы изобретения. Кроме того, предпочтительные варианты осуществления настоящего изобретения описаны в следующих вариантах:

На фиг.1 показана блок-схема многооконного режима аудио кодирования в соответствии с изобретением;

На фиг.2 показана блок-схема энергетических расчетов в кодировщике фиг.1 в соответствии с первым альтернативным вариантом изобретения;

На фиг.3 показана блок-схема энергетических расчетов в кодировщике фиг.1 в соответствии со второй альтернативой варианта изобретения;

На фиг.4 показан многооконный режим аудио декодировщика в соответствии с вариантом, адаптированным для декодирования битового потока, закодированного кодировщиком фиг.1;

На фиг.5А и 5В показаны многооконный режим аудио кодировщика и многорежимный аудио декодировщик в соответствии с альтернативным вариантом осуществления настоящего изобретения;

На фиг.6А и 6В показаны многооконный режим аудио кодировщика и многорежимный аудио декодировщик в соответствии с альтернативным вариантом осуществления настоящего изобретения;

На фиг.7А и 7В показаны CELP кодировщик и декодировщик CELP в соответствии с альтернативным вариантом осуществления настоящего изобретения.

На фиг.1 показан вариант многорежимного аудио кодирования в соответствии с вариантом осуществления настоящего изобретения. Многорежимное аудио кодирование фиг.1 может использоваться для кодирования аудио сигналов смешанного типа, таких как смешение речи и музыки, или тому подобное. Для того чтобы получить компромисс между оптимальной скоростью/искажениями, многорежимное аудио кодирование настроено на переключение между несколькими режимами кодирования с целью адаптации свойств кодирования к текущим потребностям кодируемого аудио контента. В частности, в соответствии с фиг.1, при многорежимном аудио кодировании обычно используется три различных режима кодирования, а именно FD кодирование (в частотной области) и LP кодирование (с линейным предсказанием), которое в свою очередь делится на ТСХ (преобразование кодированного возбуждения) и CELP (возбуждение кодовой таблицы линейного предсказания) кодирование. В режиме FD кодирования, аудио контент, который будет закодирован, раскладывается в спектр при оконной операции, и спектральное разложение квантуется и масштабируется в соответствии с психоакустическим восприятием для того, чтобы уменьшить шум квантования ниже порога маскирования. В ТСХ и CELP режимах кодирования, аудио контент является объектом анализа линейного предсказания для получения коэффициентов линейного предсказания, и эти коэффициенты линейного предсказания передаются в потоке битов вместе с сигналом возбуждения, который затем фильтруется в соответствующем фильтре синтеза линейного предсказания с использованием коэффициентов линейного предсказания из потока битов, что позволяет получить декодированное представление аудио контента. В случае ТСХ кодирования, сигнал возбуждения преобразуется с помощью кодирования, в то время как в случае CELP кодирования, сигнал возбуждения кодируется путем индексации записей в кодовой таблице, в противном случае специальным образом строится кодовой таблица векторов отфильтрованных выборок. В ACELP (алгебраическое возбуждение кодовой таблицы линейного предсказания) кодировании, которое используется в соответствии с настоящим вариантом, возбуждение состоит из адаптивной кодовой таблицы возбуждения и обновления кодовой таблицы возбуждения. Как более подробно будет показано ниже, при ТСХ кодировании, коэффициенты линейного предсказания также могут быть использованы в декодировщике непосредственно в частотной области для формирования шумов квантования и получению коэффициентов масштабирования. В этом случае, ТСХ кодирование преобразовывает исходный сигнал и использует результат LPC кодирования только в частотной области.

Несмотря на различные режимы кодирования, кодировщик фиг.1 генерирует битовый поток таким образом, что некоторый элемент синтаксиса, связанный со всеми фреймами закодированного потока битов, в случаях, связанных с отдельными фреймами или с группами фреймов, позволяет выполнить адаптацию общего усиления во всех режимах кодирования, например, увеличивая или снижая общее усиление на такое же значение, с таким же количеством цифр (что эквивалентно логарифму от числа цифр коэффициента масштабирования (или делителя)).

В частности, в соответствии с различными режимами кодирования, поддерживаемыми многорежимным аудио кодированием 10 на фиг.1, также включает в себя FD кодировщик 12 и LPC (кодирование с линейным предсказанием) кодировщик 14. LPC кодировщик 14, в свою очередь, состоит из ветви ТСХ кодирования 16, ветви CELP кодирования 18 и переключателя режимов кодирования 20. Кроме того, переключатель режима кодирования состоит из кодировщика 10, показанного также цифрой 22 в качестве. Блока выбора режима настроен на анализ кодируемого аудио контента 24 для того, чтобы связать его последовательные временные участки в различных режимах кодирования. В частности, в случае фиг.1, блока выбора режима 22 присваивает различным последовательным временным участкам аудио контента 24 либо FD режим кодирования, либо LPC режим кодирования. В иллюстративном примере фиг.1, например, блока выбора режима 22 присвоил участку аудио контента от 26 до 24 FD режим кодирования, в то время как сразу после участка 28 присваивается режим LPC кодирования. В зависимости от режима кодирования, режим, присвоенный дизайнером режима 22, позволяет по-разному разделить аудио контент 24 на последовательные фреймы. Например, в варианте фиг.1, аудио контент 24 в участке 26 закодирован в виде фреймов 30 равной длины, например, перекрывающих друг друга на 50%. Иными словами, FD кодировщик 12 настроен на FD кодирование участка 26 аудио контента 24 в единицах фреймов 30. В соответствии с фиг.1, LPC кодировщик 14 также настроен на кодирование следующего участка 28 аудио контента 24 в единицах фреймов 32, однако, эти фреймы не обязательно имеют такой же размер, как фреймы 30. В случае фиг.1, например, размер фрейма 32 меньше, чем размер фрейма 30. В частности, в соответствии с конкретным вариантом, длина фреймов 30 составляет 2048 выборок аудио контента 24, в то время как длина каждого фрейма 32, 1024 выборки. Вполне возможно, что последний фрейм перекрывает первый фрейм на границе между LPC режимом кодирования и FD режимом кодирования. Однако, в варианте фиг.1, как показано в виде выборок на фиг.1, также возможно, что будет отсутствовать перекрытие фреймов при переходе от FD режима кодирования к LPC режиму кодирования, и наоборот.

Как показано на фиг.1, FD кодировщик 12 принимает фреймы 30 и кодирует их в частотной области с преобразованием соответствующих фреймов 34 из закодированного потока битов 36. Для этого FD кодировщик 12 содержит модуль обработки окна 38, преобразователь 40, модуль квантования и масштабирования 42 и кодировщик со сжатием данных без потерь 44, а также психоакустический контроллер 46. В принципе, FD кодировщик 12 может быть реализован в соответствии со стандартом ААС, и последующее описание не предполагает другое использование FD кодировщика 12. В частности, модуль обработки окна 38, преобразователь 40, модуль квантования и масштабирования 42 и кодировщик со сжатием данных без потерь 44 соединены последовательно между входом 48 и выходом 50 FD кодировщика 12, а психоакустический контроллер 46 имеет вход, соединенный с входом 48, и затем его выход подключается к входу модуля квантования и масштабирования 42. Следует отметить, что FD кодировщик 12 может содержать дополнительные модули для дополнительных опций кодирования, которые, однако, в данном случае не обязательны.

Модуль обработки окна 38 может использовать различные окна для управления окнами текущего фрейма, поступающего на вход 48. Оконный фрейм является объектом для преобразования из временной в спектральную область в преобразователе 40, например, с помощью MDCT или аналогичных ему. Преобразователь 40 может использовать различные длины преобразования для преобразования оконных фреймов.

В частности, модуль обработки окна 38 может поддерживать окна, длины которых совпадают с длиной фрейма 30, и преобразователь 40 использует такие же длины преобразования для получения целого ряда коэффициентов преобразования, которые могут, например, в случае MDCT, соответствовать половине количества выборок фрейма 30. Модуль обработки окна 38 может, однако, быть сконфигурирован для поддержки опций кодирования, согласно которым используются несколько коротких окон, например, восемь окон на половине длины фрейма 30, смещенных относительно друг друга во времени, которые применяются для текущего фрейма в преобразователе 40, обрабатывающем эти оконные версии текущего фрейма с использованием длины преобразования, соответствующей окнам, тем самым формируя восемь спектров для этой выборки аудио контента, соответствующих разным моментам времени в течение этого фрейма. Окна, использующие модуль обработки окна 38, могут быть симметричными или асимметричными и могут иметь нулевой передний фронт и/или нулевой задний фронт. В случае использования нескольких коротких окон текущего фрейма, ненулевые участки этих коротких окон смещены относительно друг друга, однако, они перекрывают друг друга. Конечно, могут быть использованы другие варианты кодирования для окон и преобразования длины в модуле обработки окна 38 и преобразователе 40 в соответствии с альтернативным вариантом.

Коэффициенты преобразования после выхода из преобразователя 40 квантуются и масштабируются в модуле 42. В частности, психоакустический контроллер 46 анализирует входной сигнал на входе 48 и определяет порог маскирования для модуля 48, согласно которому шумы квантования, введенные при квантовании и масштабировании, устанавливаются ниже порога маскирования. В частности, модуль масштабирования 42 может работать в диапазонах коэффициентов масштабирования, полностью охватывающих спектральную область преобразователя 40, в котором спектральная область разделяется. Следовательно, группам последовательных коэффициентов преобразования соответствуют различные диапазоны коэффициентов масштабирования. Модуль 42 определяет коэффициент масштабирования в соответствии с диапазоном коэффициентов масштабирования, который затем умножается на соответствующие значения коэффициентов преобразования, присвоенные соответствующим группам коэффициентов масштабирования, что позволяет получить реконструированную (восстановленную) версию коэффициентов преобразования на выходе преобразователя 40. Кроме того, модуль 42 задает значение коэффициента усиления для спектрально однородного масштабированного спектра. Реконструированный коэффициент преобразования, таким образом, равен значению коэффициента преобразования, умноженному на соответствующий коэффициент масштабирования и значение усиления gi соответствующего фрейма i. Значения коэффициентов преобразования, коэффициентов масштабирования и коэффициента усиления затем кодируются в кодировщике со сжатием данных без потерь 44, либо с помощью статистического кодирования, либо арифметическим кодированием или кодированием Хаффмана, наряду с другими элементами синтаксиса, которые используют, например, упомянутые выше решения такие, как оконное преобразование и преобразование длины, и последующие элементы синтаксиса, допускающие другие опции кодирования. Для получения дополнительной информации по вопросам, относящимся к дополнительным опциям кодирования, можно сослаться на стандарт для ААС кодирования.

Если говорить более точно, модуль квантования и масштабирования 42 может быть сконфигурирован для передачи квантованного значения коэффициента преобразования в спектральную линию k, что дает, после перемасштабирования, реконструированный коэффициент преобразования для соответствующей спектральной линии k, а именно x_rescal, который умножается на

gain=2^{0,25·(sf-sf_offset)},

где sf является коэффициентом масштабирования из соответствующего диапазона коэффициентов масштабирования, к которому относятся соответствующие квантованные коэффициенты преобразования, и sf_offset является константой, значение которой может быть установлено, например, до 100.

Таким образом, коэффициенты масштабирования определены в логарифмической области. Коэффициенты масштабирования могут быть закодированы в потоке битов 36 с независимым друг от друга доступом к спектру, т.е. в потоке битов может передаваться только разность между спектрально близкими коэффициентами масштабирования sf. Первый коэффициент масштабирования sf может быть передан в потоке битов после кодирования, не зависящего от вышеупомянутого значения global_gain. Этот элемент синтаксиса global_gain будет иметь важное значение в последующем описании.

Значение global_gain может быть передано в потоке битов в логарифмической области. То есть модуль 42 может быть настроен на формирование первого коэффициента масштабирования sf текущего спектра, такого как global_gain. Это значение sf может затем передаваться независимо с нулевыми и последующими значениями sf независимо от соответствующих предшествующих значений.

Очевидно, что изменение global_gain приводит к изменению энергии реконструированного преобразования и, следовательно, приводит к изменению громкости закодированного с помощью FD участка 26, что выполняется одинаково для всех фреймов 30.

В частности, значения global_gain для FD фреймов передаются в битовый поток таким образом, что global_gain логарифмически зависит от проходящих усредненных восстановленную аудио выборок во времени или, наоборот, проходящие усредненные реконструированные аудио выборки во времени экспоненциально зависят от global_gain.

Как и в фреймах 30, все фреймы, предназначенные для LPC режима кодирования, а именно фрейм 32, вводится в LPC кодировщик 14. В LPC кодировщике 14 переключатель 20 подразделяет каждый фрейм 32 на один или несколько подфреймов 52. Каждый из этих подфреймов 52 может быть предназначен для ТСХ кодирования или CELP режима кодирования. Подфреймы 52, предназначенные для ТСХ режима кодирования, направляются на вход 54 ТСХ кодировщика 16, в то время как подфреймы, предназначенные для CELP режима кодирования, передаются с помощью переключателя 20 на вход 56 CELP кодировщика 18.

Следует отметить, что расположение переключателя 20, показанное на фиг.1 между входом 58 LPC кодировщика 14 и входами 54 и 56 ТСХ кодировщика 16 и CELP кодировщика 18, соответственно, необходимо только для иллюстрации, и на самом деле, решение о кодировании с разделением фреймов 32 на подфреймы 52, связанное с соответствующими режимами кодирования ТСХ либо CELP для отдельных подфреймов, может быть принято в интерактивном режиме между внутренними элементами ТСХ кодировщика 16 и CELP кодировщика 18 в целях обеспечения максимально выгодного соотношения затраты/искажения.

В любом случае, ТСХ кодировщик 16 содержит генератор возбуждения 60, LP анализатор 62 и определитель энергии 64, где LP анализатор 62 и определитель энергии 64 совместно используются (и в совместно принадлежат) CELP кодировщику 18, который дополнительно содержит собственный генератор возбуждения 66. Соответствующие входы генератора возбуждения 60, LP анализатора 62 и определитель энергии 64 подключены к входу 54 ТСХ кодировщика 16. Кроме того, соответствующие входы LP анализатора 62, определитель энергии 64 и генератор возбуждения 66 подключены к входу 56 CELP кодировщика 18. LP анализатор 62 настроен на анализ аудио контента в пределах текущего фрейма, т.е. ТСХ фрейма или CELP фрейма, для определения коэффициентов линейного предсказания и связан с соответствующими входными коэффициентами генератора возбуждения 60, определителя энергии 64 и генератора возбуждения 66 для того, чтобы направить коэффициенты линейного предсказания в эти элементы. Как будет описано более подробно ниже, LP анализатор может работать с предыскаженной версией исходного аудио контента, и соответствующий фильтр предыскажений может быть частью соответствующего входного участка LP анализатора или может быть установлен перед его входом. То же относится и к определителю энергии 66, как более подробно будет описано ниже. Что касается использования генератора возбуждения 60, то он может выполнять непосредственную передачу исходного сигнала. Соответствующие выходы генератора возбуждения 60, LP анализатора 62, определителя энергии 64 и генератора возбуждения 66, а также выход 50 подключены к соответствующим входам мультиплексора 68 кодировщика 10, который настроен на синтаксис элементов мультиплексора, полученных в потоке битов 36 на выходе 70.

Как уже отмечалось выше, LPC анализатор 62 выполнен с возможностью определения коэффициентов линейного предсказания для входящих LPC фреймов 32. Для получения дополнительной информации относительно возможной функциональности LP анализатора 62 можно сослаться на стандартный ACELP. Вообще, LP анализатор 62 может использовать способ авто корреляции или ковариации для определения LPC коэффициентов. Например, LP анализатор 62 может формировать с помощью автокорреляционного способа автокорреляционную матрицу LPC коэффициентов с решением на основе алгоритма Левинсон-Дурбане. Как известно в данной области, LPC коэффициенты определяют фильтр синтеза, который грубо моделирует голосовой тракт человека, и, когда приводится в действие сигнал возбуждения, фактически моделируют поток воздуха через голосовые связки. Этот фильтр синтеза моделируется с помощью линейного предсказания в LP анализаторе 62. Скорость, с которой может изменяться форма вокальных треков, ограничена, и, соответственно, LP анализатор 62 может использовать частоту обновления, адаптированную к этому ограничению и отличающуюся от частоты фреймов 32, с которой обновляются коэффициенты линейного предсказания. LP анализ, проведенный анализатором 62, позволяет получить информацию о некоторых фильтрах для элементов 60, 64 и 66, таких как:

- фильтр синтеза линейного предсказания H(z);

- фильтр обратного преобразования, а именно фильтр анализа линейного предсказания или «отбеливающий» фильтр A(z), где H ( z ) = 1 A ( z ) .

- фильтр взвешивания восприятия, а именно W(z)=A(z/λ), где λ является весовым коэффициентом

LP анализатор 62 передает информацию о LPC коэффициентах на мультиплексор 68 для включения в поток битов 36. Эта информация 72 может представлять квантованные коэффициенты линейного предсказания в соответствующей области, двух спектральных областях, или тому подобное. В этой области может быть выполнено даже квантование коэффициентов линейного предсказания. Кроме того, LPC анализатор 62 может передать LPC коэффициенты, или информацию 72 о них, со скоро

Многорежимный аудио кодировщик и celp кодирование, адаптированное к нему

Патент 2586841