2651187 - Основанное на линейном предсказании кодирование аудио с использованием улучшенной оценки распределения вероятностей

Основанное на линейном предсказании кодирование аудио с использованием улучшенной оценки распределения вероятностей

Иллюстрации

Показать все

Изобретение относится к средствам для кодирования аудио. Технический результат заключается в повышении эффективности кодирования. Основанный на линейном предсказании аудиодекодер содержит: модуль оценки распределений вероятностей, сконфигурированный с возможностью определять, для каждой из множества спектральных компонент, оценку распределения вероятностей из информации коэффициентов линейного предсказания, содержащейся в потоке данных, в который закодирован аудиосигнал; каскад энтропийного декодирования и деквантования, сконфигурированный с возможностью осуществлять энтропийное декодирование и деквантование спектра, составленного из упомянутого множества спектральных компонент, из потока данных с использованием оценки распределения вероятностей, которая определена для каждой из упомянутого множества спектральных компонент; и фильтр, сконфигурированный с возможностью формировать спектр согласно передаточной функции, зависящей от синтезирующего фильтра линейного предсказания, определенного посредством информации коэффициентов линейного предсказания. 6 н. и 24 з.п. ф-лы, 14 ил.

Реферат

Настоящее изобретение относится к основанному на линейном предсказании кодированию аудио и, в частности, основанному на линейном предсказании кодированию аудио с использованием спектрального кодирования.

Классический подход для квантования и кодирования в частотной области состоит в том, чтобы брать (перекрывающиеся) окна сигнала, выполнять время-частотное преобразование, применять модель восприятия и квантовать индивидуальные частоты с использованием энтропийного кодера, такого как арифметический кодер [1]. Модель восприятия является в своей основе весовой функцией, которая умножается на спектральные линии, так что ошибки в каждой взвешенной спектральной линии имеют равное воспринимаемое влияние. Все взвешенные линии могут, таким образом, квантоваться с одной и той же точностью, и полная точность определяет компромисс между качеством восприятия и потреблением битов.

В AAC и режиме частотной области USAC (не-TCX), модель восприятия определена пополосно, так что группа спектральных линий (спектральная полоса) имеет один и тот же вес. Эти веса известны как коэффициенты масштабирования, так как они определяют, посредством какого коэффициента полоса масштабируется. Дополнительно, коэффициенты масштабирования кодируются разностным образом.

В области TCX веса не кодируются с использованием коэффициентов масштабирования, но посредством модели LPC [2], которая определяет огибающую спектра, то есть полную форму спектра. LPC используется, так как оно обеспечивает возможность гладкого переключения между TCX и ACELP. Однако LPC не соответствует хорошо модели восприятия, которая должна быть намного более гладкой, в силу чего обработка, известная как взвешивание, применяется к LPC, так что взвешенное LPC приблизительно соответствует требуемой модели восприятия.

В области TCX USAC спектральные линии кодируются посредством арифметического кодера. Арифметический кодер основывается на присвоении вероятностей всем возможным конфигурациям сигнала, так что высокие значения вероятностей могут кодироваться с малым количеством бит, так что потребление битов минимизируется. Чтобы оценить распределение вероятностей спектральных линий, кодек использует модель вероятностей, которая предсказывает распределение сигнала на основе предыдущих, уже кодированных линий во время-частотном пространстве. Предыдущие линии известны как контекст текущей линии для кодирования [3].

Недавно NTT предложила способ для улучшения контекста арифметического кодера (ср. [4]). Он основывается на использовании LTP, чтобы определять приблизительные положения гармонических линий (гребенчатый фильтр), и перегруппировке спектральных линий, так что предсказание амплитуды из контекста является более эффективным.

Вообще говоря, чем лучше оценка распределения вероятностей, тем более эффективное сжатие достигается посредством энтропийного кодирования. Было бы предпочтительным иметь под рукой концепцию, которая бы обеспечивала возможность достижения оценки распределения вероятностей аналогичного качества, которая достижима с использованием любого из вышеописанных способов, но при уменьшенной сложности.

Соответственно, целью настоящего изобретения является обеспечить схему основывающегося на линейном предсказании кодирования аудио, имеющую улучшенные характеристики. Эта цель достигается посредством сущности независимых пунктов формулы.

Базовой находкой настоящего изобретения является то, что основанное на линейном предсказании кодирование аудио может быть улучшено посредством кодирования спектра, составленного из упомянутого множества спектральных компонент, с использованием оценки распределения вероятностей, определенной для каждой из множества спектральных компонент из информации коэффициентов линейного предсказания. В частности, информация коэффициентов линейного предсказания является доступной в любом случае. Соответственно, она может использоваться для определения оценки распределений вероятностей как на кодирующей, так и декодирующей стороне. Последнее определение может осуществляться вычислительно простым способом посредством использования, например, соответствующей параметризации для оценки распределений вероятностей на множестве спектральных компонент. В общей сложности, эффективность кодирования, как обеспечивается посредством энтропийного кодирования, является совместимой с оценками распределений вероятностей, как достигаются с использованием выбора контекста, но ее вывод является менее сложным. Например, вывод может быть чисто аналитическим и/или не требует какой-либо информации об атрибутах соседних спектральных линий, как, например, ранее кодированных/декодированных спектральных значениях соседних спектральных линий, как имеет место в выборе пространственного контекста. Это, в свою очередь, обеспечивает распараллеливание процессов вычисления более легко, например. Более того, меньшие требования к памяти и меньшее количество доступов к памяти могут быть необходимы.

В соответствии с одним вариантом осуществления настоящей заявки спектр, спектральные значения которого энтропийно кодируются с использованием оценки вероятностей, определенной как только что описано, может быть возбуждением с кодированным преобразованием, полученным с использованием информации коэффициентов линейного предсказания.

В соответствии с одним вариантом осуществления настоящей заявки, например, спектр является возбуждением с кодированным преобразованием, определенным, однако в перцепционно взвешенной области. То есть, спектр, энтропийно кодированный с использованием определенной оценки распределений вероятностей, соответствует спектру аудиосигналов предварительно отфильтрованному с использованием функции преобразования, соответствующей перцепционно взвешенному синтезирующему фильтру линейного предсказания, определенному посредством информации коэффициентов линейного предсказания и для каждой из множества спектральных компонент параметр распределения вероятностей определяется так, что параметры распределений вероятностей спектрально следуют, например, являются масштабированной версией, функции, которая зависит от произведения передаточной функции синтезирующего фильтра линейного предсказания и инверсии передаточной функции перцепционно взвешенной модификации синтезирующего фильтра линейного предсказания. Для каждой из множества спектральных компонент, оценка распределения вероятностей тогда является параметризуемой функцией, параметризованной с использованием параметра распределения вероятностей соответствующей спектральной компоненты. Снова, информация коэффициентов линейного предсказания является доступной в любом случае, и вывод параметра распределения вероятностей может осуществляться как чисто аналитическая обработка и/или обработка, которая не требует какой-либо взаимной зависимости между спектральными значениями в разных спектральных компонентах спектра.

В соответствии с еще дополнительным вариантом осуществления параметр распределения вероятностей альтернативно или дополнительно определяется так, что параметры распределений вероятностей спектрально следуют функции, которая мультипликативно зависит от спектральной тонкой структуры, которая в свою очередь определяется с использованием долгосрочного предсказания (LTP). Снова, в некоторых основывающихся на линейном предсказании кодеках, информация LTP является доступной в любом случае, и более того, определение параметров распределений вероятностей все еще является реализуемым, чтобы выполняться чисто аналитически и/или без взаимных зависимостей между кодированием спектральных значений разных спектральных компонент спектра. При комбинировании использования LTP с перцепционным кодированием возбуждения с кодированным преобразованием, эффективность кодирования дополнительно улучшается при умеренном увеличении сложности.

Предпочтительные варианты реализации и варианты осуществления являются предметом зависимых пунктов формулы изобретения. Предпочтительные варианты осуществления настоящей заявки описываются дополнительно ниже по отношению к фигурам, на которых

Фиг. 1 показывает блок-схему основывающегося на линейном предсказании аудиокодера согласно одному варианту осуществления;

Фиг. 2 показывает блок-схему определителя спектра из фиг. 1 в соответствии с одним вариантом осуществления;

Фиг. 3a показывает разные передаточные функции, встречающиеся в описании режима работы элементов, показанных на фиг. 1 и 2, при осуществлении их с использованием перцепционного кодирования;

Фиг. 3b показывает функции из фиг. 3a, взвешенные, однако, с использованием инверсии модели восприятия;

Фиг. 4 показывает блок-схему, иллюстрирующую внутреннюю работу модуля 14 оценки распределений вероятностей из фиг. 1 в соответствии с одним вариантом осуществления с использованием перцепционного кодирования;

Фиг. 5a показывает график, иллюстрирующий исходный аудиосигнал после фильтрации с предыскажением и его оцененную огибающую;

Фиг. 5b показывает пример для функции LTP, используемой, чтобы более близко оценивать огибающую, в соответствии с одним вариантом осуществления;

Фиг. 5c показывает график, иллюстрирующий результат оценки огибающей посредством применения функции LTP из фиг. 5b к примеру из фиг. 5a;

Фиг. 6 показывает блок-схему внутренней работы модуля 14 оценки распределений вероятностей в дополнительном варианте осуществления с использованием перцепционного кодирования также как обработки LTP;

Фиг. 7 показывает блок-схему основывающегося на линейном предсказании аудиодекодера в соответствии с одним вариантом осуществления;

Фиг. 8 показывает блок-схему основывающегося на линейном предсказании аудиодекодера в соответствии с еще дополнительным вариантом осуществления;

Фиг. 9 показывает блок-схему фильтра из фиг. 8 в соответствии с одним вариантом осуществления;

Фиг. 10 показывает блок-схему более подробной структуры части кодера из фиг. 1, расположенной в каскаде квантования и энтропийного кодирования и модуле 14 оценки распределений вероятностей в соответствии с одним вариантом осуществления; и

Фиг. 11 показывает блок-схему части внутри основывающегося на линейном предсказании аудиодекодера из, например, фиг. 7 и 8, расположенной в его части, которая соответствует части из фиг. 10, которая расположена на кодирующей стороне, т.е. расположена в модуле 102 оценки распределений вероятностей и каскаде 104 энтропийного декодирования и деквантования, в соответствии с одним вариантом осуществления.

До описания различных вариантов осуществления настоящей заявки, идеи, лежащие в ее основе, иллюстративно описываются по отношению к уровню техники, описанному во вводной части описания настоящей заявки. Конкретные признаки, происходящие от сравнения с конкретными способами сравнения, как, например, USAC, не должны трактоваться как ограничивающие объем настоящей заявки и ее варианты осуществления.

В подходе USAC для арифметического кодирования, контекст в своей основе предсказывает распределение амплитуд последующих линий. То есть, спектральные линии или спектральные компоненты сканируются в спектральных измерениях при кодировании/декодировании, и распределение амплитуд предсказывается непрерывно в зависимости от ранее кодированных/декодированных спектральных значений. Однако LPC уже кодирует ту же информацию явно, без необходимости в предсказании. Соответственно, применение LPC вместо этого контекста должно приносить аналогичный результат, однако при более низкой вычислительной сложности или, по меньшей мере, с возможностью достижения более низкой сложности. Фактически, так как при низких битрейтах спектр, по существу, состоит из единиц и нулей, контекст будет почти всегда очень разреженным и лишенным полезной информации. Поэтому, в теории LPC должно фактически быть намного более хорошим источником для оценок амплитуд, так как шаблон соседних, уже кодированных/декодированных спектральных значений, используемых для оценки распределения вероятностей, просто разреженно заполнен полезной информацией. Кроме того, информация LPC уже является доступной в обоих кодере и декодере, в силу чего она получается при нулевых затратах в терминах потребления битов.

Модель LPC определяет только форму огибающей спектра, то есть относительные амплитуды каждой линии, но не абсолютную амплитуду. Чтобы определить распределение вероятностей для одиночной линии, нам всегда нужна абсолютная амплитуда, то есть значение для дисперсии сигнала (или аналогичная мера). Существенная часть большинства моделей модулей основывающегося на LPC спектрального квантования должна соответственно быть масштабированием огибающей LPC, так чтобы достигалась требуемая дисперсия (и, таким образом, требуемое потребление битов). Это масштабирование должно обычно выполняться в обоих кодере, также как декодере, так как распределения вероятностей для каждой линии тогда зависят от масштабированного LPC.

Как описано выше, модель восприятия (взвешенное LPC) может использоваться, чтобы определять модель восприятия, т.е. квантование может выполняться в перцепционной области, так что ожидаемая ошибка квантования в каждой спектральной линии вызывает приблизительно одинаковую величину воспринимаемого искажения. Соответственно, если это так, модель LPC преобразовывается в перцепционную область также посредством умножения ее на взвешенное LPC, как определяло ниже. В вариантах осуществления, описанных ниже, часто предполагается, что огибающая LPC преобразовывается в перцепционную область.

Таким образом, является возможным применять независимую модель вероятностей для каждой спектральной линии. Является разумным предполагать, что спектральные линии не имеют никакой предсказуемой корреляции фаз, в силу чего является достаточным моделировать только амплитуду. Так как можно предполагать, что LPC кодирует амплитуду эффективно, наличие основывающегося на контексте арифметического кодера, вероятно, не улучшит эффективность оценки амплитуды.

Соответственно, является возможным применять основанный на контексте энтропийный кодер, так что контекст зависит от, или даже состоит из, огибающей LPC.

В дополнение к огибающей LPC, LTP также может использоваться, чтобы выводить информацию огибающей. В конечном итоге, LTP может соответствовать гребенчатому фильтру в частотной области. Некоторые практические детали описываются дополнительно ниже.

После объяснения некоторых мыслей, которые ведут к идее, лежащей в основе вариантов осуществления, описанных дополнительно ниже, описание этих вариантов осуществления теперь начинается по отношению к фиг. 1, которая показывает один вариант осуществления для основанного на линейном предсказании аудиокодера согласно одному варианту осуществления настоящей заявки. Основанный на линейном предсказании аудиокодер из фиг. 1, в общем, показан с использованием ссылочной позиции 10 и содержит анализатор 12 линейного предсказания, оценку 14 распределений вероятностей, определитель 16 спектра и каскад 18 квантования и энтропийного кодирования. Основанный на линейном предсказании аудиокодер 10 из фиг. 1 принимает аудиосигнал, подлежащий кодированию, например, на входе 20, и выводит поток 22 данных, который соответственно имеет аудиосигнал, кодированный в нем. Анализатор 12 LP и определитель 16 спектра, как показано на фиг. 1, либо напрямую, либо косвенно соединены с входом 20. Модуль 14 оценки распределений вероятностей соединен между анализатором 12 LP и каскадом 18 квантования и энтропийного кодирования и каскад 18 квантования и энтропийного кодирования, в свою очередь, соединен с выходом определителя 16 спектра. Как можно видеть на фиг. 1, анализатор 12 LP и каскад 18 квантования и энтропийного кодирования вносят вклад в формирование/генерирование потока 22 данных. Как будет описываться более подробно ниже, кодер 10 может необязательно содержать фильтр 24 предыскажений, который может быть соединен между входом 20 и анализатором 12 LP и/или определителем 16 спектра. Дополнительно, определитель 16 спектра может необязательно быть соединен с выходом анализатора 12 LP.

В частности, анализатор 12 LP сконфигурирован с возможностью определять информацию коэффициентов линейного предсказания на основе аудиосигнала, входящего на входе 20. Как изображено на фиг. 1, анализатор 12 LP может либо выполнять анализ линейного предсказания над аудиосигналом на входе 20 напрямую или над его некоторой модифицированной версией, как, например, его предварительно искаженной версией, как получается посредством фильтра 24 предыскажений. Режим работы анализатора 12 LP может, например, включать в себя оконную обработку входящего сигнала, чтобы получать последовательность подвергнутых оконной обработке частей сигнала, подлежащего анализу LP, определение автокорреляции, чтобы определять автокорреляцию каждой подвергнутой оконной обработке части, и корреляционную оконную обработку, которая является необязательной, для применения функции корреляционного окна к автокорреляциям. Оценка параметров линейного предсказания может затем выполняться над автокорреляциями или выводом корреляционной оконной обработки, т.е. подвергнутыми оконной обработке функциями автокорреляции. Оценка параметров линейного предсказания может, например, включать в себя выполнение алгоритма Винера-Левинсона-Дурбина или другого подходящего алгоритма к (подвергнутым корреляционной оконной обработке) автокорреляциям, чтобы выводить коэффициенты линейного предсказания в расчете на автокорреляцию, т.е. в расчете на подвергнутую оконной обработке часть сигнала, подлежащего анализу LP. То есть на выходе анализатора 12 LP, в результате получаются коэффициенты LPC, которые, как описано дополнительно ниже, используются модулем 14 оценки распределений вероятностей и, необязательно, определителем 16 спектра. Анализатор 12 LP может быть сконфигурирован с возможностью квантовать коэффициент линейного предсказания для вставки в поток 22 данных. Квантование коэффициентов линейного предсказания может выполняться в другой области, нежели область коэффициентов линейного предсказания, как, например, в области пар спектральных линий или частот спектральных линий. Квантованные коэффициенты линейного предсказания могут кодироваться в поток 22 данных. Информация коэффициентов линейного предсказания, фактически используемая модулем 14 оценки распределений вероятностей и, необязательно, определителем 16 спектра, может учитывать потери квантования, т.е. может быть квантованной версией, которая передается без потерь посредством потока данных. То есть, последний может фактически использовать в качестве информации коэффициентов линейного предсказания квантованные коэффициенты линейного предсказания, как получаются посредством анализатора 12 линейного предсказания. Только ради полноты, следует отметить, что существует огромное количество возможностей выполнения определения информации коэффициентов линейного предсказания посредством анализатора 12 линейного предсказания. Например, могут использоваться другие алгоритмы, нежели алгоритм Винера-Левинсона-Дурбина. Более того, оценка локальной автокорреляции сигнала, подлежащего анализу LP, может получаться на основе спектрального разложения сигнала, подлежащего анализу LP. В WO 2012/110476 A1, например, описано, что автокорреляция может получаться посредством оконной обработки сигнала, подлежащего анализу LP, подвергания MDCT каждой подвергнутой оконной обработке части, определения спектра мощности в расчете на спектр MDCT и выполнения обратного ODFT для перехода от области MDCT к оценке автокорреляции. Чтобы подытожить, анализатор 12 LP обеспечивает информацию коэффициентов линейного предсказания и поток 22 данных передает или содержит эту информацию коэффициентов линейного предсказания. Например, поток 22 данных передает информацию коэффициентов линейного предсказания при временном разрешении, которое определяется посредством только что упомянутой скорости подвергнутых оконной обработке частей, при этом подвергнутые оконной обработке части могут, как известно в данной области техники, перекрывать друг друга, как, например, при 50% перекрытия.

В отношении использования фильтра 24 предыскажений, следует отметить, что он может, например, осуществляться с использованием фильтрации FIR. Фильтр 24 предыскажений может, например, иметь высокочастотную передаточную функцию. В соответствии с одним вариантом осуществления фильтр 24 предыскажений осуществлен как высокочастотный фильтр n-ого порядка, как, например, , где α установлен, например, на 0,68.

Далее описывается определитель спектра. Определитель 16 спектра сконфигурирован с возможностью определять спектр, составленный из множества спектральных компонент, на основе аудиосигнала на входе 20. Спектр должен описывать аудиосигнал. Аналогично анализатору 12 линейного предсказания, определитель 16 спектра может обрабатывать аудиосигнал 20 напрямую, или его некоторую модифицированную версию, как, например, его фильтрованную с предыскажением версию. Определитель 16 спектра может использовать любое преобразование, чтобы определять спектр, как, например, преобразование с перекрытием блоков или даже критически дискретизированное преобразование с перекрытием блоков, как, например, MDCT, хотя другие возможности также существуют. То есть, определитель 16 спектра может подвергать сигнал, подлежащий спектральному разложению, оконной обработке, чтобы получать последовательность подвергнутых оконной обработке частей, и подвергать каждую подвергнутую оконной обработке часть соответствующему преобразованию, такому как MDCT. Скорость подвергнутых оконной обработке частей определителя 16 спектра, т.е. временное разрешение спектрального разложения, может отличаться от временного разрешения, на котором анализатор 12 LP определяет информацию коэффициентов линейного предсказания.

Определитель 16 спектра, таким образом, выводит спектр, составленный из множества спектральных компонент. В частности, определитель 16 спектра может выводить, в расчете на подвергнутую оконной обработке часть, которая подвергается преобразованию, последовательность спектральных значений, именно одно спектральное значение в расчете на спектральную компоненту, например, в расчете на спектральную линию частоты. Спектральные значения могут быть комплекснозначными или действительнозначными. Спектральные значения являются действительнозначными в случае использования MDCT, например. В частности, спектральные значения могут иметь знак, т.е. они могут быть комбинацией знака и амплитуды.

Как описано выше, информация коэффициентов линейного предсказания формирует краткосрочное предсказание огибающей спектра сигнала, подвергнутого анализу LP, и может, таким образом, служить в качестве основы для определения, для каждой из множества спектральных компонент, оценки распределения вероятностей, т.е. оценки того, как, статистически, на области возможных спектральных значений изменяется вероятность того, что спектр в соответствующей спектральной компоненте, принимает некоторое возможное спектральное значение. Определение выполняется посредством модуля 14 оценки распределений вероятностей. Разные возможности существуют по отношению к деталям определения оценки распределений вероятностей. Например, хотя определитель 16 спектра может быть реализован, чтобы определять спектрограмму аудиосигнала или предварительно искаженной версии аудиосигнала, в соответствии с вариантами осуществления, дополнительно описанными ниже, определитель 16 спектра сконфигурирован с возможностью определять, в качестве спектра, сигнал возбуждения, т.е. остаточный сигнал, полученный посредством фильтрации на основе LP аудиосигнала, или его некоторой модифицированной версии, как, например, его фильтрованной с предыскажением версии. В частности, определитель 16 спектра может быть сконфигурирован с возможностью определять спектр сигнала, входящего в определитель 16 спектра, после фильтрации входящего сигнала с использованием передаточной функции, которая зависит от, или равна, инверсии синтезирующего фильтра линейного предсказания, определенного посредством информации коэффициентов линейного предсказания, т.е. фильтра анализа линейного предсказания. Альтернативно, основанный на LP аудиокодер может быть перцепционным основывающимся на LP аудиокодером и определитель 16 спектра может быть сконфигурирован с возможностью определять спектр сигнала, входящего в определитель 16 спектра, после фильтрации входящего сигнала с использованием передаточной функции, которая зависит от, или равна, инверсии синтезирующего фильтра линейного предсказания, определенного посредством информации коэффициентов линейного предсказания, но была модифицирована, чтобы, например, соответствовать инверсии оценки порога маскирования. То есть, определитель 16 спектра может быть сконфигурирован с возможностью определять спектр входящего сигнала, фильтрованного с помощью передаточной функции, которая соответствует инверсии перцепционно модифицированного синтезирующего фильтра линейного предсказания. В этом случае, определитель 16 спектра сравнительно уменьшает спектр в спектральных областях, где перцепционное маскирование является более высоким, по отношению к спектральным областям, где перцепционное маскирование является более низким. Посредством использования информации коэффициентов линейного предсказания, модуль 14 оценки распределений вероятностей, однако, все еще способен оценивать огибающую спектра, определенного посредством определителя 16 спектра, именно посредством учета перцепционной модификации синтезирующего фильтра линейного предсказания при определении оценки распределения вероятностей. Подробности в этом отношении дополнительно описываются ниже.

Дополнительно, как описано более подробно ниже, модуль 14 оценки распределений вероятностей способен использовать долгосрочное предсказание, чтобы получать информацию тонкой структуры о спектре, чтобы получать более хорошую оценку распределения вероятностей в расчете на спектральную компоненту. Параметр (параметры) LTP посылается/посылаются, например, в декодирование, чтобы обеспечивать возможность восстановления информации тонкой структуры. Подробности в этом отношении описываются дополнительно ниже.

В любом случае, каскад 18 квантования и энтропийного кодирования сконфигурирован с возможностью квантовать и осуществлять энтропийное кодирование спектра с использованием оценки распределения вероятностей, которая определена для каждой из упомянутого множества спектральных компонент посредством модуля 14 оценки распределений вероятностей. Чтобы быть более точными, каскад 18 квантования и энтропийного кодирования принимает от спектрального определителя 16 спектр 26, составленный из спектральных компонент k, или чтобы быть более точными, последовательность спектров 26 на некоторой временной скорости, соответствующей вышеупомянутой скорости подвергнутых оконной обработке частей для подвергнутых оконной обработке частей, подлежащих преобразованию. В частности, каскад 18 может принимать значение знака для спектрального значения в спектральной компоненте k и, соответствующую амплитуду для спектральной компоненты k.

С другой стороны, каскад 18 квантования и энтропийного кодирования принимает, в расчете на спектральную компоненту k, оценку 28 распределения вероятностей, определяющую, для каждого возможного значения спектральное значение, которое может быть принято, оценку значения вероятности, определяющую вероятность спектрального значения в соответствующей спектральной компоненте k, имеющей это очень возможное значение. Например, оценка распределения вероятностей, определенная посредством модуля 14 оценки распределений вероятностей, концентрируется только на амплитудах спектральных значений и определяет, соответственно, значения вероятностей только для положительных значений, включающих в себя нуль. В частности, каскад 18 квантования и энтропийного кодирования квантует спектральные значения, например, с использованием правила квантования, которое одинаково для всех спектральных компонент. Уровни амплитуд для спектральных компонент k, таким образом, полученные, соответственно определены на области целых чисел, включающих в себя нуль, вплоть до, необязательно, некоторого максимального значения. Оценка распределения вероятностей может, для каждой спектральной компоненты k, определяться на этой области возможных целых чисел i, т.е. p(k, i) будет оценкой вероятностей для спектральной компоненты k, и определяться для целых чисел , где целое число , где k_max является максимальной спектральной компонентой и для всех k, i, и сумма p(k, i) по всем равна единице для всех k.

Каскад 18 квантования и энтропийного кодирования может, например, использовать постоянный размер шага квантования для квантования, при этом размер шага является одинаковым для всех спектральных компонент k. Чем лучше оценка 28 распределений вероятностей, тем лучше эффективность сжатия, достигаемая посредством каскада 18 квантования и энтропийного кодирования.

Откровенно говоря, модуль 14 оценки распределений вероятностей может использовать информацию коэффициентов линейного предсказания, обеспеченную посредством анализатора 12 LP, чтобы получать информацию об огибающей 30, или аппроксимировать форму, спектра 26. С использованием этой оценки 30 огибающей или формы, модуль 14 оценки может выводить меру 32 дисперсии для каждой спектральной компоненты k посредством, например, подходящим образом масштабирования огибающей, с использованием общего коэффициента масштабирования, одинакового для всех спектральных компонент. Эти меры дисперсии в спектральных компонентах k могут служить в качестве параметров для параметризаций оценок распределений вероятностей для каждой спектральной компоненты k. Например, p(k, i) может быть f(i, l(k)) для всех k, где l(i) является определенной мерой дисперсии в спектральной компоненте k, где f(i, l) является, для каждого фиксированного l, соответствующей функцией переменной i, такой как монотонная функция, как, например, как определено ниже, функцией Гаусса или Лапласа, определенной для положительных значений i, включающих в себя нуль, в то время как l является параметром функции, который измеряет "крутизну" или "ширину" функции, как будет описано ниже с более точной формулировкой. С использованием параметризованных параметризаций, каскад 18 квантования и энтропийного кодирования, таким образом, способен осуществлять эффективное энтропийное кодирование спектральных значений спектра в поток 22 данных. Как станет ясно из описания, приведенного далее ниже с большими деталями, определение оценки 28 распределений вероятностей может осуществляться чисто аналитически и/или без требования взаимных зависимостей между спектральными значениями разных спектральных компонент одного и того же спектра 26, т.е. независимо от спектральных значений разных спектральных компонент, относящихся к одному и тому же моменту времени. Каскад 18 квантования и энтропийного кодирования может соответственно выполнять энтропийное кодирование квантованных спектральных значений или уровней амплитуд, соответственно, параллельно. Фактическое энтропийное кодирование может в свою очередь быть арифметическим кодированием или кодированием с переменной длиной или некоторой другой формой энтропийного кодирования, как, например, энтропийным кодированием на основе разделения интервала вероятностей или подобным. В действительности, каскад 18 квантования и энтропийного кодирования осуществляет энтропийное кодирование каждого спектрального значения в некоторой спектральной компоненте k с использованием оценки 28 распределения вероятностей для этой спектральной компоненты k, так что потребление битов для соответствующего спектрального значения k для его кодирования в поток 22 данных является более низким внутри частей области возможных значений спектрального значения в спектральной компоненте k, где вероятность, показанная посредством оценки 28 распределения вероятностей, является более высокой, и потребление битов является более большим в частях области возможных значений, где вероятность, показанная посредством оценки 28 распределения вероятностей, является более низкой. В случае арифметического кодирования, например, может использоваться основанное на таблице арифметическое кодирование. В случае кодирования с переменной длиной, разные таблицы кодовых слов, отображающие возможные значения на кодовые слова, могут выбираться и применяться каскадом квантования и энтропийного кодирования в зависимости от оценки 28 распределения вероятностей, определенной посредством модуля 14 оценки распределений вероятностей для соответствующей спектральной компоненты k.

Фиг. 2 показывает возможный вариант осуществления определителя 16 спектра из фиг. 1. Согласно фиг. 2, определитель 16 спектра содержит определитель 34 коэффициентов масштабирования, модуль 36 преобразования и спектральный формирователь 38 (модуль придания формы спектру). Модуль 36 преобразования и спектральный формирователь 38 последовательно соединены друг с другом между входом и выходом спектрального определителя 16, через которые спектральный определитель 16 соединен между входом 20 и каскадом 18 квантования и энтропийного кодирования на фиг. 1. Определитель 34 коэффициентов масштабирования, в свою очередь, соединен между анализатором 12 LP и дополнительным входом спектрального формирователя 38 (см. фиг. 1).

Определитель 34 коэффициентов масштабирования сконфигурирован с возможностью использовать информацию коэффициентов линейного предсказания, чтобы определять коэффициенты масштабирования. Модуль 36 преобразования спектрально разлагает сигнал, который принимает, чтобы получать исходный спектр. Как описано выше, входящий сигнал может быть исходным аудиосигналом на входе 20 или, например, его предварительно искаженной версией. Как также уже описано выше, модуль 36 преобразования может внутренне подвергать сигнал, подлежащий преобразованию, оконной обработке, по частям, с использованием перекрывающихся частей, при индивидуальном преобразовании каждой подвергнутой оконной обработке части. Как уже описано выше, для преобразования может использоваться MDCT. То есть, модуль 36 преобразования выводит одно спектральное значение в расчете на спектральную компоненту k и спектральный формирователь 38 сконфигурирован с возможностью спектрально формировать этот исходный спектр посредством масштабирования спектра с использованием коэффициентов масштабирования, т.е. посредством масштабирования каждого исходного спектрального значения с использованием коэффициентов масштабирования s_k, выведенных определителем 34 коэффициентов масштабирования, чтобы получать соответствующее спектральное значение x_k, которое затем подвергается квантованию и энтропийному кодированию в каскаде 18 из фиг. 1.

Спектральное разрешение, при котором определитель 34 коэффициентов масштабирования определяет коэффициенты масштабирования, не необходимо совпадает с разрешением, определенным посредством спектральной компоненты k. Например, перцепционно мотивированное группирование спектральных компонент в спектральные группы, как, например, полосы барков, может формировать спектральное разрешение, в котором определяются коэффициенты масштабирования, т.е. спектральные веса, посредством которых взвешиваются спектральные значения спектра, выведенные модулем 36 преобразования.

Определ

Основанное на линейном предсказании кодирование аудио с использованием улучшенной оценки распределения вероятностей

Патент 2651187