Кодер, декодер и способ кодирования и декодирования

Иллюстрации

Показать все

Изобретение относится к средствам для кодирования и декодирования. Технический результат заключается в повышении эффективности кодирования. Кодер для кодирования аудиосигнала в поток данных содержит модуль предсказания, модуль разложения на множители, преобразователь и каскад квантования и кодирования. Модуль предсказания выполнен с возможностью анализировать аудиосигнал, чтобы получить коэффициенты предсказания, описывающие спектральный аналог аудиосигнала или основную частоту аудиосигнала, и подвергнуть аудиосигнал функции анализирующей фильтрации, зависящей от коэффициентов предсказания, чтобы выдать разностный сигнал аудиосигнала. Модуль разложения на множители выполнен с возможностью применять матричное разложение на множители к автокорреляционной или ковариационной матрице функции синтезирующей фильтрации, заданной коэффициентами предсказания. Преобразователь выполнен с возможностью преобразовывать разностный сигнал на основе матриц, разложенных на множители. Каскад квантования и декодирования выполнен с возможностью квантовать преобразованный разностный сигнал, чтобы получить квантованный преобразованный разностный сигнал или закодированный квантованный преобразованный разностный сигнал. 7 н. и 16 з.п. ф-лы, 7 ил., 4 табл.

Реферат

Варианты осуществления настоящего изобретения относятся к кодеру для кодирования аудиосигнала для получения потока данных и к декодеру для декодирования потока данных для получения аудиосигнала. Дополнительные варианты осуществления относятся к соответствующему способу кодирования аудиосигнала и декодирования потока данных. Дополнительный вариант осуществления относится к компьютерной программе, выполняющей этапы способов кодирования и/или декодирования.

Аудиосигнал, который должен быть закодирован, может представлять собой, например, речевой сигнал; т.е. кодер соответствует речевому кодеру, и декодер соответствует речевому декодеру. Наиболее часто используемой парадигмой в кодировании речи является алгебраическое линейное предсказание с мультикодовым управлением (ACELP), которое используется в таких стандартах, как семейство AMR, G.718 и MPEG USAC. Оно основано на моделировании речи с использованием модели источника, состоящей из линейного прогноза (LP) для моделирования огибающей спектра, долговременного прогноза (LTP) для моделирования основной частоты и алгебраической кодовой книги для разности. Параметры кодовой книги оптимизированы в области перцепционно взвешенного синтеза. Перцепционная модель основана на фильтре, посредством чего отображение разности на взвешенный вывод описывается комбинацией линейного прогноза и взвешенного фильтра.

Наибольшая часть вычислительной сложности в кодеках ACELP тратится на выбор элемента алгебраической кодовой книги, что происходит при квантовании разности. Отображение области разности в область взвешенного синтеза по существу представляет собой умножение на матрицу размера N x N, где N - длина вектора. Вследствие этого отображения, с точки зрения отношения сигнала к шуму (SNR) взвешенного вывода, разностные отсчеты коррелированы и не могут быть квантованы независимо. Из этого следует, что каждый потенциальный вектор кодовой книги должен быть оценен явно в области взвешенного синтеза, чтобы определить наилучший элемент. Этот подход известен как алгоритм анализа посредством синтеза. Оптимальная производительность возможна только при поиске перебором кодовой книги. Размер кодовой книги зависит от битовой скорости, но при заданной битовой скорости B имеется 2B элементов для оценки при общей сложности O(2BN2), что явно нереалистично, когда B больше или равно 11. Таким образом, в практических кодеках используют неоптимальное квантование, которое балансирует между сложностью и качеством. Были представлены несколько из этих итеративных алгоритмов для нахождения наилучшего квантования, которые ограничивают сложность за счет точности. Чтобы преодолеть это ограничение, необходим новый подход.

Задача настоящего изобретения состоит в том, чтобы обеспечить концепцию для кодирования и декодирования аудиосигналов, избегая упомянутых выше недостатков.

Задача решена посредством независимых пунктов формулы изобретения.

Первый вариант осуществления обеспечивает кодер для кодирования аудиосигнала в поток данных. Кодер содержит модуль (линейного или долговременного) предсказания, модуль разложения на множители, преобразователь и стадию квантования и кодирования. Модуль предсказания выполнен с возможностью анализировать аудиосигнал, чтобы получить коэффициенты (линейного или долговременного) предсказания, описывающие огибающую спектра аудиосигнала или основную частоту аудиосигнала, и подвергнуть аудиосигнал функции анализирующей фильтрации, зависящей от коэффициентов предсказания, чтобы выдать разностный сигнал аудиосигнала. Модуль разложения на множители выполнен с возможностью применять матричное разложение на множители к автокорреляционной или ковариационной матрице функции синтезирующей фильтрации, заданной коэффициентами предсказания, чтобы получить матрицы, разложенные на множители. Преобразователь выполненным с возможностью преобразовывать разностный сигнал на основе матриц, разложенных на множители, чтобы получить преобразованный разностный сигнал. Стадия квантования и кодирования выполнена с возможностью квантовать преобразованный разностный сигнал, чтобы получить квантованный преобразованный разностный сигнал или закодированный квантованный преобразованный разностный сигнал.

Другой вариант осуществления обеспечивает декодер для декодирования потока данных в аудиосигнал. Декодер содержит стадию декодирования, обратный преобразователь и стадию синтеза. Стадия декодирования выполнена с возможностью выдавать преобразованный разностный сигнал на основе входящего квантованного преобразованного разностного сигнала или на основе входящего закодированного квантованного преобразованного разностного сигнала. Обратный преобразователь выполнен с возможностью обратно преобразовывать разностный сигнал из преобразованного разностного сигнала на основе матриц, разложенных на множители, полученных в результате матричного разложения на множители автокорреляционной или ковариационной матрицы функции синтезирующей фильтрации, заданной коэффициентами предсказания, описывающими огибающую спектра аудиосигнала или основную частоту аудиосигнала, чтобы получить матрицы разложения на множители. Стадия синтеза выполнена с возможностью синтезировать аудиосигнал на основе разностного сигнала посредством использования функции синтезирующей фильтрации, заданной коэффициентами предсказания.

Как видно на основе этих двух вариантов осуществления, кодирование и декодирование представляют собой двухэтапные процессы, что делает эту концепцию сопоставимой с кодированием ACELP. Первый этап дает возможность квантования синтеза относительно огибающей спектра или основной частоты, в то время как вторая стадия дает возможность (прямого) квантования или синтеза разностного сигнала, также называемого сигналом возбуждения, и представления сигнала после фильтрации сигнала с помощью огибающей спектра или основной частоты аудиосигнала. Кроме того, аналогично кодированию ACELP, квантование разностного сигнала или сигнала возбуждения соответствует задаче оптимизации, причем целевая функция задачи оптимизации в соответствии с раскрытыми здесь идеями в значительной степени отличается от кодирования ACELP. Более подробно, идеи настоящего изобретения основаны на принципе, что матричное разложение на множители используется для декорреляции целевой функции задачи оптимизации, посредством чего можно избежать дорогих вычислительных итераций и гарантировать оптимальную производительность. Матричное разложение на множители, которое является центральным этапом изложенных вариантов осуществления, включено в вариант осуществления кодера, и предпочтительно, но не обязательно, может быть включено в вариант осуществления декодера.

Матричное разложение на множители может быть основано на различных методиках, например на разложении по собственным значениям, на разложении на множители Вандермонда или на любом другом разложении на множители, причем для каждой выбранной методики разложение разлагает на множители матрицу, например, автокорреляционную или ковариационную матрицу функции синтезирующей фильтрации, заданной коэффициентами (линейного или долговременного) предсказания, которые обнаружены посредством первой аудиоинформацией на первой стадии (линейного предсказания или долговременного предсказания) кодирования или декодирования.

В соответствии с другим вариантом осуществления модуль разложения на множители разлагает на множители функцию синтезирующей фильтрации, содержащую коэффициенты предсказания, которые сохранены с использованием матрицы, или разлагает на множители взвешенную версию матрицы функции синтезирующей фильтрации. Например, разложение на множители может быть выполнено при помощи матрицы V Вандермонда, диагональной матрицы D и преобразованной сопряженной версии матрицы V* Вандермонда. Матрица Вандермонда может быть разложена на множители с использованием формулы R=V*DV или C=V*DV, причем матрица автокорреляции R или ковариационная матрица C заданы преобразованной сопряженной версией матрицы функции H* синтезирующей фильтрации и регулярной версией матрицы H функции синтеза, т.е. R =H*H или C=H*H.

В соответствии с дополнительным вариантом осуществления преобразователь, исходя из ранее определенной диагональной матрицы D и ранее определенной матрицы Вандермонда V, преобразовывает разностный сигнал x в преобразованный разностный сигнал y с использованием формулы y=D1/2Vx или формула y=DVx.

В соответствии с дополнительным вариантом осуществления стадия квантования и кодирования теперь может квантовать преобразованный разностный сигнал y, чтобы получить квантованный преобразованный разностный сигнал . Это преобразование представляет собой задачу оптимизации, как описано выше, причем используется целевая функция . При этом выгодно, чтобы эта целевая функция имела уменьшенную сложность по сравнению с целевыми функциями, используемыми для других способов кодирования или декодирования, такими как целевая функция, используемая в кодере ACELP.

В соответствии с вариантом осуществления декодер принимает матрицы, разложенные на множители, от кодера, например, вместе с потоком данных, или в соответствии с другим вариантом осуществления декодер содержит опциональный модуль разложения на множители, который выполняет матричное разложение на множители. В соответствии с предпочтительным вариантом осуществления декодер принимает матрицы, разложенные на множители, непосредственно и отклоняет коэффициенты предсказания от этих матриц, разложенных на множители, поскольку матрицы имеют свое начало координат в коэффициентах предсказания (см. кодер). Этот вариант осуществления позволяет дополнительно уменьшить сложность декодера.

Дополнительные варианты осуществления обеспечивают соответствующие способы кодирования аудиосигнала в поток данных и декодирования потока данных в аудиосигнал. В соответствии с дополнительным вариантом осуществления способ кодирования, а также способ декодирования могут быть выполнены или по меньшей мере частично выполнены процессором, таким как центральный процессор компьютера.

Варианты осуществления настоящего изобретения будут описаны со ссылкой на приложенные чертежи.

Фиг. 1А показывает блок-схему кодера для кодирования аудиосигнала в соответствии с первым вариантом осуществления;

Фиг. 1В показывает блок-схему последовательности операций соответствующего способа кодирования аудиосигнала в соответствии с первым вариантом осуществления;

Фиг. 2А показывает блок-схему декодера для декодирования потока данных в соответствии со вторым вариантом осуществления;

Фиг. 2В показывает блок-схему последовательности операций соответствующего способа декодирования потока данных в соответствии со вторым вариантом осуществления;

Фиг. 3А показывает схему, иллюстрирующую среднее перцепционное соотношение сигнал/шум как функцию битов на кадр для различных способов квантования;

Фиг. 3В показывает схему, иллюстрирующую нормализованное время выполнения разных способов квантования как функцию битов на кадр; и

Фиг. 3С показывает схему, иллюстрирующую характеристики преобразования Вандермонда.

Варианты осуществления настоящего изобретения будут далее подробно описаны со ссылкой на приложенные чертежи. В настоящем документе одинаковые ссылочные номера присвоены объектам, имеющим одинаковую или сходную функцию, и поэтому их описание является взаимозаменяем или взаимно применимым.

Фиг. 1А показывает кодер 10 в базовой конфигурации. Кодер 10 содержит модуль 12 предсказания, реализованный здесь как модуль 12 линейного предсказания, а также модуль 14 разложения на множители, преобразователь 16 и стадию 18 квантования и кодирования.

Модуль 12 линейного предсказания размещен на входе, чтобы принимать аудиосигнал AS, предпочтительно цифровой аудиосигнал, такой как сигнал с импульсно-кодовой модуляцией (PCM). Модуль 12 линейного предсказания соединен с модулем 14 разложения на множители и с выходом кодера (см. ссылочный номер DSLPC/DSDV, через так называемый LPC-канал LPC). Кроме того, модуль 12 линейного предсказания соединен с преобразователем 16 через так называемый разностный канал. Наоборот, преобразователь 16 (в дополнение к разностному каналу) соединен с модулем 14 разложения на множители на своей входной стороне. На своей выходной стороне преобразователь соединен со стадией квантования и кодирования, причем стадия 18 квантования и кодирования соединена с выходом (см. ссылочный номер DSŷ). Эти два потока DSLPC/DSDV данных и DSŷ формируют выходной поток DS данных.

Ниже будет описана функциональность кодера 10, причем дополнительные ссылки делаются на фиг. 1В, описывающую способ 100 кодирования. Как видно в соответствии с фиг. 1В, основной метод 100 кодирования аудиосигнала AS в поток DS данных содержит четыре основных этапа 120, 140, 160 и 180, которые выполняются элементами 12, 14, 16 и 18. На первом этапе 120 модуль 12 линейного предсказания анализирует аудиосигнал AS, чтобы получить коэффициенты линейного предсказания LPC. Коэффициенты линейного предсказания LPC описывают огибающую спектра аудиосигнала AS, что позволяет впоследствии синтезировать основной аудиосигнал с использованием так называемой функции синтезирующей фильтрации H. Функция синтезирующей фильтрации H может содержать нагруженные значения функции синтезирующей фильтрации, заданные коэффициентами LPC. Коэффициенты линейного предсказания LPC выдаются модулю 14 разложения на множители с использованием LPC-канала LPC, а также передаются на выход кодера 10. Модуль 12 линейного предсказания 12, кроме того, подвергает аудиосигнал AS функции анализирующей фильтрации H, которая задана коэффициентами линейного предсказания LPC. Этот процесс является взаимно дополняющим по отношению к синтезу аудиосигнала на основе коэффициентов LPC, выполняемому декодером. Результатом этого подэтапа является разностный сигнал x, выдаваемый преобразователю 16 без части сигнала, описываемой функцией фильтрации H. Следует отметить, что этот этап выполняется по кадрам, т.е. аудиосигнал AS, имеющий амплитуду и временную область, делится или подвергается дискретизации на временные промежутки (отсчеты), например, имеющие продолжительность 5 мс, и квантуется в частотной области.

Следующим этапом является преобразование разностного сигнала x (см. этап 160 способа), выполняемое преобразователем 16. Преобразователь 16 выполнен с возможностью преобразовывать разностный сигнал x, чтобы получить преобразованный разностный сигнал y, выдаваемый на стадию 18 квантования и кодирования. Например, преобразование 160 может быть основано на формуле y=D1/2Vx или на формуле y=DVx, где матрицы D и V обеспечиваются модулем 14 разложения на множители. Таким образом, преобразование разностного сигнала x основано по меньшей мере на двух матрицах V, разложенных на множители, в качестве примера называемой матрицей Вандермонда, и D, в качестве примера называемой диагональной матрицей.

Применяемое разложение матрицы на множители может быть свободно выбрано, например, как разложение по собственным значениям, разложение на множители Вандермонда, разложение Холецкого и т.п. Разложение Вандермонда может использоваться в качестве разложения на множители симметричных, положительно-определенных матриц Теплица, таких как автокорреляционные матрицы, на произведение матриц Вандермонда V и V*. Для автокорреляционной матрицы в целевой функции это соответствует дискретному преобразованию Фурье с неравномерным частотным разрешением, которое обычно называют преобразованием Вандермонда. Этот этап 140 разложения матрицы на множители, выполняемый модулем 14 разложения на множители и представляющий фундаментальную часть изобретения, будет подробно описан после описания функциональности стадии 18 квантования и кодирования.

Стадия 18 квантования и кодирования квантует преобразованный разностный сигнал y, принятый от преобразователя 16, чтобы получить квантованный преобразованный разностный сигнал ŷ. Этот преобразованный квантованный разностный сигнал ŷ выдается как часть потока DSŷ данных. Следует отметить, что весь поток DS данных содержит часть LPC, обозначаемую как DSLPC/DSDV и часть ŷ, обозначаемую как DSŷ.

Квантование разностного сигнала преобразования y может быть выполнено, например, с использованием целевой функции, например, в терминах . По сравнению с типичной целевой функцией кодера ACELP эта целевая функция имеет уменьшенную сложность, в результате чего кодирование обеспечивает преимущество, состоящее в повышенной производительности. Это повышение производительности может использоваться для кодирования аудиосигналов AS, имеющих более высокое разрешение, или для сокращения необходимых ресурсов

Следует отметить, что сигнал DSŷ может являться закодированным сигналом, причем кодирование выполнено посредством стадии 18 квантования и кодирования. Таким образом, в соответствии с дополнительными вариантами осуществления стадия 18 квантования и кодирования может содержать кодер, который может быть выполнен с возможностью выполнять арифметическое кодирование. Стадия 18 квантования и кодирования может использовать линейные шаги квантования (т.е. равные расстояния) или переменные, например, логарифмические шаги квантования. В качестве альтернативы кодер может быть выполнен с возможностью выполнять другое энтропийное кодирование (без потерь), в котором длина кода варьирует как функция вероятности сингулярных входных сигналов AS. Таким образом, для получения оптимальной длины кода альтернативным вариантом может являться обнаружение вероятности входных сигналов на основе огибающей синтеза и, таким образом, на основе коэффициентов LPC. Таким образом, стадия квантования и кодирования также может иметь вход для LPC-канала.

Ниже будут описаны предпосылки, позволяющие сократить сложности целевой функции . Как упомянуто выше, улучшенное кодирование основано на этапе разложения 140 матрицы на множители, выполняемом модулем 14 разложения на множители. Модуль 14 разложения на множители разлагает на множители матрицу, например, автокорреляционную матрицу R или ковариационную матрицу C функции синтезирующей фильтрации H, заданной коэффициентами линейного предсказания LPC (см. LPC-канал). Результатом этого разложения на множители являются две матрицы, разложенные на множители, например, матрица Вандермонда V и диагональная матрица D, представляющие первоначальную матрицу H, включающую в себя сингулярные коэффициенты LPC. Вследствие этого отсчеты разностного сигнала x являются декоррелированными. Из этого следует, что прямое квантование (см. этап 180) разностного сигнала преобразования является оптимальным квантованием, посредством чего вычислительная сложность почти не зависит от скорости передачи. В сравнении с традиционным подходом к оптимизации кодирования ACELP кодовая книга должна балансировать между вычислительной сложностью и точностью, особенно при высоких скоростях передачи. Таким образом, действительно описаны предпосылки, исходя из тезисов кодирования ACELP.

Традиционная целевая функция ACELP принимает форму ковариационной матрицы. В соответствии с улучшенными подходами имеется альтернативная целевая функция, которая использует автокорреляционную матрицу взвешенной функции синтеза. Кодеки, основанные на ACELP, оптимизировали соотношение сигнал/шум (SNR) в области перцепционно взвешенного синтеза. Целевая функция может быть выражена как

(1)

где x - целевая разность, - квантованная разность, H - матрица свертки, соответствующая взвешенному синтезирующему фильтру, и γ - масштабный коэффициент усиления. Чтобы найти оптимальное квантование , стандартный подход должен найти оптимальное значение γ, обозначаемое γ*, в нуле производной η(x, γ). Посредством вставки оптимального значения γ* в уравнение (1) получается новая целевая функция:

(2)

где H* преобразованная сопряженная версия синтеза с помощью функции H.

Следует отметить, что при традиционном подходе H является квадратной нижней треугольной матрицей свертки, посредством чего ковариационная матрица C=H*H является симметричной ковариационной матрицей. Замена нижней треугольной матрицы на полноразмерную матрицу свертки, посредством чего матрица автокорреляции R=H*H является симметричной матрицей Теплица, соответствует другой корреляции взвешенного синтезирующего фильтра. Эта замена дает значительные сокращение сложности с минимальным воздействием на качество.

Модуль 14 линейного предсказания может использовать обе матрицы, а именно ковариационную матрицу C или автокорреляционную матрицу R для разложения матрицы на множители. Описание ниже сделано при условии, что автокорреляция R используется для изменения целевой функции на разложение матрицы на множители, зависящее от коэффициентов LPC. Симметричные положительно определенные матрицы Теплица, такие как R, могут быть разложены как

R=V*DV (3)

через несколько способов, в том числе разложение по собственным значениям. Здесь V* - преобразованная-сопряженная версия матрицы Вандермонда V. В традиционном подходе с использованием ковариационной матрицы C может быть применено другое разложение на множители, такое как сингулярное разложение C=USV.

Для автокорреляционной матрицы может использоваться альтернативное разложение на множители, называемое здесь разложением на множители Вандермонда, которое имеет также форму уравнения (3). Разложение на множители Вандермонда представляет собой новую концепцию, дающую возможность разложения/преобразования. Матрица Вандермонда имеет V со значением и

(4)

и D - диагональная матрица со строго положительными элементами. Разложение может быть вычислено с произвольной точностью со сложностью O(N3). Прямое разложение обычно имеет вычислительную сложность O(N^3), но здесь она может быть уменьшена до O(N^2), или, если приблизительное разложение на множители является достаточным, то сложность может быть уменьшена до O(N jog N). Для выбранного разложения может быть определено

и (5)

где x=V-1D-1/2y, и посредством вставки в уравнение (2) может быть получено

(6)

Следует отметить, что здесь отсчеты y не коррелированы друг с другом, и упомянутая выше целевая функция представляет собой не что иное, как нормализованную корреляция между целевой и квантованной разностью. Из этого следует, что отсчеты y могут быть независимо квантованы, и если точность всех отсчетов одинакова, то это квантование приводит к наилучшей возможной точности.

В случае разложения на множители Вандермонда, поскольку V имеет значение , оно соответствует дискретному преобразованию Фурье с неравномерным частотным разрешением, и элементы y соответствуют частотному компоненту разности. Кроме того, умножение на диагональную матрицу D соответствует масштабированию частотных полос, и из этого следует, что y является представлением частотной области разности.

Напротив, разложение по собственным значениям имеет физическую интерпретацию, только когда длина окна приближается к бесконечности, когда разложение по собственным значениям и преобразование Фурье совпадают. Конечная длина разложения по собственным значениям, таким образом, свободно относится к представлению частоты сигнала, но маркировка компонентов по частотам затруднительная. Однако, разложение по собственным значениям, как известно, является оптимальным основанием, посредством чего оно может в некоторых случаях дать наилучшую производительность.

Исходя из этих двух матриц V и D, разложенных на множители, преобразователь 16 выполняет преобразование 160, в результате чего разностный сигнал x преобразовывается с использованием декоррелированного вектора, заданного уравнением (5).

При условии, что x является не коррелированным белым шумом, отсчеты Vx также будут иметь одинаковое ожидание энергии. В результате этого могут использоваться арифметический кодер или кодер, использующие алгебраическую кодовую книгу для кодирования значений. Однако квантование Vx не является оптимальным относительно целевой функции, поскольку это опускает диагональную матрицу D1/2. С другой стороны, полное преобразование y=D1/2Vx включает в себя масштабирование посредством диагональной матрицы D, и это изменяет ожидание энергии отсчетов y. Создание алгебраической кодовой книги с неоднородной дисперсией не является тривиальным. Таким образом, возможен вариант использовать арифметическую кодовую книгу вместо того, чтобы получить оптимальный расход битов. Тогда арифметическое кодирование может быть задано точно, как раскрыто в [14].

Следует отметить, что, если используется разложение, такое как преобразование Вандермонда или другое комплексное преобразование, действительная и мнимая части являются независимыми случайными переменными. Если дисперсия комплексной переменной равна σ2, то действительная и мнимая части имеют дисперсию σ2/2. Разложения с действительными величинами, такие как разложение по собственным значениям, обеспечивают только действительные значения, посредством чего разделение действительной и мнимой частей не является необходимым. Для более высокой производительности с преобразованиями с комплексными величинами могут быть применены традиционные способы арифметического кодирования комплексных значений.

В соответствии с описанным выше вариантом осуществления коэффициенты предсказания LPC (см. DSLPC) выдаются как сигналы LSF (сигналы с линейным частотным спектром), причем это альтернативный вариант выдать коэффициенты предсказания LPC в матрицах V и D, разложенных на множители (см. DSDV). Этот альтернативный вариант обозначается прерывистой линией, помеченной V,D, и указанием, что DSDV получается из выхода модуля 14 разложения на множители.

Таким образом, другой вариант осуществления изобретения относится к потоку данных (DS), содержащему коэффициенты предсказания LPC в форме двух матриц (DSVD), разложенных на множители.

Со ссылкой на фиг. 2 будут описаны декодер 20 и соответствующий способ 200 декодирования.

Фиг. 2А показывает декодер 20, содержащий стадию 22 декодирования, факультативный модуль 24 разложения на множители, обратный преобразователь 26 и стадию 28 синтеза. Стадия 22 декодирования, а также модуль 24 разложения на множители размещены на входе декодера 20 и, таким образом, выполнены с возможностью принимать поток DS данных. Более подробно, первая часть потока DS данных, а именно коэффициенты линейного предсказания, обеспечиваются факультативному модулю 24 разложения на множители (см. DSLPC/DSDV), причем вторая часть, а именно квантованный разностный сигнал преобразования или закодированный квантованный преобразованный разностный сигнал обеспечивается стадии 22 кодирования (см. DSŷ). Стадия 28 синтеза размещена на выходе декодера 20 и выполнена с возможностью выдавать аудиосигнал AS', подобный, но не равный аудиосигналу AS.

Синтез аудиосигнала AS' основан на коэффициентах LPC (см. DSLPC/DSDV) и основан на разностном сигнале x. Таким образом, стадия 28 синтеза соединена со входом для приема сигнала DSLPC и с обратным преобразователем 26, обеспечивающим разностный сигнал x. Обратный преобразователь 26 вычисляет разностный сигнал x на основе преобразованного разностного сигнала y и на основе по меньшей мере двух матриц V и D, разложенных на множители. Таким образом, обратный преобразователь 26 имеет по меньшей мере два входа, а именно первый для приема V и D, например, от модуля 24 разложения на множители, и один для приема преобразованного разностного сигнала y от стадии декодера.

Ниже будет подробно описана функциональность декодера 20 со ссылкой на соответствующий способ 200, проиллюстрированный на фиг. 2В. Декодер 20 принимает поток DS данных (от кодера). Этот сигнал DS данных позволяет декодеру 20 синтезировать аудиосигнал AS', причем часть потока данных, называемая DSLPC/DSDV, дает возможность синтезировать основной сигнал, и причем часть, называемая DSŷ, дает возможность синтезировать подробную часть аудиосигнала AS'. На первом этапе 220 стадия 22 декодера декодирует входящий сигнал DSŷ и выдает преобразованный разностный сигнал y обратному преобразователю 26 (см. этап 260).

Параллельно или последовательно модуль 24 разложения на множители выполняет разложение на множители (см. этап 240). Как описано относительно этапа 140, модуль 24 разложения на множители применяет разложение на множители к автокорреляционной матрице R или ковариационной матрице C функции синтезирующей фильтрации H, т.е. это разложение на множители, используемое декодером 20, подобно или почти подобно разложению на множители, описанному в контексте кодирования (см. способ 100), и, таким образом, может представлять собой разложение по собственным значениям или разложение на множители Холецкого, как описано выше. Здесь функция синтезирующей фильтрации H отклонена от входящего потока DSLPC/DSDV данных. Кроме того, модуль 24 разложения на множители выдает две матрицы V и D, разложенные на множители, обратному преобразователю 26.

На основе двух матриц V и D обратный преобразователь 26 обратно преобразовывает разностный сигнал x из преобразованного разностного сигнала y и выдает x стадии 28 синтеза (см. этап 280). Стадия 28 синтеза синтезирует аудиосигнал AS' на основе разностного сигнала x, а также на основе коэффициентов LPC, принятых как поток DSLPC/DSDV данных. Следует отметить, что аудиосигнал AS' подобен, но не равен аудиосигналу AS, поскольку квантование, выполненное кодером 10, не является квантованием без потерь.

В соответствии с другим вариантом осуществления матрицы V и D, разложенные на множители, могут быть обеспечены обратному преобразователю 26 от другого объекта, например, непосредственно от кодера 10 (как часть потока данных). Таким образом, модуль 24 разложения на множители декодера 20, а также этап 240 разложения матрицы на множители, являются факультативными объектами/этапами, и, таким образом, проиллюстрированы пунктирными линиями. Здесь может быть альтернативный вариант, в котором коэффициенты предсказания LPC (на основе которых выполняется синтез 280) могут быть выведены из входящих матриц V и D, разложенных на множители. Другими словами, это означает, что поток DS данных содержит DSŷ и матрицы V и D (т.е. DSDV) вместо DSŷ и DSLPC.

Повышение производительности описанного выше кодирования (а также декодирования) описаны ниже относительно Фиг. 3А и 3В.

Фиг. 3А показывает схему, иллюстрирующую среднее перцепционное соотношение сигнал/шум как функцию битов, используемых для кодирования принимаемой длины, и равных 64 кадрам. В схеме проиллюстрированы пять кривых для пяти разных подходов квантования, причем два подхода, а именно, оптимальное квантование и попарное итерационное квантование представляют собой традиционные подходы. Формула (1) формирует основу этого сравнения. В качестве сравнения производительности квантования предложенного способа декорреляции с традиционным представлением временной области разностного сигнала кодек ACELP был реализован следующим образом. Входной сигнал был подвергнут повторной дискретизации до 12,8 кГц, и линейный предсказатель был оценен с окном Хэмминга длиной 32 мс, центрированным в каждом кадре. Затем была вычислена разность предсказания для кадров длиной 5 мс, соответствующих субкадру кодека AMR-WB. Долговременный прогноз был оптимизирован с помощью целочисленных задержек между 32 и 150 отсчетами с полным перебором. Оптимальное значение использовалось для коэффициента усиления LTP без квантования.

Предыскажение с фильтром (1-0.68z-1) было применено ко входному сигналу и при синтезе, как в AMR-WB. Примененное перцепционное взвешивание составляло A(0.92z-1), где A(z) - фильтр с линейным предсказанием.

Чтобы оценить производительность, необходимо сравнить предложенное квантование с традиционными подходами (оптимальным квантованием и попарным итерационным квантованием). Чаще всего используемые подходы делят разностный сигнал кадра длиной 64 кадра на четыре перемежающихся дорожки. Этот подход был применен с двумя способами, а именно с подходом оптимального квантования (см. "Опт"), в котором все комбинации опробуются с полным перебором, или с попарным итерационным квантованием (см. "Пара"), в котором два импульса последовательно добавлялись посредством опробования их на каждой возможной позиции.

Первый из способов становится невыполнимо сложным в вычислительном отношении для скоростей передачи выше 15 битов за кадр, в то время как последний является субоптимальным. Следует отметить, что последний их них также более сложен, чем способы предшествующего уровня техники, применяемые в таких кодеках, как AMR-WB, но, таким образом, он также наиболее вероятно получает более хорошее соотношение сигнал/шум. Традиционные способы сравниваются с описанными выше алгоритмами для квантования.

Квантование Вандермонда (см. "Ванд") преобразовывает разностный вектор x как y=D1/2Vx, где матрицы V и D получены из разложения на множители Вандермонда, и квантование использует арифметический кодер. Квантование по собственным значениям (см. "Собст") является подобным квантованию Вандермонда, но матрицы V и D получены посредством разложения по собственным значениям. Кроме того, также может быть применено квантование FFT (см. "FFT"), т.е. в соответствии с дополнительным вариантом осуществления комбинация окон с использованием фильтров при преобразовании y=D1/2Vx может использоваться вместо дискретного преобразования Фурье (DFT), дискретного косинусного преобразования (DCT), модифицированного дискретного косинусного преобразования (MDCT) или других преобразований в алгоритмах обработки сигналов. Взято быстрое преобразование Фурье (FFT) разностного сигнала, причем применен тот же самый арифметический кодер, как для квантования Вандермонда. Подход FFT, очевидно, дает низкое качество, поскольку известно, что важно принимать во внимание корреляцию между отсчетами в уравнении (2). Таким образом, это квантование является нижним ориентиром.

Демонстрация производительности описанного способа проиллюстрирована на фиг. 3А, оценивающей среднее долгосрочное перцепционное соотношение сигнал/шум и сложность способов, заданных уравнением (1). Можно ясно видеть, что, как и ожидалось, квантование в области FFT дает наихудшее соотношение сигнал/шум. Низкая производительность может быть приписана тому факту, что это квантование не принимает во внимание корреляцию между разностными отсчетами. Кроме того, это может быть заявлено, что оптимальное квантование разностных сигналов во временной области равно попарной оптимизации при 5 и 10 битах на кадр, поскольку на этих скоростях передачи они имеют только 1 или 2 импульса, посредством чего способы точно одинаковы. Для 15 битов за кадр оптимальный способ немного лучше, чем попарная оптимизация, как и ожидалось.

При 10 битах на кадр и выше квантование в области Вандермонда лучше, чем квантование во временной области, и квантование в области собственных значений на один шаг лучше, чем квантование в области Вандермонда. При 5 битах на кадр производительность арифметичес