Способ кодирования, кодер, способ определения величины периодического признака, устройство определения величины периодического признака, программа и носитель записи

Иллюстрации

Показать все

Изобретение относится к области кодирования аудиосигнала. Технический результат - повышение качества кодирования звукового сигнала при низкой скорости передачи битов с меньшим количеством обработки. Способ кодирования для кодирования последовательности отсчетов в частотной области, которая выводится из аудиосигнала в кадрах, содержит: этап определения интервала для определения интервала Т между отсчетами из набора S возможных вариантов для интервала Т, причем интервал Т соответствует периодичности аудиосигнала или целому кратному основной частоты аудиосигнала; этап генерирования дополнительной информации для кодирования интервала Т, определенного на этапе определения интервала, для получения дополнительной информации и этап кодирования последовательности отсчетов для кодирования переупорядоченного отсчета для получения кодовой последовательности. 5 н. и 17 з.п. ф-лы, 10 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Настоящее изобретение относится к методу кодирования аудиосигнала и, в частности, к кодированию последовательностей отсчетов в частотной области, которые получаются посредством преобразования аудиосигнала в частотную область, и к методу определения величины периодического признака (например, основной частоты или периода основного тона), которая может использоваться в качестве индикатора для переупорядочения последовательностей отсчетов при кодировании.

УРОВЕНЬ ТЕХНИКИ

Адаптивное кодирование, которое кодирует коэффициенты ортогональных полиномов, такие как коэффициенты дискретного преобразования Фурье (DFT) и модифицированного дискретного косинусного преобразования (MDCT), известно в качестве способа кодирования речевых сигналов и аудиосигналов при низких битовых скоростях передачи (например, около 10-20 кбит/с). Например, усовершенствованный широкополосный многоскоростной адаптивный кодек (AMR-WB+), который является стандартным методом, имеет режим кодирования с преобразованием кодированного возбуждения (TCX), в котором коэффициенты DFT нормализуются и выполняется векторное квантование каждые 8 отсчетов.

При взвешивающем векторном квантовании с перемежением и преобразованием областей (TwinVQ) все коэффициенты MDCT переупорядочиваются в соответствии с фиксированным правилом, и результирующая совокупность отсчетов объединяется в векторы и кодируется. В некоторых случаях TwinVQ используется способ, в котором большие составляющие выводятся из коэффициентов MDCT, например, каждый период основного тона, информация, соответствующая периоду основного тона, кодируется, оставшиеся последовательности коэффициентов MDCT после извлечения больших составляющих в каждом периоде основного тона переупорядочиваются, и выполняется векторное квантование переупорядоченных последовательностей коэффициентов MDCT через каждое предварительно определенное количество отсчетов. Примеры ссылок на TwinVQ включают в себя непатентную литературу 1 и 2.

Примером метода для извлечения отсчетов с регулярными интервалами для кодирования является метод, описанный в патентной литературе 1.

ЛИТЕРАТУРА ИЗВЕСТНОГО УРОВНЯ ТЕХНИКИ

[Патентная литература]

Патентная литература 1: выложенная заявка на патент Японии № 2009-156971.

[Непатентная литература]

Непатентная литература 1: T. Moriya, N.Iwakami, A. Jin, K. Ikeda, and S. Miki, “A Design of Transform Coder for Both Speech and Audio Signals at 1 bit/sample,” Proc. ICASSP '97, pp.1371-1384, 1997.

Непатентная литература 2: J. Herre, E. Allamanche, K. Brandenburg, M. Dietz, B. Teichmann, B. Grill, A. Jin, T. Moriya, N. Iwakami, T. Norimatsu, M.Tsushima, T. Ishikawa, “The Integrated Filterbank Based Scalable MPEG-4, Audio Coder,” 105th Convention Audio Engineering Society, 4810, 1998.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

[Проблема, решаемая изобретением]

Так как кодирование, основанное на TCX, такое как AMR-WB+, не учитывает изменений амплитуды коэффициентов частотной области, основанных на периодичности, уменьшается эффективность кодирования, когда изменяющиеся амплитуды кодируются вместе. Имеются изменения квантования и кодирования, основанные на TCX. В данном случае, рассматривается пример, в котором энтропийное кодирование применяется к последовательности коэффициентов MDCT, которые представляют собой дискретные значения, полученные квантованием и расположенные в возрастающем порядке частоты для достижения сжатия. В данном случае, множество отсчетов обрабатываются как один символ (блок кодирования), и назначаемый символу код адаптивно управляется в зависимости от символа, непосредственно предшествующего этому символу. Как правило, более короткие коды назначаются символам с меньшими амплитудами, и более длинные коды назначаются символам с большими амплитудами. Так как назначаемые коды адаптивно управляются в зависимости от непосредственно предшествующего символа, назначаются все более короткие коды, когда в последовательности встречаются значения с малыми амплитудами. Когда отсчет со значительно большей амплитудой неожиданно появляется после отсчета с малой амплитудой, этому отсчету назначается очень длинный код.

Обычный TwinVQ был разработан с предположением, что используется векторное квантование с кодом фиксированной длины, где коды с одинаковой длиной назначаются каждому вектору, составленному из данных отсчетов, и предполагалось, что он не будет использоваться для кодирования коэффициентов MDCT посредством кодирования с переменной длиной.

В свете вышеописанного технического объяснения задачей настоящего изобретения является обеспечение метода кодирования, который повышает качество дискретных сигналов, особенно цифровых сигналов речи/аудио, кодированных посредством низкоскоростного кодирования с малым объемом вычислений, и обеспечение метода определения величины периодического признака, которая может использоваться в качестве индикатора для переупорядочения последовательностей отсчетов при кодировании.

[Средства для решения проблем]

Согласно методу кодирования настоящего изобретения способ кодирования для кодирования последовательности отсчетов в частотной области, которые выводятся из аудиосигналов в кадрах, включает в себя этап определения интервала для определения интервала T между отсчетами, которые соответствуют периодичности аудиосигнала или целому кратному основной частоты аудиосигнала из набора S возможных вариантов для интервала T, этап генерирования дополнительной информации для кодирования интервала T, определенного на этапе определения интервала, для получения дополнительной информации, и этап кодирования последовательности отсчетов для кодирования переупорядоченной последовательности отсчетов для получения кодовой последовательности, причем переупорядоченная последовательность отсчетов (1) включает в себя все отсчеты в последовательности отсчетов и (2) представляет собой последовательность отсчетов, в которой по меньшей мере некоторые из последовательностей отсчетов переупорядочиваются так, что все или некоторые из одного или множества последовательных отсчетов, включающих в себя отсчет, соответствующий периодичности или основной частоте аудиосигнала в последовательности отсчетов, и один или множество последовательных отсчетов, включающих в себя отсчет, соответствующий целому кратному периодичности или основной частоте аудиосигнала в последовательности отсчетов, собираются вместе в кластер на основе интервала T, определяемого этапом определения интервала. На этапе определения интервала интервал T определяется из набора S, составленного из Y возможных вариантов (где Y<Z), из числа Z возможных вариантов для интервала T, представляемого с дополнительной информацией, причем Y возможных вариантов включают в себя Z2 возможных вариантов (где Z2<Z), выбранных без зависимости от возможного варианта, подвергаемого этапу определения интервала в кадре, предшествующем предварительно определенному количеству кадров перед текущим кадром, и включают в себя возможный вариант, подвергаемый этапу определения интервала в кадре, предшествующем предварительно определенному количеству кадров перед текущим кадром.

Этап определения интервала может дополнительно включать в себя этап добавления для добавления к набору S значения, соседнего возможному варианту, подвергаемому этапу определения интервала, в кадре, предшествующем предварительно определенному количеству кадров перед текущим кадром, и/или значения, имеющего предварительно определенное отличие от возможного варианта.

Этап определения интервала может дополнительно включать в себя этап предварительного выбора для выбора некоторых из Z1 возможных вариантов из числа Z возможных вариантов для интервала T, представляемого с дополнительной информацией, в качестве Z2 возможных вариантов на основе индикатора, получаемого из аудиосигнала и/или последовательности отсчетов в текущем кадре, где Z2<Z1.

Этап определения интервала может дополнительно включать в себя этап предварительного выбора для выбора некоторых из Z1 возможных вариантов из числа Z возможных вариантов для интервала T, представляемого с дополнительной информацией, на основе индикатора, получаемого из аудиосигнала и/или последовательности отсчетов в текущем кадре, и второй этап добавления для выбора, в качестве Z2 возможных вариантов, набора из возможного варианта, выбранного на этапе предварительного выбора, и значения, соседнего для возможного варианта, выбранного на этапе предварительного выбора, и/или значения, имеющего предварительно определенное отличие от возможного варианта, выбранного на этапе предварительного выбора.

Этап определения интервала может включать в себя второй этап предварительного выбора для выбора некоторых из возможных вариантов для интервала T, которые включены в набор S, на основе индикатора, получаемого из аудиосигнала и/или последовательности отсчетов в текущем кадре, и этап окончательного выбора для определения интервала T из набора, составленного из некоторых из возможных вариантов, выбранных на втором этапе предварительного выбора.

Также возможна конфигурация, где чем больше индикатор, указывающий степень стационарности аудиосигнала в текущем кадре, тем больше доля возможных вариантов, подвергаемых этапу определения интервала в кадре, предшествующем предварительно определенному количеству кадров перед текущим кадром, в наборе S.

Также возможна конфигурация, где, когда индикатор, указывающий степень стационарности аудиосигнала в текущем кадре, меньше предварительно определенного порога, только Z2 возможных вариантов включается в набор S.

Индикатор, указывающий степень стационарности аудиосигнала в текущем кадре, увеличивается, когда выполняется по меньшей мере одно из нижеследующих условий:

(a-1) увеличивается «коэффициент усиления предсказания аудиосигнала в текущем кадре»,

(a-2) увеличивается «оцененный коэффициент усиления предсказания аудиосигнала в текущем кадре»,

(b-1) уменьшается разность между «коэффициентом усиления предсказания аудиосигнала в кадре, непосредственно предшествующем текущему кадру», и «коэффициентом усиления предсказания аудиосигнала в текущем кадре»,

(b-2) уменьшается разность между «оцененным коэффициентом усиления предсказания в непосредственно предшествующем кадре» и «оцененным коэффициентом усиления предсказания в текущем кадре»,

(c-1) увеличивается «сумма амплитуд отсчетов аудиосигнала, включенных в текущий кадр»,

(c-2) увеличивается «сумма амплитуд отсчетов, включенных в последовательность отсчетов, полученную посредством преобразования последовательности отсчетов аудиосигнала, включенной в текущий кадр, в частотную область»,

(d-1) уменьшается разность между «суммой амплитуд отсчетов аудиосигнала, включенных в непосредственно предшествующий кадр» и «суммой амплитуд отсчетов аудиосигнала, включенных в текущий кадр»,

(d-2) уменьшается разность между «суммой амплитуд отсчетов, включенных в последовательность отсчетов, полученную посредством преобразования последовательности отсчетов аудиосигнала, включенной в непосредственно предшествующий кадр, в частотную область», и «суммой амплитуд отсчетов, включенных в последовательность отсчетов, полученную посредством преобразования последовательности отсчетов аудиосигнала, включенной в текущий кадр, в частотную область»,

(e-1) увеличивается «мощность аудиосигнала в текущем кадре»,

(e-2) увеличивается «мощность последовательности отсчетов, полученной посредством преобразования последовательности отсчетов аудиосигнала в текущем кадре, в частотную область»,

(f-1) уменьшается разность между «мощностью аудиосигнала в непосредственно предшествующем кадре» и «мощностью аудиосигнала в текущем кадре», и

(f-2) уменьшается разность между «мощностью последовательности отсчетов, полученной посредством преобразования последовательности отсчетов аудиосигнала в непосредственно предшествующем кадре, в частотную область», и «мощностью последовательности отсчетов, полученной посредством преобразования последовательности отсчетов аудиосигнала в текущем кадре, в частотную область».

Этап кодирования последовательности отсчетов может включать в себя этап вывода кодовой последовательности, полученной посредством кодирования последовательности отсчетов перед выполнением переупорядочения, или кодовой последовательности, полученной посредством кодирования переупорядоченной последовательности отсчетов и дополнительной информации, которая имеет меньшую величину кода.

Этап кодирования последовательности отсчетов может выводить кодовую последовательность, полученную посредством кодирования переупорядоченной последовательности отсчетов и дополнительной информации, когда сумма величины кода или оцененного значения величины кода кодовой последовательности, полученной посредством кодирования переупорядоченной последовательности отсчетов, и величины кода дополнительной информации меньше величины кода или оцененного значения величины кода кодовой последовательности, полученной посредством кодирования последовательности отсчетов перед выполнением переупорядочения, и может выводить кодовую последовательность, полученную посредством кодирования последовательности отсчетов перед выполнением переупорядочения, когда величина кода или оцененное значение величины кода кодовой последовательности, полученной посредством кодирования последовательности отсчетов перед выполнением переупорядочения, меньше суммы величины кода или оцененного значения величины кода кодовой последовательности, полученной посредством кодирования переупорядоченной последовательности отсчетов, и величины кода дополнительной информации.

Доля возможных вариантов, подвергаемых этапу определения интервала в кадре, предшествующем предварительно определенному количеству кадров перед текущим кадром, в наборе S может быть больше, когда кодовая последовательность, выводимая в непосредственно предшествующем кадре, представляет собой кодовую последовательность, полученную посредством кодирования переупорядоченной последовательности отсчетов, чем, когда кодовая последовательность, выводимая в непосредственно предшествующем кадре, представляет собой кодовую последовательность, полученную посредством кодирования последовательности отсчетов перед выполнением переупорядочения.

Также возможна конфигурация, где, когда кодовая последовательность, выводимая в непосредственно предшествующем кадре, представляет собой кодовую последовательность, полученную посредством кодирования переупорядочиваемой последовательности отсчетов, набор S включает в себя только Z2 возможных вариантов.

Также возможна конфигурация, где, когда текущим кадром является временно первый кадр, или когда непосредственно предшествующий кадр кодируется посредством способа кодирования, отличного от способа кодирования настоящего изобретения, или когда кодовая последовательность, выводимая в непосредственно предшествующем кадре, представляет собой кодовую последовательность, полученную посредством кодирования переупорядочиваемой последовательности отсчетов, набор S включает в себя только Z2 возможных вариантов.

Способ определения величины периодического признака аудиосигнала в кадрах согласно настоящему изобретению включает в себя этап определения величины периодического признака для определения величины периодического признака аудиосигнала из набора возможных вариантов для величины периодического признака на покадровой основе, и этап генерирования дополнительной информации для кодирования величины периодического признака, полученной на этапе определения величины периодического признака, с целью получения дополнительной информации. На этапе определения величины периодического признака определяется величина периодического признака из набора S, составленного из Y возможных вариантов (где Y<Z) из числа Z возможных вариантов для величины периодического признака, представляемой с дополнительной информацией, причем Y возможных вариантов включают в себя Z2 возможных вариантов (где Z2<Z), выбранных без зависимости от возможного варианта, подвергаемого этапу определения величины периодического признака в кадре, предшествующем предварительно определенному количеству кадров перед текущим кадром, и включают в себя возможный вариант, подвергаемый этапу определения величины периодического признака в кадре, предшествующем предварительно определенному количеству кадров перед текущим кадром.

Этап определения величины периодического признака может дополнительно включать в себя этап добавления для добавления к набору S значения, соседнего возможному варианту, подвергаемому этапу определения величины периодического признака в кадре, предшествующем предварительно определенному количеству кадров перед текущим кадром, и/или значения, имеющего предварительно определенное отличие от возможного варианта.

Также возможна конфигурация, где, чем больше индикатор, указывающий степень стационарности аудиосигнала в текущем кадре, тем больше доля возможных вариантов, подвергаемых этапу определения величины периодического признака в кадре, предшествующем предварительно определенному количеству кадров перед текущим кадром, в наборе S.

Также возможна конфигурация, где, когда индикатор, указывающий степень стационарности аудиосигнала в текущем кадре, меньше предварительно определенного порога, только Z2 возможных вариантов включены в набор S.

Индикатор, указывающий степень стационарности аудиосигнала в текущем кадре, увеличивается, когда выполняется по меньшей мере одно из условий:

(a-1) увеличивается «коэффициент усиления предсказания аудиосигнала в текущем кадре»,

(a-2) увеличивается «оцененный коэффициент усиления предсказания аудиосигнала в текущем кадре»,

(b-1) уменьшается разность между «коэффициентом усиления предсказания аудиосигнала в кадре, непосредственно предшествующем текущему кадру», и «коэффициентом усиления предсказания аудиосигнала в текущем кадре»,

(b-2) уменьшается разность между «оцененным коэффициентом усиления предсказания в непосредственно предшествующем кадре» и «оцененным коэффициентом усиления предсказания в текущем кадре»,

(c-1) увеличивается «сумма амплитуд отсчетов аудиосигнала, включенных в текущий кадр»,

(c-2) увеличивается «сумма амплитуд отсчетов, включенных в последовательность отсчетов, полученную посредством преобразования последовательности отсчетов аудиосигнала, включенной в текущий кадр, в частотную область»,

(d-1) уменьшается разность между «суммой амплитуд отсчетов аудиосигнала, включенных в непосредственно предшествующий кадр» и «суммой амплитуд отсчетов аудиосигнала, включенных в текущий кадр»,

(d-2) уменьшается разность между «суммой амплитуд отсчетов, включенных в последовательность отсчетов, полученную посредством преобразования последовательности отсчетов аудиосигнала, включенной в непосредственно предшествующий кадр, в частотную область», и «суммой амплитуд отсчетов, включенных в последовательность отсчетов, полученную посредством преобразования последовательности отсчетов аудиосигнала, включенной в текущий кадр, в частотную область»,

(e-1) увеличивается «мощность аудиосигнала в текущем кадре»,

(e-2) увеличивается «мощность последовательности отсчетов, полученной посредством преобразования последовательности отсчетов аудиосигнала в текущем кадре, в частотную область»,

(f-1) уменьшается разность между «мощностью аудиосигнала в непосредственно предшествующем кадре» и «мощностью аудиосигнала в текущем кадре», и

(f-2) уменьшается разность между «мощностью последовательности отсчетов, полученной посредством преобразования последовательности отсчетов аудиосигнала в непосредственно предшествующем кадре, в частотную область», и «мощностью последовательности отсчетов, полученной посредством преобразования последовательности отсчетов аудиосигнала в текущем кадре, в частотную область».

ТЕХНИЧЕСКИЙ РЕЗУЛЬТАТ ИЗОБРЕТЕНИЯ

Согласно настоящему изобретению по меньшей мере некоторые из отсчетов, включенных в последовательность отсчетов в частотной области, которые выводятся из аудиосигнала, например, переупорядочиваются так, что объединяются в кластер один или множество последовательных отсчетов, включающих в себя отсчет, соответствующий периодичности или основной частоте аудиосигнала, и один или множество последовательных отсчетов, включающих в себя отсчеты, соответствующие целым кратным периодичности или основной частоте аудиосигнала. Эта обработка может выполняться с малым объемом вычислений переупорядочения отсчетов, имеющих равные или почти равные индикаторы, которые отражают величины отсчетов, собираются вместе в кластер, и, таким образом, улучшается эффективность кодирования, и уменьшаются искажения квантования. Кроме того, может эффективно определяться величина периодического признака текущего кадра или интервал, так как возможный вариант для величины периодического признака или интервала, который рассматривался в предшествующем кадре, принимается во внимание на основе сущности аудиосигнала в периоде, где аудиосигнал находится в стационарном состоянии.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг. 1 представляет собой схему, иллюстрирующую примерную функциональную конфигурацию варианта осуществления кодера;

фиг. 2 представляет собой схему, иллюстрирующую процедуру процесса варианта осуществления способа кодирования;

фиг. 3 представляет собой примерную схему, иллюстрирующую пример переупорядочения отсчетов, включенных в последовательность отсчетов;

фиг. 4 представляет собой примерную схему, иллюстрирующую пример переупорядочения отсчетов, включенных в последовательность отсчетов;

фиг. 5 представляет собой схему, иллюстрирующую примерную функциональную конфигурацию варианта осуществления декодера;

фиг. 6 представляет собой схему, иллюстрирующую процедуру процесса варианта осуществления способа декодирования;

фиг. 7 представляет собой схему, иллюстрирующую пример функции процесса для определения интервала T;

фиг. 8 представляет собой схему, иллюстрирующую пример процедуры процесса для определения интервала T;

фиг. 9 представляет собой схему, иллюстрирующую модификацию процедуры процесса для определения интервала T; и

фиг. 10 представляет собой схему, иллюстрирующую модификацию варианта осуществления кодера.

ПОДРОБНОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

Варианты осуществления настоящего изобретения описываются со ссылкой на чертежи. Одинаковым элементам присвоены одинаковые ссылочные позиции, и опускается повторное описание этих элементов.

Одним из признаков настоящего изобретения является улучшение кодирования с целью снижения искажений квантования посредством переупорядочения отсчетов, основываясь на признаке отсчетов частотной области и снижения величины кода посредством использования кодирования с переменной длиной в инфраструктуре квантования последовательностей отсчетов частотной области, выводимых из аудиосигнала в данном периоде времени. Данный период времени ниже в данном документе упоминается как кадр. Кодирование может улучшаться посредством переупорядочения отсчетов в кадре, в котором основная периодичность, например, является относительно очевидной в соответствии с периодичностью для сбора отсчетов, имеющих большие амплитуды, вместе в кластер. Примеры отсчетов в частотной области, которые выводятся из аудиосигнала, включают в себя последовательности коэффициентов DFT и последовательности коэффициентов MDCT, полученные посредством преобразования цифрового сигнала речи/аудио в кадрах во временной области в частотную область, и последовательности коэффициентов, полученные посредством применения нормализации, взвешивания и квантования к этим последовательностям коэффициентов. Варианты осуществления настоящего изобретения описываются ниже с последовательностями коэффициентов MDCT в качестве примера.

[Варианты осуществления]

Процесс кодирования

Процесс кодирования описывается сначала со ссылкой на фиг. 1-4. Процесс кодирования настоящего изобретения выполняется кодером 100 на фиг. 1, который включает в себя блок 1 преобразования частотной области, блок 2 нормализации взвешенной огибающей, блок 3 вычисления нормализованного коэффициента усиления, блок 4 квантования, блок 5 переупорядочения и блок 6 кодирования, или кодером 100a на фиг. 10, который включает в себя блок 1 преобразования частотной области, блок 2 нормализации взвешенной огибающей, блок 3 вычисления нормализованного коэффициента усиления, блок 4 квантования, блок 5 переупорядочения, блок 6 кодирования, блок 7 определения интервала и блок 8 генерирования дополнительной информации. Однако кодер 100 или 100a необязательно должен включать в себя блок 1 преобразования частотной области, блок 2 нормализации взвешенной огибающей, блок 3 вычисления нормализованного коэффициента усиления и блок 4 квантования. Например, кодер 100 может состоять из блока 5 переупорядочения и блока 6 кодирования; кодер 100a может состоять из блока 5 переупорядочения, блока 6 кодирования, блока 7 определения интервала и блока 8 генерирования дополнительной информации. Хотя в кодере 100a, изображенным на фиг.10, блок 7 определения интервала включает в себя блок 5 переупорядочения, блок 6 кодирования и блок 8 генерирования дополнительной информации, кодер не ограничивается этой конфигурацией.

Блок 1 преобразования частотной области

Сначала блок 1 преобразования частотной области преобразует цифровой сигнал речи/аудио в последовательность коэффициентов MDCT в N точках в частотной области на покадровой основе (этап S1).

Как правило, кодирующая сторона квантует последовательности коэффициентов MDCT, кодирует квантованные последовательности коэффициентов MDCT и передает результирующие кодовые последовательности на декодирующую сторону; декодирующая сторона может восстанавливать квантованные последовательности коэффициентов MDCT из кодовых последовательностей и может дополнительно восстанавливать цифровой сигнал речи/аудио временной области посредством обратного преобразования MDCT. Амплитуда коэффициентов MDCT имеет приблизительно такую же огибающую амплитуды (огибающую спектра мощности) что и спектр мощности обычного DFT. Следовательно, информационное назначение, которое является пропорциональным значению логарифма огибающей амплитуды, может равномерно рассредоточивать искажение квантования (ошибку квантования) коэффициентов MDCT по всем полосам частот, уменьшать общее искажение квантования и сжимать информацию. Следует отметить, что огибающая спектра мощности может эффективно оцениваться посредством использования коэффициента линейного предсказания, полученного посредством анализа на основе линейного предсказания. Способы управления ошибкой квантования включают в себя способ адаптивного назначения битов квантования коэффициентов MDCT (сглаживание амплитуды и затем корректировка размер шага квантования) и способ адаптивного назначения весового коэффициента посредством взвешенного векторного квантования для определения кодов. Необходимо отметить, что, хотя в данном документе описывается один пример способа квантования, выполняемого в варианте осуществления настоящего изобретения, настоящее изобретение не ограничивается описанным способом квантования.

Блок 2 нормализации взвешенной огибающей

Блок 2 нормализации взвешенной огибающей нормализует коэффициенты входной последовательности коэффициентов MDCT посредством использования последовательности коэффициентов огибающей спектра мощности цифрового сигнала речи/аудио, оцениваемого с использованием коэффициента линейного предсказания, полученного анализом на основе линейного предсказания цифрового сигнала речи/аудио в кадре, и выводит взвешенную нормализованную последовательность коэффициентов MDCT (этап S2). В данном случае, чтобы достичь квантования, которое зрительно минимизирует искажения, блок 2 нормализации взвешенной огибающей использует взвешенную последовательность коэффициентов огибающей спектра мощности, полученную посредством ослабления огибающей спектра мощности для нормализации коэффициентов в последовательностях коэффициентов MDCT на покадровой основе. В результате, взвешенная нормализованная последовательность коэффициентов MDCT не имеет завала амплитуды или больших изменений амплитуды по сравнению с входной последовательностью коэффициентов MDCT, но имеет изменения по величине, подобные изменениям последовательности коэффициентов огибающей спектра мощности цифрового сигнала речи/аудио, т.е. взвешенная нормализованная последовательность коэффициентов MDCT имеет в некоторой степени большие амплитуды в области коэффициентов, соответствующих низким частотам, и имеет плавную структуру вследствие периода основного тона.

[Пример процесса нормализации взвешенной огибающей]

Коэффициенты W(1), …, W(N) последовательности коэффициентов огибающей спектра мощности, которые соответствуют коэффициентам X(1), …, X(N) последовательности коэффициентов MDCT в N точках, могут быть получены посредством преобразования коэффициентов линейного преобразования в частотную область. Например, в соответствии с авторегрессионным процессом p-порядка, который представляет собой модель с одними полюсами, временной сигнал x(t) в момент t времени может быть выражен уравнением (1) с предшествующими значениями x(t-1), …, x(t-p) самого временного сигнала в предшествующие p моментов времени, остатками e(t) предсказания и коэффициентами α1, …, αp линейного предсказания. Тогда коэффициенты W(n)[1≤n≤N] последовательности коэффициентов огибающей спектра мощности могут быть выражены уравнением (2), где exp(·) представляет собой экспоненциальную функцию с основанием константы Напьера, j представляет собой мнимую единицу, и σ2 представляет собой энергию остатка предсказания

x ( t ) + α 1 x ( t − 1 ) + ⋯ + α p x ( t − p ) = e ( t )                                                                               (   1 ) W ( n ) = σ 2 2 π 1 | 1 + α 1 exp ( − j n ) + α 2 exp ( − 2 j n ) + ⋯ + α p exp ( − p j n ) | 2         ( 2 )

Коэффициенты линейного предсказания могут быть получены при помощи анализа на основе линейного предсказания блоком 2 нормализации взвешенной огибающей цифрового сигнала речи/аудио в блоке 1 преобразования частотной области или могут быть получены при помощи анализа на основе линейного предсказания цифрового сигнала речи/аудио другими неописанными средствами в кодере 100 или 100a. В этом случае, блок 2 нормализации взвешенной огибающей получает коэффициенты W(1), …, W(N) в последовательности коэффициентов огибающей спектра мощности посредством использования коэффициента линейного предсказания. Если коэффициенты W(1), …, W(N) в последовательности коэффициентов огибающей спектра мощности уже были получены другими средствами (блоком 9 вычисления последовательности коэффициентов огибающей спектра мощности) в кодере 100 или 100a, блок 2 нормализации взвешенной огибающей может использовать коэффициенты W(1), …, W(N) в последовательности коэффициентов огибающей спектра мощности. Следует отметить, что, так как декодеру 200, который описан ниже, необходимо получать эти же значения, полученные в кодере 100 или 100a, используются квантованные коэффициенты линейного предсказания и/или последовательности коэффициентов огибающей спектра мощности. Ниже в данном документе термин «коэффициент линейного предсказания» или «последовательность коэффициентов огибающей спектра мощности» означает квантованный коэффициент линейного предсказания или квантованную последовательность коэффициентов огибающей спектра мощности, если не указано иначе. Коэффициенты линейного предсказания кодируются с использованием обычного метода кодирования, и коды коэффициентов предсказания затем передаются на декодирующую сторону. Обычным методом кодирования может быть метод кодирования, который обеспечивает коды, соответствующие самим коэффициентам линейного предсказания в качестве кодов коэффициентов предсказания, метод кодирования, который преобразует коэффициенты линейного предсказания в параметры LSP и обеспечивает коды, соответствующие параметрам LSP в качестве кодов коэффициентов предсказания, или метод кодирования, который преобразует коэффициенты линейного предсказания в коэффициенты PARCOR и обеспечивает коды, соответствующие коэффициентам PARCOR, например, в качестве кодов коэффициентов предсказания. Если последовательности коэффициентов огибающей спектра мощности получаются другими средствами, обеспечиваемыми в кодере 100 или 100a, другие средства в кодере 100 или 100a кодируют коэффициенты линейного предсказания посредством обычного метода кодирования и передают коды коэффициентов предсказания на декодирующую сторону.

Хотя ниже в данном документе приведены два примера процесса нормализации взвешенной огибающей, настоящее изобретение не ограничивается этими примерами.

<Пример 1>

Блок 2 нормализации взвешенной огибающей делит коэффициенты X(1), …, X(N) в последовательности коэффициентов MDCT на значения Wγ(1), …, Wγ(N) модификации коэффициентов в последовательности коэффициентов огибающей спектра мощности, которые соответствуют коэффициентам для получения коэффициентов X(1)/Wγ(1), …, X(N)/Wγ(N) во взвешенной нормализованной последовательности коэффициентов MDCT. Значения Wγ(n)[1≤n≤N] модификации определяются по уравнению (3), где γ представляет собой положительную константу, которая меньше или равна 1, и ослабляет коэффициенты спектра мощности.

<Пример 2>

Блок 2 нормализации взвешенной огибающей делит коэффициенты X(1), …, X(N) в последовательности коэффициентов MDCT на возведенные в степень значения W(1)β, …, W(N)β, которые получаются возведением коэффициентов в последовательности коэффициентов огибающей спектра мощности, которые соответствуют коэффициентам X(1), …, X(N), в β-степень (0<β<1) для получения коэффициентов X(1)/W(1)β, …, X(N)/W(N)β во взвешенной нормализованной последовательности коэффициентов MDCT.

В результате получается взвешенная нормализованная последовательность коэффициентов MDCT в кадре. Взвешенная нормализованная последовательность коэффициентов MDCT не имеет завала амплитуды или большие изменения амплитуды по сравнению с входной последовательностью коэффициентов MDCT, но имеет изменения по величине, подобные изменениям огибающей спектра мощности входной последовательности коэффициентов MDCT, т.е. взвешенная нормализованная последовательность коэффициентов MDCT имеет в некоторой степени большие амплитуды в области коэффициентов, соответствующих низким