Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx

Иллюстрации

Показать все

Изобретение относится к способу введения низкочастотных предыскажений в спектр звукового сигнала, преобразуемого в частотной области и содержащего коэффициенты преобразования, сгруппированные в ряд блоков, в котором вычисляется максимальная интенсивность для одного блока и определяется индекс позиции блока с максимальной интенсивностью, рассчитывается коэффициент для каждого блока, имеющего индекс позиции меньше индекса позиции блока с максимальной интенсивностью, и для каждого блока определяется усиление из коэффициента и применяется к коэффициентам преобразования блока. Технический результат - повышение эффективности кодирования. 7 н. и 22 з.п. ф-лы, 4 табл., 28 ил.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение относится к кодированию и декодированию звуковых сигналов, например, в системах цифровой передачи и хранения данных. В частности, но не только, настоящее изобретение относится к гибридному преобразованию и кодированию и декодированию на основе линейного предсказания с кодовым возбуждением (CELP).

Уровень техники

Цифровое представление информации предоставляет много преимуществ. В случае звуковых сигналов, информация, такая как речь или музыкальный сигнал, оцифровывается с помощью, например, формата PCM (импульсно-кодовая модуляция). Сигнал, таким образом, дискретизируется и квантуется с помощью, например, 16 или 20 бит на выборку. Хотя простой формат PCM требует высокой скорости передачи в битах (число бит в секунду или бит/с). Это ограничение является основной мотивировкой для разработки эффективных методик кодирования источника, допускающих уменьшение исходной скорости передачи в битах и удовлетворяющих конкретным ограничениям множества вариантов применения в отношении качества звука, задержки кодирования и сложности.

Функция цифрового кодера звука заключается в том, чтобы преобразовывать звуковой сигнал в поток бит, который, например, передается по каналу связи или сохраняется в носителе связи. Здесь рассматривается кодирование источника с потерями, т.е. сжатие сигнала. Более конкретно, роль цифрового кодера звука заключается в том, чтобы представлять выборки, например, PCM-выборки, с помощью меньшего числа бит при сохранении хорошего субъективного качества звука. Декодер или синтезатор отвечает за переданный или сохраненный поток битов, чтобы преобразовать его обратно в звуковой сигнал. Для введения в способы сжатия сигнала приводится ссылка на [Jayant, 1984] и [Gersho, 1992], а для детального охвата современных методик кодирования речи и звука - на [Kleijn, 1995].

В высококачественном кодировании звука может быть выделено два класса алгоритмов: кодирование на основе линейного предсказания с кодовым возбуждением (CELP), которое разработано, чтобы кодировать в основном речевые сигналы, и кодирование с перцепционным преобразованием (полосное), которое хорошо подходит, чтобы представлять звуковые сигналы. Эти методики позволяют достигать хорошего компромисса между субъективным качеством и скоростью передачи в битах. CELP-кодирование разработано в контексте двунаправленных приложений с малой задержкой, таких как телефония или проведение конференций, где звуковой сигнал типично дискретизируется на, например, 8 или 16 кГц. Кодирование с перцепционным преобразованием применялось, главным образом, к широкополосным полночастотным музыкальным сигналам, дискретизируемым, например, на 32, 44,1 или 48 кГц для вариантов применения потоковой передачи или хранения.

CELP-кодирование [Atal, 1985] - это ключевая структура большинства современных стандартов кодирования речи. Согласно этой модели кодирования речевой сигнал обрабатывается в последовательных блоках из N выборок, называемых кадрами, где N - это предварительно определенное число выборов, соответствующее типично, например, 10-30 мс. Уменьшение скорости передачи в битах достигается посредством удаления временной корреляции между последовательными выборками речи посредством линейного предсказания и использования эффективного векторного квантования (VQ). Фильтр линейного предсказания (LP) вычисляется и передается каждый кадр. Вычисление фильтра LP типично требует просмотра вперед, например, сегмента в 5-10 мс от последующего кадра. В общем, кадр из N выборок делится на меньшие блоки, называемые субкадрами, с тем чтобы применять предсказание основного тона. Длина субкадра может быть задана, например, в диапазоне 4-10 мс. В каждом субкадре сигнал возбуждения обычно получается из двух компонентов, части предыдущего возбуждения и нового возбуждения или возбуждения с фиксированным словарем кодов. Компонент, сформированный из части последнего возбуждения, часто упоминается как возбуждение с адаптивным словарем кодов или возбуждение основным тоном. Параметры, характеризующие сигнал возбуждения, кодируются и передаются декодеру, где сигнал возбуждения восстанавливается и используется в качестве входа LP-фильтра. Примером CELP-кодирования является модель кодирования ACELP (алгебраическое CELP), в которой новый словарь кодов состоит из перемежающихся импульсов со знаком.

Модель CELP разработана в контексте узкополосного кодирования речи, для которого входная полоса пропускания составляет 300-3400 Гц. В случае широкополосных речевых сигналов, заданных в полосе частот 50-7000 Гц, модель CELP обычно используется в подходе разделения полосы частот, где нижняя полоса частот кодируется посредством согласования формы сигнала (CELP-кодирования), а верхняя полоса частот параметрически кодируется. Это разделение полосы пропускания имеет несколько мотивировок.

- Большинство бит кадра может быть выделено сигналу нижней полосы частот, чтобы максимизировать качество.

- Вычислительная сложность (фильтрации и т.д.) может быть уменьшена по сравнению с полнодиапазонным кодированием.

- Кроме того, согласование формы сигнала не очень эффективно для высокочастотных компонентов.

Этот подход разделения полосы частот используется, например, в стандарте широкополосного кодирования речи ETSI AMR-WB. Этот стандарт кодирования задан в [3GPP TS 26.190] и описан в [Bessette, 2002]. Реализация стандарта AMR-WB приведена в [3GPP TS 26.173]. Алгоритм кодирования речи AMR-WB состоит в сущности из разделения входного широкополосного сигнала на нижнюю полосу частот (0-6400 Гц) и верхнюю полосу частот (6400-7000 Гц) и применения алгоритма ACELP только к нижней полосе частот и кодирования верхней полосы частот посредством расширения полосы пропускания (BWE).

Современные методики кодирования звука, например, MPEG-AAC или ITU-T G.722.1, основаны на кодировании с перцепционным восприятием (или полосном кодировании). В кодировании с преобразованием звуковой сигнал временной области обрабатывается посредством перекрывающихся окон соответствующей длины. Уменьшение скорости передачи в битах достигается посредством свойства декорреляции и уплотнения интенсивности конкретного преобразования, а также кодирования только перцепционно значимых коэффициентов преобразования. Оконно кодированный сигнал обычно разлагается (анализируется) посредством дискретного преобразования Фурье (DFT), дискретного косинусного преобразования (DCT) или модифицированного дискретного косинусного преобразования (MDCT). Длина кадра, например, 40-60 мс обычно требуется, чтобы добиться хорошего качества звука. Тем не менее, чтобы представлять переходные состояния и избежать временного рассеяния шума кодирования до атак (опережающее эхо), более короткие кадры по, например, 5-10 мс также используются, чтобы описать нестационарные звуковые сегменты. Ограничение шума квантования достигается посредством нормализации коэффициентов преобразования с помощью коэффициентов масштабирования до квантования. Нормализованные коэффициенты типично кодируются посредством скалярного квантования, после которого следует кодирование методом Хаффмана. Параллельно вычисляется кривая перцепционной маскировки, чтобы управлять процессом квантования и оптимизировать субъективное качество; эта кривая используется, чтобы кодировать наиболее перцепционно значимые коэффициенты преобразования.

Чтобы повысить эффективность кодирования (в частности, на низких скоростях передачи в битах), разделение полосы частот также может быть использовано при кодировании с преобразованием. Этот подход используется, например, в новом высокоэффективном стандарте MPEG-AAC, также называемом aacPlus. В aacPlus сигнал разделяется на два поддиапазона, сигнал нижней полосы частот кодируется посредством кодирования с перцепционным преобразованием (AAC), тогда как сигнал верхней полосы частот описывается посредством так называемой репликации полосы спектра (SBR), которая является типом расширения полосы пропускания (BWE).

В определенных вариантах применения, таких как проведение аудио/видеоконференций, хранение мультимедийных данных и потоковая передача звука, звуковой сигнал состоит типично из речи, музыки и смешанного содержимого. Как следствие, в этих вариантах применения используются методики кодирования звука, которые являются надежными для этого типа входного сигнала. Другими словами, алгоритм кодирования звука должен добиваться хорошего и согласованного качества для широкого класса звуковых сигналов, включая речь и музыку. Тем не менее, известно, что методика CELP является в сущности оптимизированной для речи, но может представлять проблемы, когда используется, чтобы кодировать музыкальные сигналы. Современное кодирование с перцепционным преобразованием, с другой стороны, имеет хорошую производительность для музыкальных сигналов, но не подходит для кодирования речевых сигналов, особенно на низких скоростях передачи в битах.

Далее предусмотрено несколько подходов, чтобы кодировать общие звуковые сигналы, включающие в себя речь и музыку, с хорошим и практически неизменным качеством. Кодирование с предсказанием преобразования, описанное в [Moreau, 1992], [Lefebvre, 1994], [Chen, 1996] и [Chen, 1997], предоставляет хорошую основу для включения методик кодирования речи и музыки в одну структуру. Этот подход объединяет линейное предсказание и кодирование с преобразованием. Методика [Lefebvre, 1994], называемая кодированием TCX (кодированием с преобразованием кодированного возбуждения), которая эквивалентна методикам [Moreau, 1992], [Chen, 1996] и [Chen, 1997], рассматривается в последующем описании.

Первоначально было разработано два варианта кодирования TCX [Lefebvre, 1994]: один для речевых сигналов с помощью коротких кадров и предсказания основного тона, другой для музыкальных сигналов с помощью длинных кадров и без предсказания основного тона. В обоих случаях обработка, вовлеченная в кодирование TCX, может быть разложена на два этапа.

1. Текущий кадр звукового сигнала обрабатывается посредством временной фильтрации, чтобы получить так называемый целевой сигнал, а затем

2. Целевой сигнал кодируется в области преобразования.

Кодирование с преобразованием целевого сигнала использует DFT с прямоугольным оконным кодированием. Однако чтобы уменьшить блокирующие наведенные помехи на границах кадров, оконное кодирование с небольшим перекрытием использовано в [Jbira, 1998] перед DFT. В [Ramprashad, 2001] вместо него используется MDCT с переключением оконного кодирования; MDCT имеет преимущество в том, чтобы предоставлять лучшее частотное разрешение, чем DFT, при этом будучи максимально уменьшенной гребенкой фильтров. Тем не менее, в случае [Ramprashad, 2001] кодер не работает в замкнутом контуре, в частности, для анализа основного тона. В этом отношении кодер [Ramprashad, 2001] не может быть квалифицирован как вариант TCX.

Представление целевого сигнала не только играет роль в кодировании TCX, но также управляет частью качества звука TCX, поскольку оно потребляет большую часть доступных бит в каждом кадре кодирования. Далее приводится ссылка на кодирование с преобразованием в области DFT. Несколько способов предложено, чтобы кодировать целевой сигнал в этой области, см., например, [Lefebvre, 1994], [Xie, 1996], [Jbira, 1998], [Schnitzler, 1999] и [Bessette, 1999]. Все эти способы реализуют форму квантования усиление-форма, означающую, что спектр целевого сигнала сначала нормализуется на коэффициент или глобальное усиление g до фактического кодирования. В [Lefebvre, 1994], [Xie, 1996] и [Jbira, 1998] этот коэффициент g задается равным значению RMS (корень из квадрата среднего) спектра. Тем не менее, в общем, он может быть оптимизирован в каждом кадре посредством тестирования различных значений для коэффициента g, как описано, например, в [Schnitzler, 1999] и [Bessette, 1999]. [Bessette, 1999] не раскрывает фактической оптимизации коэффициента g. Чтобы повысить качество кодирования TCX, шумовая вставка (т.е. вставка комфортного шума вместо неквантованных коэффициентов) использована в [Schnitzler, 1999] и [Bessette, 1999].

Как описано в [Lefebvre, 1994], кодирование TCX может достаточно успешно кодировать широкополосные сигналы, например, сигналы, дискретизированные на 16 кГц; качество звука хорошо для речи при частоте дискретизации в 16 кбит/с и для музыки при частоте дискретизации в 24 кбит/с. Тем не менее, кодирование TCX не так эффективно, как ACELP, для кодирования речевых сигналов. По этой причине стратегия кодирования с переключением ACELP/TCX представлена вкратце в [Bessette, 1999]. Концепция кодирования ACELP/TCX аналогична, например, методике ATCELP (адаптивное преобразование и CELP) по [Combescure, 1999]. Очевидно, качество звука может быть максимизировано посредством переключения между различными режимами, которые фактически специализированы, чтобы кодировать конкретный тип сигнала. Например, кодирование CELP специализировано для речи, а кодирование с преобразованием больше приспособлено для музыки, поэтому естественно объединить эти две методики в многорежимную структуру, в которой каждый звуковой кадр кодируется адаптивно с помощью наиболее подходящего средства кодирования. В кодировании ATCELP переключение между CELP и кодированием с преобразованием не является прозрачным, оно требует переходных режимов. Более того, применяется решение по режиму разомкнутого контура, т.е. решение по режиму выполняется до кодирования на основе доступного звукового сигнала. Наоборот, ACELP/TCX представляет преимущество использования двух однородных режимов линейного предсказания (кодирование ACELP и TCX), что облегчает переключение; более того, решение о режиме является замкнутым контуром, что означает, что все режимы кодирования тестируются, и может быть выбран оптимальный синтез.

Хотя [Bessette, 1999] вкратце описывает стратегию кодирования ACELP/TCX, [Bessette, 1999] не раскрывает решение по режиму ACELP/TCX и подробности квантования целевого сигнала TCX при кодировании ACELP/TCX. Только известно, что базовый способ квантования основан на автомасштабируемом пространственном кратном векторном квантовании, представленном в [Xie, 1996].

Для введения в пространственное векторное квантование приводится ссылка на [Gibson, 1988] и [Gersho, 1992]. N-мерная пространственная решетка - это регулярная матрица точек в N-мерном (евклидовом) пространстве. Например, [Xie, 1996] использует 8-мерную пространственную решетку, известную как решетка Госсета, которая задается следующим образом:

где

D8={(x1, ..., x8) ∈ Z8 / x1+ ... + x8 is odd} (2)

и

D8+(1, ..., 1)={(x1 + 1, ..., x8 + 1) Z8/(x1, ..., x8) D8}. (3)

Эта математическая структура обеспечивает возможность квантования блока из восьми (8) действительных чисел. RE8 также может быть задано более интуитивно, как набор точек (x1, ..., x8), проверяющих свойства:

i. Компоненты xi - это целые числа со знаком (для i=1, ..., 8);

ii. Сумма x1+ ... + x8 кратна 4; и

iii. Компоненты xi имеют одинаковую четность (для i=1, ..., 8), т.е. они все либо четные, либо нечетные.

8-мерный словарь кодов квантования далее может быть получен посредством выбора конечного поднабора RE8. Обычно среднеквадратическая ошибка - это критерий поиска в словаре кодов. В методике [Xie, 1996] шесть (6) различных словарей кодов, называемые Q0, Q1, ..., Q5, задаются на основе пространственной решетки RE8. Каждый словарь кодов Qn, где n=0, 1, ..., 5, содержит 24n точек, что соответствует скорости в An на 8-мерный субвектор или n/2 на выборку. Спектр целевого сигнала TCX, нормализованного посредством масштабированного коэффициента g, затем квантуется посредством его разделения на 8-мерные субвекторы (или поддиапазоны). Каждый из этих субвекторов кодируется в один из словарей кодов Q0, Q1, ..., Q5. Как следствие, квантование целевого сигнала TCX после нормализации на коэффициент g генерирует для каждого 8-мерного субвектора номер словаря кодов n, указывающий то, какой словарь кодов Qn использовался, и индекс I, идентифицирующий конкретный кодовый вектор в словаре кодов Qn. Этот процесс квантования упоминается как кратное пространственное векторное квантование для словарей кодов Qn, имеющих различные скорости. Режим TCX по [Bessette, 1999] следует тому же принципу, хотя не предоставляются подробности ни по вычислению коэффициента нормализации g, ни по мультиплексированию индексов квантования и номеров словарей кодов.

Методика пространственного векторного квантования по [Xie, 1996] на основе RE8 дополнена в [Ragot, 2002], чтобы повысить эффективность и уменьшить сложность. Тем не менее, применение концепции, описанной в [Ragot, 2002], к кодированию TCX никогда не предлагалось.

В устройстве [Ragot, 2002] 8-мерный вектор кодируется посредством кратного квантователя, включающего в себя набор из RE8 словарей кодов, обозначенных как

{Q0, Q2, Q3, ..., Q36}. Словарь кодов Q1 не задается в наборе, чтобы повысить эффективность кодирования. Все словари кодов Qn составляются как поднаборы одной 8-мерной пространственной решетки RE8, Qn RE8. Скорость передачи в битах n-ного словаря кодов, заданная как биты на размерность, составляет 4n/8, т.е. каждый словарь кодов Qn содержит 24n кодовых векторов. Структура кратного квантователя придерживается идеи [Ragot, 2002]. Для данного 8-мерного входного вектора кодер кратного квантователя находит ближайшего соседа в RE8 и выводит номер словаря кодов n и индекс i в соответствующем словаре кодов Qn. Эффективность кодирования повышается посредством применения методики кодирования по энтропии для индексов квантования, т.е. номеров словарей кодов n и индексов i разделений. В [Ragot, 2002] номер словаря кодов n кодируется до мультиплексирования с потоком битов с помощью унарного кода, который содержит число n-1 единиц и нулевой стоповый бит. Номер словаря кодов, представленный посредством унарного кода, обозначается как nE. Для индексов словарей кодов i не используется кодирование по энтропии. Назначение унарного кода и битов из nE и i проиллюстрировано в следующей табл. 1.

Таблица 1 Число бит, требуемых, чтобы индексировать словари кодов
Номер словаря кодов nk Унарный код nEk в двоичной форме Число бит для nEk Число бит для ik Число бит на разделение
0 0 1 0 1
2 10 2 8 10
3 110 3 12 15
4 1110 4 16 20
5 11110 5 20 25

Как проиллюстрировано в табл. 1, один бит необходим для кодирования входного вектора, когда n=0, иначе необходимо 5n бит.

Более того, практической проблемой при кодировании звука является форматирование потока битов и обработка некорректных кадров, также известное как маскировка стирания кадров. Поток бит обычно форматируется на стороне кодирования как последовательные кадры (или блоки) бит. Вследствие искажений в канале (к примеру, нарушения CRC (контроля с помощью циклически избыточного кода), потери или задержки пакетов и т.д.), некоторые кадры могут быть не приняты корректно на стороне декодирования. В этом случае декодер типично принимает признак, объявляющий стирание кадра, и некорректный кадр "декодируется" посредством экстраполяции на основе предшествующей истории декодера. Общая процедура, чтобы обрабатывать некорректные кадры при декодировании CELP, состоит из повторного использования предшествующего фильтра синтеза LP и экстраполирования предыдущего возбуждения.

Чтобы повысить надежность в отношении потерь кадров, повтора параметров, также может быть использовано кодирование с прямым исправлением ошибок (FEC).

Проблема маскировки стирания кадров для TCX или кодирования с переключением ACELP/TCX еще не разрешена в современной технологии.

Сущность изобретения

В соответствии с изобретением предусмотрено следующее.

(1) Способ введения низкочастотных предыскажений в спектр звукового сигнала, преобразованного в частотной области и содержащего коэффициенты преобразования, сгруппированные в множество блоков, при этом способ содержит этапы, на которых:

- вычисляют максимальную интенсивность для одного блока, имеющего индекс позиции;

- вычисляют коэффициент для каждого блока, имеющего индекс позиции меньше индекса позиции блока с максимальной интенсивностью, при этом вычисление кадра содержит, для каждого блока, этапы, на которых:

- вычисляют интенсивность блока; и

- вычисляют коэффициент из вычисленной максимальной интенсивности и вычисленной интенсивности блока; и

- для каждого блока, определяют из коэффициента усиление, применяемое к коэффициентам преобразования блока.

(2) Устройство введения низкочастотных предыскажений в спектр звукового сигнала, преобразованного в частотной области и содержащего коэффициенты преобразования, сгруппированные в множество блоков, при этом устройство содержит:

- средство вычисления максимальной интенсивности для одного блока, имеющего индекс позиции;

- средство вычисления коэффициента для каждого блока, имеющего индекс позиции меньше индекса позиции блока с максимальной интенсивностью, при этом средство вычисления коэффициента содержит, для каждого блока:

- средство вычисления интенсивности блока; и

- средство вычисления коэффициента из вычисленной максимальной интенсивности и вычисленной интенсивности блока; и

- средство определения, для каждого блока и из коэффициента усиления, применяемого к коэффициентам преобразования блока.

(3) Устройство введения низкочастотных предыскажений в спектр звукового сигнала, преобразованного в частотной области и содержащего коэффициенты преобразования, сгруппированные в множество блоков, при этом устройство содержит:

- вычислитель максимальной интенсивности для одного блока, имеющего индекс позиции;

- вычислитель коэффициента для каждого блока, имеющего индекс позиции меньше индекса позиции блока с максимальной интенсивностью, при этом вычислитель коэффициента, для каждого блока:

- вычисляет интенсивность блока; и

- вычисляет коэффициент из вычисленной максимальной интенсивности и вычисленной интенсивности блока; и

- вычислитель усиления, для каждого блока и в ответ на коэффициент, при этом усиление применяется к коэффициентам преобразования блока.

(4) Способ обработки принимаемого кодированного звукового сигнала, при этом способ содержит этапы, на которых:

- извлекают параметры кодирования из принимаемого кодированного звукового сигнала, при этом извлеченные параметры кодирования включают в себя коэффициенты частотного преобразования упомянутого звукового сигнала, причем в коэффициенты преобразования введены низкочастотные предыскажения с помощью вышеуказанного способа;

- обрабатывают извлеченные параметры кодирования, чтобы синтезировать звуковой сигнал, при этом обработка извлеченных параметров кодирования содержит устранение низкочастотных предыскажений в коэффициентах преобразования с введенными низкочастотными предыскажениями.

(5) Декодер для обработки принимаемого кодированного звукового сигнала, при этом декодер содержит:

- часть входного декодера, снабжаемую принимаемым кодированным звуковым сигналом и реализующую экстрактор параметров кодирования из принимаемого кодированного звукового сигнала, при этом извлеченные параметры кодирования включают в себя коэффициенты частотного преобразования упомянутого звукового сигнала, причем в коэффициенты преобразования введены низкочастотные предыскажения с помощью вышеуказанного устройства;

- процессор извлеченных параметров кодирования, чтобы синтезировать звуковой сигнал, при этом упомянутый процессор содержит модуль устранения низкочастотных предыскажений, снабжаемый коэффициентами преобразования с введенными низкочастотными предыскажениями.

(6) Способ высокочастотного (HF)-кодирования для кодирования, посредством схемы расширения полосы пропускания, HF-сигнала, получаемого из разделения полнодиапазонного звукового сигнала на высокочастотный (HF)-сигнал и низкочастотный (LF)-сигнал, при этом способ содержит этапы, на которых:

- выполняют анализ кодирования с линейным предсказанием (LPC)-анализ LF- и HF-сигналов, чтобы сгенерировать LPC-коэффициенты, которые моделируют огибающую спектра LF- и HF-сигнала;

- вычисляют, из LPC-коэфициентов, оценку согласующей разницы HF;

- вычисляют интенсивность HF-сигнала;

- обрабатывают LF-сигнал, чтобы сгенерировать синтезированную версию HF-сигнала;

- вычисляют интенсивность синтезированной версии HF-сигнала;

- вычисляют соотношение между вычисленной интенсивностью HF-сигнала и вычисленной интенсивностью синтезированной версии HF-сигнала и выражают вычисленное соотношение как компенсирующее усиление HF; и

- вычисляют разность между оценкой согласующего усиления HF и компенсирующего усиления HF, чтобы получить корректировку усиления;

- при этом кодированный HF-сигнал содержит LPC-параметры и корректировку усиления.

(7) Устройство HF-кодирования для кодирования, посредством схемы расширения полосы пропускания, HF-сигнала, получаемого из разделения полнодиапазонного звукового сигнала на HF-сигнал и LF-сигнал, при этом устройство содержит:

- средство выполнения LPC-анализа LF- и HF-сигналов, чтобы сгенерировать LPC-коэффициенты, которые моделируют огибающую спектра LF- и HF-сигналов;

- средство вычисления, из LPC-коэфициентов, оценки согласующего усиления HF;

- средство вычисления интенсивности HF-сигнала;

- средство обработки LF-сигнала, чтобы сгенерировать синтезированную версию HF-сигнала;

- средство вычисления интенсивности синтезированной версии HF-сигнала;

- средство вычисления соотношения между вычисленной интенсивностью HF-сигнала и вычисленной интенсивностью синтезированной версии HF-сигнала и средство выражения вычисленного соотношения как компенсирующего усиления HF; и

- средство вычисления разности между оценкой согласующего усиления HF и компенсирующего усиления HF, чтобы получить корректировку усиления;

- при этом кодированный HF-сигнал содержит LPC-параметры и корректировку усиления.

(8) Устройство HF-кодирования для кодирования, посредством схемы расширения полосы пропускания, HF-сигнала, получаемого из разделения полнодиапазонного звукового сигнала на HF-сигнал и LF-сигнал, при этом устройство содержит:

- средство анализа LPC, снабжаемое LF- и HF-сигналами и генерирующее, в ответ на HF-сигнал, LPC-коэффициенты, которые моделируют огибающую спектра LF- и HF-сигналов;

- вычислитель оценки согласующего HF-усиления в ответ на LPC-коэффициенты;

- вычислитель интенсивности HF-сигнала;

- фильтр, снабжаемый LF-сигналом и генерирующий, в ответ на LF-сигнал, синтезированную версию HF-сигнала;

- вычислитель интенсивности синтезированной версии HF-сигнала;

- вычислитель соотношения между вычисленной интенсивностью HF-сигнала и вычисленной интенсивностью синтезированной версии HF-сигнала;

- преобразователь, снабжаемый вычисленным соотношением и выражающий упомянутое вычисленное соотношение как компенсирующее усиление HF; и

- вычислитель разности между оценкой согласующего усиления HF и компенсирующего усиления HF, чтобы получить корректировку усиления;

- при этом кодированный HF-сигнал содержит LPC-параметры и корректировку усиления.

(9) Способ декодирования HF-сигнала, закодированного посредством схемы расширения полосы пропускания, при этом способ содержит этапы, на которых:

- принимают кодированный HF-сигнал;

- извлекают из кодированного HF-сигнала LPC-коэффициенты и корректировку усиления;

- вычисляют оценку HF-усиления из извлеченных LPC-коэффициентов;

- добавляют корректировку усиления к вычисленной оценке HF-усиления, чтобы получить HF-усиление;

- усиливают LF-сигнал возбуждения посредством HF-усиления, чтобы сгенерировать HF-сигнал возбуждения; и

- обрабатывают HF-сигнал возбуждения посредством фильтра HF-синтеза, чтобы сгенерировать синтезированную версию HF-сигнала.

(10) Декодер для декодирования HF-сигнала, закодированного посредством схемы расширения полосы пропускания, при этом декодер содержит:

- средство приема кодированного HF-сигнала;

- средство извлечения из кодированного HF-сигнала LPC-коэффициентов и корректировки усиления;

- средство вычисления оценки HF-усиления из извлеченных LPC-коэффициентов;

- средство добавления корректировки усиления к вычисленной оценке HF-усиления, чтобы получить HF-усиление;

- средство усиления LF-сигнала возбуждения посредством HF-усиления, чтобы сгенерировать HF-сигнал возбуждения; и

- средство обработки HF-сигнала возбуждения посредством фильтра HF-синтеза, чтобы сгенерировать синтезированную версию HF-сигнала.

(11) Декодер для декодирования HF-сигнала, закодированного посредством схемы расширения полосы пропускания, при этом декодер содержит:

- вход для приема кодированного HF-сигнала;

- декодер, снабжаемый кодированным HF-сигналом и извлекающий из кодированного HF-сигнала LPC-коэффициенты;

- декодер, снабжаемый кодированным HF-сигналом и извлекающий из кодированного HF-сигнала корректировку усиления;

- вычислитель оценки HF-усиления из извлеченных LPC-коэффициентов;

- сумматор корректировки усиления и вычисленной оценки HF-усиления, чтобы получить HF-усиление;

- усилитель LF-сигнала возбуждения посредством HF-усиления, чтобы сгенерировать HF-сигнал возбуждения; и

- фильтр HF-синтеза, снабжаемый HF-сигналом возбуждения и генерирующий, в ответ на HF-сигнал возбуждения, синтезированную версию HF-сигнала.

(12) Способ переключения из первого режима кодирования звуковых сигналов ко второму режиму кодирования звуковых сигналов на границе между предыдущим кадром, закодированным согласно первому режиму кодирования, и текущим кадром, закодированным согласно второму режиму кодирования, при этом звуковой сигнал фильтруется посредством фильтра взвешивания, чтобы сгенерировать, в текущем кадре, взвешенный сигнал, при этом способ содержит этапы, на которых:

- вычисляют отклик при отсутствии входного сигнала фильтра взвешивания;

- выполняют оконное кодирование отклика при отсутствии входного сигнала, так чтобы упомянутый отклик при отсутствии входного сигнала имел амплитуду, монотонно уменьшающуюся до нуля после предварительно определенного периода времени; и

- в текущем кадре, удаляют из взвешенного сигнала оконно кодированный отклик при отсутствии входного сигнала.

(13) Устройство для переключения из первого режима кодирования звуковых сигналов ко второму режиму кодирования звуковых сигналов на границе между предыдущим кадром, закодированным согласно первому режиму кодирования, и текущим кадром, закодированным согласно второму режиму кодирования, при этом звуковой сигнал фильтруется посредством фильтра взвешивания, чтобы сгенерировать, в текущем кадре, взвешенный сигнал, при этом устройство содержит:

- средство вычисления отклика при отсутствии входного сигнала фильтра взвешивания;

- средство выполнения оконного кодирования отклика при отсутствии входного сигнала, так чтобы упомянутый отклик при отсутствии входного сигнала имел амплитуду, монотонно уменьшающуюся до нуля после предварительно определенного периода времени; и

- средство удаления, в текущем кадре, из взвешенного сигнала оконно кодированного отклика при отсутствии входного сигнала.

(14) Устройство для переключения из первого режима кодирования звуковых сигналов ко второму режиму кодирования звуковых сигналов на границе между предыдущим кадром, закодированным согласно первому режиму кодирования, и текущим кадром, закодированным согласно второму режиму кодирования, при этом звуковой сигнал фильтруется посредством фильтра взвешивания, чтобы сгенерировать, в текущем кадре, взвешенный сигнал, при этом устройство содержит:

- вычислитель отклика при отсутствии входного сигнала фильтра взвешивания;

- генератор окон для выполнения оконного кодирования отклика при отсутствии входного сигнала, так чтобы упомянутый отклик при отсутствии входного сигнала имел амплитуду, монотонно уменьшающуюся до нуля после предварительно определенного периода времени; и

- сумматор для удаления, в текущем кадре, оконно кодированного отклика при отсутствии входного сигнала из взвешенного сигнала.

(15) Способ генерирования из декодированного целевого сигнала целевого сигнала по алгоритму перекрытия с суммированием в текущем кадре, закодированном согласно первому режиму кодирования, при этом способ содержит этапы, на которых:

- выполняют оконное кодирование декодированного целевого сигнала текущего кадра в данном окне;

- пропускают левую часть окна;

- вычисляют отклик при отсутствии входного сигнала фильтра взвешивания предыдущего кадра, закодированного согласно второму режиму кодирования, и выполняют оконное кодирование отклика при отсутствии входного сигнала, так чтобы упомянутый отклик при отсутствии входного сигнала имел амплитуду, монотонно уменьшающуюся до нуля после предварительно определенного периода времени; и

- добавляют вычисленный отклик при отсутствии входного сигнала к декодированному целевому сигналу, чтобы восстановить упомянутый целевой сигнал по алгоритму перекрытия с суммированием.

(16) Устройство генерирования из декодированного целевого сигнала целевого сигнала по алгоритму перекрытия с суммированием в текущем кадре, закодированном согласно первому режиму кодирования, при этом устройство содержит:

- средство выполнения оконного кодирования декодированного целевого сигнала текущего кадра в данном окне;

- средство пропуска левой части окна;

- средство вычисления отклика при отсутствии входного сигнала фильтра взвешивания предыдущего кадра, закодированного согласно второму режиму кодирования, и средство выполнения оконного кодирования отклика при отсутствии входного сигнала, так чтобы упомянутый отклик при отсутствии входного сигнала имел амплитуду, монотонно уменьшающуюся до нуля после предварительно определенного периода времени; и

- средство добавления вычисленного отклика при отсутствии входного сигнала к декодированному целевому сигналу, чтобы восстановить упомянутый целевой сигнал по алгоритму перекрытия с суммированием.

(17) Устройство генерирования из декодированного целевого сигнала целевого сигнала по алгоритму перекрытия с суммированием в текущем кадре, закодированном согласно первому режиму кодирования, при этом устройство содержит:

- первый генератор окон для выполнения оконного кодирования декодированного целевого сигнала текущего кадра в данном окне;

- средство пропуска левой части окна;

- вычислитель отклика при отсутствии входного сигнала фильтра взвешивания предыдущего кадра, закодированного согласно второму режиму кодирования, и второй генератор окон для выполнения оконного кодирования отклика при отсутствии входного сигнала, так чтобы упомянутый отклик при отсутствии входного сигнала имел амплитуду, монотонно уменьшающуюся до нуля после предварительно определенного периода времени; и

- сумматор для добавления вычисленного отклика при отсутствии входного сигнала к декодированному целевому сигналу, чтобы восстановить упомянутый целевой сигнал по алгоритму перекрытия с суммированием.

Вышеупомянутые и другие цели, преимущества и признаки настоящего изобретения станут более очевидны из прочтения последующего неограничивающего описания его иллюстративных вариантов осуществления, предоставленных только в качестве примера со ссылкой на прилагаемые чертежи.

Краткое описание чертежей

На прилагаемых чертежах:

фиг.1 - это принципиальная блок-схема высокого уровня одного варианта осуществления кодера в соответствии с настоящим изобретением;

фиг.2 - это неограничивающий пример временной диаграммы типов кадров в суперкадре;

фиг.3 - это диаграмма, показывающая неограничивающий пример оконного кодирования для линейного предиктивного анализа, на