Система и способ возбуждения смешанной кодовой книги для кодирования речи

Иллюстрации

Показать все

Изобретение относится к средствам возбуждения смешанной кодовой книги для кодирования речи. Технический результат заключается в повышении воспринимаемого качества речевого сигнала по сравнению с системами кодирования, использующими только импульсное возбуждение или только шумовое возбуждение. Способ кодирования аудио/речевого сигнала включает в себя определение вектора смешанной кодовой книги на основании поступающего аудио/речевого сигнала, причем вектор смешанной кодовой книги включает в себя сумму записи первой кодовой книги из первой кодовой книги и записи второй кодовой книги из второй кодовой книги. Способ дополнительно включает в себя генерацию кодированного аудиосигнала на основании определенного вектора смешанной кодовой книги и передачу индекса кодированного возбуждения определенного вектора смешанной кодовой книги. 3 н. и 23 з.п. ф-лы, 17 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение, в целом, относится к области кодирования сигналов. В частности, настоящее изобретение относится к области кодирования речи с низкой частотой следования битов (битрейт).

УРОВЕНЬ ТЕХНИКИ

Традиционно, все способы параметрического кодирования речи пользуются избыточностью, присущей речевому сигналу, для сокращения объема информации, которую нужно отправлять, и для оценивания параметров речевых выборок сигнала в короткие интервалы. Эта избыточность, в основном, возникает вследствие квазипериодического повторения форм волны речевого сигнала и медленного изменения спектральной огибающей речевого сигнала.

Избыточность форм волны речевого сигнала можно рассматривать в отношении нескольких различных типов речевого сигнала, например, вокализованного и невокализованного. Для вокализованной речи, речевой сигнал является, по существу, периодическим; однако эта периодичность может изменяться на протяжении речевого сегмента, и форма периодической волны обычно постепенно изменяется от сегмента к сегменту. Кодирование речи с низкой частотой следования битов может извлекать большую пользу из исследования такой периодичности. Период вокализованной речи также называется основным тоном, и прогнозирование (предсказание) основного тона часто называют долгосрочным прогнозированием (LTP). Что касается невокализованной речи, сигнал больше напоминает случайный шум и обладает меньшей предсказуемостью.

В любом случае, параметрическое кодирование можно использовать для снижения избыточности речевых сегментов за счет отделения компоненты возбуждения речевого сигнала от компоненты спектральной огибающей. Медленно изменяющуюся спектральную огибающую можно представить посредством кодирования с линейным прогнозированием (LPC), также известного как краткосрочное прогнозирование (STP). Кодирование речи с низкой частотой следования битов также может извлекать пользу из исследования такого краткосрочного прогнозирования. Преимущество кодирования обусловлено медленным изменением параметров. Кроме того, параметры редко значительно отличаются от значений, сохраняющихся в течение нескольких миллисекунд. Соответственно, при частоте дискретизации 8 кГц, 12,8 кГц или 16 кГц, алгоритм кодирования речи предусматривает номинальную длительность кадра в диапазоне от десяти до тридцати миллисекунд, причем длительность кадра двадцать миллисекунд является наиболее распространенной. В более новых общеизвестных стандартах, например, G.723.1, G.729, G.718, EFR, SMV, AMR, VMR-WB или AMR-WB, применяется метод линейного прогнозирования с кодовым возбуждением ("CELP"), который обычно рассматривается как техническая комбинация кодированного возбуждения, долгосрочного прогнозирования и краткосрочного прогнозирования. Кодирование речи методом линейного прогнозирования с кодовым возбуждением (CELP) является очень популярным алгоритмом в области сжатия речи, хотя детали CELP для разных кодеков значительно отличаются.

Фиг.1 демонстрирует традиционный кодер CELP, где взвешенная ошибка 109 между синтезированной речью 102 и исходной речью 101 часто минимизируется с использованием так называемого подхода "анализ посредством синтеза". W(z) - это фильтр 110 взвешивания ошибки, 1/B(z) - это фильтр 105 долгосрочного линейного прогнозирования, и 1/A(z) - это фильтр 103 краткосрочного линейного прогнозирования. Кодированное возбуждение 108, которое также называется возбуждением с помощью фиксированной кодовой книги, масштабируется коэффициентом 106 усиления Gc до прохождения через линейные фильтры. Краткосрочный линейный фильтр 103 получается путем анализа исходного сигнала 101 и представляется набором коэффициентов:

. (1)

Взвешивающий фильтр 110 тем или иным образом связан с вышеупомянутым фильтром краткосрочного прогнозирования. Взвешивающий фильтр обычно выражается в виде:

(2)

где,,,. В стандартном кодеке ITU-T G.718, перцептивный взвешивающий фильтр выражается следующим образом:

, (3)

где

(4)

и равен 0,68.

Долгосрочное прогнозирование 105 зависит от основного тона и коэффициента усиления основного тона. Основной тон можно оценивать, например, из исходного сигнала, остаточного сигнала или взвешенного исходного сигнала. Функцию долгосрочного прогнозирования, в основном, можно выразить в виде

. (5)

Кодированное возбуждение 108 обычно содержит импульсоподобный сигнал или шумоподобный сигнал, которые математически строятся или сохраняются в кодовой книге. Наконец, индекс кодированного возбуждения, индекс квантованного коэффициента усиления, индекс квантованного параметра долгосрочного прогнозирования и индекс квантованного параметра краткосрочного прогнозирования передаются на декодер.

Фиг.2 демонстрирует первоначальный декодер, куда, после синтезированной речи 206, добавлен блок 207 постобработки. Декодер является комбинацией нескольких блоков, а именно, кодированного возбуждения 201, коэффициента усиления 202 возбуждения, долгосрочного прогнозирования 203, краткосрочного прогнозирования 205 и постобработки 207. Каждый блок, кроме блока 207 постобработки, имеет такое же определение, как описанный в кодере, показанном на фиг.1. Блок 207 постобработки также может включать в себя краткосрочную постобработку и долгосрочную постобработку.

Фиг.3 демонстрирует основной кодер CELP, который реализует долгосрочное линейное прогнозирование с использованием адаптивной кодовой книги 307 содержащей прошлое синтезированное возбуждение 304 или повторяющийся цикл основного тона прошлого возбуждения с периодом основного тона. Отставание основного тона можно кодировать целочисленным значением, когда оно велико или длинно. И отставание основного тона можно кодировать более точным дробным значением, когда оно мало или коротко. Периодическая информация основного тона применяется для генерации адаптивной компоненты возбуждения. Затем эта компонента возбуждения масштабируется коэффициентом 305 усиления Gp (также именуемым коэффициентом усиления основного тона). Вторая компонента возбуждения генерируется блоком 308 кодового возбуждения, который масштабируется коэффициентом 306 усиления Gc. Gc также именуется коэффициент усиления фиксированной кодовой книги, поскольку кодовое возбуждение часто поступает из фиксированной кодовой книги. Две масштабированных компоненты возбуждения суммируются друг с другом до прохождения через фильтр 303 краткосрочного линейного прогнозирования. Два коэффициента усиления (Gp и Gc) квантуются и затем оправляются на декодер.

Фиг.4 демонстрирует традиционный декодер, соответствующий кодеру, показанному на фиг.3, где, после синтезированной речи 407, добавлен блок 408 постобработки. Этот декодер аналогичен показанному на фиг.2, за исключением добавления адаптивной кодовой книги 307. Декодер является комбинацией нескольких блоков, а именно, кодированного возбуждения 402, адаптивной кодовой книги 401, краткосрочного прогнозирования 406 и постобработки 408. Каждый блок, кроме блока 408 постобработки, имеет такое же определение, как описанный в кодере, показанном на фиг.3. Блок 408 постобработки может дополнительно включать в себя краткосрочную постобработку и долгосрочную постобработку.

Долгосрочное прогнозирование играет очень важную роль для кодирования вокализованной речи, поскольку вокализованная речь обладает значительной периодичностью. Смежные циклы основного тона вокализованной речи аналогичны друг другу, и это математически означает, что коэффициент усиления основного тона Gp в нижеследующем выражении возбуждения высок или близок к 1,

(6)

где ep(n) – один подкадр последовательности выборок с индексом n, поступающей из адаптивной кодовой книги 307, которая содержит прошлое возбуждение 304; ep(n) можно подвергать адаптивной низкочастотной фильтрации, поскольку низкочастотная область часто бывает более периодической или более гармонической, чем высокочастотная область; ec(n) поступает из кодовой книги 308 кодированного возбуждения (также именуемой фиксированной кодовой книгой), которая является текущим вкладом в возбуждение; и ec(n) также можно улучшать с использованием улучшения высокочастотной фильтрации, улучшения основного тона, дисперсионного улучшения, формантного улучшения и пр. Для вокализованной речи, вклад ep(n) из адаптивной кодовой книги может преобладать, и коэффициент 305 усиления основного тона Gp может иметь значение, близкое к 1. Возбуждение обычно обновляется для каждого подкадра. Типичный размер кадра равен 20 миллисекундам, и типичный размер подкадра равен 5 миллисекундам.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

В соответствии с вариантом осуществления, способ кодирования аудио/речевого сигнала включает в себя определение вектора смешанной кодовой книги на основании поступающего аудио/речевого сигнала, причем вектор смешанной кодовой книги содержит сумму записи первой кодовой книги из первой кодовой книги и записи второй кодовой книги из второй кодовой книги. Способ дополнительно включает в себя генерацию кодированного аудиосигнала на основании определенного вектора смешанной кодовой книги и передачу кодированного индекса возбуждения определенного вектора смешанной кодовой книги.

Согласно первому аспекту, вариант осуществления настоящего изобретения предусматривает способ кодирования аудио/речевого сигнала, причем способ содержит:

определение вектора смешанной кодовой книги на основании поступающего аудио/речевого сигнала, причем вектор смешанной кодовой книги содержит сумму записи первой кодовой книги из первой кодовой книги и записи второй кодовой книги из второй кодовой книги, причем первая кодовая книга содержит импульсоподобные записи, и вторая кодовая книга содержит шумоподобные записи;

генерацию кодированного аудиосигнала на основании определенного вектора смешанной кодовой книги; и

передачу кодированного индекса возбуждения определенного вектора смешанной кодовой книги, причем определение и генерация осуществляются с использованием аппаратного аудиокодера.

В первом возможном варианте реализации первого аспекта, первая и вторая кодовые книги содержат фиксированные кодовые книги.

Во втором возможном варианте реализации первого аспекта, определение вектора смешанной кодовой книги содержит:

вычисление первых корреляций между фильтрованным целевым вектором и фильтрованными записями в первой кодовой книге, причем фильтрованный целевой вектор основан на поступающем аудиосигнале;

определение первой группы наивысших первых корреляций;

вычисление корреляций между фильтрованным целевым вектором и фильтрованными записями во второй кодовой книге;

определение второй группы наивысших вторых корреляций; и

вычисление функции первого критерия комбинаций первой и второй групп, причем функция первого критерия содержит функцию одной из первой группы наивысших первых корреляций, одной из второй группы наивысших вторых корреляций и энергии соответствующих записей из первой кодовой книги и второй кодовой книги.

Согласно второму возможному варианту реализации первого аспекта, третий возможный вариант реализации дополнительно содержит:

определение третьей группы возможных корреляций на основании наивысших вычисленных функций первого критерия; и

выбор вектора смешанной кодовой книги на основании применения функции второго критерия к третьей группе, причем вектор смешанной кодовой книги соответствует записям кодовой книги из первой кодовой книги и второй кодовой книги, связанным с наивысшим значением функции второго критерия.

Согласно третьему возможному варианту реализации первого аспекта, в четвертом возможном варианте реализации:

функция первого критерия представляет собой

,

где RCB1(i) – корреляция между фильтрованным целевым вектором и i-ой первой записью первой кодовой книги, RCB2(j) – корреляция между фильтрованным целевым вектором и j-ой записью второй кодовой книги, ECB1(i) – энергия i-ой записи первой кодовой книги, и ECB2(i) – энергия j-ой записи второй кодовой книги, – количество записей первой кодовой книги в первой группе, и – количество записей второй кодовой книги во второй группе; и

функция второго критерия представляет собой,

где – фильтрованный вектор i-ой записи первой кодовой книги, и – фильтрованный вектор j-ой записи второй кодовой книги, и K – количество записей в третьей группе.

Согласно второму возможному варианту реализации первого аспекта, в пятом возможном варианте реализации выбор вектора смешанной кодовой книги осуществляется на основании наивысшей вычисленной функции первого критерия.

Согласно пятому возможному варианту реализации первого аспекта, в шестом возможном варианте реализации функция первого критерия представляет собой

,

где RCB1(i) – корреляция между фильтрованным целевым вектором и i-ой первой записью первой кодовой книги, RCB2(j) – корреляция между фильтрованным целевым вектором и j-ой записью второй кодовой книги, ECB1(i) – энергия i-ой записи первой кодовой книги, и ECB2(i) – энергия j-ой записи второй кодовой книги, и – количество записей первой кодовой книги в первой группе, и – количество записей второй кодовой книги во второй группе.

Согласно второму возможному варианту реализации первого аспекта, седьмой возможный вариант реализации, дополнительно содержит вычисление энергий соответствующих записей из первой кодовой книги и второй кодовой книги.

Согласно второму возможному варианту реализации первого аспекта, в восьмом возможном варианте реализации энергии соответствующих записей из первой кодовой книги и второй кодовой книги сохраняются в памяти.

Согласно второму возможному варианту реализации первого аспекта, в девятом возможном варианте реализации, первая группа содержит больше записей, чем вторая группа.

Десятый возможный вариант реализации первого аспекта, дополнительно содержит:

применение первой функции выделения к записи первой кодовой книги; и

применение второй функции выделения к записи второй кодовой книги.

Согласно десятому возможному варианту реализации первого аспекта, в одиннадцатом возможном варианте реализации:

первая функция выделения содержит функцию фильтрации нижних частот; и

вторая функция выделения содержит функцию фильтрации верхних частот.

В двенадцатом возможном варианте реализации первого аспекта аппаратный аудиокодер содержит процессор.

В тринадцатом возможном варианте реализации первого аспекта аппаратный аудиокодер содержит специализированное аппаратное обеспечение.

Согласно второму аспекту, вариант осуществления настоящего изобретения предусматривает систему для кодирования аудио/речевого сигнала, причем система содержит:

аппаратный аудиокодер, выполненный с возможностью:

определения вектора смешанной кодовой книги на основании поступающего аудио/речевого сигнала, причем вектор смешанной кодовой книги содержит сумму записи первой кодовой книги из импульсоподобной кодовой книги и записи второй кодовой книги из шумоподобной кодовой книги;

генерации кодированного аудио/речевого сигнала на основании определенного вектора смешанной кодовой книги; и

передачи кодированного индекса возбуждения определенного вектора смешанной кодовой книги.

В первом возможном варианте реализации второго аспекта, аппаратный аудиокодер дополнительно выполнен с возможностью:

вычисления первых корреляций между фильтрованным целевым вектором и записями в импульсоподобной кодовой книге, причем фильтрованный целевой вектор основан на поступающем аудиосигнале;

определения первой группы наивысших первых корреляций;

вычисления корреляций между фильтрованным целевым вектором и записями в шумоподобной кодовой книге;

определения второй группы наивысших вторых корреляций; и

вычисления функции первого критерия комбинаций первой и второй групп, причем функция первого критерия содержит функцию одной из первой группы наивысших первых корреляций, одной из второй группы наивысших вторых корреляций и энергию соответствующих записей из импульсоподобной кодовой книги и шумоподобной кодовой книги.

Согласно первому возможному варианту реализации второго аспекта, второй возможный вариант реализации дополнительно содержит память, выполненную с возможностью хранения значений энергии соответствующих записей из импульсоподобной кодовой книги и шумоподобной кодовой книги.

Согласно первому возможному варианту реализации второго аспекта, в третьем возможном варианте реализации, аппаратный аудиокодер дополнительно выполнен с возможностью выбора вектора смешанной кодовой книги на основании наивысшей вычисленной функции первого критерия.

Согласно первому возможному варианту реализации второго аспекта, в четвертом возможном варианте реализации функция первого критерия представляет собой

,

где RCB1(i) – корреляция между фильтрованным целевым вектором и i-ой первой записью первой кодовой книги, RCB2(j) – корреляция между фильтрованным целевым вектором и j-ой записью второй кодовой книги, ECB1(i) – энергия i-ой записи первой кодовой книги, и ECB2(i) – энергия j-ой записи второй кодовой книги, и – количество записей первой кодовой книги в первой группе, и – количество записей второй кодовой книги во второй группе.

В пятом возможном варианте реализации второго аспекта аппаратный аудиокодер содержит процессор.

В шестом возможном варианте реализации второго аспекта аппаратный аудиокодер содержит специализированное аппаратное обеспечение.

Согласно третьему аспекту, вариант осуществления настоящего изобретения предусматривает способ быстрого поиска смешанной кодовой книги для кодирования аудио/речевого сигнала, причем способ содержит:

определение вектора смешанной кодовой книги на основании поступающего аудио/речевого сигнала, причем вектор смешанной кодовой книги содержит сумму записи первой кодовой книги из первой кодовой книги и записи второй кодовой книги из второй кодовой книги;

вычисление первых корреляций между фильтрованным целевым вектором и фильтрованными записями в первой кодовой книге, причем фильтрованный целевой вектор основан на поступающем аудиосигнале;

определение первой группы наивысших первых корреляций;

вычисление корреляций между фильтрованным целевым вектором и фильтрованными записями во второй кодовой книге;

определение второй группы наивысших вторых корреляций;

вычисление функции первого критерия комбинаций первой и второй групп, причем функция первого критерия содержит функцию одной из первой группы наивысших первых корреляций, одной из второй группы наивысших вторых корреляций и энергии соответствующих записей из первой кодовой книги и второй кодовой книги;

определение третьей группы возможных корреляций на основании наивысших вычисленных функций первого критерия;

выбор вектора смешанной кодовой книги на основании применения функции второго критерия к третьей группе, причем вектор смешанной кодовой книги соответствует записям кодовой книги из первой кодовой книги и второй кодовой книги, связанным с наивысшим значением функции второго критерия;

генерацию кодированного аудиосигнала на основании определенного вектора смешанной кодовой книги; и

передачу кодированного индекса возбуждения определенного вектора смешанной кодовой книги, причем определение и генерация осуществляются с использованием аппаратного аудиокодера

В первом возможном варианте реализации третьего аспекта:

функция первого критерия представляет собой

,

где RCB1(i) – корреляция между фильтрованным целевым вектором и i-ой первой записью первой кодовой книги, RCB2(j) – корреляция между фильтрованным целевым вектором и j-ой записью второй кодовой книги, ECB1(i) – энергия i-ой записи первой кодовой книги, и ECB2(i) – энергия j-ой записи второй кодовой книги, – количество записей первой кодовой книги в первой группе, и – количество записей второй кодовой книги во второй группе; и

функция второго критерия представляет собой

,

где – фильтрованный вектор i-ой записи первой кодовой книги, и – фильтрованный вектор j-ой записи второй кодовой книги, и K – количество записей в третьей группе.

Во втором возможном варианте реализации третьего аспекта первая кодовая книга содержит импульсоподобную кодовую книгу, и вторая кодовая книга содержит шумоподобную кодовую книгу.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Для обеспечения более полного понимания настоящего изобретения и его преимуществ, обратимся к нижеследующим описаниям, приведенным совместно с прилагаемыми чертежами, в которых:

фиг.1 демонстрирует традиционный речевой кодер CELP;

фиг.2 демонстрирует традиционный речевой декодер CELP;

фиг.3 демонстрирует традиционный кодер CELP, который использует адаптивную кодовую книгу;

фиг.4 демонстрирует традиционный речевой декодер CELP, который использует адаптивную кодовую книгу;

фиг.5 демонстрирует структуру FCB, которая содержит шумоподобные возможные векторы для построения кодированного возбуждения;

фиг.6 демонстрирует структуру FCB, которая содержит импульсоподобные возможные векторы для построения кодированного возбуждения;

фиг.7 демонстрирует структуру импульсно-шумовой смешанной FCB согласно варианту осуществления;

фиг.8 демонстрирует структуру импульсно-шумовой смешанной FCB согласно варианту осуществления;

фиг.9 демонстрирует общую структуру импульсно-шумовой смешанной FCB согласно варианту осуществления;

фиг.10 демонстрирует общую структуру импульсно-шумовой смешанной FCB согласно дополнительному варианту осуществления;

фиг.11 демонстрирует общую структуру импульсно-шумовой смешанной FCB согласно дополнительному варианту осуществления;

фиг.12 демонстрирует более общую структуру смешанной FCB согласно варианту осуществления;

фиг.13 демонстрирует блок-схему системы кодирования с возбуждением;

фиг.14 демонстрирует блок-схему варианта осуществления системы кодирования с возбуждением на основе смешанной кодовой книги;

фиг.15a-b демонстрируют блок-схемы операций способов согласно варианту осуществления; и

фиг.16 демонстрирует систему связи согласно варианту осуществления.

Соответствующие числа и символы в разных фигурах, в целом, относятся к соответствующим деталям, если не указано обратное. Фигуры призваны наглядно демонстрировать соответствующие аспекты предпочтительных вариантов осуществления и не обязательно выполнены в масштабе. Чтобы более наглядно продемонстрировать определенные варианты осуществления, за номером фигуры может следовать буква, указывающая разновидности одной и той же структуры, материала или этапа процесса.

ПОДРОБНОЕ ОПИСАНИЕ ИЛЛЮСТРАТИВНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

Ниже подробно рассматриваются предпочтительные в настоящее время варианты осуществления и их использование. Однако очевидно, что настоящее изобретение выдвигает многие применимые принципы изобретения, которые можно реализовать в разнообразных конкретных контекстах. Рассматриваемые конкретные варианты осуществления призваны лишь иллюстрировать различные подходы к реализации изобретения, но не ограничивать объем изобретения.

Настоящее изобретение будет описано в отношении вариантов осуществления в конкретном контексте, а именно, применительно к кодеру и декодеру аудиосигнала на основе CELP. Следует понимать, что варианты осуществления настоящего изобретения можно применять и к другим системам.

Как упомянуто выше, CELP в основном используется для кодирования речевого сигнала на основе конкретных характеристик человеческого голоса или модели создания человеческого вокального голоса. Алгоритм CELP является очень популярной технологией, которая использовалась в различных стандартах ITU-T, MPEG, 3GPP и 3GPP2. Для более эффективного кодирования речевого сигнала, речевой сигнал можно подразделить на разные классы, и по-разному кодировать каждый класс. Например, в некоторых стандартах, например, G.718, VMR-WB или AMR-WB, речевой сигнал подразделяется на невокализованный, "переходный", универсальный, вокализованный и шумовой. Для каждого класса, для представления спектральной огибающей всегда используется фильтр LPC или STP; но возбуждать фильтр LPC можно по-разному. "Невокализованный" и "шумовой" можно кодировать шумовым возбуждением и некоторым улучшением возбуждения. "Переходный" можно кодировать импульсным возбуждением и некоторым улучшением возбуждения без использования адаптивной кодовой книги или LTP. "Универсальный" можно кодировать согласно традиционному подходу CELP, например, алгебраическому CELP, используемому в G.729 или AMR-WB, в котором один 20 мс кадр содержит четыре 5 мс подкадра, компонента возбуждения адаптивной кодовой книги и компонента возбуждения фиксированной кодовой книги создаются с некоторыми улучшениями возбуждения для каждого подкадра, отставания основного тона для адаптивной кодовой книги в первом и третьем подкадрах кодируются в полном диапазоне от минимального предела основного тона PIT_MIN до максимального предела основного тона PIT_MAX, и отставания основного тона для адаптивной кодовой книги во втором и четвертом подкадрах кодируются иначе, чем ранее кодированное отставание основного тона. Сигнал класса "вокализованный" можно кодировать немного иначе, чем "универсальный", в котором отставание основного тона в первом подкадре кодируется в полном диапазоне от минимального предела основного тона PIT_MIN до максимального предела основного тона PIT_MAX, и отставания основного тона в других подкадрах кодируются иначе, чем предыдущий ранее отставание основного тона.

Блоки кодового возбуждения, обозначенные позициями 402 на фиг.4 и 308 на фиг.3, показывают местоположение фиксированной кодовой книги (FCB) для общего кодирования CELP; выбранный кодовый вектор из FCB масштабируется коэффициентом усиления, часто обозначаемым как Gc. Для сигнала класса "шумовой" или "невокализованный", FCB, содержащая шумоподобные векторы, может быть наилучшей структурой с точки зрения воспринимаемого качества, поскольку вклад адаптивной кодовой книги или вклад LTP будет малым или ничтожно малым, и поскольку главный вклад в возбуждение опирается на компоненту FCB для сигнала класса "шумовой" или "невокализованный". В этом случае, если используется импульсоподобная FCB, например, показанная на фиг.6, выходной синтезированный речевой сигнал может звучать резко вследствие большого количества нулей в кодовом векторе, выбранном из импульсоподобной FCB, предназначенной для кодирования с низкой частотой следования битов. Фиг.5 демонстрирует структуру FCB, которая содержит шумоподобные возможные векторы для построения кодированного возбуждения. 501 обозначает шумоподобную FCB; 502 обозначает шумоподобный кодовый вектор; и выбранный кодовый вектор масштабируется коэффициентом 503 усиления.

Для сигнала класса "вокализованный", импульсоподобная FCB дает выходной сигнал более высокого качества, чем шумоподобная FCB с перцептивной точки зрения, поскольку вклад адаптивной кодовой книги или вклад LTP преобладает для весьма периодического сигнала класса "вокализованный", и главный вклад в возбуждение не опирается на компоненту FCB для сигнала класса "вокализованный". В этом случае, если используется шумоподобная FCB, выходной синтезированный речевой сигнал может звучать как зашумленный или менее периодический, поскольку с использованием кодового вектора, выбранного из шумоподобной FCB, предназначенной для кодирования с низкой частотой следования битов, труднее получить хорошее совпадение формы волны. Фиг.6 демонстрирует структуру FCB, которая содержит импульсоподобные возможные векторы для построения кодированного возбуждения. 601 представляет импульсоподобную FCB, и 602 представляет импульсоподобный кодовый вектор. Выбранный кодовый вектор масштабируется коэффициентом 603 усиления.

Большинство кодеков CELP хорошо работают для нормальных речевых сигналов; однако кодеки CELP с низкой частотой следования битов могут отказывать в присутствии особо зашумленного речевого сигнала или для сигнала класса "универсальный". Как описано выше, шумоподобная FCB может быть наилучшим выбором для сигнала класса "шумовой" или "невокализованный", и импульсоподобная FCB может быть наилучшим выбором для сигнала класса "вокализованный". Класс "универсальный" занимает промежуточное положение между классом "вокализованный" и классом "невокализованный". Статистически, коэффициент усиления LTP или коэффициент усиления основного тона для класса "универсальный" может быть ниже, чем для класса "вокализованный", но выше, чем для класса "невокализованный". Класс "универсальный" может содержать как сигнал шумоподобной компоненты, так и сигнал периодической компоненты. На низких частотах следования битов, если для сигнала класса "универсальный" используется импульсоподобная FCB, выходной синтезированный речевой сигнал все же может звучать резко, вследствие большого количества нулей в кодовом векторе, выбранном из импульсоподобной FCB, предназначенной для кодирования с низкой частотой следования битов. Например, когда кодек со скоростью 6800 бит/с или 7600 бит/с кодирует речевой сигнал, дискретизированный с частотой 12,8 кГц, кодовый вектор из импульсоподобной кодовой книги может позволять себе иметь лишь два ненулевых импульса, что обуславливает резкий звук для зашумленной речи. Если для сигнала класса "универсальный" используется шумоподобная FCB, выходной синтезированный речевой сигнал может не иметь достаточно хорошего совпадения формы волны для генерации периодической компоненты, что обуславливает зашумленный звук для чистой речи. Таким образом, для кодирования класса "универсальный" на низких частотах следования битов может потребоваться новая структура FCB, промежуточная между шумоподобной и импульсоподобной.

Одно из решений для улучшения кодирования речи на низких частотах следования битов для сигнала класса "универсальный" предусматривает использование импульсно-шумовой смешанной FCB вместо импульсоподобной FCB или шумоподобной FCB. Фиг.7 демонстрирует структуру импульсно-шумовой смешанной FCB согласно варианту осуществления. 701 указывает импульсно-шумовую смешанную FCB целиком. Выбранный кодовый вектор 702 генерируется путем комбинирования (суммирования) вектора из импульсоподобной кодовой подкниги 704 и вектора из шумоподобной кодовой подкниги 705. Затем выбранный кодовый вектор 702 масштабируется коэффициентом 703 усиления FCB Gc. Например, импульсоподобной кодовой подкниге 704 назначается 6 битов, из которых 5 битов предназначены для кодирования одной позиции импульса, и 1 бит предназначен для кодирования знака импульсоподобных векторов; шумоподобной кодовой подкниге 705 назначается 6 битов, из которых 5 битов предназначены для кодирования 32 разных шумоподобных векторов, и 1 бит предназначен для кодирования знака шумоподобных векторов.

Фиг.8 демонстрирует структуру импульсно-шумовой смешанной FCB 801 согласно варианту осуществления. Поскольку кодовый вектор из импульсно-шумовой смешанной FCB является комбинацией вектора из импульсоподобной кодовой подкниги и вектора из шумоподобной кодовой подкниги, к вектору из импульсоподобной кодовой подкниги и вектору из шумоподобной кодовой подкниги, можно применять, соответственно, разные улучшения. Например, к вектору из импульсоподобной кодовой подкниги можно применять фильтр нижних частот; дело в том, что низкочастотная область часто бывает более периодической, чем высокочастотная область, и низкочастотная область больше нуждается в импульсоподобном возбуждении, чем высокочастотная область; к вектору из шумоподобной кодовой подкниги можно применять фильтр верхних частот; дело в том, что высокочастотная область часто бывает более зашумленной, чем низкочастотная область, и высокочастотная область больше нуждается в шумоподобном возбуждении, чем низкочастотная область. Выбранный кодовый вектор 802 генерируется путем комбинирования (суммирования) фильтрованного по нижним частотам вектора из импульсоподобной кодовой подкниги 804 и фильтрованного по верхним частотам вектора из шумоподобной кодовой подкниги 805. 806 указывает фильтр нижних частот, который может быть фиксированным или адаптивным. Например, для универсального речевого кадра вблизи вокализованного речевого сигнала используется фильтр первого порядка , и для универсального речевого кадра вблизи невокализованного речевого сигнала используется фильтр первого порядка . 807 указывает фильтр верхних частот, который может быть фиксированным или адаптивным; например, для универсального речевого кадра вблизи невокализованного речевого сигнала используется фильтр первого порядка , и для универсального речевого кадра вблизи вокализованного речевого сигнала используется фильтр первого порядка . Улучшающие фильтры 806 и 807 обычно не расходуют биты для кодирования коэффициентов фильтрации, и коэффициенты улучшающих фильтров могут быть адаптивны к доступным параметрам в кодере и декодере. Затем выбранный кодовый вектор 802 масштабируется коэффициентом 803 усиления FCB Gc. Согласно примеру, приведенному на фиг.8, если 12 битов доступны для кодирования импульсно-шумовой смешанной FCB, показанной на фиг.8, импульсоподобной кодовой подкниге 804 можно назначить 6 битов, из которых 5 битов предназначены для кодирования одной позиции импульса, и 1 бит предназначен для кодирования знака импульсоподобных векторов. Например, шумоподобной кодовой подкниге 805 можно назначить 6 битов, из которых 5 битов предназначены для кодиро