Улучшение классификации между кодированием во временной области и кодированием в частотной области

Иллюстрации

Показать все

Изобретение относится к средствам для кодирования сигналов. Технический результат заключается в повышении эффективности классификации между кодированием во временной области и кодированием в частотной области. Выбирают кодирование в частотной области или кодирование во временной области на основе скорости передачи битов кодирования, которая должна быть использована для кодирования цифрового сигнала, и обнаружения короткого запаздывания основного тона цифрового сигнала. Обнаружение короткого запаздывания основного тона содержит обнаружение того, содержит ли цифровой сигнал, сигнал короткого основного тона, для которого запаздывание основного тона короче, чем ограничение запаздывания основного тона, при этом ограничение запаздывания основного тона является минимальным допустимым основным тоном для алгоритма линейного предсказания с кодовым возбуждением (CELP) для кодирования цифрового сигнала. 2 н. и 12 з.п. ф-лы, 15 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

[1] Настоящее изобретение, в общем, находится в области кодирования сигналов. В частности, настоящее изобретение находится в области улучшения классификации между кодированием во временной области и кодированием в частотной области.

Уровень техники

[2] Кодирование речи относится к процессу, который сокращает скорость передачи битов файла речи. Кодирование речи является применением сжатия данных цифровых аудиосигналов, содержащих речь. Кодирование речи использует оценку специфических для речи параметров с использованием технологий обработки аудиосигналов для моделирования сигнала речи, в сочетании с типовыми алгоритмами сжатия данных для представления, получившихся в результате смоделированных параметров в компактном битовом потоке. Целью кодирования речи является достижение сэкономленных ресурсов в требуемом месте запоминающего устройства, ширине полосы пропускания передачи и мощности передачи посредством сокращения числа битов на выборку, так чтобы декодированная (декомпрессированная) речь была перцепционно неотличима от исходной речи.

[3] Однако кодеры речи являются кодерами с потерями, то есть декодированный сигнал отличается от исходного. Поэтому одна из целей в кодировании речи заключается в том, чтобы минимизировать искажение (или воспринимаемую потерю) при данной скорости передачи битов, или минимизировать скорость передачи битов для достижения данного искажения.

[4] Кодирование речи отличается от других форм аудиокодирования тем, что речь является намного более простым сигналом, чем большинство других аудиосигналов, и намного больше статистической информации доступно о свойствах речи. В качестве результата, некоторая слуховая информация, которая является значимой в аудиокодировании, может быть ненужной в контексте кодирования речи. В кодировании речи, самым важным критерием является сохранение разборчивости и "приятности" речи с ограниченным объемом передаваемых данных.

[5] Разборчивость речи включает в себя, помимо фактического дословного содержания, также индивидуальность говорящего, эмоции, интонация, тембр и так далее, все то, что является важным для идеальной разборчивости. Более абстрактной концепцией приятности ухудшенной речи является отличное свойство, чем разборчивость, поскольку возможно, что ухудшенная речь является полностью разборчивой, но субъективно раздражающей для слушателя.

[6] Традиционно, все параметрические способы кодирования речи используют избыточность, свойственную для сигнала речи, для сокращения объема информации, которая должна быть отправлена, и для оценки параметров выборок речи сигнала на коротких интервалах. Эта избыточность в основном возникает из повторения очертаний волн речи при квазипериодической скорости, и медленно изменяющейся спектральной огибающей сигнала речи.

[7] Избыточность форм волн речи может рассматриваться в отношении нескольких различных типов сигнала речи, таких как сигналы вокализованной и невокализованной речи. Вокализованные звуки, например, "а", "б" происходят по существу вследствие колебаний голосовых связок и являются колебательными. Поэтому через короткие периоды времени они хорошо моделируются посредством сумм периодических сигналов, таких как синусоиды. Другими словами, для вокализованной речи сигнал речи по существу является периодическим. Однако эта периодичность может быть изменчивой в течение продолжительности сегмента речи, и очертание периодической волны обычно изменяется постепенно от сегмента к сегменту. Кодирование речи низкой скорости передачи битов может сильно выигрывать от выявления такой периодичности. Кодирование речи во временной области может сильно выигрывать от выявления такой периодичности. Период вокализованной речи также называется основным тоном, и предсказание основного тона часто называют долгосрочным предсказанием (LTP). В противоположность, невокализованные звуки, такие как "с", "ш", являются более шумоподобными. Это вызвано тем, что сигнал невокализованной речи больше похож на случайный шум и имеет меньшую степень предсказуемости.

[8] В любом случае, параметрическое кодирование может быть использовано для сокращения избыточности сегментов речи посредством отделения компонента возбуждения сигнала речи от компонента спектральной огибающей, который меняется при более медленной скорости. Медленно изменяющийся компонент спектральной огибающей может быть представлен кодированием линейного предсказания (LPC), также называемым краткосрочным предсказанием (STP). Кодирование речи низкой скорости передачи битов также может сильно выигрывать от выявления такого краткосрочного предсказания. Преимущество кодирования возрастает от медленной скорости, при которой изменяются параметры. При этом это является редким для параметров быть значительно отличными от значений, поддерживаемых в пределах нескольких миллисекунд.

[9] В более поздних хорошо известных стандартах, таких как G.723.1, G.729, G.718, были адаптированы система улучшенного скоростного кодирования речи (EFR), вокодер с выбираемым режимом (SMV), адаптивная мультискоростная система (AMR), многорежимная широкополосная система с переменной скоростью (VMR-WB) или адаптивная мультискоростная широкополосная система (AMR-WB), технология линейного предсказания с кодовым возбуждением ("CELP"). CELP обычно понимается как техническая комбинация кодового возбуждения, долгосрочного предсказания и краткосрочного предсказания. CELP в основном используется для кодирования сигнала речи, выигрывая от специфических характеристик человеческого голоса или вокальной модели воспроизведения голоса человека. Кодирование речи CELP является очень популярным принципом алгоритма в области сжатия речи, хотя детали CELP для различных кодеков могут быть значительно отличающимися. Вследствие его популярности алгоритм CELP использовался в различных стандартах ITU-T, MPEG, 3GPP и 3GPP2. Варианты CELP включают в себя алгебраическое CELP, ослабленное CELP, CELP с малой задержкой и линейное предсказание с возбуждением суммы векторов и другие. CELP является общим термином для класса алгоритмов и не для конкретного кодека.

[10] Алгоритм CELP основан на четырех главных идеях. Первая, используется модель фильтра-источника речеобразования посредством линейного предсказания (LP). Модель фильтра-источника речеобразования моделирует речь в качестве комбинации источника звука, такого как голосовые связки, и линейного акустического фильтра, голосового тракта (и характеристики излучения). В реализации модели фильтра-источника речеобразования источник звука или сигнал возбуждения часто моделируется в качестве периодической импульсной последовательности для вокализованной речи или в качестве белого шума для невокализованной речи. Вторая, адаптивная и фиксированная кодовая книга используется в качестве входа (возбуждения) модели LP. Третья, поиск выполняется в замкнутом цикле в "перцепционно взвешенной области". Четвертая, применяется квантование векторов (VQ).

Сущность изобретения

[11] В соответствии с вариантом осуществления настоящего изобретения, способ для обработки сигналов речи до кодирования цифрового сигнала, содержащего аудиоданные, включает в себя выбор кодирования в частотной области или кодирования во временной области на основе скорости передачи битов кодирования, которая должна быть использована для кодирования цифрового сигнала, и обнаружения короткого запаздывания основного тона цифрового сигнала.

[12] В соответствии с альтернативным вариантом осуществления настоящего изобретения, способ для обработки сигналов речи до кодирования цифрового сигнала, содержащего аудиоданные, содержит выбор кодирования в частотной области для кодирования цифрового сигнала, когда скорость передачи битов кодирования выше, чем верхнее ограничение скорости передачи битов. В качестве альтернативы, способ выбирает кодирование во временной области для кодирования цифрового сигнала, когда скорость передачи битов кодирования ниже, чем нижнее ограничение скорости передачи битов. Цифровой сигнал содержит сигнал короткого основного тона, для которого запаздывание основного тона короче, чем ограничение запаздывания основного тона.

[13] В соответствии с альтернативным вариантом осуществления настоящего изобретения, способ для обработки сигналов речи до кодирования содержит выбор кодирования во временной области для кодирования цифрового сигнала, содержащего аудиоданные, когда цифровой сигнал не содержит сигнал короткого основного тона и цифровой сигнал классифицируется как невокализованная речь или нормальная речь. Способ дополнительно содержит выбор кодирования в частотной области для кодирования цифрового сигнала, когда скорость передачи битов кодирования является промежуточной между нижним ограничением скорости передачи битов и верхним ограничением скорости передачи битов. Цифровой сигнал содержит сигнал короткого основного тона, и периодичность голоса является низкой. Способ дополнительно включает в себя выбор кодирования во временной области для кодирования цифрового сигнала, когда скорость передачи битов кодирования является промежуточной и цифровой сигнал содержит сигнал короткого основного тона и периодичность голоса является очень сильной.

[14] В соответствии с альтернативным вариантом осуществления настоящего изобретения, аппарат для обработки сигналов речи до кодирования цифрового сигнала, содержащего аудиоданные, содержит селектор кодирования, сконфигурированный с возможностью выбора кодирования в частотной области или кодирования во временной области на основе скорости передачи битов кодирования, которая должна быть использована для кодирования цифрового сигнала, и обнаружения короткого запаздывания основного тона цифрового сигнала.

Краткое описание чертежей

[15] Для более полного понимания настоящего изобретения и его преимуществ в данный момент ссылка дается на следующие описания, рассматриваемые вместе с сопроводительными чертежами, на которых:

[16] Фигура 1 иллюстрирует операции, выполняемые во время кодирования исходной речи с использованием традиционного кодера CELP;

[17] Фигура 2 иллюстрирует операции, выполняемые во время декодирования исходной речи с использованием декодера CELP;

[18] Фигура 3 иллюстрирует традиционный кодер CELP;

[19] Фигура 4 иллюстрирует базовый декодер CELP, соответствующий кодеру на фигуре 3;

[20] Фигуры 5 и 6 иллюстрируют примеры схематических сигналов речи и их отношение к размеру кадра и размеру подкадра во временной области;

[21] Фигура 7 иллюстрирует пример исходного вокализованного широкополосного спектра;

[22] Фигура 8 иллюстрирует кодированный вокализованный широкополосный спектр исходного вокализованного широкополосного спектра, проиллюстрированного на фигуре 7, с использованием кодирования запаздывания основного тона с удвоением;

[23] Фигуры 9A и 9B иллюстрируют схематическое изображение типичного перцепционного кодека частотной области, при этом фигура 9A иллюстрирует кодер частотной области, тогда как фигура 9B иллюстрирует декодер частотной области;

[24] Фигура 10 иллюстрирует схематическое изображение операций на кодере до кодирования сигнала речи, содержащего аудиоданные, в соответствии с вариантами осуществления настоящего изобретения;

[25] Фигура 11 иллюстрирует систему 10 связи согласно варианту осуществления настоящего изобретения;

[26] Фигура 12 иллюстрирует блок-схему системы обработки, которая может быть использована для реализации устройств и способов, раскрытых в этом документе;

[27] Фигура 13 иллюстрирует блок-схему аппарата для обработки сигналов речи до кодирования цифрового сигнала; и

[28] Фигура 14 иллюстрирует блок-схему другого аппарата для обработки сигналов речи до кодирования цифрового сигнала.

Подробное описание иллюстративных вариантов осуществления

[29] В современной системе связи цифровых сигналов аудио/речи цифровой сигнал сжимается на кодере, и сжатая информация или битовый поток может пакетироваться и отправляться декодеру по кадрам через канал связи. Декодер принимает и декодирует сжатую информацию для получения цифрового сигнала аудио/речи.

[30] В современной системе связи цифровых сигналов аудио/речи цифровой сигнал сжимается на кодере, и сжатая информация или битовый поток может пакетироваться и отправляться декодеру по кадрам через канал связи. Система и кодера, и декодера вместе называется кодек. Сжатие речи/аудио может быть использовано для сокращения числа битов, которые представляют сигнал речи/аудио, посредством этого сокращая ширину полосы пропускания и/или скорость передачи битов, необходимую для передачи. В общем, более высокая скорость передачи битов даст в результате более высокое качество аудио, в то время как более низкая скорость передачи битов даст в результате более низкое качество аудио.

[31] Фигура 1 иллюстрирует операции, выполняемые во время кодирования исходной речи с использованием традиционного кодера CELP.

[32] Фигура 1 иллюстрирует традиционный изначальный кодер CELP, где взвешенная ошибка 109 между синтезированной речью 102 и исходной речью 101 часто минимизируется посредством использования подхода анализа через синтез, который означает, что кодирование (анализ) выполняется посредством перцепционной оптимизации декодированного (синтез) сигнала в замкнутом цикле.

[33] Основным принципом, которым пользуются все кодеры речи, является факт, что сигналы речи представляют собой высоко коррелированные формы волн. В качестве иллюстрации, речь может быть представлена с использованием авторегрессивной (AR) модели как в уравнении (1) ниже по тексту.

(1)

[34] В уравнении (11), каждая выборка представлена как линейная комбинация из предыдущих P выборок плюс белый шум. Коэффициенты взвешивания a1, a2,... aP, называются коэффициентами линейного предсказания (LPC). Для каждого кадра коэффициенты взвешивания a1, a2,... aP, выбираются так, что спектр из {X1, X2,..., XN}, сгенерированный с использованием вышеуказанной модели, близко согласуется со спектром входного кадра речи.

[35] В качестве альтернативы, сигналы речи также могут быть представлены комбинацией из гармонической модели и модели шума. Гармоническая часть модели является эффективным представлением в виде ряда Фурье периодической составляющей сигнала. В общем, для вокализованных сигналов, модель гармоники и шума в речи состоит из смешения и гармоник и шума. Соотношение гармоники и шума в вокализованной речи зависит от количества факторов, включающих в себя характеристики говорящего (например, до какой степени голос говорящего является нормальным или хриплым); характер сегмента речи (например, до какой степени сегмент речи является периодическим), и от частоты. Более высокие частоты вокализованной речи имеют более высокое соотношение шумоподобных компонентов.

[36] Модель линейного предсказания и модель гармоники-шума являются двумя основными способами для моделирования и кодирования сигналов речи. Модель линейного предсказания в частности является хорошей при моделировании спектральной огибающей речи, тогда как модель гармоники-шума является хорошей при моделировании тонкой структуры речи. Два способа могут быть объединены для использования их относительных сильных сторон.

[37] Как указано ранее, до кодирования CELP, входной сигнал в микрофон телефонного аппарата фильтруется и подвергается выборке, например, при скорости 8000 выборок в секунду. Каждая выборка затем квантуется, например, со скоростью 13 бит на выборку. Подвергнутая выборке речь сегментируется в сегменты или кадры из 20 мс (например, в этом случае 160 выборок).

[38] Сигнал речи анализируется, и извлекаются его модель LP, сигналы возбуждения и основной тон. Модель LP представляет спектральную огибающую речи. Она преобразуется в набор из коэффициентов частот спектральных линий (LSF), который является альтернативным представлением параметров линейного предсказания, поскольку коэффициенты LSF имеют хорошие свойства квантования. Коэффициенты LSF могут быть подвергнуты скалярному квантованию, или более эффективно они могут быть подвергнуты векторному квантованию с использованием ранее подготовленных векторных кодовых книг LSF.

[39] Кодовое возбуждение включает в себя кодовую книгу, содержащую кодовые векторы, которые имеют компоненты, которые все являются независимо выбранными так, что каждый кодовый вектор может иметь приблизительно "белый" спектр. Для каждого подкадра входной речи, каждый из кодовых векторов фильтруется посредством фильтра 103 краткосрочного линейного предсказания и фильтра 105 долгосрочного предсказания, и выход сравнивается с выборками речи. На каждом подкадре, кодовый вектор, чей выход согласуется наилучшим образом с входной речью (минимизированная ошибка), выбирается для представления этого подкадра.

[40] Кодовое возбуждение 108 обычно содержит импульсовидный сигнал или шумоподобный сигнал, которые математически создаются или сохраняются в кодовой книге. Кодовая книга является доступной и для кодера, и для принимающего декодера. Кодовое возбуждение 108, которое может быть стохастической или фиксированной кодовой книгой, может быть словарем квантования векторов, который (неявно или явно) жестко закодирован в кодеке. Такая фиксированная кодовая книга может быть алгебраическим линейным предсказанием с кодовым возбуждением или может быть явно сохранена.

[41] Кодовый вектор из кодовой книги масштабируется надлежащим усилением, чтобы сделать энергию равной энергии входной речи. Соответственно, выход кодового возбуждения 108 масштабируется усилением Gc 107 до прохождения через линейные фильтры.

[42] Фильтр 103 краткосрочного линейного предсказания формирует "белый" спектр кодового вектора, чтобы он имел сходство со спектром входной речи. Эквивалентно, во временной области, фильтр 103 краткосрочного линейного предсказания включает краткосрочные корреляции (корреляцию с предыдущими выборками) в белой последовательности. Фильтр, который формирует возбуждение, имеет полюсную модель формы 1/A(z) (фильтр 103 краткосрочного линейного предсказания), где A(z) называют фильтром предсказания и он может быть получен с использованием линейного предсказания (например, алгоритма Левинсона-Дарбина). В одном или более вариантах осуществления может быть использован полюсный фильтр, поскольку он является хорошим представлением речевого тракта человека и поскольку его легко вычислить.

[43] Фильтр 103 краткосрочного линейного предсказания получается посредством анализа исходного сигнала 101 и представляется посредством набора коэффициентов:

[44] Как описано ранее, зоны вокализованной речи проявляют долгосрочную периодичность. Этот период, известный как основной тон, вводится в синтезированный спектр фильтром 1/(B(z)) основного тона. Выход фильтра 105 долгосрочного предсказания зависит от основного тона и усиления основного тона. В одном или более вариантах осуществления, основной тон может быть оценен из исходного сигнала, остаточного сигнала или взвешенного исходного сигнала. В одном варианте осуществления, функция (B(z)) долгосрочного предсказания может быть выражена с использованием уравнения (3) следующим образом.

(3)

[45] Фильтр 110 взвешивания относится к вышеуказанному фильтру краткосрочного предсказания. Один из типичных фильтров взвешивания может быть представлен, как описано в уравнении (4).

(4)

где , , .

[46] В другом варианте осуществления, фильтр W(z) взвешивания может быть выведен из фильтра LPC посредством использования расширения полосы частот, как проиллюстрировано в одном варианте осуществления в уравнении (5) ниже по тексту.

(5),

В уравнении (5), γ1 > γ2, которые являются множителями, с которыми полюса перемещаются в направлении к началу координат.

[47] Соответственно, для каждого кадра речи вычисляются LPC и основной тон и обновляются фильтры. Для каждого подкадра речи, кодовый вектор, который производит "лучший" фильтрованный выход, выбирается для представления подкадра. Соответствующее квантованное значение усиления должно быть передано декодеру для правильного декодирования. Значения основного тона и LPC также должны быть квантованы и отправлены каждому кадру для восстановления фильтров на декодере. Соответственно, индекс кодового возбуждения, индекс квантованного усиления, индекс квантованного параметра долгосрочного предсказания и индекс квантованного параметра краткосрочного предсказания передаются декодеру.

[48] Фигура 2 иллюстрирует операции, выполняемые во время декодирования исходной речи с использованием декодера CELP.

[49] Сигнал речи восстанавливается на декодере посредством прохождения принятых кодовых векторов через соответствующие фильтры. Следовательно, каждый блок, за исключением последующей обработки, имеет одно и то же определение, как описано в кодере с фигуры 1.

[50] Кодовый битовый поток CELP принимается и распаковывается 80 на устройстве приема. Для каждого принятого подкадра, принятый индекс кодового возбуждения, индекс квантованного усиления, индекс квантованного параметра долгосрочного предсказания и индекс квантованного параметра краткосрочного предсказания используются для поиска соответствующих параметров с использованием соответствующих декодеров, например, декодера 81 усиления, декодера 82 долгосрочного предсказания и декодера 83 краткосрочного предсказания. Например, позиции и знаки амплитуды импульсов возбуждения и алгебраический кодовый вектор кодового возбуждения 402 могут быть определены из принятого индекса кодового возбуждения.

[51] Ссылаясь на фигуру 2, декодер является комбинацией из нескольких блоков, которые включают в себя кодовое возбуждение 201, долгосрочное предсказание 203, краткосрочное предсказание 205. Изначальный декодер дополнительно включает в себя блок 207 последующей обработки после синтезированной речи 206. Последующая обработка может дополнительно содержать краткосрочную последующую обработку и долгосрочную последующую обработку.

[52] Фигура 3 иллюстрирует традиционный кодер CELP.

[53] Фигура 3 иллюстрирует базовый кодер CELP с использованием дополнительной адаптивной кодовой книги для улучшения долгосрочного линейного предсказания. Возбуждение производится посредством суммирования вкладов из адаптивной кодовой книги 307 и кодового возбуждения 308, которое может быть стохастической или фиксированной кодовой книгой, как описано ранее. Записи в адаптивной кодовой книге содержат отложенные версии возбуждения. Это позволяет эффективно кодировать периодические сигналы, такие как вокализованные звуки.

[54] Ссылаясь на фигуру 3, адаптивная кодовая книга 307 содержит прошедшее синтезированное возбуждение 304 или повторяющийся цикл основного тона прошедшего возбуждения в период основного тона. Запаздывание основного тона может быть кодировано в целом значении, когда оно большое или долгое. Запаздывание основного тона часто кодируется в более точной дробной величине, когда оно маленькое или короткое. Периодическая информация основного тона используется для генерирования адаптивного компонента возбуждения. Этот компонент возбуждения затем масштабируется усилением Gp 305 (также называемым усиление основного тона).

[55] Долгосрочное предсказание играет очень важную роль для кодирования вокализованной речи, поскольку вокализованная речь имеет сильную периодичность. Соседние циклы основного тона вокализованной речи являются аналогичными друг другу, что математически означает, что усиление Gp основного тона в следующем выражении возбуждения является высоким или близким к 1. Получившееся в результате возбуждение может быть выражено в уравнении (6) в качестве комбинации индивидуальных возбуждений.

где ep(n) является одним подкадром ряда выборок, индексированного посредством n, исходящим из адаптивной кодовой книги 307, которая содержит прошедшее возбуждение 304, через цепь обратной связи (фигура 3). ep(n) может быть адаптивно пропущен через фильтр нижних частот, так как область низкой частоты является часто более периодической или более гармонической, чем область высокой частоты. ec(n), который исходит из кодовой книги 308 кодового возбуждения (также называемой фиксированной кодовой книгой), является текущим вкладом возбуждения. Дополнительно, ec(n) также может быть улучшен, например посредством использования улучшения фильтра верхних частот, улучшения основного тона, улучшения дисперсии, улучшения форманта и другого.

[56] Для вокализованной речи, вклад ep(n) из адаптивной кодовой книги 307 может быть преобладающим и усиление Gp 305 основного тона примерно равно значению 1. Возбуждение обычно обновляется для каждого подкадра. Типичный размер кадра равен 20 миллисекундам и типичный размер подкадра равен 5 миллисекундам.

[57] Как описано на фигуре 1, фиксированное кодовое возбуждение 308 масштабируется усилением Gc 306 до прохождения через линейные фильтры. Два масштабированных компонента возбуждения из фиксированного кодового возбуждения 108 и адаптивной кодовой книги 307 добавляются вместе до фильтрации через фильтр 303 краткосрочного линейного предсказания. Два усиления (Gp и Gc) квантуются и передаются декодеру. Соответственно, индекс кодового возбуждения, индекс адаптивной кодовой книги, индексы квантованных усилений и индекс квантованного параметра краткосрочного предсказания передаются принимающему аудиоустройству.

[58] Битовый поток CELP, кодированный с использованием устройства, проиллюстрированного на фигуре 3, принимается на устройстве приема. Фигура 4 иллюстрирует соответствующий декодер устройства приема.

[59] Фигура 4 иллюстрирует базовый декодер CELP, соответствующий кодеру на фигуре 3. Фигура 4 включает в себя блок 408 последующей обработки, принимающий синтезированную речь 407 от главного декодера. Этот декодер является аналогичным фигуре 3, за исключением адаптивной кодовой книги 307.

[60] Для каждого принятого подкадра, принятый индекс кодового возбуждения, индекс квантованного усиления кодового возбуждения, индекс квантованного основного тона, индекс квантованного усиления адаптивной кодовой книги и индекс квантованного параметра краткосрочного предсказания используются для поиска соответствующих параметров с использованием соответствующих декодеров, например, декодера 81 усиления, декодера 84 основного тона, декодера 85 усиления адаптивной кодовой книги и декодера 83 краткосрочного предсказания.

[61] В различных вариантах осуществления, декодер CELP является комбинацией из нескольких блоков и содержит кодовое возбуждение 402, адаптивную кодовую книгу 401, краткосрочное предсказание 406 и последующую обработку 408. Каждый блок, за исключением последующей обработки, имеет одно и то же определение, как описано в кодере с фигуры 3. Последующая обработка может дополнительно включать в себя краткосрочную последующую обработку и долгосрочную последующую обработку.

[62] Блок с кодовым возбуждением (упоминаемый с меткой 308 на фигуре 3 и 402 на фигуре 4) иллюстрирует местоположение фиксированной кодовой книги (FCB) для общего кодирования CELP. Выбранный кодовый вектор из FCB масштабируется усилением, часто отмеченным как Gc 306.

[63] Фигуры 5 и 6 иллюстрируют примеры схематических сигналов речи и их отношение к размеру кадра и размеру подкадра во временной области. Фигуры 5 и 6 иллюстрируют кадр, включающий в себя множество подкадров.

[64] Выборки входной речи разделяются на блоки выборок, каждый из которых называется кадрами, например, 80-240 выборок или кадров. Каждый кадр разделяется на более маленькие блоки выборок, каждый из которых называется подкадрами. При частоте выборки 8 кГц, 12,8 кГц или 16 кГц алгоритм кодирования речи является таким, что номинальная продолжительность кадра находится в диапазоне от десяти до тридцати миллисекунд, и типично двадцати миллисекунд. На проиллюстрированной фигуре 5, кадр имеет размер 1 кадра и размер 2 кадра, в котором каждый кадр разделяется на 4 подкадра.

[65] Ссылаясь на нижнюю или крайнюю части с фигур 5 и 6, вокализованные зоны в речи похожи на почти периодический сигнал в представлении временной области. Периодическое открытие и закрытие голосовых складок говорящего приводит в результате к гармонической структуре в сигналах вокализованной речи. Поэтому за короткие периоды времени вокализованные сегменты речи могут рассматриваться как периодические для всего практического анализа и обработки. Периодичность, ассоциированная с такими сегментами, задается как "Период основного тона" или просто "Основной тон" во временной области и "Частота основного тона или основная частота f0" в частотной области. Инверсия периода основного тона является основной частотой речи. Термины основной тон и основная частота речи часто используются взаимозаменяемо.

[66] Для большей части вокализованной речи, один кадр содержит более, чем два цикла основного тона. Фигура 5 дополнительно иллюстрирует пример, что период 3 основного тона меньше, чем размер 2 подкадра. В отличие от этого, фигура 6 иллюстрирует пример, в котором период 4 основного тона больше, чем размер 2 подкадра и меньше, чем половинный размер кадра.

[67] Для того, чтобы более эффективно кодировать сигнал речи, сигнал речи может быть классифицирован на различные классы и каждый класс кодируется различным способом. Например, в некоторых стандартах, таких как G.718, VMR-WB или AMR-WB, сигнал речи классифицируется на невокализованный, переходный, типичный, вокализованный и шумовой.

[68] Для каждого класса фильтр STP или LPC всегда используется для представления спектральной огибающей. Однако возбуждение для фильтра LPC может быть различным. Невокализованный и шумовой классы могут быть кодированы с улучшением некоторого возбуждения и возбуждения шума. Переходный класс может быть кодирован с улучшением некоторого возбуждения и возбуждения импульса без использования адаптивной кодовой книги или LTP.

[69] Типичный может быть кодирован традиционным подходом CELP, таким как алгебраическое CELP, используемое в G.729 или AMR-WB, в котором один 20 мс кадр содержит четыре 5 мс подкадра. И компонент возбуждения адаптивной кодовой книги, и компонент возбуждения фиксированной кодовой книги производятся с некоторым улучшением возбуждения для каждого подкадра. Запаздывания основного тона для адаптивной кодовой книги в первом и третьем подкадрах кодируются в полном диапазоне от минимального ограничения основного тона PIT_MIN до максимального ограничения основного тона PIT_MAX. Запаздывания основного тона для адаптивной кодовой книги во втором и четвертом подкадрах кодируются по-разному от предыдущего кодированного запаздывания основного тона.

[70] Вокализованные классы могут быть кодированы таким путем, что они будут являться немного отличающимися от параметризованного класса. Например, запаздывание основного тона в первом подкадре может быть кодировано в полном диапазоне от минимального ограничения основного тона PIT_MIN до максимального ограничения основного тона PIT_MAX. Запаздывания основного тона в других подкадрах могут быть кодированы по-разному от предыдущего кодированного запаздывания основного тона. В качестве иллюстрации, предположим, что частота выборки возбуждения равна 12,8 кГц, тогда примерное значение PIT_MIN может быть 34 и PIT_MAX может быть 231.

[71] Сейчас будут описаны варианты осуществления настоящего изобретения для улучшения классификации кодирования во временной области и кодирования в частотной области.

[72] В сущности, лучше использовать кодирование во временной области для сигнала речи и кодирование в частотной области для музыкального сигнала для того, чтобы достигать лучшего качества при довольно высокой скорости передачи битов (например, 24 кбит/с <= скорость передачи битов <= 64 кбит/с). Однако, для некоторого специфического сигнала речи, такого как сигнал короткого основного тона, речевой сигнал пения или очень шумный сигнал речи, может быть лучше использовать кодирование в частотной области. Для некоторых специфических музыкальных сигналов, таких как очень периодический сигнал, может быть лучше использовать кодирование во временной области, извлекая выгоду из очень высокого усиления LTP. Скорость передачи битов является важным параметром для классификации. Обычно кодирование во временной области поддерживает низкую скорость передачи битов, и кодирование в частотной области поддерживает высокую скорость передачи битов. Лучшая классификация или выбор между кодированием во временной области и кодированием в частотной области должен быть определен осторожно, также принимая во внимание диапазон скорости передачи битов и характеристику алгоритмов кодирования.

[73] В следующих разделах будет описано обнаружение нормальной речи и сигнала короткого основного тона.

[74] Нормальная речь является сигналом речи, который исключает речевой сигнал пения, речевой сигнал короткого основного тона или смешанный сигнал речи/музыки. Нормальная речь также может быть быстро изменяющимся сигналом речи, спектр и/или энергия которого меняется быстрее, чем большинство музыкальных сигналов. Обычно, алгоритм кодирования во временной области лучше, чем алгоритм кодирования в частотной области для кодирования сигнала нормальной речи. Нижеследующее является примерным алгоритмом для обнаружения сигнала нормальной речи.

[75] Для варианта P основного тона, корреляция нормализованного основного тона часто задана в математической форме как в уравнении (8).

(8)

[76] В уравнении (8), sw(n) является взвешенным сигналом речи, числитель является корреляцией, и знаменатель является множителем нормализации энергии. Предположим, что Voicing отмечает среднее значение корреляции нормализованного основного тона четырех подкадров в текущем кадре речи, Voicing может быть вычислено, как в уравнении (9) ниже по тексту.

Voicing=[ R1(P1)+R2(P2)+R3(P3)+R4(P4) ]/4 (9)

[77] R1(P1), R2(P2), R3(P3) и R4(P4) представляют собой четыре корреляции нормализованного основного тона, вычисленные для каждого подкадра; P1, P2, P3, и P4 для каждого подкадра являются лучшими вариантами основного тона, найденными в диапазоне основного тона от P=PIT_MIN до P=PIT_MAX. Сглаженная корреляция основного тона от предыдущего кадра до текущего кадра может быть вычислена, как в уравнении (10).

(10)

[78] В уравнении (10), VAD является обнаружением голосовой активности и VAD=1 обозначает, что сигнал речи существует. Предположим, что Fs является частотой выборки, максимальной энергией в зоне очень низкой частоты [0, FMIN=Fs/PIT_MIN] (Гц) является Energy0 (дБ), максимальной энергией в зоне низкой частоты [F