Квантование коэффициентов усиления для речевого кодера линейного прогнозирования с кодовым возбуждением

Иллюстрации

Показать все

Изобретение относится к области кодирования. Технический результат заключается в увеличении битовой скорости для непериодических сигналов и уменьшении количества битов, необходимых для представления квантованных коэффициентов усиления. Сущность изобретения заключается в том, что обеспечивают речевой сигнал на покадровой основе, в ходе обработки кадров и до обработки подкадров определяют коэффициент усиления адаптивной кодовой книги для каждого подкадра текущего кадра на основании речевого сигнала, осуществляют векторное квантование коэффициентов усиления адаптивной кодовой книги, в ходе обработки подкадров определяют коэффициент усиления фиксированной кодовой книги для каждого подкадра текущего кадра и после обработки подкадров и осуществляют векторное квантование коэффициентов усиления фиксированной кодовой книги с задержанным решением. 4 н. и 75 з.п. ф-лы, 12 ил.

Реферат

ССЫЛКИ НА РОДСТВЕННЫЕ ЗАЯВКИ

Следующие заявки на патент США включены в настоящее описание посредством ссылки и составляют часть настоящей заявки:

заявка №09/156650 на патент США, озаглавленная “Речевой кодер с использованием нормализации коэффициента усиления, объединяющий коэффициенты усиления разомкнутого и замкнутого контура”, №98RSS399 в реестре фирмы Конексант, поданная 18 сентября 1998 г.; и

предварительная заявка №60/155321 на патент США, озаглавленная “Кодирование речевого сигнала на скорости 4 кбит/с”, №99RSS485 в реестре фирмы Конексант, поданная 22 сентября 1999 г.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ

Область применения настоящего изобретения относится, в целом, к кодированию речевого сигнала в системах голосовой связи и, в частности, к усовершенствованной системе кодирования в режиме линейного прогнозирования с кодовым возбуждением и способу кодирования параметров квантования коэффициента усиления речевого сигнала меньшим количеством битов.

Для моделирования основных звуков речи речевые сигналы дискретизируют по времени и сохраняют в кадрах в виде дискретного сигнала, подлежащего цифровой обработке. Однако для повышения эффективности использования полосы частот, выделенной для передачи речевого сигнала, речевой сигнал перед передачей кодируют, в особенности, когда предусмотрены ограничения на полосу частот для передачи речевого сигнала. Для различных аспектов кодирования речевого сигнала предусмотрены многочисленные алгоритмы. При кодировании речевого сигнала алгоритм кодирования речевого сигнала пытается представить характеристики речевого сигнала таким образом, чтобы использовать более узкую полосу частот. Например, алгоритм кодирования речевого сигнала пытается удалить избыточные элементы речевого сигнала. На первом этапе удаляют кратковременные корреляции. Один из методов кодирования сигнала - это кодирование с линейным прогнозированием (LPC). В режиме LPC значение речевого сигнала в любой отдельно взятый момент времени моделируют линейной функцией предыдущих значений. Используя подход LPC, можно удалить кратковременные корреляции и определить эффективные представления речевого сигнала путем оценивания и применения определенных параметров прогнозирования для представления сигнала. После удаления кратковременных корреляций из речевого сигнала остается остаточный сигнал LPC. Этот остаточный сигнал содержит информацию периодичности, которую необходимо моделировать. На втором этапе удаления избыточных элементов моделируют информацию периодичности. Информацию периодичности можно моделировать с использованием прогнозирования основного тона речевого сигнала. Некоторые фрагменты речевого сигнала обладают периодичностью, а некоторые - нет. Например, звук “ааа...” обладает информацией периодичности, тогда как звук “шшш...” не обладает информацией периодичности.

Благодаря применению метода LPC, традиционный кодер исходного сигнала обрабатывает речевые сигналы, выделяя информацию моделирования и параметров, подлежащую кодированию для передачи по каналу связи на традиционный декодер исходного сигнала. Один способ кодирования информации моделирования и параметров с уменьшением объема информации предусматривает использование квантования. Квантование параметров предусматривает выбор ближайшего элемента в таблице или кодовой книге для представления параметра. Так, например, параметр 0.125 можно представить значением 0.1, если кодовая книга содержит 0, 0.1, 0.2, 0.3 и т.д. Квантование включает в себя скалярное квантование и векторное квантование. При скалярном квантовании в таблице или кодовой книге выбирают элемент, который является ближайшим приближением параметра, как описано выше. Напротив, векторное квантование предполагает объединение двух или более параметров и выбор в таблице или кодовой книге элемента, ближайшего к объединенным параметрам. Например, векторное квантование можно осуществлять, выбирая в кодовой книге элемент, ближайший к разности параметров. Кодовую книгу, используемую для векторного квантования сразу двух параметров, часто называют двухмерной кодовой книгой. n-мерная кодовая книга квантует сразу n параметров.

Кодирование речевого сигнала в режиме CELP (линейного прогнозирования с кодовым возбуждением) предусматривает два типа коэффициентов усиления. Коэффициент усиления первого типа - это коэффициент усиления Gp основного тона, именуемый также коэффициентом усиления адаптивной кодовой книги. Коэффициент усиления адаптивной кодовой книги иногда, в частности, здесь обозначают нижним индексом “а” вместо нижнего индекса “р”. Коэффициент усиления второго типа - это коэффициент усиления Gc фиксированной кодовой книги. Алгоритмы кодирования речевого сигнала оперируют с квантованными параметрами, включая коэффициент усиления адаптивной кодовой книги и коэффициент усиления фиксированной кодовой книги. После кодирования параметры, представляющие входной речевой сигнал, передают на приемопередатчик.

Декодер, входящий в состав приемопередатчика, получает кодированную информацию. Поскольку конфигурация декодера позволяет ему знать, каким способом кодированы речевые сигналы, декодер декодирует кодированную информацию, реконструируя сигнал для воспроизведения, который звучит для человеческого уха как исходная речь.

Итак, для передачи информации моделирования и параметров на декодер требуется определенная полоса частот канала связи. Для повышения эффективности использования полосы частот необходимо усовершенствовать процесс кодирования информации моделирования и параметров. Требуются такие алгоритмы кодирования, которые позволяют уменьшить объем информации в битах, подлежащей передаче по каналу, при обеспечении высокого уровня качества воспроизводимой речи.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Различные аспекты настоящего изобретения предусматривают систему кодирования речевого сигнала и соответствующий способ, основанный на использовании метода анализа путем синтеза для кодирования речевого сигнала. Система кодирования речевого сигнала содержит процессор кодера и совокупность кодовых книг, которые генерируют векторы возбуждения. Речевой кодер анализирует и классифицирует каждый кадр речевого сигнала как речевой сигнал, подобный периодическому, или речевой сигнал, подобный непериодическому. Для простоты в этой заявке и формуле изобретения сигналы, подобные периодическим, и периодические сигналы будем называть “периодическими сигналами”, а непериодические речевые сигналы будем называть “непериодическими” сигналами.

Существует, по меньшей мере, три основных альтернативных варианта осуществления, которые рассмотрены ниже. Первый вариант осуществления предусматривает применение новой стратегии квантования коэффициента усиления к периодическому речевому сигналу и применение известного способа квантования к непериодическому речевому сигналу. Второй вариант осуществления предусматривает применение новой стратегии квантования коэффициента усиления как к периодическому речевому сигналу, так и к непериодическому речевому сигналу, причем битовая скорость (количество битов в секунду) для непериодического речевого сигнала выше, чем для периодического речевого сигнала, но ниже битовой скорости, обеспечиваемой известными способами квантования коэффициента усиления. Третий вариант осуществления предусматривает применение новой стратегии квантования коэффициента усиления ко всем речевым сигналам, что обеспечивает такую же битовую скорость, что и для непериодического речевого сигнала во втором варианте осуществления.

Ниже приведены описания первого, второго и третьего вариантов осуществления. Если речевой сигнал является периодическим, то коэффициенты усиления основного тона извлекают из исходного неквантованного взвешенного речевого сигнала до начала обработки подкадров в замкнутом контуре. В этом состоит отличие от традиционного способа, согласно которому коэффициенты усиления основного тона получают путем обработки подкадров в замкнутом контуре. Процесс обработки “в замкнутом контуре” позволяет найти вектор в кодовой книге, генерирующей синтезированный речевой сигнал, который является перцептивно ближайшим к исходному входному речевому сигналу. В отличие от него, процесс обработки “в разомкнутом контуре” позволяет найти вектор в кодовой книге, ближайший к вектору коэффициента усиления (или преобразованному вектору коэффициента усиления, например записи вектора коэффициента усиления). При обработке в разомкнутом контуре близость двух векторов не зависит от перцептивной близости синтезированного речевого сигнала к исходному речевому сигналу. Речевой кодер по разному осуществляет процесс квантования в зависимости от того, является ли речевой сигнал периодическим или нет. Если речевой сигнал является периодическим, то усовершенствованный речевой кодер осуществляет следующие две операции квантования коэффициента усиления: (1) предварительное векторное квантование коэффициента усиления Gp адаптивной кодовой книги для каждого подкадра кадра, которое основано на исходном неквантованном взвешенном речевом сигнале; это квантование осуществляется до начала обработки подкадров в замкнутом контуре; и (2) векторное квантование в замкнутом контуре с задержанным решением коэффициента усиления Gc фиксированной кодовой книги по окончании обработки подкадров.

Первый аспект настоящего изобретения предусматривает речевой кодер, который классифицирует речевой сигнал как подобный периодическому или подобный непериодическому и осуществляет квантование коэффициента усиления речевого сигнала, подобного периодическому, иначе, чем речевого сигнала, подобного непериодическому.

Второй аспект настоящего изобретения предусматривает речевой кодер, который осуществляет для каждого кадра периодического речевого сигнала предварительное квантование Gp для каждого подкадра кадра и осуществляет векторное квантование Gc в замкнутом контуре с задержанным решением.

Третий аспект настоящего изобретения предусматривает речевой кодер, который осуществляет векторное квантование Gc в замкнутом контуре с задержанным решением для периодического речевого сигнала.

Четвертый аспект настоящего изобретения предусматривает речевой кодер, который уменьшает количество битов, необходимых для векторного квантования информации коэффициента усиления в периодическом речевом сигнале.

Пятый аспект настоящего изобретения предусматривает речевой кодер, который осуществляет обработку речевого сигнала на уровне кадров и затем - обработку подкадров в зависимости от режима.

Шестой аспект настоящего изобретения предусматривает речевой кодер, который получает квантованный коэффициент усиления основного тона для текущего подкадра из процесса предварительного векторного квантования, предшествующего обработке подкадров в замкнутом контуре, что позволяет использовать квантованный коэффициент усиления основного тона для текущего подкадра для поиска в фиксированной кодовой книге вектора возбуждения фиксированной кодовой книги для текущего подкадра.

Седьмой аспект настоящего изобретения предусматривает речевой кодер, который выводит коэффициенты усиления основного тона из исходного неквантованного взвешенного речевого сигнала до начала обработки подкадров в замкнутом контуре, если речевой сигнал является периодическим.

Восьмой аспект настоящего изобретения предусматривает речевой кодер, который применяет новый процесс квантования коэффициента усиления только к периодическим сигналам и традиционный процесс квантования коэффициента усиления к непериодическим сигналам.

Девятый аспект настоящего изобретения предусматривает речевой кодер, который различает периодические и непериодические сигналы и применяет новый процесс квантования коэффициента усиления к периодическим сигналам и непериодическим сигналам, выделяя непериодическим сигналам больше битов квантования коэффициента усиления, чем периодическим сигналам.

Десятый аспект настоящего изобретения предусматривает речевой кодер, который не различает периодические и непериодические сигналы и применяет новый процесс квантования коэффициента усиления ко всем сигналам.

Одиннадцатый аспект настоящего изобретения сводится к любому из вышеперечисленных аспектов в применении к речевому кодеру, который различает периодические и непериодические сигналы и применяет новый процесс квантования коэффициента усиления к периодическим сигналам и непериодическим сигналам, выделяя непериодическим сигналам больше битов квантования коэффициента усиления, чем периодическим сигналам.

Двенадцатый аспект настоящего изобретения сводится к любому из вышеперечисленных аспектов в применении к речевому кодеру, который не различает периодические и непериодические сигналы и применяет новый процесс квантования коэффициента усиления ко всем сигналам.

Другие аспекты настоящего изобретения относятся к способу кодирования параметров квантования коэффициентов усиления речевого сигнала меньшим количеством битов.

Тринадцатый аспект настоящего изобретения предусматривает способ квантования информации коэффициента усиления в речевом сигнале, согласно которому классифицируют речевой сигнал как подобный периодическому или подобный непериодическому и осуществляют квантование коэффициента усиления речевого сигнала, подобного периодическому, иначе, чем речевого сигнала, подобного непериодическому.

Четырнадцатый аспект настоящего изобретения предусматривает способ квантования информации коэффициента усиления в речевом сигнале, согласно которому для каждого кадра периодического речевого сигнала осуществляют предварительное векторное квантование Gp для каждого подкадра кадра и осуществляют векторное квантование Gc в замкнутом контуре с задержанным решением.

Пятнадцатый аспект настоящего изобретения предусматривает способ квантования информации коэффициента усиления в речевом сигнале, согласно которому осуществляют векторное квантование Gc в замкнутом контуре с задержанным решением для периодического речевого сигнала после обработки подкадров.

Шестнадцатый аспект настоящего изобретения предусматривает способ квантования информации коэффициента усиления в речевом сигнале, который позволяет уменьшить количество битов, необходимых для векторного квантования информации коэффициента усиления в периодическом речевом сигнале.

Семнадцатый аспект настоящего изобретения предусматривает способ квантования информации коэффициента усиления в речевом сигнале, согласно которому осуществляют обработку речевого сигнала на уровне кадров и затем - обработку подкадров в зависимости от режима.

Восемнадцатый аспект настоящего изобретения предусматривает способ квантования информации коэффициента усиления в речевом сигнале, согласно которому получают квантованный коэффициент усиления основного тона для текущего подкадра из процесса предварительного векторного квантования, предшествующего обработке подкадров в замкнутом контуре, чтобы квантованный коэффициент усиления основного тона для текущего подкадра можно было использовать для поиска в фиксированной кодовой книге вектора возбуждения фиксированной кодовой книги для текущего подкадра.

Девятнадцатый аспект настоящего изобретения предусматривает способ квантования информации коэффициента усиления в речевом сигнале, согласно которому извлекают коэффициенты усиления основного тона из исходного неквантованного взвешенного речевого сигнала до начала обработки подкадров в замкнутом контуре, если речевой сигнал является периодическим.

Двадцатый аспект настоящего изобретения предусматривает способ квантования информации коэффициента усиления в речевом сигнале, согласно которому различают периодические и непериодические сигналы и применяют новый процесс квантования коэффициента усиления к периодическим сигналам и непериодическим сигналам, выделяя непериодическим сигналам больше битов квантования коэффициента усиления, чем периодическим сигналам.

Двадцать первый аспект настоящего изобретения предусматривает способ квантования информации коэффициента усиления в речевом сигнале, согласно которому не различают периодические и непериодические сигналы и применяют новый процесс квантования коэффициента усиления ко всем сигналам.

Двадцать второй аспект настоящего изобретения сводится к любому из вышеперечисленных аспектов в применении к способу квантования информации коэффициента усиления в речевом сигнале, согласно которому различают периодические и непериодические сигналы и применяют новый процесс квантования коэффициента усиления к периодическим сигналам и непериодическим сигналам, выделяя непериодическим сигналам больше битов квантования коэффициента усиления, чем периодическим сигналам.

Двадцать третий аспект настоящего изобретения сводится к любому из вышеперечисленных аспектов в применении к способу квантования информации коэффициента усиления в речевом сигнале, согласно которому не различают периодические и непериодические сигналы и применяют новый процесс квантования коэффициента усиления ко всем сигналам.

Двадцать четвертый аспект настоящего изобретения сводится к любому из вышеперечисленных аспектов по отдельности или в некоторой их комбинации.

Другие аспекты, преимущества и признаки новизны настоящего изобретения будут очевидны из нижеследующего подробного описания предпочтительного варианта осуществления, иллюстрируемого чертежами.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг.1 - функциональная блок-схема системы передачи речевого сигнала, содержащей кодер исходного сигнала и декодер исходного сигнала.

Фиг.2 - более подробная функциональная блок-схема системы передачи речевого сигнала, изображенной на фиг.1.

Фиг.3 - функциональная блок-схема иллюстративной первой ступени, речевого препроцессора, входящего в состав кодера исходного сигнала, используемого согласно одному варианту осуществления системы передачи речевого сигнала, изображенной на фиг.1.

Фиг.4 - функциональная блок-схема иллюстративной второй ступени кодера исходного сигнала, используемого согласно одному варианту осуществления системы передачи речевого сигнала, изображенной на фиг.1.

Фиг.5 - функциональная блок-схема иллюстративной третьей ступени кодера исходного сигнала, используемого согласно одному варианту осуществления системы передачи речевого сигнала, изображенной на фиг.1.

Фиг.6 - функциональная блок-схема иллюстративной четвертой ступени кодера исходного сигнала, используемого согласно одному варианту осуществления системы передачи речевого сигнала, изображенной на фиг.1, для обработки непериодического речевого сигнала (режим 0).

Фиг.7 - функциональная блок-схема иллюстративной четвертой ступени кодера исходного сигнала, используемого согласно одному варианту осуществления системы передачи речевого сигнала, изображенной на фиг.1, для обработки периодического речевого сигнала (режим 1).

Фиг.8 - блок-схема, иллюстрирующая кадр и подкадры.

Фиг.9 - пример двухмерной кодовой книги для квантования коэффициентов усиления адаптивной кодовой книги и коэффициентов усиления фиксированной кодовой книги.

Фиг.10 - таблица, иллюстрирующая выделение битов под параметры согласно одному иллюстративному варианту осуществления алгоритма кодирования речевого сигнала, отвечающего настоящему изобретению.

Фиг.11 - блок-схема одного варианта осуществления речевого декодера для обработки кодированной информации, поступающей от речевого кодера, отвечающего настоящему изобретению.

Фиг.12а-12с - схемы трех альтернативных вариантов осуществления речевого кодера, отвечающего настоящему изобретению.

ПОДРОБНОЕ ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНОГО ВАРИАНТА ОСУЩЕСТВЛЕНИЯ

Ниже в общих чертах описан алгоритм кодирования и декодирования речевого сигнала в целом, а затем подробно рассмотрен вариант осуществления настоящего изобретения.

На фиг.1 изображена блок-схема системы передачи речевого сигнала, иллюстрирующая обычное использование речевого кодера и декодера в системе связи. Система 100 передачи речевого сигнала передает и воспроизводит речевой сигнал посредством канала связи 103. Хотя он может содержать проводную, волоконную или оптическую линию связи, канал связи 103 обычно содержит, по меньшей мере, частично линию радиосвязи, которая часто должна поддерживать множество одновременных обменов речевыми сигналами, для чего требуются совместно используемые ресурсы полосы частот, как, например, в сотовой телефонии.

К каналу связи 103 можно подключить запоминающее устройство для временного хранения речевой информации для задержанного воспроизведения, например для осуществления функций автоответчика, голосовой электронной почты и т.п. Аналогично, канал связи 103 можно заменить таким запоминающим устройством согласно варианту осуществления системы связи 100 в виде единого устройства, которое, например, только записывает и хранит речевой сигнал для последующего воспроизведения.

В частности, микрофон 111 выдает речевой сигнал в режиме реального времени. От микрофона 111 речевой сигнал поступает на А/Ц (аналого-цифровой) преобразователь 115. А/Ц преобразователь 115 преобразует аналоговый речевой сигнал в цифровой сигнал, после чего оцифрованный речевой сигнал поступает на речевой кодер 117.

Речевой кодер 117 кодирует оцифрованный речевой сигнал, используя по выбору один из совокупности режимов кодирования. Каждый из совокупности режимов кодирования предусматривает использование того или иного метода оптимизации качества конечного воспроизведения речевого сигнала. Работая в любом из совокупности режимов, речевой кодер 117 выдает определенную информацию моделирования и параметров (например, “речевых параметров”), и речевые параметры поступают на опционный канальный кодер 119.

Опционный канальный кодер 119 координирует, на какой канальный декодер 131 следует доставлять речевые параметры по каналу связи 103. Канальный декодер 131 пересылает речевые параметры на речевой декодер 133. Работая в режиме, соответствующем режиму речевого кодера 117, речевой декодер 133 пытается максимально точно восстановить исходный речевой сигнал на основании речевых параметров. С речевого декодера 133 воспроизводимый речевой сигнал поступает на Ц/А (цифроаналоговый) преобразователь 135 с тем, чтобы воспроизводимую речь можно было прослушивать через громкоговоритель 137.

На фиг.2 изображена блок-схема иллюстративного устройства связи, изображенного на фиг.1. Устройство связи 151 содержит речевой кодер и речевой декодер для одновременного восприятия и воспроизведения речи. Устройство связи 151, выполненное обычно в виде единого блока, может содержать, например, сотовый телефон, переносной телефон, вычислительную систему или иное устройство связи. Альтернативно, если предусмотрен элемент памяти для хранения кодированной речевой информации, то устройство связи 151 может содержать автоответчик, магнитофон, систему голосовой почты или иное устройство связи с памятью.

С микрофона 155 и А/Ц преобразователя 157 цифровой голосовой сигнал поступает на систему кодирования 159. Система кодирования 159 осуществляет кодирование речевого сигнала и выдает сформированную информацию речевых параметров в канал связи. Передаваемая информация речевых параметров может быть адресована другому устройству связи (не показано), находящемуся на удалении.

Приняв информацию речевых параметров, система декодирования 165 осуществляет декодирование речевого сигнала. Из системы декодирования информация речевых параметров поступает на Ц/А преобразователь 167, выдающий аналоговый речевой сигнал, который может воспроизводиться громкоговорителем 169. Конечным результатом является воспроизведение звуков, как можно более близких к первоначально воспринимаемой речи.

Система кодирования 159 содержит схему 185 обработки речевого сигнала, которая осуществляет кодирование речевого сигнала, и схему 187 опционной канальной обработки, которая осуществляет опционное канальное кодирование. Аналогично, система декодирования 165 содержит схему 189 обработки речевого сигнала, которая осуществляет декодирование речевого сигнала, и схему 191 опционной канальной обработки, которая осуществляет канальное декодирование.

Хотя схема 185 обработки речевого сигнала и схема 187 опционной канальной обработки показаны раздельными, они могут быть частично или полностью объединены в едином модуле. Например, схема 185 обработки речевого сигнала и схема 187 канальной обработки могут совместно использовать один ЦСП (цифровой сигнальный процессор) и/или другие электронные средства обработки. Аналогично, схема 189 обработки речевого сигнала и схема 191 опционной канальной обработки могут быть полностью раздельными или частично или полностью объединенными. Кроме того, полное или частичное объединение можно применять к схемам 185 и 189 обработки речевого сигнала, схемам 187 и 191 канальной обработки, схемам 185, 187, 189 и 191 обработки или иным их сочетаниям по мере необходимости.

Система кодирования 159 и система декодирования 165 используют память 161. Схема 185 обработки речевого сигнала использует фиксированную кодовую книгу 181 и адаптивную кодовую книгу 183 речевой памяти 177 в процессе кодирования исходного сигнала. Аналогично, схема 189 обработки речевого сигнала использует фиксированную кодовую книгу 181 и адаптивную кодовую книгу 183 в процессе декодирования исходного сигнала.

Хотя, согласно фиг.2, схемы 185 и 189 обработки речевого сигнала совместно используют речевую память 177, каждой из схем 185 и 189 обработки можно выделить один или несколько обособленных блоков речевой памяти. В памяти 161 также хранится программное обеспечение, используемое схемами 185, 187, 189 и 191 обработки для осуществления различных функций, необходимых в процессах кодирования и декодирования исходных сигналов.

Перед подробным рассмотрением варианта осуществления усовершенствованного кодирования речевого сигнала ниже описан в общих чертах алгоритм кодирования речевого сигнала в целом. Усовершенствованный алгоритм кодирования речевого сигнала применительно к данному описанию изобретения может представлять собой, например, алгоритм eX-CELP (расширенный CELP), основанный на модели CELP. Алгоритм eX-CELP подробно рассмотрен в заявке на патент США, переуступленной настоящему заявителю, Конексант Системз, Инк., и включенной в настоящее описание посредством ссылки: предварительная заявка №60/155321 на патент США, озаглавленная “Кодирование речевого сигнала на скорости 4 кбит/с”, №99RSS485 в реестре фирмы Конексант, поданная 22 сентября 1999 г.

Для достижения высокого качества при низкой битовой скорости (например, 4 кбит/с) усовершенствованный алгоритм кодирования речевого сигнала несколько отклоняется от жесткого критерия согласования формы сигнала, применяемого в традиционных алгоритмах CELP, и стремится воспринимать перцептивно важные особенности входного сигнала. Для этого усовершенствованный алгоритм кодирования речевого сигнала анализирует входной сигнал в отношении определенных особенностей, например степени шумоподобного содержимого, степени содержимого с резкими выбросами, степени озвученного содержимого, степени глухого содержимого, эволюции амплитудного спектра, эволюции энергетического контура, эволюции периодичности и т.д., и использует эту информацию для управления взвешиванием в процессе кодирования и квантования. Основная идея состоит в том, что перцептивно важные особенности нужно представлять максимально точно, а для менее значительных особенностей допустимы сравнительно большие ошибки. Таким образом, усовершенствованный алгоритм кодирования речевого сигнала делает основной упор на перцептивном согласовании, а не на согласовании формы сигнала. Сосредоточение на перцептивном согласовании приводит к удовлетворительному воспроизведению речи в силу предположения, что на скорости 4 кбит/с согласование формы сигнала не является достаточно точным для достоверного восприятия всей информации, содержащейся во входном сигнале.

Поэтому усовершенствованный речевой кодер имеет некоторые преимущества в достижении улучшенных результатов.

Согласно одному конкретному варианту осуществления усовершенствованный речевой кодер использует размер кадра 20 миллисекунд или 160 выборок на кадр, причем каждый кадр делится на два или три подкадра. Количество подкадров зависит от режима обработки подкадров. В данном конкретном варианте осуществления каждый кадр речевого сигнала можно обрабатывать в одном из двух режимов: режиме 0 или режиме 1. Существенно, что способ обработки подкадров зависит от режима. В данном варианте осуществления в режиме 0 кадр делится на два подкадра, причем каждый подкадр имеет размер 10 миллисекунд или содержит 80 выборок. Аналогично, в данном иллюстративном варианте осуществления в режиме 1 кадр делится на три подкадра, причем первый и второй подкадры имеют размер 6,625 миллисекунд или содержат по 53 выборки, а третий подкадр имеет размер 6,75 миллисекунд или содержит 54 выборки. В обоих режимах можно использовать упреждение в 15 миллисекунд. В обоих режимах 0 и 1 для представления огибающей спектра сигнала можно использовать модель линейного прогнозирования (LP) десятого порядка. Модель LP можно кодировать в области частот линейного спектра (ЧЛС) [частоты, определяемые как корни особого линейного многочлена, используемого для сжатия голосового сигнала] по схеме коммутируемого многоступенчатого прогнозирующего векторного квантования с задержанным решением.

В режиме 0 используют традиционный алгоритм кодирования речевого сигнала, например алгоритм CELP. Однако режим 0 применяют не ко всем кадрам речевого сигнала. Режим 0 выбирают для обработки кадров любого речевого сигнала, кроме речевого сигнала, “подобного периодическому”, что более подробно рассматривается ниже. Для удобства речевой сигнал, “подобный периодическому”, будем называть периодическим речевым сигналом, а любой другой речевой сигнал будем называть “непериодическим” речевым сигналом. Такой непериодический речевой сигнал содержит кадры перехода, для которых характерны быстрые изменения обычных параметров, например корреляции основного тона и задержки основного тона, и кадры, содержащие в основном шумоподобный сигнал. Режим 0 предусматривает разбиение каждого кадра на два подкадра. В режиме 0 задержку основного тона кодируют один раз в течение подкадра и используют двухмерный векторный квантователь, чтобы одновременно кодировать коэффициент усиления основного тона (т.е. коэффициент усиления адаптивной кодовой книги) и коэффициент усиления фиксированной кодовой книги один раз в течение подкадра. Согласно данному иллюстративному варианту осуществления фиксированная кодовая книга содержит две импульсные кодовые полкниги и одну гауссову кодовую подкнигу; две импульсные кодовые подкниги имеют два и три импульса соответственно.

Режим 1 предусматривает отход от традиционного алгоритма CELP. Режим 1 используют для обработки кадров, содержащих периодический речевой сигнал, для которых характерна высокая периодичность и представление посредством сглаженного тракта основного тона. В данном конкретном варианте осуществления режим 1 предусматривает разбиение кадра на три подкадра. Задержку основного тона кодируют один раз в течение кадра до начала обработки подкадров в порядке предварительной обработки основного тона и на основании задержки выводят интерполированный тракт основного тона. Три коэффициента усиления основного тона, полученные для соответствующих подкадров, весьма стабильны и подвергаются совместному квантованию с использованием предварительного векторного квантования, основанного на критерии среднеквадратичной ошибки, до начала обработки подкадров в замкнутом контуре. Из взвешенного речевого сигнала выводят три опорных коэффициента усиления, которые не подлежат квантованию и являются побочным продуктом предварительной обработки основного тона на уровне кадров. Используя предварительно квантованные коэффициенты усиления основного тона, осуществляют традиционную обработку подкадров в режиме CELP, оставляя без квантования три коэффициента усиления фиксированной кодовой книги. Три коэффициента усиления фиксированной кодовой книги подвергают совместному квантованию после обработки подкадров на основе метода задержанного решения с использованием прогнозирования энергии методом скользящего среднего. Затем синтезируют три подкадра с полностью квантованными параметрами.

Выбор того или иного режима обработки каждого кадра речевого сигнала производится на основании классификации речевого сигнала, содержащегося в кадре, и новый способ обработки периодического речевого сигнала позволяет квантовать коэффициенты усиления посредством меньшего количества битов без значительного снижения перцептивного качества речи. Ниже приведено более подробное описание этого способа обработки речевого сигнала.

На фиг.3-7 изображены функциональные блок-схемы, иллюстрирующие подход многоступенчатого кодирования, используемый согласно одному варианту осуществления речевого кодера, проиллюстрированного на фиг.1 и 2. В частности, на фиг.3 показана функциональная блок-схема, иллюстрирующая речевой препроцессор 193, который осуществляет первую ступень метода многоступенчатого кодирования; на фиг.4 показана функциональная блок-схема, иллюстрирующая вторую ступень; на фиг.3 и 6 показаны функциональные блок-схемы, представляющие режим 0 третьей ступени; и на фиг.7 показана функциональная блок-схема, представляющая режим 1 третьей ступени. Речевой кодер, содержащий обрабатывающую схему кодера, обычно действует в соответствии с программой, выполняя следующие функции.

Входной речевой сигнал считывается и буферизуется в виде кадров. Что касается речевого препроцессора 193, изображенного на фиг.3, то кадр входного речевого сигнала 129 поступает на блок 195 повышения разборчивости молчания, который определяет, содержит ли кадр речевого сигнала полное молчание, т.е. наличие только “шума молчания”. Блок 195 повышения разборчивости речи адаптивно проверяет на уровне кадров, содержит ли текущий кадр исключительно “шум молчания”. Если сигнал 192 является “шумом молчания”, то блок 195 повышения разборчивости речи сбрасывает сигнал до нулевого уровня сигнала 192. Если же сигнал 192 не является “шумом молчания”, то блок 195 повышения разборчивости речи не изменяет сигнал 192. Блок 195 повышения разборчивости речи вычищает фрагменты молчания чистой речи до шума очень низкого уровня и, таким образом, повышает перцептивное качество чистой речи. Эффект функции повышения разборчивости речи становится особенно заметным, когда входной речевой сигнал поступает из источника А-типа, т.е. для входного сигнала, прошедшего кодирование и декодирование А-типа непосредственно перед применением данного алгоритма кодирования речевого сигнала. Поскольку А-тип подразумевает усиление выборочных значений вокруг 0 (например, -1, 0, +1) до -8 либо +8, то усиление А-типа способно преобразовывать неслышимый шум молчания в отчетливо слышимый шум. Пройдя обработку в блоке 195 повышения разборчивости речи, речевой сигнал поступает в фильтр 197 высоких частот.

Фильтр 197 высоких частот блокирует частоты, которые ниже определенной частоты среза, и, таким образом, в аттенюатор 199 шума поступают только частоты, превышающие частоту среза. В данном конкретном варианте осуществления фильтр 197 высоких частот идентичен входному фильтру высоких частот, отвечающему стандарту ITU-T G.729 кодирования речевого сигнала. Конкретно, это фильтр второго порядка с полюсами и нулями, имеющий частоту среза 140 герц (Гц). Конечно, в качестве фильтра 197 высоких частот не обязательно использовать именно такой фильтр, и можно использовать любой подходящий фильтр, известный специалистам в данн