Способ и устройство для эффективного маскирования стертых кадров в речевых кодеках на основе линейного предсказания

Иллюстрации

Показать все

Изобретение относится к способу и устройству для улучшения маскирования кадров кодированного звукового сигнала, стертых во время передачи от кодера к декодеру и для ускорения восстановления в декодере, после того как были приняты нестертые кадры кодированного звукового сигнала. При определении параметров маскирования/восстановления в кодере их передают в декодер, в котором проводится маскирование стертых кадров и восстановление в соответствии с параметрами маскирования/восстановления. Параметры маскирования/восстановления могут выбираться из группы, состоящей из: параметра классификации сигнала, параметра информации об энергии и параметра информации о фазе. Определение параметров маскирования/восстановления содержит классификацию последовательных кадров кодированного звукового сигнала как невокализованного кадра, невокализованного перехода, вокализованного перехода, вокализованного кадра или кадра приступа, причем эта классификация определяется на основе по меньшей части следующих параметров: параметра нормализованной корреляции, параметра спектрального наклона, параметра отношения сигнал-шум, параметра стабильности основного тона параметра относительной энергии кадра и параметра перехода через нуль. Технический результат, достигаемый при реализации изобретения, состоит в улучшении маскирования стертых кадров кодированного звукового сигнала во время передачи от кодера к декодеру и в ускорении восстановления в декодере после того, как были приняты нестертые кадры кодированного звукового сигнала. 9 н. и 168 з.п. ф-лы, 7 ил., 5 табл.

Реферат

Область техники

Настоящее изобретение относится к способу цифрового кодирования звукового сигнала и, в частности, но не исключительно, речевого сигнала с учетом передачи и/или синтеза этого звукового сигнала. В частности, настоящее изобретение касается устойчивого кодирования и декодирования звуковых сигналов для поддержания удовлетворительных рабочих характеристик в случае появления стертого кадра (кадров), например, из-за канальных ошибок в беспроводных системах или потерянных пакетов в сетевых приложениях с пакетной передачей речи.

Уровень техники

В различных прикладных областях, таких как телеконференции, мультимедиа и беспроводная связь, возрастает потребность в эффективных способах цифрового узкополосного и широкополосного речевого кодирования при условии обеспечении приемлемого компромисса между субъективным качеством и скоростью передачи битов. До недавнего времени в приложениях для речевого кодирования использовалась полоса пропускания телефонной связи, ограниченная диапазоном от 200 до 3400 Гц. Однако широкополосные речевые приложения обеспечивают повышенную разборчивость и натуральность связи по сравнению с полосой пропускания стандартной телефонии. Установлено, что полоса пропускания в диапазоне 50-7000 Гц достаточна для обеспечения годного качества, дающего ощущение диалоговой связи. Для обычных аудиосигналов эта полоса пропускания дает приемлемое субъективное качество, но все же уступающее качеству радиосвязи в FM диапазоне или качеству компакт-дисков (CD), которые работают в диапазонах 20-16000 Гц и 20-20000 Гц соответственно.

Речевой кодер преобразует речевой сигнал в цифровой поток битов, который передается по каналу связи или запоминается в запоминающей среде. Речевой сигнал оцифровывают, то есть дискретизируют и квантуют, обычно по 16 бит на один отсчет. Речевой кодер представляет эти цифровые отсчеты небольшим количеством битов, поддерживая удовлетворительное субъективное качество речи. Речевой декодер или синтезатор работает с переданным или сохраненным потоком битов и преобразует его обратно в звуковой сигнал.

Одним из наилучших имеющихся способов, позволяющих достичь удачного компромисса между субъективным качеством и скоростью передачи битов, является линейное предиктивное кодирование с кодовым возбуждением (CELP). Эта технология кодирования является основой нескольких стандартов речевого кодирования как в беспроводных, так и в проводных приложениях. При кодировании CELP дискретизированный речевой сигнал обрабатывают последовательными блоками из L отсчетов, обычно называемых кадрами, где L - заранее установленное число, соответствующее обычно 10-30 мс. В каждом кадре вычисляется и передается линейный предиктивный (LP) фильтр. Для вычисления LP-фильтра обычно требуется предварительный просмотр, (5-15)-миллисекундный речевой сегмент из следующего кадра. Кадр из L отсчетов делят на меньшие блоки, называемые субкадрами. Обычно количество субкадров равно трем или четырем, что дает (4-10)-миллисекундные субкадры. В каждом субкадре сигнал возбуждения обычно получают из двух компонент: прошлого возбуждения и нововведенного возбуждения фиксированной кодовой книги. Компоненту, образованную из прошлого возбуждения, часто называют возбуждением адаптивной кодовой книги или возбуждением основного тона. Параметры, характеризующие сигнал возбуждения, кодируются и передаются в декодер, где восстановленный сигнал возбуждения используется в качестве входного сигнала LP-фильтра.

Так как основные приложения для речевого кодирования с низкой скоростью передачи битов представляют собой системы беспроводной мобильной связи и сети с пакетной передачей голоса, очень актуальным становится повышение устойчивости речевых кодеков в случае стирания кадров. В беспроводных сотовых системах энергия принятого сигнала может проявлять частые и значительные замирания, что приводит к большим значениям частоты ошибок по битам, причем это особенно сильно проявляется на границах сотовых ячеек. В этом случае канальный декодер не в состоянии исправить ошибки в принятом кадре, вследствие чего детектор ошибок, который обычно используется после канального декодера, объявит такой кадр стертым. В сетевых приложениях с пакетной передачей речи речевой сигнал представляют в виде пакетов, где в каждом пакете обычно содержится 20-миллисекундный кадр. В системах связи с коммутацией пакетов пакеты в маршрутизаторе могут оказаться пропущенными, если количество пакетов оказалось очень большим или пакет смог попасть в приемник после длительной задержки и должен объявляться потерянным, если задержка оказалась больше длины буфера дрожания на стороне приемника. В этих системах в кодеке происходят стирания кадров, частота которых обычно составляет от 3 до 5%. Кроме того, использование широкополосного речевого кодирования является важным ценным качеством этих систем, позволяющим им конкурировать с традиционной коммутируемой телефонной сетью общего пользования (PSTN), где используют традиционные узкополосные речевые сигналы.

Адаптивная кодовая книга или предсказатель основного тона в методе CELP играет важную роль в поддержании высокого качества речи при низких скоростях передачи битов. Однако, поскольку содержание адаптивной кодовой книги основано на сигнале из прошлых кадров, модель кодека оказывается чувствительной к потерям кадров. В случае стирания или потери кадров содержание адаптивной кодовой книги в декодере становится отличным от его содержания в кодере. Таким образом, после маскирования потерянного кадра и приема последующих пригодных кадров синтезированный сигнал в принятых пригодных кадрах отличается от предполагаемого сигнала синтеза, поскольку изменился вклад адаптивной кодовой книги. Воздействие потерянного кадра зависит от характера речевого сегмента, в котором произошло стирание. Если стирание появилось в стационарном сегменте сигнала, то тогда можно выполнить эффективное маскирование стирания кадра, и воздействие на последующие пригодные кадры можно минимизировать. С другой стороны, если стирание появилось в начале речи или в переходной области, то эффект стирания может распространиться на несколько кадров. Например, если потеряно начало вокализованного сегмента, то тогда из содержания адаптивной кодовой книги пропадет первый период основного тона. Это серьезно повлияет на предсказатель основного тона в последующих пригодных кадрах, что приведет к большой временной задержке, прежде чем будет обеспечена сходимость сигнала синтеза к предполагаемому сигналу в кодере.

Сущность изобретения

Настоящее изобретение относится к способу для улучшения маскирования стирания кадров, вызванного кадрами кодированного звукового сигнала, стертыми во время передачи от кодера к декодеру, и для ускорения восстановления в декодере после того, как были приняты нестертые кадры кодированного звукового сигнала, причем способ содержит:

определение в кодере параметров маскирования/восстановления;

передачу в декодер параметров маскирования/восстановления, определенных в кодере; и

в декодере, осуществление маскирования стирания кадров и восстановления в декодере в соответствии с принятыми параметрами маскирования/восстановления.

Настоящее изобретение также относится к способу для маскирования стирания кадров, вызванного кадрами, стертыми во время передачи звукового сигнала, кодированного согласно форме параметров кодирования сигнала, от кодера к декодеру, и для ускорения восстановления в декодере после того, как были приняты нестертые кадры кодированного звукового сигнала, причем способ содержит:

определение в декодере параметров маскирования/восстановления из параметров кодирования сигнала;

в декодере, осуществление маскирования стертых кадров и восстановления в декодере в соответствии с принятыми параметрами маскирования/восстановления.

Согласно настоящему изобретению также предлагается устройство для улучшения маскирования стирания кадров, вызванного кадрами кодированного звукового сигнала, стертыми во время передачи от кодера к декодеру, и для ускорения восстановления в декодере после того, как были приняты нестертые кадры кодированного звукового сигнала, причем устройство содержит:

средство для определения в кодере параметров маскирования/восстановления;

средство для передачи в декодер параметров маскирования/восстановления, определенных в кодере; и

в декодере, средство для осуществления маскирования стирания кадров и восстановления в декодере в соответствии с принятыми параметрами маскирования/восстановления.

Согласно изобретению, кроме того, предлагается устройство для маскирования стирания кадров, вызванного кадрами, стертыми во время передачи звукового сигнала, кодированного на основе формы параметров кодирования сигнала, от кодера к декодеру, и для ускорения восстановления в декодере после того, как были приняты нестертые кадры кодированного звукового сигнала, причем устройство содержит:

средство для определения в декодере параметров маскирования/восстановления из параметров кодирования сигнала;

в декодере, средство для осуществления маскирования стирания кадров и восстановления в декодере в соответствии с принятыми параметрами маскирования/восстановления.

Настоящее изобретение также касается системы для кодирования и декодирования звукового сигнала и декодера звукового сигнала, где используются определенные выше устройства, для улучшения маскирования стирания кадров, вызванного кадрами кодированного звукового сигнала, стертыми во время передачи от кодера к декодеру, и для ускорения восстановления в декодере после того, как были приняты нестертые кадры кодированного звукового сигнала.

Вышеупомянутые и другие цели, преимущества и признаки настоящего изобретения поясняются в последующем, не ограничивающем описании иллюстративных вариантов его осуществления, приведенных только в качестве примеров, со ссылками на сопроводительные чертежи.

Краткое описание чертежей:

фиг.1 - блок-схема системы речевой связи, иллюстрирующая применение устройств речевого кодирования и декодирования согласно настоящему изобретению;

фиг.2 - блок-схема примера устройства широкополосного кодирования (AMR-WB кодер);

фиг.3 - блок-схема примера устройства широкополосного декодирования (AMR-WB декодер);

фиг.4 - упрощенная блок-схема AMR-WB кодера по фиг.2, где модуль субдискретизатора, модуль фильтра верхних частот и модуль предыскажающего фильтра сгруппированы в едином модуле предобработки и где модуль поиска основного тона с обратной связью, модуль вычислителя отклика при нулевом входном сигнале, модуль генератора импульсной характеристики, модуль поиска нововведенного возбуждения и модуль обновления памяти сгруппированы в едином модуле поиска основного тона и нововведенной кодовой книги с обратной связью;

фиг.5 - расширение блок-схемы по фиг.4, в которую добавлены модули, относящиеся к иллюстративному варианту настоящего изобретения;

фиг.6 - блок-схема, проясняющая ситуацию при формировании искусственного приступа; и

фиг.7 - схема, показывающая иллюстративный вариант конечного автомата классификации кадров для маскирования стирания.

Подробное описание иллюстративных вариантов

Хотя в последующем описании иллюстративные варианты настоящего изобретения описаны применительно к речевому сигналу, следует иметь в виду, что концепции настоящего изобретения равным образом применимы к сигналам других типов, в частности, но не исключительно, к звуковым сигналам других типов.

На фиг.1 показана система 100 речевой связи, где используется речевое кодирование и декодирование в контексте настоящего изобретения. Система 100 речевой связи по фиг.1 поддерживает передачу речевого сигнала по каналу 101 связи. Хотя он может содержать, например, провод, оптическую линию или волоконную линию, канал 101 связи обычно содержит, по меньшей мере частично, линию радиочастотной связи. Линия радиочастотной связи часто поддерживает множество одновременно идущих речевых передач, что требует совместного использования ресурсов полосы пропускания, что можно встретить, например, в системах сотовой телефонии. Хотя это не показано, канал 101 связи может быть заменен запоминающим устройством в варианте системы 100 с единым устройством, где кодированный речевой сигнал записывается и сохраняется для последующего воспроизведения.

В системе 100 речевой связи по фиг.1 микрофон 102 создает аналоговый речевой сигнал 103, который подается в аналого-цифровой (A/D) преобразователь 104 для преобразования его в цифровой речевой сигнал 105. Цифровой кодер 106 кодирует цифровой речевой сигнал 105, создавая набор параметров 107 кодирования сигнала, которые кодируются в двоичном виде и доставляются в канальный кодер 108. Необязательный канальный кодер 108 добавляет избыточность в двоичное представление параметров 107 кодирования сигнала перед их передачей по каналу 101 связи.

В приемнике канальный декодер 109 использует указанную избыточную информацию в принимаемом потоке 111 битов для обнаружения и исправления канальных ошибок, появившихся во время передачи. Речевой декодер 110 преобразует поток 112 битов, принимаемый от канального декодера 109, обратно в набор параметров кодирования сигнала и создает из восстановленных параметров кодирования сигнала цифровой синтезированный речевой сигнал 113. Цифровой синтезированный речевой сигнал 113, восстановленный в речевом декодере 110, преобразуется в аналоговую форму 114 цифро-аналоговым (D/A) преобразователем 115 и воспроизводится через блок 116 динамиков.

Раскрытый в настоящем описании иллюстративный вариант эффективного способа маскирования стирания кадров может быть использован узкополосными или широкополосными кодеками с линейным предсказанием. Данный иллюстративный вариант изобретения раскрыт применительно к широкополосному речевому кодеку, стандарты для которого разработаны Международным союзом телекоммуникаций (ITU) в виде Рекомендаций G722.2, известному как кодек AMR-WB (адаптивный многоскоростной широкополосный кодек) [ATU-T Recommendation G. 722.2 "Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)", Geneva, 2002]. Этот кодек также был выбран для Проекта партнерства третьего поколения (3GPP), предназначенного для широкополосной телефонии в беспроводных системах третьего поколения [3GPP TS 26.190, "AMR Wideband Speech Codec: Transcoding Functions", 3GPP Technical Specification]. AMR-WB кодек может работать с 9 скоростями передачи битов, лежащими в диапазоне от 6,6 до 23,85 кбит/с. В иллюстративных целях в настоящем изобретении использована скорость передачи битов, равная 12,65 кбит/с.

При этом следует понимать, что данный иллюстративный вариант эффективного маскирования стирания кадров может быть применен для кодеков других типов.

В последующих разделах сначала дается общее представление о AMR-WB кодере и AMR-WB декодере. Затем раскрывается иллюстративный вариант нового подхода к повышению устойчивости работы кодека.

Общее представление о AMR-WB кодере

Дискретизированный речевой сигнал кодируется на поблочной основе устройством 200 кодирования по фиг. 2, которое разбито на одиннадцать модулей под номерами с 201 по 211.

Таким образом, входной речевой сигнал 212 обрабатывают на поблочной основе, то есть в вышеупомянутых блоках из L отсчетов, называемых кадрами.

Согласно фиг.2, входной речевой сигнал 212 подвергается субдискретизации с пониженной частотой в модуле 201 субдискретизатора. Сигнал подвергается субдискретизации с понижением частоты от 16 до 12,8 кГц с использованием способов, хорошо известных специалистам в данной области техники. Субдискретизация повышает эффективность кодирования, поскольку кодируется меньшая полоса пропускания. Это также уменьшает алгоритмическую сложность, поскольку уменьшается количество отсчетов в кадре. После субдискретизации частоты кадр из 320 отсчетов длительностью 20 мс сокращается до кадра из 256 отсчетов (коэффициент субдискретизации составляет 4/5).

Затем входной кадр подается в необязательный модуль 202 предобработки. Модуль 202 предобработки может состоять из фильтра верхних частот с частотой среза 50 Гц. Фильтр 202 верхних частот устраняет нежелательные звуковые компоненты с частотой ниже 50 Гц.

Сигнал, прошедший субдискретизацию и предобработку, обозначается как sp(n), n=0,1,2,...,L-1, где L - длина кадра (256 при частоте дискретизации 12,8 кГц). В иллюстративном варианте предыскажающего фильтра 203 в сигнал sp(n) вводятся предыскажения с использованием фильтра, имеющего следующую передаточную функцию:

P(z)=1-μz-1,

где μ - коэффициент предыскажений со значением, лежащим между 0 и 1 (стандартное значение μ составляет 0,7). Назначение предыскажающего фильтра 203 состоит в увеличении высокочастотного содержимого входного речевого сигнала. Он также уменьшает динамический диапазон входного речевого сигнала, что делает его более подходящим для реализации вычислений с фиксированной точкой. Предыскажения также играют важную роль в достижении правильного итогового перцептивного взвешивания ошибки квантования, что способствует повышению качества звука. Сказанное более подробно объясняется ниже.

Выход предыскажающего фильтра 203 обозначен как sp(n). Этот сигнал используют для выполнения LP-анализа в модуле 204. LP-анализ относится к способам, хорошо известным специалистам в данной области техники. В данном иллюстративном варианте реализации используется автокорреляционный метод. При автокорреляционном методе сигнал sp(n) сначала подвергается обработке обычно с использованием окна Хэмминга, имеющего длину порядка 30-40 мс. На основе этого сигнала, обработанного методом окна, вычисляются значения автокорреляции, а для вычисления коэффициентов аj LP-фильтра используют рекурсию Левинсона-Дурбина, где j=1,...p и где p - порядок LP, который обычно равен 16 при широкополосном кодировании. Параметры aj являются коэффициентами передаточной функции А(z) LP-фильтра, которая задается следующим соотношением:

LP-анализ выполняется в модуле 204, который также выполняет квантование и интерполяцию коэффициентов LP-фильтра. Коэффициенты LP-фильтра сначала преобразуют в другой эквивалентную область, более подходящую для квантования и интерполяции. Области линейных спектральных пар (LSP) и спектральных пар иммитанса (ISP) являются двумя областями, в которых можно эффективно выполнить квантование и интерполяцию. 16 коэффициентов LP-фильтра aj могут квантоваться с использованием порядка 30-50 битов посредством расщепленного или многоступенчатого квантования или их комбинации. Целью интерполяции является возможность обновления коэффициентов LP-фильтра в каждом субкадре при их передаче единовременно в каждом кадре, что улучшает рабочие характеристики кодера без увеличения скорости передачи битов. Поскольку нет сомнений, что квантование и интерполяция коэффициентов LP-фильтра хорошо известны специалистам в данной области техники, они далее в настоящем описании не описываются.

Ниже описаны остальные операции кодирования, выполняемые на основе субкадров. В данном иллюстративном варианте реализации входной кадр делится на 4 субкадра по 5 мс (64 отсчета при частоте дискретизации 12,8 кГц). В последующем описании фильтр А(z) обозначает неквантованный интерполированный LP-фильтр субкадра, а фильтр В(z) обозначает квантованный интерполированный LP-фильтр субкадра. Фильтр В(z) подает каждый субкадр в мультиплексор 213 для передачи по каналу связи.

В кодерах "анализа через синтез" поиск параметров оптимального основного тона и нововведенных параметров выполняется путем минимизации среднеквадратической ошибки между входным речевым сигналом 212 и синтезированным речевым сигналом в перцептивно взвешенной области. Взвешенный сигнал sw(n) вычисляется в перцептивно взвешенном фильтре 205 в соответствии с сигналом s(n) из предыскажающего фильтра 203. Используется перцептивно взвешенный фильтр 205 с фиксированным знаменателем, подходящий для широкополосных сигналов. Пример передаточной функции для перцептивно взвешенного фильтра 205 задается следующим соотношением:

W(z)=A(z/y1)/(1-y2z-1), где 0<y2<y1.

Для упрощения анализа основного тона сначала в модуле 206 поиска основного тона без обратной связи исходя из взвешенного речевого сигнала sw(n) оценивается запаздывание TOL основного тона без обратной связи. Затем анализ основного тона с обратной связью, выполняемый в модуле 207 поиска основного тона с обратной связью на субкадровой основе, ограничивается в окрестности запаздывания TOL основного тона без обратной связи, что значительно упрощает поиск LTP параметров: T (запаздывание основного тона) и b (усиление основного тона). Анализ основного тона без обратной связи обычно выполняется в модуле 206 каждые 10 мс (2 субкадра) с использованием способов, хорошо известных специалистам в данной области техники.

Сначала вычисляется искомый вектор x для анализа LTP (долгосрочное предсказание). Обычно это выполняется путем вычитания отклика so при нулевом входном сигнале взвешенного фильтра синтеза W(z)/В(z) из взвешенного речевого сигнала sw(n). Этот отклик so при нулевом входном сигнале вычисляется вычислителем 208 отклика при нулевом входном сигнале в соответствии с квантованным интерполяционным LP-фильтром В(z) из модуля 204 LP-анализа, квантования и интерполяции, и начальными состояниями взвешенного фильтра синтеза W(z)/В(z), хранящимися в модуле 211 обновления памяти в соответствии с LP-фильтрами A(z) и В(z) и вектором u возбуждения. Эта операция хорошо известна специалистам в данной области техники и поэтому далее не описывается.

В генераторе 209 импульсной характеристики вычисляется N-мерный вектор h импульсной характеристики взвешенного фильтра синтеза W(z)/В(z) с использованием коэффициентов LP-фильтра A(z) и В(z) из модуля 204. Эта операция хорошо известна специалистам в данной области техники и поэтому далее подробно не описывается.

Параметры b, T и j основного тона (или кодового словаря основного тона) с обратной связью вычисляют в модуле 207 поиска основного тона с обратной связью, где в качестве входных данных используется искомый вектор x, вектор h импульсной характеристики и запаздывание TOL основного тона без обратной связи.

Поиск основного тона состоит в нахождении наилучших значений запаздывания Т и усиления b основного тона, которые минимизируют взвешенную среднеквадратическую ошибку предсказания основного тона, например,

,

где j=1,2,...k

между целевым вектором x и масштабированной отфильтрованной версией прошлого возбуждения.

В частности, в данном иллюстративном варианте реализации поиск основного тона (кодового словаря основного тона) содержит три этапа.

На первом этапе в модуле 206 поиска основного тона без обратной связи оценивается запаздывание TOL основного тона без обратной связи в соответствии с взвешенным речевым сигналом sw(n). Как показано выше, анализ основного тона без обратной связи обычно выполняют каждые 10 мс (два субкадра) с использованием способов, хорошо известных специалистам в данной области техники.

На втором этапе в модуле 207 поиска основного тона с обратной связью выполняется поиск критерия С поиска для целых значений запаздывания основного тона в окрестности оцененного запаздывания TOL (обычно ±5) основного тона без обратной связи, что значительно упрощает процедуру поиска. Для обновления отфильтрованного кодового вектора yT (этот вектор определен в последующем описании) используется простая процедура, не требующая вычисления свертки для каждого запаздывания основного тона. Пример критерия С поиска задается выражением

где t обозначает транспонированный вектор.

Как только на втором этапе найдено оптимальное целое значение основного тона, на третьем этапе поиска (модуль 207) с использованием критерия С поиска проверяют дроби в окрестности этого оптимального целого значения основного тона. Например, в стандарте AMR-WB используется разрешение для суботсчетов, равное 1/4 и 1/2.

В широкополосных сигналах гармоническая структура существует только до определенной частоты, зависящей от речевого сегмента. Таким образом, для обеспечения эффективного представления вклада основного тона в голосовых сегментах широкополосного речевого сигнала необходима гибкость для изменения периодичности в широкополосном спектре. Это достигается обработкой кодового вектора основного тона посредством множества фильтров формирования частоты (например, фильтров нижних частот или полосовых фильтров). Затем выбирается фильтр формирования частоты, который минимизирует среднеквадратическую взвешенную ошибку e(j). Выбранный фильтр формирования частоты определяется индексом j.

Индекс T кодового словаря основного тона кодируется и передается в мультиплексор 213 для передачи по каналу связи. Усиление b основного тона квантуется и передается в мультиплексор 213. Для кодирования индекса j используется дополнительный бит, причем этот дополнительный бит также подается в мультиплексор 213.

Как только определены параметры b, T и j основного тона или LTP (долгосрочное предсказание), наступает следующий шаг, на котором модуль 210 поиска нововведенного возбуждения по фиг.2 отыскивает оптимальное нововведенное возбуждение. Сначала обновляется искомый вектор x путем вычитания вклада LTP:

x'=x-byT,

где b - усиление основного тона, а yT - отфильтрованный вектор кодовой книги основного тона (прошлое возбуждение с задержкой T, отфильтрованной выбранным фильтром формирования частоты (индекс j) и подвергнутое свертке с использованием импульсной характеристики h).

Процедура поиска нововведенного возбуждения выполняется в кодовой книге нововведений для нахождения оптимального кодового вектора возбуждения сk и усиления g, которые минимизируют среднеквадратическую ошибку Е между искомым вектором x' и масштабированной отфильтрованной версией кодового вектора сk, например:

где H - нижняя треугольная матрица свертки, полученная из вектора h импульсной характеристики. Индекс k кодовой книги нововведений, соответствующего найденному оптимальному кодовому вектору сk, и усиление g подаются в мультиплексор 213 для передачи по каналу связи.

Следует отметить, что используемая кодовая книга нововведений является динамической кодовой книгой, состоящей из алгебраической кодовой книги с последующим адаптивным предварительным фильтром F(z), который усиливает конкретные спектральные компоненты, чтобы повысить качество синтезированной речи согласно патенту США № 5444816, выданному Adoul и др. 22 августа 1995 г. В этом иллюстративном варианте реализации поиск в кодовой книге нововведений выполняется в модуле 210 посредством алгебраической кодовой книги, как описано в патентах США №5444816 (Adoul и др.), выданном 22 августа 1995 г.; №5699482, выданном Adoul и др. 17 декабря 1997 г.; №5754976, выданном Adoul и др. 19 мая 1998 г.; и №5701392 (Adoul и др.), датированном 23 декабря 1997 г.

Общее представление о AMR-WB декодере

Речевой декодер 300 по фиг.3, иллюстрирует различные шаги, выполняемые начиная от цифрового входного сигнала 322 (входной поток битов в демультиплексор 317) до выходного дискретизированного речевого сигнала 323 (выход сумматора 321).

Демультиплексор 317 выделяет из двоичной информации (входной поток 322 битов), полученной из цифрового входного канала, параметры модели синтеза. Из каждого полученного двоичного кадра выделяются следующие параметры:

квантованные интерполированные LP-коэффициенты В(z), называемые также параметрами краткосрочного предсказания (STP), которые создаются для каждого кадра;

параметры T, b и j (для каждого субкадра) для долгосрочного предсказания (LTP); и

индекс k кодовой книги нововведений и усиление g (для каждого субкадра).

Текущий речевой сигнал синтезируется на основе этих параметров, как поясняется ниже.

Кодовая книга 318 нововведений в ответ на индекс k формирует кодовый вектор сk нововведений, который масштабируется декодированным коэффициентом усиления g посредством усилителя 324. В иллюстративном варианте реализации кодовая книга нововведений, как описано в вышеупомянутых патентах США №№5444816, 5699482, 5754976 и 5701392, используют для создания кодового вектора сk нововведений.

Сформированный масштабированный кодовый вектор на выходе усилителя 324 обрабатывается частотно-зависимым корректором 305 основного тона.

Коррекция периодичности сигнала возбуждения u повышает качество голосовых сегментов. Коррекция периодичности достигается фильтрацией кодового вектора сk нововведений из кодовой книги нововведений (фиксированного) посредством фильтра F(z) нововведений (корректор 305 основного тона), частотная характеристика которого вводит предыскажения на более высоких частотах в большей степени, чем на более низких частотах. Коэффициенты фильтра F(z) нововведений связаны со значением периодичности в сигнале возбуждения u.

Эффективный иллюстративный способ получения коэффициентов фильтра F(z) нововведений заключается в их привязке к величине вклада основного тона в общем сигнале возбуждения u. Это приводит к зависимости частотной характеристики от периодичности субкадров, причем предыскажения на более высоких частотах оказываются более сильными (сильнее общий спад) для более высоких значений усиления основного тона. Фильтр 305 нововведений обладает эффектом повышения энергии кодового вектора сk нововведений на более низких частотах, когда сигнал возбуждения u более периодичен, что улучшает периодичность сигнала возбуждения u скорее на более низких частотах, чем на более высоких частотах. Предлагаемая форма для фильтра 305 нововведений выглядит следующим образом:

где α - коэффициент периодичности, полученный из уровня периодичности сигнала возбуждения u. Коэффициент периодичности α вычисляется в генераторе 304 коэффициентов вокализации. Сначала в генераторе 304 коэффициентов вокализации вычисляется коэффициент вокализации rV в виде

rv=(Ev-EC)/(EV+EC),

где EV - энергия масштабированного кодового вектора bvT, а EC - энергия масштабированного кодового вектора gck нововведений, то есть

и

Заметим, что значение rV лежит между -1 и 1 (1 соответствует чисто вокализованным сигналам, а -1 соответствует чисто невокализованным сигналам).

Вышеупомянутый масштабированный кодовый вектор bvT основного тона создается путем применения задержки T основного тона к кодовой книге 301 основного тона для создания кодового вектора основного тона. Затем кодовый вектор основного тона обрабатывается в фильтре 302 нижних частот, частота среза которого выбирается в соответствии с индексом j из демультиплексора 317, для создания отфильтрованного кодового вектора bT основного тона. Затем отфильтрованный кодовый вектор vT основного тона усиливается с коэффициентом усиления b основного тона усилителем 326 для создания масштабированного кодового вектора bvT основного тона.

В данном иллюстративном варианте реализации, затем в генераторе 304 коэффициентов вокализации вычисляется коэффициент α согласно выражению

который соответствует значению 0 для чисто невокализованных сигналов и значению 0,25 для чисто вокализованных сигналов.

Таким образом, скорректированный сигнал cf вычисляется путем фильтрации масштабированного кодового вектора gck нововведений в фильтре 305 (F(z) нововведений).

Скорректированный сигнал возбуждения u' вычисляется сумматором 320 в виде

Следует заметить, что эта обработка не выполняется в декодере 200. Таким образом, важно обновить содержимое кодовой книги 301 основного тона с использованием прошлого значения сигнала u возбуждения без коррекции, хранящейся в памяти 303, для поддержания синхронизма между кодером 200 и декодером 300. Соответственно, сигнал возбуждения u используется для обновления памяти 303 кодовой книги 301 основного тона, а скорректированный сигнал возбуждения u' используется на входе фильтра 306 LP синтеза.

Синтезированный сигнал s' вычисляется путем фильтрации скорректированного сигнала возбуждения u' в LP-фильтре 306 синтеза, который имеет вид 1/В(z), где В(z) является квантованным интерполированным LP-фильтром в текущем субкадре. Как можно видеть из фиг.3, квантованные интерполированные LP-коэффициенты В(z) по линии 325 от демультиплексора 317 подаются в LP-фильтр 306 синтеза для соответствующей настройки параметров LP-фильтра 306. Фильтр 307 компенсации предыскажений является инверсным по отношению к предыскажающему фильтру 203 по фиг.2. Передаточная функция фильтра 307 компенсации предыскажений задается в виде

где μ - коэффициент предыскажений, значение которого лежит между 0 и 1 (стандартное значение μ=0,7). Можно также использовать фильтр более высокого порядка.

Вектор s' фильтруется в фильтре D(z) 307 компенсации предыскажений для получения вектора sd, который обрабатывается в фильтре 308 верхних частот для устранения нежелательных частот ниже 50 Гц и затем для получения sh.

Сверхдискретизатор 309 реализует процесс обратной обработки по отношению к субдискретизатору 201 по фиг.2. В данном иллюстративном варианте при сверхдискретизации происходит преобразование частоты дискретизации 12,8 кГц обратно в исходную частоту дискретизации 16 кГц с использованием способов, хорошо известных специалистам в данной области техники. Сигнал синтеза, прошедший сверхдискретизацию, обозначен как S. Сигнал S также называется синтезированным широкополосным промежуточным сигналом.

Сигнал S синтеза, прошедший сверхдискретизацию, не содержит высокочастотные компоненты, которые были потеряны во время процесса субдискретизации (модуль 201 по фиг.2) в кодере 200. Это обеспечивает восприятие низких частот синтезированного речевого сигнала. Для восстановления полной полосы исходного сигнала в модуле 310 выполняется процедура формирования высокочастотных составляющих, для которой требуется входной сигнал от генератора 304 коэффициентов вокализации (фиг.3).

Результирующая шумовая последовательность z, прошедшая полосовую фильтрацию, от модуля 310 формирования высокочастотных составляющих складывается сумматором 321 с синтезированным речевым сигналом S, прошедшим сверхдискретизацию, для получения конечного восстановленного выходного речевого сигнала sout на выходе 323. Пример процесса восстановления высокочастотных составляющих описан в Международной патентной заявке PCT, опубликованной под №WO 00/25305 4 мая 2000 года.

Побитовое распределение для AMR-WB кодека при скорости 12,65 кбит/с показано в Таблице 1.

Таблица 1Побитовое распределение в режиме 12,65 кбит/с
ПараметрБиты/Кадры
Параметры LP46
Задержка основного тона30 = 9+ 6+ 9+ 6
Фильтрация основного тона4 = 1+ 1+ 1+ 1
Коэффициенты усиления28 = 7+ 7+ 7+ 7
Алгебраическая кодовая книга144 =36+ 36+ 36+ 36
Бит режима1
Итого253 бита = 12,65 кбит/с

Устойчивое маскирование стирания кадров

Стирание кадров является главным фактором, влияющим на качество синтезированной речи в системах цифровой речевой связи, особенно при работе в беспроводных средах и сетях с коммутацией пакетов. В системах беспроводной сотовой связи энергия принятого сигнала может демонстрировать частые сильные замирания, приводящие к высоким частотам ошибок по битам, что более ярко проявляется на границах сотовых ячеек. В этом случае канальный д