Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты

Иллюстрации

Показать все

Изобретение относится к средствам для расширения диапазона частот при декодировании аудиосигналов. Технический результат заключается в повышении эффективности расширения диапазона частот без дополнительной информации из кодера. Декодируют в первом диапазоне частот сигнал возбуждения и параметры первого диапазона частот, содержащие коэффициенты фильтра линейного предсказания. Генерируют расширенный сигнал возбуждения по меньшей мере на одном втором диапазоне частот. Фильтруют посредством фильтра линейного предсказания для второго диапазона частот. При этом определяют фильтр линейного предсказания, называемый дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот. При этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот. Вычисляют оптимизированный масштабный коэффициент в зависимости по меньшей мере от коэффициентов дополнительного фильтра. 4 н. и 6 з.п. ф-лы, 10 ил.

Реферат

Настоящее изобретение относится к области кодирования/декодирования и обработки сигналов звуковой частоты (например, речи, музыки или других подобных сигналов) для их передачи или их хранения.

Более конкретно, изобретение относится к способу и устройству для определения оптимизированного масштабного коэффициента, который может использоваться для регулировки уровня сигнала возбуждения или, эквивалентным образом, фильтра в качестве компонента расширения диапазона частот в декодере или улучшения сигналов звуковой частоты посредством процессора.

Существуют многочисленные методы сжатия (с потерей) сигнала звуковой частоты, такого как речь или музыка.

Традиционные способы кодирования для разговорных приложений, как правило, делятся на кодирование формы сигнала (РСМ «кодово-импульсная модуляция», ADCPM «адаптивная дифференциальная кодово-импульсная модуляция», кодирование с преобразованием и т.д.), параметрическое кодирование (LPC «кодирование с линейным предсказанием», синусоидальное кодирование и т.д.) и параметрическое гибридное кодирование с квантованием параметров посредством «анализа через синтез», самым известным примером которого является кодирование CELP («линейное предсказание с кодовым возбуждением»).

Для неразговорных приложений в уровень техники для кодирования (монофонического) звукового сигнала входит перцептуальное кодирование с преобразованием или в поддиапазонах с параметрическим кодированием высоких частот посредством репликации диапазона.

Обзор способов кодирования обычной речи и звука можно найти в работах W.B. Kleijn and K.K. Paliwal (eds.), Speech Coding and Synthesis, Elsevier, 1995; M. Bosi, R.E. Goldberg, Introduction to Digital Audio Coding and Standards, Springer 2002; J. Benesty, M.M. Sondhi, Y. Huang (Eds.), Handbook of Speech Processing, Springer 2008.

Внимание в данных работах сосредоточено, в частности, на 3GPP стандартизированном AMR-WB («адаптивном многоскоростном широкополосном») кодеке (кодере и декодере), который работает на входной/выходной частоте 16 кГц, и в котором сигнал разделяется на два поддиапазона, нижний диапазон (0-6,4 кГц), который дискретизируется с частотой 12,8 кГц и кодируется посредством CELP модели, и верхний диапазон (6,4-7 кГц), который параметрически восстанавливается посредством «расширения диапазона» (или BWE «расширения полосы пропускания») с или без дополнительной информации в зависимости от режима текущего кадра. Можно отметить, что ограничение кодированного диапазона кодека AMR-WB на частоте 7 кГц, по существу, связано с тем, что частотная характеристика при передаче широкополосных терминалов была аппроксимирована в момент стандартизации (ETSI/3GPP, в дальнейшем ITU-T) в соответствии с частотной маской, определенной в стандарте ITU-T Р.341 и, более конкретно посредством так называемого фильтра «Р341», определенного в стандарте ITU-Т G.191, который отсекает частоты выше 7 кГц (данный фильтр соблюдает маску, определенную в Р.341). Тем не менее, в теории хорошо известно, что сигнал, подвергнутый дискретизации с частотой 16 кГц, может иметь определенный звуковой диапазон от 0 до 8000 Гц; поэтому AMR-WB-кодек вводит ограничение верхнего диапазона по сравнению с теоретической полосой пропускания 8 кГц.

3GPP AMR-WB речевой кодек был стандартизирован в 2001 году, главным образом, для режима с коммутацией каналов (CS) телефонных приложений на GSM (2G) и UMTS (3G). Этот же кодек также был стандартизирован в 2003 году в стандарте ITU-T в виде рекомендации G.722.2 «Широкополосное кодирование речи при приблизительно 16 кбит/с с применением адаптивного многоскоростного широкополосного кодирования (AMR-WB)».

Он имеет девять скоростей цифрового потока, называемых режимами, от 6,6 до 23,85 кбит/с, и содержит механизмы непрерывной передачи (DTX «прерывистой передачи») с определением присутствия голосового сигнала (VAD) и генерацией комфортного шума (CNG) из кадров описания периода молчания (SID «дескриптор информации о паузе») и механизмы коррекции потерянных кадров (FEC «маскирование стирания кадров», иногда называемое PLC «маскирование потери пакетов»).

Подробная информация о AMR-WB кодировании и алгоритме декодирования не повторяется в данной заявке; подробное описание этого кодека можно найти в спецификациях 3GPP (TS 26.190, 26.191, 26.192, 26.193, 26.194, 26.204) и в ITU-T-G.722.2 (и соответствующих дополнениях и приложениях), и в статье В. Bessette и другие, озаглавленной «The adaptive multirate wideband speech codec (AMR-WB)", IEEE Transactions on Speech and Audio Processing, vol. 10, no. 8, 2002, pp. 620-636, и исходном коде связанных стандартов 3GPP и ITU-T.

Принцип расширения диапазона в кодеке AMR-WB довольно слабо развит. Действительно, верхний диапазон (6,4-7 кГц) генерируется посредством формирования белого шума во времени (применяемого при формировании коэффициентов усиления на подкадр) и частотной огибающей (посредством применения синтезирующего фильтра линейного предсказания или LPC «кодирование с линейным предсказанием»). Данный метод расширения диапазона показан на фиг. 1.

Белый шум uHB1(n), n=0, …, 79 генерируется на частоте 16 кГц для каждого подкадра длительностью 5 мс посредством линейного конгруэнтного генератора (блок 100). Этот шум uHB1(n) формируется во времени посредством применения коэффициентов усиления для каждого подкадра; эта операция разбивается на два этапа обработки (блоки 102,106 или 109):

- Вычисляют (блок 101) первый коэффициент, чтобы установить белый шум uHB1(n) (блок 102) на том же уровне, что и возбуждение u(n), n=0, …, 63, декодированное на частоте 12,8 кГц в нижнем диапазоне:

Можно отметить, что нормализация энергий выполняется путем сравнения блоков разного размера (64 для u(n) и 80 для uHB1(n)) без компенсации отличий в частотах дискретизации (12,8 или 16 кГц).

- Затем получают возбуждение в верхнем диапазоне (блок 106 или 109) в виде:

где коэффициент усиления получают по-разному в зависимости от скорости цифрового потока. Если скорость цифрового потока текущего кадра <23,85 кбит/с, коэффициент усиления B оценивают «вслепую» (то есть без дополнительной информации); в этом случае блок 103 фильтрует сигнал, декодированный в нижнем диапазоне, посредством фильтра высоких частот с частотой среза 400 Гц для получения сигнала , n=0, …, 63 - данный фильтр высоких частот устраняет влияние очень низких частот, которые могут исказить оценку, выполненную в блоке 104 - затем «наклон» (индикатор крутизны спектра), обозначенный etilt сигнала вычисляют с помощью нормированной автокорреляции (блок 104):

и, наконец, вычисляют в виде:

где gSP=1-etilt - коэффициент усиления, применяемый в активных речевых (SP) кадрах, gBG=1.25gSP - коэффициент усиления, применяемый в неактивных речевых кадрах, относящихся к фоновому (BG) шуму, и wSP - весовая функция, которая зависит от определения присутствия голосового сигнала (VAD). Понятно, что оценка наклона (etilt) позволяет адаптировать уровень верхнего диапазона в зависимости от спектрального характера сигнала; эта оценка особенно важна, когда крутизна спектра CELP декодированного сигнала такой, что средняя энергия уменьшается, когда частота увеличивается (в случае вокализованного сигнала, где etilt близка к 1, поэтому gSP=1-etilt соответственно снижается). Следует также отметить, что коэффициент в AMR-WB декодировании ограничивается для приема значений в диапазоне [0,1; 1,0]. Более того, для сигналов, энергия которых увеличивается при увеличении частоты (etilt близко к -1, близко к 2), коэффициент усиления обычно занижается.

При скорости 23,85 кбит/с корректирующее информационное сообщение передается на AMR-WB кодер и декодируется (блоки 107, 108) с целью уточнения коэффициента усиления, оцененного для каждого подкадра (4 бита каждые 5 мс или 0,8 кбит/с). Затем искусственное возбуждение uHB(n) фильтруется (блок 111) посредством LPC синтезирующего фильтра (блок 111) передаточной функции 1/AHB(z) и работает на частоте дискретизации 16 кГц. Структура данного фильтра зависит от скорости передачи текущего кадра:

- При скорости 6,6 кбит/с фильтр 1/AHB(z) получают путем взвешивания посредством коэффициента γ=0,9 фильтра LPC 20-го порядка , который «экстраполирует» фильтр LPC 16-го порядка , декодированный в нижнем диапазоне (12,8 кГц) - подробности экстраполяции параметров области ISF (спектральной частоты иммитанса) описываются в стандарте G.722.2 в разделе 6.3.2.1; в этом случае,

- при скорости цифрового потока >6.6 кбит/с фильтр 1/AHB(z) имеет 16-й порядок и фактически соответствует:

где γ=0,6. Следует отметить, что в этом случае фильтр используется на частоте 16 кГц, что приводит к расширению (посредством пропорционального преобразования) частотной характеристики этого фильтра от [0; 6,4 кГц] до [0; 8 кГц].

В заключение, результат sHB(n) обрабатывается посредством полосового фильтра (блок 112) типа FIR («конечной импульсной характеристики»), чтобы сохранить только диапазон 6-7 кГц; при скорости 23,85 кбит/с низкочастотный фильтр также типа FIR (блок 113) добавляется к обработке для дополнительного подавления частот выше 7 кГц. В заключение, высокочастотный (HF) синтез добавляется (блок 130) к низкочастотному (LF) синтезу, полученному с помощью блоков 120-122 и подвергнутом повторной дискретизации с частотой 16 кГц (блок 123). Таким образом, даже если верхний диапазон расширяется в теории от 6,4 до 7 кГц в кодеке AMR-WB, HF синтез скорее содержится в полосе 6-7 кГц перед суммированием с LF синтезом.

В методе расширения диапазона кодека AMR-WB может быть выявлен ряд недостатков, в частности:

- оценка коэффициентов усиления для каждого подкадра (блок 101, 103-105) не является оптимальной. Отчасти она основывается на выравнивании «абсолютной» энергии в расчете на один подкадр (блок 101) между сигналами на различных частотах: искусственным возбуждением на частоте 16 кГц (белый шум) и сигналом на частоте 12,8 кГц (декодированное возбуждение ACELP). Можно отметить, в частности, что этот подход неявно вызывает подавление возбуждения верхнего диапазона (в соотношении 12,8/16=0,8); фактически, это также будет отмечено, что восстановление предыскаженного сигнала не выполняется в верхнем диапазоне в кодеке AMR-WB, который неявно вызывает усиление относительно близкое к 0,6 (что соответствует значению частотной характеристики 1/(1-0.68z-1) при частоте 6400 Гц). В действительности, коэффициенты 1/0,8 и 0,6 компенсируются приблизительно.

- Что касается речи, 3GPP характеристические тесты кодека AMR-WB, задокументированные в 3GPP отчете TR 26.976, показали, что режим при скорости 23,85 кбит/с имеет менее хорошее качество, чем при скорости 23,05 кбит/с, его качество в действительности подобно режиму при скорости 15,85 кбит/с. Это показывает, в частности, что уровень искусственного HF сигнала необходимо контролировать очень аккуратно, так как качество ухудшается при скорости 23,85 кбит/с, при этом считается, что 4 бита на кадр наилучшим образом обеспечивают возможность аппроксимации энергии исходных высоких частот.

- Фильтр низких частот на частоте 7 кГц (блок 113) вводит сдвиг почти 1 мс между нижним и верхним диапазонами, которые могут потенциально ухудшить качество определенных сигналов посредством незначительной десинхронизации двух диапазонов при скорости 23,85 кбит/с - данная десинхронизация может также приводить к проблемам при переключении скорости цифрового потока со скорости 23,85 кбит/с на другие режимы.

Пример расширения диапазона с помощью временного подхода описывается в 3GPP стандарте TS 26.290, описывающем кодек AMR-WB+ (стандартизованный в 2005 году). Данный пример показан на структурной схеме фиг. 2а (общая структурная схема) и 2b (предсказание коэффициента усиления по реакции коррекции уровня), которые соответствуют соответственно фиг. 16 и 10 3GPP спецификации TS 26.290.

В кодеке AMR-WB+ (монофонический) входной сигнал, подвергнутый дискретизации на частоте Fs (в Гц), делится на два отдельных частотных диапазона, в которых два фильтра LPC вычисляются и кодируются по отдельности:

- один фильтр LPC, обозначенный A(z), в нижем диапазоне (0-Fs/4) - его квантованная версия обозначается

- другой фильтр LPC, обозначенный AHF(z), в спектрально смешанном верхнем диапазоне (Fs/4-Fs/2) - его квантованная версия обозначается

Расширение диапазона выполняется в кодеке AMR-WB+, как подробно описано в разделах 5.4 (HF кодирование) и 6.2 (HF декодирование) 3GPP спецификации TS 26.290. Его принцип кратко изложен здесь: расширение заключается в использовании возбуждения, декодированного на низких частотах (возбужд. LFC) и в формировании данного возбуждения посредством временного коэффициента усиления в расчете на подкадр (блок 205) и синтезирующей фильтрации LPC (блок 207); кроме того реализуются операции обработки для увеличения (пост-обработки) возбуждения (блок 206) и сглаживания энергии восстановленного сигнала HF (блок 208), как показано на фиг. 2а.

Важно отметить, что данное расширение в AMR-WB+ требует передачи дополнительной информации: коэффициентов фильтра в 204 и временного формирующего усиления на подкадр (блок 201). Один конкретный признак алгоритма расширения диапазона в AMR-WB+ состоит в том, что коэффициент усиления на каждый подкадр определяется посредством прогнозирующего подхода; другими словами, коэффициенты усиления не кодируются непосредственно, а кодируются коррекции усиления, которые относятся к оценке коэффициента усиления, обозначенного gmatch. Эта оценка, gmatch, фактически соответствует коэффициенту выравнивания уровня между фильтрами и на частоте разделения между нижним диапазоном и верхним диапазоном (Fs/4). Вычисление коэффициента gmatch (блок 203) подробно описано на фиг. 10 3GPP спецификации TS 26.290, воспроизведенной в данной заявке на фиг. 2b. Эта фигура не будет дополнительно подробно описываться в данной заявке. Просто следует отметить, что блоки 210-213 используются для вычисления энергии импульсной характеристики , в то же время напоминая, что фильтр моделирует спектрально смешанный верхний диапазон (из-за спектральных свойств разделения нижнего и верхнего диапазонов банка фильтров). Поскольку фильтры интерполируются по подкадрам, коэффициент усиления gmatch вычисляется только один раз за кадр, и он интерполируется по подкадрам.

Метод кодирования коэффициента усиления расширения диапазона в AMR-WB+, и, в частности, компенсация уровней фильтров LPC при их соединении является подходящим способом в контексте расширения диапазона посредством моделей LPC в нижнем и верхнем диапазоне, и можно отметить, что такая компенсация уровня между фильтрами LPC отсутствует в расширении диапазона кодека AMR-WB. Тем не менее, на практике можно проверить, что непосредственное выравнивание уровня между двумя фильтрами LPC на частоте разделения не является оптимальным способом и может вызвать завышенную оценку энергии в верхнем диапазоне и в некоторых случаях слышимые искажения; следует помнить, что фильтр LPC представляет собой спектральную огибающую, и принцип выравнивания уровня между двумя фильтрами LPC для данной частоты сводится к регулировке относительного уровня двух огибающих LPC. Тогда, такое выравнивание, выполняемое при частоте, погрешность которой не превышает эталонно допустимую, не обеспечивает полную непрерывность и общую согласованность энергии (по частоте) в области точки выравнивания, когда частотная огибающая сигнала значительно колеблется в данной области. Математический способ установления проблемы состоит в обнаружении того, что может обеспечиваться непрерывность между двумя кривыми, что приводит к их пересечению в одной и той же точке, но ничто не гарантирует того, что локальные свойства (последовательные производные) совпадают так, чтобы обеспечить более глобальную совместимость. Риск в обеспечении места непрерывности между огибающими LPC нижнего и верхнего диапазонов включает установку огибающей LPC в верхнем диапазоне на относительный уровень, который является слишком сильным или слишком слабым, причем случай слишком сильного уровня является более опасным, потому что он приводит к более раздражающим искажениям.

Кроме того, компенсация усиления в AMR-WB+ является первичным предсказанием коэффициента усиления, известного для кодера и декодера, и который предназначен для уменьшения скорости цифрового потока, необходимой для передачи информации усиления, масштабирующей сигнал возбуждения в верхнем диапазоне. Тогда, в контексте функционально совместимого улучшения кодирования/декодирования AMR-WB, нельзя изменить существующее кодирование коэффициентов усиления в отношении подкадров (0,8 кбит/с) расширения диапазона в режиме AMR-WB при скорости 23,85 кбит/с. Кроме того, для скоростей цифрового потока строго меньше 23,85 кбит/с, компенсация уровней фильтров LPC в нижнем и верхнем диапазонах может применяться в расширении диапазона декодирования, совместимого с AMR-WB, но опыт показывает, что данный единственный метод, получаемый из AMR-WB+кодирования, применяемого без оптимизации, может создавать проблемы завышения оценки энергии верхнего диапазона (>6 кГц).

Следовательно, существует потребность в улучшении компенсации коэффициентов усиления между фильтрами линейного предсказания различных диапазонов частот для расширения диапазона частот в кодеке типа AMR-WB или функционально совместимой версии этого кодека без какой-либо завышенной оценки энергии в диапазоне частот и без необходимости дополнительной информации из кодера.

Настоящее изобретение улучшает ситуацию.

В связи с этим, целью изобретения является способ определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в способе расширения диапазона частот сигнала звуковой частоты, причем способ расширения диапазона включает этап декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания, этап генерации расширенного сигнала возбуждения по меньшей мере в одном втором диапазоне частот и этап фильтрации посредством фильтра линейного предсказания для второго диапазона частот. Способ определения включает следующие этапы:

- определение фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот; и

- вычисление оптимизированного масштабного коэффициента в зависимости по меньшей мере от коэффициентов дополнительного фильтра.

Таким образом, использование дополнительного фильтра более низкого порядка, чем фильтр первого диапазона частот, для выравнивания позволяет избежать завышения оценки энергии на высоких частотах, которые могут возникнуть в результате локальных колебаний огибающей, и которые могут нарушить выравнивание фильтров предсказания.

Таким образом, улучшается выравнивание коэффициентов усиления между фильтрами линейного предсказания первого и второго диапазонов частот.

В преимущественном применении надлежащим образом полученного оптимизированного масштабирующего коэффициента способ расширения диапазона включает этап применения оптимизированного масштабного коэффициента к расширенному сигналу возбуждения.

В соответствующем варианте осуществления применение оптимизированного масштабного коэффициента объединяют с этапом фильтрации во втором диапазоне частот.

Таким образом, этапы фильтрации и применения оптимизированного масштабного коэффициента объединяют в один этап фильтрации для уменьшения сложности обработки.

В конкретном варианте осуществления коэффициенты дополнительного фильтра получают усечением передаточной функции фильтра линейного предсказания первого диапазона частот для получения более низкого порядка.

Поэтому данный дополнительный фильтр более низкого порядка получают простым способом.

Кроме того, для получения устойчивого фильтра коэффициенты дополнительного фильтра изменяются в зависимости от критерия устойчивости дополнительного фильтра.

В конкретном варианте осуществления вычисление оптимизированного масштабного коэффициента включает следующие этапы:

- вычисление частотных характеристик фильтров линейного предсказания первого и второго диапазонов частот для общей частоты;

- вычисление частотной характеристики дополнительного фильтра для данной общей частоты;

- вычисление оптимизированного масштабного коэффициента в зависимости от надлежащим образом вычисленных частотных характеристик.

Таким образом, оптимизированный масштабный коэффициент вычисляется таким образом, чтобы избежать раздражающих искажений, которые могут возникнуть в случае, если частотная характеристика фильтра более высокого порядка первого диапазона вблизи от общей частоты демонстрирует пик сигнала или точку минимума.

В конкретном варианте осуществления способ дополнительно включает следующие этапы, реализуемые на предопределенной скорости цифрового потока декодирования:

- первое масштабирование расширенного сигнала возбуждения посредством коэффициента усиления, вычисленного в расчете на подкадр в зависимости от отношения энергии декодированного сигнала возбуждения и расширенного сигнала возбуждения;

- второе масштабирование сигнала возбуждения, полученное из первого масштабирования посредством декодированного коэффициента усиления коррекции;

- регулирование энергии возбуждения для текущего подкадра посредством регулировочного коэффициента, вычисленного в зависимости от энергии сигнала, полученного после второго масштабирования, и в зависимости от сигнала, полученного после применения оптимизированного масштабного коэффициента.

Таким образом, дополнительная информация может использоваться для повышения качества расширенного сигнала для предопределенного режима работы.

Целью настоящего изобретения также является устройство для определения оптимизированного масштабного коэффициента, применяемого к сигналу возбуждения или к фильтру в устройстве расширения диапазона частот сигнала звуковой частоты, причем устройство расширения диапазона содержит модуль для декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания, модуль для генерации расширенного сигнала возбуждения по меньшей мере одного второго диапазона частот и модуль для фильтрации посредством фильтра линейного предсказания для второго диапазона частот. Устройство определения содержит:

- модуль определения фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот; и

- модуль вычисления оптимизированного масштабного коэффициента в зависимости по меньшей мере от коэффициентов дополнительного фильтра.

Целью настоящего изобретения является декодер, содержащий описанное устройство.

Целью настоящего изобретения является компьютерная программа, содержащая команды программного кода для реализации этапов описанного способа определения оптимизированного масштабного коэффициента при выполнении этих команд процессором.

Наконец, настоящее изобретение относится к носителю данных, который может считываться процессором, встроенным или нет в устройство определения оптимизированного масштабного коэффициента, по возможности съемному, хранящему компьютерную программу, реализующую способ определения оптимизированного масштабного коэффициента, как описано выше.

Другие признаки и преимущества настоящего изобретения станут более очевидными из нижеследующего описания, приведенного только в качестве неограничивающего примера и со ссылкой на прилагаемые графические материалы, на которых:

- на фиг. 1 изображена часть декодера типа AMR-WB, реализующего этапы расширения диапазона частот согласно уровню техники и как описано ранее;

- на фиг. 2а и 2b представлено кодирование верхнего диапазона в кодеке AMR-WB+ в соответствии с уровнем техники и как описано ранее;

- на фиг. 3 изображен декодер, который может взаимодействовать с кодированием AMR-WB, включающий устройство расширения диапазона, применяемое в соответствии с одним вариантом осуществления настоящего изобретения;

- на фиг. 4 изображено устройство определения масштабного коэффициента, оптимизированного посредством подкадра в зависимости от скорости цифрового потока, в соответствии с одним вариантом осуществления настоящего изобретения; и

- на фиг. 5а и 5b изображены частотные характеристики фильтров, применяемых для вычисления оптимизированного масштабного коэффициента в соответствии с одним вариантом осуществления настоящего изобретения;

- на фиг. 6 изображены в форме блок-схемы основные этапы способа определения оптимизированного масштабного коэффициента в соответствии с одним вариантом осуществления настоящего изобретения;

- на фиг. 7 изображен один вариант осуществления в частотной области устройства определения оптимизированного масштабного коэффициента в рамках расширения диапазона;

- на фиг. 8 изображена аппаратная реализация устройства определения оптимизированного масштабного коэффициента для расширения диапазона в соответствии с настоящим изобретением.

На фиг. 3 изображен примерный декодер, совместимый со стандартом AMR-WB/G.722.2, в котором присутствует расширение диапазона, включающее определение оптимизированного масштабного коэффициента в соответствии с одним вариантом осуществления способа согласно настоящему изобретению, реализованный посредством устройства расширения диапазона, показанного в виде блока 309.

В отличие от декодирования AMR-WB, которое работает с выходной частотой дискретизации 16 кГц, в данном случае рассматривается декодер, который может работать с выходным сигналом (синтеза) на частоте ƒs=8, 16, 32 или 48 кГц. Следует отметить, что в данном случае предполагается, что кодирование выполнено в соответствии с алгоритмом AMR-WB с внутренней частотой 12,8 кГц для кодирования CELP в нижнем диапазоне и кодировании посредством коэффициента усиления при скорости 23,85 кбит/с на подкадр на частоте 16 кГц; несмотря на то, что изобретение описывается здесь на уровне декодирования, при этом предполагается, что кодирование может также работать с входным сигналом на частоте ƒs=8, 16, 32 или 48 кГц, и подходящие операции передискретизации вне контекста настоящего изобретения применяются в кодировании в зависимости от величины ƒs. Следует отметить, что, когда ƒs=8 кГц, в случае декодирования, совместимого с AMR-WB, нет необходимости расширять нижний диапазон 0-6,4 кГц, потому что диапазон звуковых частот, восстановленный на частоте ƒs, ограничивается диапазоном 0-4000 Гц.

На фиг. 3 декодирование CELP (LF для низких частот) по-прежнему работает на внутренней частоте 12,8 кГц, как в AMR-WB, и расширение диапазона (HF для высоких частот), применяемое для изобретения, работает на частоте 16 кГц, и LF и HF синтезы объединяются (блок 312) на частоте ƒs после соответствующей передискретизации (блок 306 и внутренней обработки в блоке 311). В альтернативных вариантах осуществления объедение нижнего и верхнего диапазонов может выполняться на частоте 16 кГц после передискретизации нижнего диапазона от 12,8 до 16 кГц, перед передискретизацией объединенного сигнала на частоте ƒs.

Декодирование в соответствии с фиг. 3 зависит от режима AMR-WB (или скорости цифрового потока), связанного с текущим принятым кадром. В качестве индикатора, и без воздействия на блок 309, декодирование части CELP в нижнем диапазоне включает следующие этапы:

- демультиплексирование кодированных параметров (блок 300) в случае правильно принятого кадра (bfi=0, где bfi - «признак поврежденного кадра» со значением 0 для принятого кадра и 1 для потерянного кадра);

- декодирование параметров ISF с интерполяцией и преобразованием в коэффициенты LPC (блок 301), как описано в пункте 6.1 стандарта G.722.2;

- декодирование возбуждения CELP (блок 302) с адаптивной и фиксированной частью для восстановления возбуждения (exc или u'(n)) в каждом подкадре длиной 64 на частоте 12,8 кГц:

, n=0, …, 63

в соответствии с обозначениями пункта 7.1.2.1 Рекомендации ITU-T G.718 декодера, функционально совместимого с AMR-WB кодером/декодером, в отношении декодирования CELP, где ν(n) и c(n) - соответственно кодовые слова адаптивного и фиксированного словарей, и и - связанные декодированные коэффициенты усиления. Данное возбуждение u'(n) применяется в адаптивном словаре следующего подкадра; затем оно подвергается пост-обработке и, как и в G.718, возбуждение u'(n) (также обозначаемое exc) отличается от его модифицированной подвергнутой пост-обработке версии u(n) (также обозначаемой ехс2), которая служит в качестве входного сигнала для синтезирующего фильтра в блоке 303;

- синтезирующую фильтрацию (блок 303), где декодированный фильтр LPC имеет 16-й порядок;

- узкополосную пост-обработку (блок 304) в соответствии с пунктом 7.3 G.718, если ƒs=8 кГц;

- компенсацию предыскажений (блок 305) посредством фильтра 1/(1-0.68z-1);

- пост-обработку низких частот (называемую «постфильтром низкой звуковой частоты») (блок 306), подавляющую перекрестные гармонические помехи на низких частотах, как описано в пункте 7.14.1.1 в G.718. Данная обработка вводит задержку, которая учитывается при декодировании верхнего диапазона (>6,4 кГц);

- передискретизацию внутренней частоты 12,8 кГц на выходной частоте fs (блок 307). Возможен ряд вариантов осуществления. Без потери общности, здесь рассматривается, в качестве примера, что если ƒs=8 или 16 кГц, то передискретизация, описанная в пункте 7.6 в G.718 повторяется здесь, а если, ƒs=32 или 48 кГц, то применяются дополнительные фильтры с конечной импульсной характеристикой (FIR);

- вычисление параметров «порогового шумоподавителя» (блок 308), преимущественно проводимое, как описано в пункте 7.14.3 в G.718, чтобы «повысить» качество периодов паузы посредством снижения уровня.

В вариантах, которые могут реализовываться для изобретения, операции пост-обработки, применяемые к возбуждению могут изменяться (например, дисперсия фазы может увеличиваться) или данные операции пост-обработки могут быть расширены (например, может реализовываться снижение перекрестных гармонических помех), не влияя на характер расширения диапазона.

Следует отметить, что использование блоков 306, 308, 314 не является обязательным.

Кроме того, следует отметить, что декодирование нижнего диапазона, описанное выше, предполагает так называемый «активный» текущий кадр со скоростью цифрового потока от 6,6 до 23,85 кбит/с. Фактически, когда режим DTX активируется, определенные кадры могут кодироваться как «неактивные», и в этом случае можно либо передать дескриптор паузы (по 35 бит), либо не передавать ничего. В частности, следует напомнить, что кадр SID описывает ряд параметров: параметры ISF, усредненные по 8 кадрам, среднюю энергию по 8 кадрам, флаг «сглаживания» для восстановления нестационарного шума. Во всех случаях в декодере используется такая же модель декодирования, как и для активного кадра, с восстановлением возбуждения и фильтра LPC для текущего кадра, что дает возможность применять расширение диапазона даже к неактивным кадрам. То же самое замечание относится к декодированию «потерянных кадров» (или FEC, PLC), в которых применяется LPC модель.

В варианте осуществления, описанном здесь, и со ссылкой на фиг. 7, декодер дает возможность расширить декодированный нижний диапазон (50-6400 Гц, учитывающий 50 Гц высокочастотной фильтрации в декодере, 0-6400 Гц в общем случае) до расширенного диапазона, ширина которого изменяется в диапазоне приблизительно от 50-6900 Гц до 50-7700 Гц в зависимости от режима, реализованного в текущем кадре. Таким образом, его можно отнести к первому диапазону частот от 0 до 6400 Гц и второй диапазон частот от 6400 до 8000 Гц. В действительности, в предпочтительном варианте осуществления расширение возбуждения выполняется в частотной области в диапазоне от 5000 до 8000 Гц, чтобы обеспечить возможность полосовой фильтрации с шириной от 6000 до 6900 или 7700 Гц.

При скорости 23,85 кбит/с корректирующая информация HF усиления (0,8 кбит/с), передаваемая при 23,85 кбит/с, здесь декодируется. Ее использование подробно описано ниже со ссылкой на фиг. 4. Синтезирующую часть верхнего диапазона получают в блоке 309, представляющем устройство расширения диапазона, используемое для изобретения, и которое подробно изображено на фиг. 7 в варианте осуществления.

В целях совмещения декодированных нижних и верхних диапазонов, вводится задержка (блок 310) для синхронизации выходных сигналов блоков 306 и 307, и верхний диапазон, синтезируемый на частоте 16 кГц, подвергается передискретизации из 16 кГц в частоту ƒs (выходной сигнал блока 311). Значение задержки Т зависит от того, как синтезируется сигнал верхнего диапазона, и от частоты ƒs как в пост-обработке низких частот. Таким образом, в целом, значение Т в блоке 310 должно регулироваться в соответствии с конкретной реализацией.

Затем нижние и верхние диапазоны объединяются (складываются) в блоке 312 и полученный синтез подвергается пост-обработке посредством высокочастотной фильтрации (типа IIR) 50 Гц порядка 2, коэффициенты которой зависят от частоты fs (блок 313) и выходной пост-обработки с необязательным применением «порогового шумоподавителя» способом, подобным G.718 (блок 314).

На фиг. 3 описывается один вариант осуществления устройства определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения в процессе расширения диапазона частот. Данное устройство входит в блок 309 расширения диапазона, описанный выше.

Таким образом, в блоке 400 из сигнала возбуждения, декодированного в первом диапазоне частот u(n), выполняется расширение диапазона для получения расширенного сигнала возбуждения uHB(n) по меньшей мере одного второго диапазона частот.

Следует отметить, что в данном случае оценка оптимизированного масштабного коэффициента в соответствии с изобретением не зависит от того, как получен сигнал uHB(n). Одно условие относительно его энергии все-таки является важным. Действительно, энергия верхнего диапазона от 6000 до 8000 Гц должна быть на уровне, подобном энергии диапазона от 4000 до 6000 Гц декодированного сигнала возбуждения на выходе блока 302. Кроме того, поскольку в сигнале нижнего диапазона компенсируются предыскажения (блок 305), компенсация предыскажений должна также применяться к сигналу возбуждения верхнего диапазона либо посредством специального фильтра компенсации предыскажений, либо посредством умножения на постоянный коэффициент, который соответствует среднему коэффициенту подавления упомянутого фильтра. Это условие не распространяется на случай скорост