Способ и устройство для кодирования и декодирования

Иллюстрации

Показать все

Изобретение относится к области техники связи, в частности к способу и устройству для кодирования и декодирования. Техническим результатом является уменьшение полосы пропускания передачи сигнала при сохранении качества кодирования сигнала. Указанный результат достигается тем, что способ кодирования включает в себя: извлечение характеристических параметров фонового шума в пределах периода затягивания; для первого суперкадра после периода затягивания, выполнение кодирования фонового шума на основании извлеченных характеристических параметров фонового шума; для суперкадров после первого суперкадра, выполнение извлечения характеристических параметров фонового шума и выбора DTX для каждого кадра в суперкадрах после первого суперкадра; и для суперкадров после первого суперкадра, выполнение кодирования фонового шума на основании извлеченных характеристических параметров фонового шума текущего суперкадра, характеристических параметров фонового шума множества суперкадров до текущего суперкадра и окончательного выбора DTX. 4 н. и 20 з.п. ф-лы, 10 ил., 1 табл.

Реферат

Заявка испрашивает приоритет по заявке № 200810084077.6 на выдачу патента Китая, поданной 26 марта 2008 года в Государственную службу интеллектуальной собственности Китайской Народной Республики, озаглавленной «METHOD AND APPARATUS FOR ENCODING AND DECODING» («СПОСОБ И УСТРОЙСТВО ДЛЯ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ»), полное содержание всей из которой включено в материалы настоящей заявки посредством ссылки.

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Раскрытие относится к области техники связи, а более конкретно к способу и устройству для кодирования и декодирования.

УРОВЕНЬ ТЕХНИКИ

В речевой связи кодирование и декодирование фонового шума выполняются согласно схеме обработки шума, определенной в G.729B, опубликованном Международным телекоммуникационным союзом (ITU).

Технология сжатия периодов молчания привнесена в кодировщик речи, и фиг.1 показывает принципиальную схему сигнальной обработки.

Технология сжатия периодов молчания, главным образом, включает в себя три модуля: обнаружение активности речи (VAD), прерывистая передача (DTX) и генератор комфортного шума (CNG). VAD и DTX - модули, включенные в кодировщик, а CNG - модуль, включенный в сторону декодирования. Фиг.1 - принципиальная схема, показывающая принцип системы сжатия периодов молчания, а основные последовательности операций являются следующими.

Сначала на передающей стороне (то есть стороне кодирования), для каждого кадра входного сигнала, модуль VAD анализирует и детектирует текущий кадр входного сигнала и выявляет, содержится ли речевой сигнал в текущем кадре сигнала. Если речевой сигнал содержится в текущем кадре сигнала, текущий кадр помечается как речевой кадр. Иначе, текущий кадр устанавливается в качестве неречевого кадра.

Затем кодировщик кодирует текущий сигнал на основании результата детектирования VAD. Если результат детектирования VAD указывает речевой кадр, сигнал вводится в кодировщик речи для кодирования речи, и выдается речевой кадр. Если результат детектирования VAD указывает неречевой кадр, сигнал вводится в модуль DTX, где неречевой кодировщик используется для выполнения обработки фонового шума, и выдается неречевой кадр.

В заключение, принятый кадр сигнала (включающий в себя речевые кадры и неречевые кадры) декодируется на приемной стороне (стороне декодирования). Если принятый кадр сигнала является речевым кадром, он декодируется речевым декодером. Иначе, он вводится в модуль CNG, который декодирует фоновый шум на основании параметров, переданных в неречевом кадре. Формируется комфортный фоновый шум или период молчания, так что декодированный сигнал звучит более естественным и непрерывным.

Привнесением такой схемы кодирования с переменной битовой скоростью передачи данных в кодировщик и выполнением надлежащего кодирования над сигналами фазы молчания технология сжатия периодов молчания эффективно решает проблему, что фоновый шум может быть прерывистым и улучшает качество синтезированного сигнала. Поэтому фоновый шум на стороне декодирования также может указываться ссылкой как комфортный шум. Более того, скорость кодирования фонового шума является гораздо более низкой, чем скорость кодирования речи, и, таким образом, средняя скорость кодирования системы существенно снижается, так что полоса пропускания может эффективно сберегаться.

В G.729B сигнальная обработка выполняется на покадровой основе. Длительность кадра имеет значение 10 мс. Для сбережения полосы пропускания G.729.1 дополнительно определяет требования к системе сжатия периодов молчания. Требуется, чтобы система, в присутствии фонового шума, кодировала и передавала фоновый шум на низкой битовой скорости передачи данных, не снижая общего качества кодирования сигнала. Другими словами, определены требования к DTX и CNG. Более важно, требуется, чтобы система DTX/CNG была совместимой с G.729B. Хотя основанная на G.729B система DTX/CNG может быть легко перенесена в основанную на G.729.1 систему, две проблемы остаются неизменными. Во-первых, два кодировщика будут обрабатывать кадры разных длительностей, и, таким образом, прямой перенос может быть проблематичным. Более того, основанная на 729B система DTX/CNG относительно проста, особенно часть извлечения параметров. Чтобы удовлетворять требованиям DTX/CNG в G.729.1, основанная на 729B система DTX/CNG должна быть расширена. Во-вторых, основанная на G.729.1 система может обрабатывать широкополосные сигналы, но основанная на G.729B система может обрабатывать только сигналы нижней полосы. Схема для обработки составляющих верхней полосы сигнала фонового шума (4000 Гц~7000 Гц), таким образом, должна быть добавлена в основанную на G.729.1 систему DTX/CNG, с тем чтобы формировать полную систему.

Предшествующий уровень техники имеет по меньшей мере следующие проблемы. Существующие основанные на G.729B системы могут обрабатывать только фоновый шум нижней полосы, и, соответственно, качество кодирования сигнала не может гарантироваться при переносе в основанные на G.729.1 системы.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Ввиду вышеприведенного варианты осуществления изобретения должны предложить способ и устройство для кодирования и декодирования, которые наращиваются от G.729B, могут удовлетворять требованиям технического стандарта G.729.1, и полоса пропускания передачи сигнала может быть существенно сокращена наряду с тем, что гарантируется качество кодирования сигнала. Для решения вышеприведенной проблемы вариант осуществления изобретения предусматривает способ кодирования, включающий в себя:

извлечение характеристических параметров фонового шума в пределах периода затягивания;

для первого суперкадра после периода затягивания, выполнение кодирования фонового шума на основании извлеченных характеристических параметров фонового шума в пределах периода затягивания и характеристических параметров фонового шума первого суперкадра;

для суперкадров после первого суперкадра, выполнение извлечения характеристических параметров фонового шума и выбора DTX для каждого кадра в суперкадрах после первого суперкадра; и

для суперкадров после первого суперкадра, выполнение кодирования фонового шума на основании извлеченных характеристических параметров фонового шума текущего суперкадра, характеристических параметров фонового шума множества суперкадров до текущего суперкадра и окончательного выбора DTX.

К тому же, предусмотрен способ декодирования, включающий в себя:

получение параметров CNG первого кадра первого суперкадра из кадра кодирования речи перед первым кадром первого суперкадра; и

выполнение декодирования фонового шума для первого кадра первого суперкадра на основании параметров CNG,

параметры CNG включают в себя:

целевой возбужденный коэффициент усиления, который определяется долговременным сглаженным коэффициентом усиления постоянного кодового словаря, который сглаживается по коэффициенту усиления постоянного кодового словаря кадров кодирования речи; и

коэффициент фильтра LPC, который определяется долговременным сглаженным коэффициентом фильтра LPC, который сглаживается по коэффициенту фильтра LPC кадров кодирования речи.

К тому же, предусмотрено устройство кодирования, включающее в себя:

первый блок извлечения, сконфигурированный для извлечения характеристических параметров фонового шума в пределах периода затягивания;

второй блок кодирования, сконфигурированный, чтобы: для первого суперкадра после периода затягивания, выполнять кодирование фонового шума на основании извлеченных характеристических параметров фонового шума в пределах периода затягивания и характеристических параметров фонового шума первого суперкадра;

второй блок извлечения, сконфигурированный, чтобы: для суперкадров после первого суперкадра, выполнять извлечение характеристических параметров фонового шума для каждого кадра;

блок выбора DTX, сконфигурированный, чтобы: для суперкадров после первого суперкадра, выполнять выбор DTX для каждого кадра; и

третий блок кодирования, сконфигурированный, чтобы: для суперкадров после первого суперкадра, выполнять кодирование фонового шума на основании извлеченных характеристических параметров фонового шума текущего суперкадра, характеристических параметров фонового шума множества суперкадров до текущего суперкадра и окончательного выбора DTX.

К тому же, предусмотрено устройство декодирования, включающее в себя:

блок получения параметров CNG, сконфигурированный для получения параметров CNG первого кадра в первом суперкадре из кадра кодирования речи перед первым кадром в первом суперкадре; и

первый блок декодирования, сконфигурированный для выполнения декодирования фонового шума для первого кадра первого суперкадра на основании параметров CNG, параметры CNG включают в себя:

целевой возбужденный коэффициент усиления, который определяется долговременным сглаженным коэффициентом усиления постоянного кодового словаря, который сглаживается по коэффициенту усиления постоянного кодового словаря кадров кодирования речи; и

коэффициент фильтра LPC, который определяется долговременным сглаженным коэффициентом фильтра LPC, который сглаживается по коэффициенту фильтра LPC кадров кодирования речи.

По сравнению с предшествующим уровнем техники варианты осуществления изобретения могут обеспечивать следующие преимущества.

Согласно вариантам осуществления изобретения характеристические параметры фонового шума извлекаются в пределах периода затягивания; для первого суперкадра после периода затягивания, кодирование фонового шума выполняется на основании извлеченных характеристических параметров фонового шума в пределах периода затягивания и характеристических параметров фонового шума первого суперкадра; для суперкадров после первого суперкадра, извлечение характеристических параметров фонового шума и выбор DTX выполняются для каждого кадра в суперкадрах после первого суперкадра; и для суперкадров после первого суперкадра, кодирование фонового шума выполняется на основании извлеченных характеристических параметров фонового шума текущего суперкадра, характеристических параметров фонового шума множества суперкадров до текущего суперкадра и окончательного выбора DTX. Могут достигаться следующие преимущества.

Во-первых, полоса пропускания передачи сигнала может существенно уменьшаться наряду с тем, что гарантируется качество кодирования.

Во-вторых, требования технических условий системы G.729.1 могут удовлетворяться расширением системы G.729B.

В-третьих, фоновый шум может кодироваться более точно посредством гибкого и точного извлечения характеристических параметров фонового шума.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг.1 - принципиальная схема системы сжатия периодов молчания;

фиг.2 - принципиальная схема кодировщика G.729.1;

фиг.3 - принципиальная схема декодера G.729.1;

фиг.4 - блок-схема последовательности операций способа кодирования согласно первому варианту осуществления настоящего изобретения;

фиг.5 - блок-схема последовательности операций способа кодирования первого суперкадра;

фиг.6 - блок-схема последовательности операций способа, показывающая извлечение параметров составляющей нижней полосы и выбор DTX;

фиг.7 - блок-схема последовательности операций способа, показывающая извлечение параметров фонового шума составляющей нижней полосы и выбор DTX в текущем суперкадре;

фиг.8 - блок-схема последовательности операций способа декодирования согласно первому варианту осуществления настоящего изобретения;

фиг.9 - принципиальная схема устройства кодирования согласно первому варианту осуществления настоящего изобретения; и

фиг.10 - принципиальная схема устройства декодирования согласно первому варианту осуществления настоящего изобретения.

ПОДРОБНОЕ ОПИСАНИЕ

Дополнительно детализированные описания будут приведены в отношении реализации изобретения со ссылкой на прилагаемые чертежи.

Прежде всего будет приведено введение в связанные принципы основанных на стандартах G.729B систем.

1.1.2. Сходство и различие между параметрами кодирования кодового потока речи и кодового потока фонового шума

В современном кодировщике речи принцип синтезирования фонового шума является таким же, как принцип синтезирования речи. В обоих случаях применяется модель кодирование методом линейного предсказания с кодовым возбуждением (CELP). Принцип синтезирования речи является следующим: речь s(n) может рассматриваться в качестве выходного сигнала, являющегося результатом возбуждения фильтра ν(n) синтеза сигналом e(n) возбуждения. То есть s(n)=e(n)*ν(n). Это математическая модель для синтеза речи. Эта модель также используется для синтезирования фонового шума. Таким образом, характеристические параметры, описывающие характеристики фонового шума и периода молчания, передаваемых в кодовом потоке фонового шума, являются по существу такими же, как характеристические параметры в кодовом потоке речи, то есть параметры фильтра синтеза и параметры возбуждения, используемые при синтезе сигнала.

В кодовом потоке речи параметр(ы) фильтра синтеза, главным образом, указывают ссылкой на параметр(ы) квантования LSF, и параметр(ы) сигнала возбуждения могут включать в себя задержку адаптивного кодового словаря, коэффициент усиления адаптивного кодового словаря, параметр постоянного кодового словаря и параметр коэффициента усиления кодового словаря. В зависимости от разных кодировщиков речи эти параметры могут иметь разные количества квантованных битов и разные типы квантования. Для одного и того же кодировщика, если содержится несколько скоростей передачи, параметры кодирования по-прежнему могут иметь разные количества квантованных битов и разные типы квантования при разных скоростях передачи, так как характеристики сигнала могут описываться в разных аспектах и признаках.

Отличный от параметра(ов) кодирования речи параметр(ы) кодирования фонового шума описывает характеристики фонового шума. Сигнал возбуждения фонового шума может рассматриваться в качестве простой последовательности случайного шума. Эти последовательности могут просто формироваться в модуле генерации случайного шума сторон кодирования и декодирования. В таком случае амплитуды этих последовательностей могут регулироваться параметром энергии и может вырабатываться окончательный сигнал возбуждения. Таким образом, характеристические параметры сигнала возбуждения могут быть просто представлены параметром энергии без дополнительного описания по некоторым другим характеристическим параметрам. Поэтому в кодовом потоке фонового шума его параметр возбуждения является параметром энергии текущего кадра фонового шума, который отличен от речевого кадра. Как и в речевом кадре, параметр(ы) фильтра синтеза в кодовом потоке фонового шума является параметром(ами) квантования LSF, но специфичный способ квантования может быть иным. Ввиду вышеприведенного анализа схема для кодирования фонового шума в сущности может рассматриваться в качестве простой схемы для кодирования «речи».

Схема обработки шума в G.729B (обратитесь к протоколу 729B))

1.2.1 Технический обзор DTX/CNG

Схема сжатия периодов молчания в G.729B является предыдущей технологией сжатия периодов молчания, а алгоритмической моделью ее технологии кодирования и декодирования фонового шума является CELP. Поэтому передаваемые параметры фонового шума также извлекаются на основании модели CELP, в том числе параметр(ы) фильтра синтеза и параметр(ы) возбуждения, описывающие фоновый шум. Параметр(ы) возбуждения является параметром(ами) энергии, используемым для описания энергии фонового шума. Нет никаких параметров адаптивного или постоянного кодового словаря, используемых для описания возбуждения речи. Параметр фильтра и параметр кодирования речи являются в основном совместимыми, будучи параметром LSF. На стороне кодирования, для каждого кадра входных речевых сигналов, если выбором VAD является «0», указывающий, что текущий сигнал является фоновым шумом, кодировщик подает сигнал в модуль DTX. Модуль DTX извлекает параметры фонового шума из входных сигналов, а затем кодирует фоновый шум на основании изменения параметров каждого кадра. Если параметр фильтра и параметр энергии, извлеченные из текущего кадра, имеют большое изменение по сравнению с несколькими предыдущими кадрами, он указывает, что текущие характеристики фонового шума являются в значительной степени отличными от предыдущих характеристик фонового шума. В таком случае модуль кодирования шума кодирует параметры фонового шума, извлеченные из текущего кадра, и собирает их в кадр дескриптора вставки периода молчания (SID). Кадр SID передается на сторону декодирования. Иначе, кадр (НЕТ ДАННЫХ) NODATA (без данных) передается на сторону декодирования. Оба, кадр SID и кадр NODATA, могут указываться ссылкой как неречевой кадр. На стороне декодирования, по входу в фазу фонового шума, модуль CNG может синтезировать комфортный шум, описывающий характеристики фонового шума стороны кодирования на основании принятого неречевого кадра.

В G.729B сигнальная обработка выполняется на покадровой основе. Длительность кадра имеет значение 10 мс. Модули DTX, кодирования шума и CNG 729B будут описаны в следующих трех разделах.

1.2.2 Модуль DTX

Модуль DTX сконфигурирован, главным образом, для оценки и квантования параметра фонового шума и передачи кадров SID. В неречевой фазе модуль DTX передает информацию о фоновом шуме на сторону декодирования. Информация о фоновом шуме инкапсулируется в кадр SID для передачи. Если текущий фоновый шум не стабилен, передается кадр SID. Иначе, передается кадр NODATA, не содержащий в себе никаких данных. Дополнительно, интервал между двумя следующими друг за другом кадрами SID может быть ограничен двумя кадрами. Если фоновый шум нестабилен, кадры SID должны передаваться непрерывно, и, таким образом, передача следующего кадра SID будет иметь задержку.

На стороне кодирования модуль DTX принимает выходной сигнал модуля VAD в кодировщике, коэффициент автокорреляции и несколько предыдущих отсчетов возбуждения. В каждом кадре модуль DTX описывает кадр без передачи, речевой кадр и кадр SID с помощью 0, 1 и 2 соответственно. Типами кадра являются Ftyp = 0, Ftyp = 1 и Ftyp = 2.

Объекты оценки фонового шума включают в себя энергетический уровень и огибающую спектра фонового шума, которые по существу подобны параметру кодирования речи. Таким образом, расчет огибающей спектра по существу подобен расчету параметра кодирования речи, который использует параметры из двух предыдущих кадров. Параметр энергии является средним значением энергий нескольких предыдущих кадров.

Основные операции модуля DTX

a. Хранение коэффициентов автокорреляции каждого кадра

Что касается кадра входного сигнала, то есть речевого кадра или неречевого кадра, коэффициенты автокорреляции текущего кадра t могут удерживаться в буфере. Эти коэффициенты автокорреляции обозначены посредством r t'(j), j=0...10, где j - индекс автокорреляционной функции для каждого кадра.

b. Оценка типа текущего кадра

Если текущий кадр является речевым кадром, то есть VAD = 1, тип текущего кадра устанавливается в 1. Если текущий кадр является неречевым кадром, текущий фильтр A t(z) LPC может рассчитываться на основании коэффициентов автокорреляции предыдущего кадра(ов) и текущего кадра. Перед расчетом A t(z), прежде всего, может быть рассчитано среднее коэффициентов автокорреляции двух следующих друг за другом кадров:

где N cur =2. После расчета R t(j) алгоритм Левинсона-Дурбина может использоваться для расчета A t(z). К тому же, алгоритм Левинсона-Дурбина может использоваться для расчета остаточной энергии E t, которая может браться в качестве простой оценки энергии возбуждения кадра.

Тип текущего кадра может оцениваться, как изложено ниже.

(1) Если текущий кадр является первым неактивным кадром, кадр устанавливается в качестве кадра SID. Пусть переменная , характеризующая энергию сигнала, будет равна E t, а параметр k E, характеризующий количество кадров, установлен в 1:

(2) Для других неречевых кадров алгоритм сравнивает параметр предыдущего кадра SID с текущим соответствующим параметром. Если текущий фильтр в значительной степени отличен от предыдущего фильтра или текущая энергия возбуждения в значительной степени отлична от предыдущей энергии возбуждения, пусть флажковый признак flag_change будет равным 1. Иначе, значение флага остается неизменным.

(3) Текущий счетчик count_fr указывает количество кадров между текущим кадром и предыдущим SID. Если это значение является большим, чем N min, передается кадр SID. Если flag_change равен 1, кадр SID также передается. В других случаях текущий кадр не передается.

Иначе: Ftyp t=0

В случае кадра SID счетчик count_fr и флажковый признак flag_change повторно инициализируются в 0.

c. Коэффициенты фильтра LPC

Пусть коэффициентами фильтра A sid(z) LPC предыдущего SID будут a sid(j), j = 0...10. Если расстояние Итакуры между фильтрами SID-LPC текущего кадра и предыдущего кадра превышает заданное пороговое значение, они могут рассматриваться в качестве значительно разных.

где R a(j), j = 0...10 - коэффициенты автокорреляции коэффициентов фильтра SID:

d. Энергия кадра

Сумма энергий кадра может быть рассчитана в качестве:

Затем квантуется 5-битным квантователем в логарифмической области. Декодированная логарифмическая энергия E q сравнивается с предыдущей декодированной логарифмической энергией SID, . Если они отличаются более чем на 2 дБ, они могут считаться имеющими значительно разные энергии.

1.2.3 Кадр кодирования шума и SID

Параметрами в кадре SID являются коэффициент фильтра LPC (огибающая спектра) и параметр квантования энергии.

При расчете фильтра SID-LPC учитывается стабильность между следующими друг за другом кадрами шума.

Прежде всего, рассчитывается средний фильтр LPC, , для N p кадров перед текущим кадром SID. Используются автокорреляционная функция и . Затем вводится в алгоритм Левинсона-Дурбина, с тем чтобы получать . может быть представлен как:

где значение N p зафиксировано на 6. Количество кадров t' имеет диапазон [t - 1, t - N cur]. Таким образом, фильтр SID-LPC может быть представлен в качестве:

Другими словами, алгоритм будет рассчитывать средний коэффициент фильтра LPC, , нескольких предыдущих кадров, а затем сравнивать его с текущим коэффициентом фильтра LPC, A t(z). Если они имеют незначительное различие, среднее нескольких предыдущих кадров будет выбираться для текущего кадра, когда квантуется коэффициент LPC. Иначе, будет выбираться A t(z) текущего кадра. После выбора коэффициентов фильтра LPC алгоритм может преобразовывать эти коэффициенты фильтра LPC в область LSF, а затем выполняется кодирование квантования. Способ выбора для кодирования квантования может быть таким же, как способ кодирования квантования для кодирования речи.

Параметр(ы) энергии квантуется 5-битным линейным квантователем в логарифмической области. Этим способом было выполнено кодирование фонового шума. Затем эти кодированные биты инкапсулируются в кадр SID, как показано в таблице A.

ТАБЛИЦА B.2/G.729
Описание параметров Битов
Переключаемый индекс предсказателя квантователя LSF 1
Вектор первой стадии квантователя LSF 5
Вектор второй стадии квантователя LSF 4
Коэффициент усиления (энергия) 5

Параметры в кадре SID состоят из четырех индексов кодового словаря, один из которых указывает индекс квантования энергии (5 битов). Три оставшихся указывают индекс квантования спектра (10 битов).

1.2.4 Модуль CNG

На стороне декодирования алгоритм использует регулируемый по уровню псевдобелый шум для возбуждения интерполированного фильтра синтеза LPC, с тем чтобы получать комфортный фоновый шум, что по существу подобно синтезу речи. Здесь уровень возбуждения и коэффициент фильтра LPC получаются из предыдущего кадра SID соответственно. Коэффициент фильтра LPC подкадра может быть получен посредством интерполяции параметра LSP в кадре SID. Способ интерполяции подобен схеме интерполяции в кодировщике речи.

Возбуждение ex(n) псевдобелого шума является смесью возбуждения ex1(n) речи и возбуждения ex2(n) гауссова белого шума. Коэффициент усиления для ex1(n) относительно мал. Цель использования ex1(n) состоит в том, чтобы сделать переход между речью и отсутствием речи более естественным.

Таким образом, после того как получен сигнал возбуждения, он может использоваться для возбуждения фильтра синтеза, с тем чтобы получать комфортный фоновый шум.

Поскольку неречевое кодирование и декодирование на сторонах кодирования и декодирования должно сохранять синхронизацию, обе стороны будут вырабатывать сигналы возбуждения для кадра SID и кадра без передачи.

Прежде всего, определяется целевой возбужденный коэффициент усиления , который берется в качестве корня квадратного от возбужденных средних энергий текущего кадра. может быть получен с помощью следующего алгоритма сглаживания, где - коэффициент для декодированного кадра SID:

Восемьдесят отсчетов делятся на два подкадра. Для каждого подкадра, сигнал возбуждения модуля CNG может быть синтезирован, как изложено ниже.

(1) Шаговая задержка выбирается случайным образом из диапазона [40, 103].

(2) Положения и символы ненулевых импульсов могут выбираться случайным образом из вектора постоянного кодового словаря подкадра (структура положений и символов этих ненулевых импульсов совместима с G.729).

(3) Возбужденный сигнал адаптивного кодового словаря с коэффициентом усиления выбирается и помечается в качестве e a(n), n=0...39. Выбранный сигнал возбуждения постоянного кодового словаря может быть помечен как e f(n), n=0...39. Затем на основании энергии подкадра адаптивный коэффициент G a усиления и коэффициент G f усиления постоянного кодового словаря могут быть рассчитаны как:

Должно быть отмечено, что G f может выбирать отрицательное значение.

Определение производится, как изложено ниже:

Из структуры возбуждения ACELP получаем:

Если коэффициент G a адаптивного кодового словаря постоянен, алгоритм, характеризующий G a, становится алгоритмом второго порядка по отношению к G f:

Значение G a будет ограничиваться так, чтобы вышеприведенный алгоритм имел решение. Кроме того, может быть ограничено применение некоторых коэффициентов усиления адаптивного кодового словаря. При этом способе коэффициент G a усиления адаптивного кодового словаря может выбираться случайным образом в следующем диапазоне:

Корень, имеющий минимальное абсолютное значение среди корней алгоритма

берется в качестве значения G f.

В заключение, сигнал возбуждения G.729 может быть построен, как изложено ниже:

Синтезированное возбуждение ex(n) может синтезироваться с помощью следующего способа.

Пусть E 1 будет энергией ex 1(n), E 2 будет энергией ex 2(n), а E 3 будет произведением ex 1(n) и ex 2(n):

Количество точек расчета превышает его собственный размер.

Пусть α и β будут коэффициентами масштабирования у ex 1(n) и ex 2(n) при смешанном возбуждении, где α установлено в 0,6, а β определяется следующим алгоритмом квадратного уравнения:

Если нет решения для β, β будет установлено в 0, а α будет установлено в 1. Окончательное возбуждение модуля CNG становится ex(n):

Базовые принципы модуля DTX/CNG в кодировщике 729.B были описаны выше.

1.3 Базовая последовательность операций кодировщика и декодера G.729.1

G.729.1 - стандарт кодирования и декодирования речи нового поколения, вновь опубликованный ITU (см. ссылку [1]). Он является расширением для ITU-TG.729 на масштабируемой широкой полосе пропускания 8-32 кбит/с (50-7000 Гц). По умолчанию, частоты выборки на входе кодировщика и выходе декодера имеют значение 16000 Гц. Кодовый поток, сформированный кодировщиком, разделяется на уровне, с содержанием 12 встроенных уровней, указываемых ссылкой как уровни 1-12 соответственно. Уровень 1 является базовым уровнем, соответствующим битовой скорости передачи данных в 8 кбит/с. Этот уровень совместим с кодовым потоком G.729, так что G.729EV является имеющим возможность взаимодействовать с G.729. Уровень 2 является уровнем прироста нижней полосы и увеличен на 4 кбит/с. Уровни 3~12 являются уровнями широкополосного прироста, и всего может быть набавлено 20 кбит/с, 2 кбит/с для каждого уровня.

Кодировщик и декодер G.729.1 основаны на трехстадийной структуре: кодировании и декодировании встроенного кодирования методом линейного предсказания с кодовым возбуждением (CELP), расширении полосы пропускания временной области (TDBWE) и кодировании и декодировании оценки преобразования, известном как подавление помех дискретизации временной области (TDAC). Во время стадии встроенного CELP формируются уровень 1 и уровень 2, с тем чтобы вырабатывать сигналы синтеза нижней полосы 8 кбит/с и 12 кбит/с (50-4000 Гц). Стадия TDBWE формирует уровень 3, и вырабатывается широкополосный выходной сигнал 14 кбит/с (50-7000 Гц). Стадия TDAC работает в области модифицированного дискретного косинусного преобразования (MDCT), и формируются уровни 4~12. Таким образом, качество сигнала возрастает с 14 кбит/с до 32 кбит/с. Кодирование и декодирование TDAC может представлять сигнал ошибки кодирования и декодирования взвешенного CELP полосы 50-4000 Гц и входной сигнал полосы 4000-7000 Гц.

Со ссылкой на фиг.2, приведена функциональная структурная схема, показывающая кодировщик G.729.1. Кодировщик работает в 20-милисекундном входном суперкадре. По умолчанию, входной сигнал s WB(n) подвергается выборке отсчетов на 16000 Гц. Поэтому входной суперкадр имеет длину в 320 отсчетов.

Прежде всего, входной сигнал s WB(n) разделяется фильтром QMF (H 1(z), H 2(z)) на два поддиапазона. Сигнал нижнего поддиапазона предварительно обрабатывается в фильтре верхних частот, имеющем частоту среза 50 Гц. Выходной сигнал s LB(n) кодируется посредством использования кодировщика встроенного кодирования методом линейного предсказания с кодовым возбуждением нижней полосы 8 кбит/с~12 кбит/с. Разностный сигнал d LB(n) между s LB(n) и сигналом локального синтеза кодировщика CELP на скорости передачи в 12 кбит/с проходит через взвешивающий фильтр (W LB(z)) восприятия для получения сигнала . Сигнал подвергается MDCT в частотную область. Взвешивающий фильтр W LB(z) включает в себя компенсацию усиления, чтобы поддерживать спектральную непрерывность между выходным сигналом фильтра и входным сигналом s HB (n) верхнего поддиапазона.

Составляющая верхнего поддиапазона перемножается с (-1)n, чтобы подвергаться спектральному наложению. Получается сигнал . предварительно обрабатывается фильтром нижних частот, имеющим частоту среза 3000 Гц. Фильтрованный сигнал s HB(n) кодируется в кодировщике TDBWE. Преобразование MDCT выполняется над сигналом s HB(n) для получения сигнала в частотной области.

В заключение, два набора коэффициентов и S HB(k) MDCT кодируются в кодировщике TDAC.

В дополнение, некоторые другие параметры передаются кодировщиком с маскированием ошибок кадра (FEC) для исправления ошибок, вызываемых, когда потеря кадра возникает во время передачи.

Фиг.3 - структурная схема системы декодера. Режим работы декодера определяется количеством уровней принимаемого кодового потока или, равным образом, скоростью приема.

(1) Если скоростью приема является 8 кбит/с или 12 кбит/с (то есть принимаются только первый уровень или два первых уровня), декодер встроенного CELP декодирует кодовый поток первого уровня или первых двух уровней, получает декодированный сигнал и выполняет постфильтрацию для получения , который проходит через фильтр верхних частот для получения Гребенка фильтров синтеза QMF вырабатывает выходной сигнал, имеющий сигнал синтеза высоких частот, установленный в 0.

(2) Если скоростью приема является 14 кбит/с (то есть принимаются первые три уровня), кроме того, что декодер CELP декодирует составляющую нижней полосы, декодер TDBWE декодирует составляющую сигнала верхней полосы. Преобразование MDCT выполняется над , частотные составляющие, более высокие, чем 3000 Гц, в спектре составляющей верхнего поддиапазона (соответствующей более высоким, чем 7000 Гц, на частоте выборки отсчетов 16 кГц) устанавливаются в 0, а затем выполняется обратное преобразование MDCT. Инверсия спектра выполняется после наложения. Реконструированный сигнал верхней полосы синтезируется в гребенке фильтров QMF с помощью составляющей нижней полосы, декодированной декодером CELP, для получения широкополосного сигнала, имеющего скорость передачи 16 кГц (без фильтрации верхних частот).

(3) Если принятый кодовый поток имеет скорость передачи, более высокую, чем 14 кбит/с (соответствующую первым четырем уровням или большему количеству уровней), кроме того, что декодер CELP получает составляющую нижнего поддиапазона посредством декодирования, и деко