Способ модификации сигнала для эффективного кодирования речевых сигналов

Иллюстрации

Показать все

Изобретение относится к области кодирования. Технический результат заключается в обеспечении оптимального качества и скорости передачи звуковых сигналов. Сущность изобретения заключается в том, что речевой сигнал разбивают на последовательность кадров, формируют сигнал из речевого сигнала таким образом, чтобы импульсы основного тона могли быть идентифицированы из сформированного сигнала, определяют местоположение последнего импульса основного тона текущего кадра и местоположение последнего импульса основного тона предшествующего кадра со ссылкой на сформированный сигнал, определяют оптимальное значение параметра задержки таким образом, что кривая задержки основного тона, представляющая изменение задержки основного тона в текущем кадре, характеризуемом упомянутым оптимальным значением параметра задержки, обеспечивала наименьшую ошибку предсказания, когда кривая задержки основного тона используется для предсказания местоположения последнего импульса основного тона в предшествующем кадре. 5 н. и 50 з.п. ф-лы, 13 ил., 3 табл.

Реферат

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение в основном относится к кодированию и декодированию звуковых сигналов в системах связи. В частности, настоящее изобретение относится к способу модификации сигналов, особенно, но не исключительно, подходящему для кодирования с линейным предсказанием с кодовым возбуждением (CELP-кодирования).

ОБЗОР СОСТОЯНИЯ ТЕХНИКИ

Потребность в эффективных способах узкополосного и широкополосного цифрового кодирования речи с оптимальным соотношением качества по субъективной шкале оценки (субъективного качества) и скорости передачи информации в битах (битовой скорости) непрерывно возрастает в разных областях, например, в телеконференцсвязи, мультимедийной технике и беспроводной связи. До недавнего времени для кодирования речи использовали, главным образом, так называемую телефонную полосу частот, ограниченную диапазоном 200-3400 Гц. Однако применение широкой полосы частот для передачи речи обеспечивает большую разборчивость и естественность передаваемой речи, чем при использовании традиционной телефонной полосы частот. Как показали исследования, полоса частот, определяемая диапазоном 50-7000 Гц, достаточна, чтобы обеспечить такой уровень качества, который создает впечатление личного обмена информацией. Для обычных звуковых сигналов данная полоса частот обеспечивает приемлемое субъективное качество, но все же ниже уровня качества систем частотно-модулированного радиовещания (ЧМ-радиовещания) или компакт-диска (CD), которые используют частотные диапазоны, соответственно, 20-16000 Гц и 20-20000 Гц.

Речевой кодер преобразует речевой сигнал в двоичный поток, который передается по каналу связи или сохраняется на носителе информации. Речевой сигнал оцифровывается, затем дискретизируется и квантуется с использованием обычно 16 битов на отсчет. Речевой кодер выполняет функцию представления упомянутых цифровых отсчетов меньшим числом битов, но при этом обеспечивает высокое субъективное качество речи. Речевой декодер или синтезатор работает с переданным или сохраненным двоичным потоком и преобразует его обратно в звуковой сигнал.

CELP-кодирование является одним из лучших способов достижения компромисса между субъективным качеством и битовой скоростью. На данном способе кодирования основано несколько стандартов кодирования как для беспроводных, так и проводных линий связи. При CELP-кодировании дискретизированный речевой сигнал обрабатывается последовательно по блокам, состоящим из N отсчетов и обычно называемым кадрами, где N обозначает заданное число, обычно соответствующее 10-30 мс. С каждым кадром осуществляется вычисление и передача с использованием фильтра линейного предсказания (LP-фильтра). Вычисление LP-фильтра обычно требует упреждающего просмотра, т.е. 5-10-мс речевого сегмента из последующего кадра. Содержащий N отсчетов кадр делится на блоки меньшей протяженности, называемые подкадрами. Число подкадров обычно равно трем или четырем, чтобы получать в результате подкадры длительностью 4-10 мс. Возбуждающий сигнал в каждом подкадре обычно получают из двух компонентов: предшествующего возбуждения и нового возбуждения, определяемого по фиксированной кодовой книге. Компонент, сформированный из предшествующего возбуждения, часто называют возбуждением, определяемым по адаптивной кодовой книге, или возбуждением основным тоном. Параметры, характеризующие возбуждающий сигнал, кодируются и передаются в декодер, где реконструированный возбуждающий сигнал служит входным сигналом LP-фильтра.

При обычном CELP-кодировании долговременное предсказание для отображения предшествующего возбуждения в текущее возбуждение обычно выполняется на основе подкадров. Долговременное предсказание характеризуется параметром задержки и усилением основного тона, которые обычно вычисляются, кодируются и передаются в декодер для каждого подкадра. При низких битовых скоростях на данные параметры расходуется существенная доля располагаемого битового ресурса. Способы модификации сигналов (см. публикации [1-7])

[1] W.B. Kleijn, P. Kroon, and D. Nahumi, "The RCELP speech-coding algorithm", European Transactions on Telecommunications, Vol. 4, No. 5, pp. 573-582, 1994;

[2] W.B. Kleijn, R.P. Ramachandran, and P. Kroon, "Interpolation of the pitch-predictor parameters in analysis-by-synthesis speech coders", IEEE Transactions on Speech and Audio Processing, Vol. 2, No. 1, pp. 42-54, 1994;

[3] Y. Gao, A. Benyassine, J. Thyssen, H. Su, and E. Shlomot, "EX-CELP: A speech coding paradigm", IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Salt Lake City, Utah, U.S.A., pp. 689-692, 7-11 May 2001;

[4] Патент США № 5704003, "RCELP-кодер" Lucent Technologies Inc., (W.B. Kleijn and D. Nahumi), от 19 сентября 1995 г.;

[5] Заявка на европатент № 0 602 826 A2, "Временной сдвиг для кодирования путем анализа через синтез", AT&T Corp., (B. Kleijn), от 1 декабря 1993 г.;

[6] Заявка на патент № WO 00/11653, "Речевой кодер с непрерывной деформацией времени, взаимосвязанной с долговременным предсказанием", Conexant Systems Inc., (Y. Gao), от 24 августа 1999 г.;

[7] Заявка на патент № WO 00/11654, "Речевой кодер, адаптивно принимающий обработку основного тона с непрерывной деформацией времени", Conexant Systems Inc., (H. Su and Y. Gao), от 24 августа 1999 г.

существенно повышают характеристики долговременного предсказания при низких битовых скоростях за счет корректировки подлежащего кодированию сигнала. Данный эффект достигается адаптацией эволюции периодов основного тона до согласования с задержкой долговременного предсказания, что позволяет передавать только один параметр задержки на кадр. Модификация сигнала основана на посылке, что разницу между модифицированным речевым сигналом и исходным речевым сигналом можно сделать неразличимой на слух. Выполняющие CELP-кодирование кодеры (CELP-кодеры), применяющие модификацию сигнала, часто называют обобщенными кодерами анализа через синтез или релаксационными CELP-кодерами (RCELP-кодерами).

Способы модификации сигнала предусматривают, что основной тон сигнала корректируется в соответствии с заданной кривой задержки. Затем, в результате выполнения долговременного предсказания предшествующий возбуждающий сигнал отображается на текущий подкадр с помощью упомянутой кривой задержки, а также регулировкой размаха параметром усиления. Кривую задержки получают непосредственным интерполированием по двум оценкам основного тона без обратной связи, где первую оценку получают в предшествующем кадре, а вторую оценку - в текущем кадре. Интерполирование дает величину задержки для каждого момента времени кадра. После получения кривой задержки основной тон в подкадре, подлежащем текущему кодированию, регулируется, чтобы следовать данной искусственной кривой, деформации времени, т.е. изменения шкалы времени сигнала.

При прерывистой деформации времени в соответствии с [1, 4 и 5] происходит сдвиг сегмента сигнала по времени без изменения протяженности сегмента. Прерывистая деформация времени нуждается в процедуре обработки результирующих перекрывающихся или пропущенных участков сигнала. При непрерывной деформации времени в соответствии с [2, 3, 6, 7] сегмент сигнала либо сжимается, либо растягивается. Данная операция выполняется с использованием непрерывной во времени аппроксимации сегмента сигнала и повторной его дискретизации на требуемой протяженности с неравными интервалами, определяемыми на основании кривой задержки. Для ослабления артефактов при выполнении указанных операций выдерживается небольшой допуск на изменение шкалы времени. Более того, для устранения результирующих искажений деформация времени обычно выполняется с использованием сигнала-остатка линейного предсказания или взвешенного речевого сигнала. Использование данных сигналов вместо речевого сигнала упрощает также обнаружение импульсов основного тона и участков пониженной мощности между данными импульсами и, следовательно, определение сегментов сигнала для деформации. Реальный модифицированный речевой сигнал формируется обратной фильтрацией.

По окончании модификации сигнала для текущего подкадра, кодирование может продолжаться любым традиционным методом, кроме того, что возбуждающий сигнал по адаптивной кодовой книге формируется с использованием заданной кривой задержки. По существу, можно использовать одинаковые способы модификации сигнала при узкополосном и широкополосном CELP-кодировании.

Способы модификации сигнала можно также применить в таких разнотипных способах кодирования речи, как интерполяционное кодирование аналогового сигнала и синусоидальное кодирование, например, в соответствии с публикацией [8].

[8] Патент США 6223151 "Способ и устройство для предварительной обработки речевых сигналов перед кодированием посредством основанных на преобразованиях речевых кодеров", Telefon Aktie Bolaget LM Ericsson, (W.B. Kleijn and T. Eroksson), от 10 февраля 1999 г.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Настоящее изобретение относится к способу определения параметра задержки долговременного предсказания, характеризующего долговременное предсказание в методе, использующем модификацию сигнала для цифрового кодирования звукового сигнала, при этом способ содержит этапы, заключающиеся в том, что разбивают звуковой сигнал на ряд последовательных кадров, определяют местоположение признака звукового сигнала в предшествующем кадре, определяют местоположение соответствующего признака звукового сигнала в текущем кадре и определяют такой параметр задержки долговременного предсказания для текущего кадра, чтобы долговременное предсказание отображало признак сигнала предшествующего кадра в соответствующий признак сигнала текущего кадра.

Настоящее изобретение касается устройства для определения параметра задержки долговременного предсказания, характеризующего долговременное предсказание в методе, использующем модификацию сигнала для цифрового кодирования звукового сигнала, при этом устройство содержит блок разбивки звукового сигнала на ряд последовательных кадров, блок определения признака звукового сигнала в предшествующем кадре, блок определения соответствующего признака звукового сигнала в текущем кадре и блок вычисления параметра задержки долговременного предсказания для текущего кадра, при этом вычисление параметра задержки долговременного предсказания выполняется так, чтобы долговременное предсказание отображало признак сигнала предшествующего кадра на соответствующий признак сигнала текущего кадра.

В соответствии с настоящим изобретением предлагается способ модификации сигнала, предназначенный для применения в методе цифрового кодирования звукового сигнала, при этом способ содержит этапы, заключающиеся в том, что разбивают звуковой сигнал на ряд последовательных кадров, разбивают каждый кадр звукового сигнала на совокупность сегментов сигнала и деформируют шкалу времени, по меньшей мере, части сегментов сигнала кадра, при этом упомянутая деформация шкалы времени содержит операцию, заключающуюся в том, что деформированные по времени сегменты сигнала ограничивают границами кадра.

В соответствии с настоящим изобретением предлагается устройство для модификации сигнала, предназначенное для применения в методе цифрового кодирования звукового сигнала, содержащее первый блок разбивки звукового сигнала на ряд последовательных кадров, второй блок разбивки каждого кадра звукового сигнала на совокупность сегментов сигнала и средство деформирования шкалы времени сегмента сигнала, в которое подается, по меньшей мере, часть сегментов сигнала кадра, при этом упомянутое средство деформирования шкалы времени содержит блок ограничения деформированных по времени сегментов сигнала границами кадра.

Настоящее изобретение относится также к способу поиска импульсов основного тона в звуковом сигнале, содержащему этапы, заключающиеся в том, что разбивают звуковой сигнал на ряд последовательных кадров, разбивают каждый кадр на несколько подкадров, формируют сигнал-остаток фильтрацией звукового сигнала анализирующим фильтром линейного предсказания, определяют местоположение последнего импульса основного тона звукового сигнала предшествующего кадра из сигнала-остатка, выделяют образцовый импульс основного тона заданной протяженности вокруг местоположения последнего импульса основного тона предшествующего кадра с использованием сигнала-остатка и определяют местоположение импульсов основного тона в текущем кадре с использованием образцового импульса основного тона.

Настоящее изобретение касается также устройства для поиска импульсов основного тона в звуковом сигнале, содержащего блок разбивки звукового сигнала на ряд последовательных кадров, блок разбивки каждого кадра на несколько подкадров, анализирующий фильтр линейного предсказания для фильтрации звукового сигнала и, тем самым, формирования сигнала-остатка, блок определения последнего импульса основного тона звукового сигнала предшествующего кадра по сигналу-остатку, блок выделения образцового импульса основного тона заданной протяженности вокруг местоположения последнего импульса основного тона предшествующего кадра по сигналу-остатку и блок определения импульсов основного тона в текущем кадре с использованием образцового импульса основного тона.

В соответствии с настоящим изобретением предлагается также способ поиска импульсов основного тона в звуковом сигнале, содержащий этапы, заключающиеся в том, что разбивают звуковой сигнал на ряд последовательных кадров, разбивают каждый кадр на несколько подкадров, формируют взвешенный звуковой сигнал обработкой звукового сигнала взвешивающим фильтром, при этом взвешенный звуковой сигнал характеризует периодичность сигнала, определяют местоположение последнего импульса основного тона звукового сигнала предшествующего кадра из взвешенного звукового сигнала, выделяют образцовый импульс основного тона заданной протяженности вокруг местоположения последнего импульса основного тона предшествующего кадра с использованием взвешенного звукового сигнала и определяют местоположение импульсов основного тона в текущем кадре с использованием образцового импульса основного тона.

Также в соответствии с настоящим изобретением предлагается устройство для поиска импульсов основного тона в звуковом сигнале, содержащее блок разбивки звукового сигнала на ряд последовательных кадров, блок разбивки каждого кадра на несколько подкадров, взвешивающий фильтр для обработки звукового сигнала для формирования взвешенного звукового сигнала, при этом взвешенный звуковой сигнал характеризует периодичность сигнала, блок определения последнего импульса основного тона звукового сигнала предшествующего кадра по взвешенному звуковому сигналу, блок выделения образцового импульса основного тона заданной протяженности вокруг местоположения последнего импульса основного тона предшествующего кадра по взвешенному звуковому сигналу и блок определения импульсов основного тона в текущем кадре с использованием образцового импульса основного тона.

Кроме того, настоящее изобретение относится к способу поиска импульсов основного тона в звуковом сигнале, содержащему этапы, заключающиеся в том, что разбивают звуковой сигнал на ряд последовательных кадров, разбивают каждый кадр на несколько подкадров, формируют синтезированный взвешенный звуковой сигнал фильтрацией синтезированного речевого сигнала, сформированного в течение последнего подкадра предшествующего кадра звукового сигнала, взвешивающим фильтром, определяют местоположение последнего импульса основного тона звукового сигнала предшествующего кадра из синтезированного взвешенного звукового сигнала, выделяют образцовый импульс основного тона заданной протяженности вокруг местоположения последнего импульса основного тона предшествующего кадра с использованием синтезированного взвешенного звукового сигнала и определяют местоположение импульсов основного тона в текущем кадре с использованием образцового импульса основного тона.

Настоящее изобретение касается также устройства для поиска импульсов основного тона в звуковом сигнале, содержащего блок разбивки звукового сигнала на ряд последовательных кадров, блок разбивки каждого кадра на несколько подкадров, взвешивающий фильтр для фильтрации синтезированного речевого сигнала, сформированного в течение последнего подкадра предшествующего кадра звукового сигнала, и, тем самым, для формирования синтезированного взвешенного звукового сигнала, блок определения последнего импульса основного тона звукового сигнала предшествующего кадра по синтезированному взвешенному звуковому сигналу, блок выделения образцового импульса основного тона заданной протяженности вокруг местоположения последнего импульса основного тона предшествующего кадра по синтезированному взвешенному звуковому сигналу и блок определения импульсов основного тона в текущем кадре с использованием образцового импульса основного тона.

В соответствии с настоящим изобретением предлагается также способ формирования возбуждающего сигнала по адаптивной кодовой книге в процессе декодирования звукового сигнала, разбитого на последовательные кадры и предварительно кодированного методом, использующим модификацию сигнала для цифрового кодирования звукового сигнала, при этом способ содержит этапы, заключающиеся в том, что:

принимают для каждого кадра параметр задержки долговременного предсказания, характеризующий долговременное предсказание в методе цифрового кодирования звукового сигнала;

восстанавливают кривую задержки с использованием параметра задержки долговременного предсказания, принятого в течение текущего кадра, и параметра задержки долговременного предсказания, принятого в течение предшествующего кадра, при этом кривая задержки с долговременным предсказанием отображает признак сигнала предшествующего кадра на соответствующий признак сигнала текущего кадра;

формируют по адаптивной кодовой книге возбуждающий сигнал в адаптивной кодовой книге соответственно кривой задержки.

И далее, в соответствии с настоящим изобретением предлагается устройство для формирования возбуждающего сигнала по адаптивной кодовой книге в процессе декодирования звукового сигнала, разбитого на последовательные кадры и предварительно кодированного методом, использующим модификацию сигнала для цифрового кодирования звукового сигнала, при этом устройство содержит:

блок приема параметра задержки долговременного предсказания для каждого кадра, при этом параметр задержки долговременного предсказания характеризует долговременное предсказание в методе цифрового кодирования звукового сигнала;

блок вычисления кривой задержки по параметру задержки долговременного предсказания, принятому в течение текущего кадра, и параметру задержки долговременного предсказания, принятому в течение предшествующего кадра, при этом кривая задержки с долговременным предсказанием отображает признак сигнала предшествующего кадра на соответствующий признак сигнала текущего кадра; и

адаптивную кодовую книгу для формирования возбуждающего сигнала по адаптивной кодовой книге соответственно кривой задержки.

Вышеописанные и другие задачи, преимущества и признаки настоящего изобретения очевидны из следующего ниже неограничительного описания вариантов его осуществления, приведенных только в качестве примера, со ссылками на прилагаемые чертежи.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг.1 - пример исходного и модифицированного сигналов-остатков для одного кадра;

фиг.2 - функциональная блок-схема варианта осуществления способа модификации сигнала в соответствии с настоящим изобретением;

фиг.3 - принципиальная блок-схема примера системы речевой связи с описанием использования речевого кодера и декодера;

фиг.4 - принципиальная блок-схема варианта осуществления речевого кодера, который использует способ модификации сигнала;

фиг.5 - функциональная блок-схема варианта осуществления поиска импульса основного тона;

фиг.6 - пример определенного местоположения импульсов основного тона и соответствующего сегментирования на периоды основного тона для одного кадра;

фиг.7 - пример определения параметра задержки, когда число импульсов основного тона равно трем (c=3);

фиг.8 - пример интерполирования задержки (жирная линия) по речевому кадру в сравнении с линейной интерполяцией (тонкая линия);

фиг.9 - пример кривой задержки по десяти кадрам, выбранной в соответствии с интерполяцией задержки (жирная линия), изображенного на фиг.8, и линейной интерполяцией (тонкая линия), когда верное значение основного тона равно 52 отсчетам;

фиг.10 - функциональная блок-схема способа модификации сигнала, который предусматривает коррекцию речевого кадра по выбранной кривой задержки в соответствии с вариантом осуществления настоящего изобретения;

фиг.11 - пример коррекции контрольного сигнала с использованием найденного оптимального сдвига δ и замены сегмента сигнала ws(k) интерполированными значениями, показанными серыми точками;

фиг.12 - функциональная блок-схема логики определения скорости передачи в соответствии с вариантом осуществления настоящего изобретения; и

фиг.13 - принципиальная блок-схема варианта осуществления речевого кодера, который использует кривую задержки, сформированную в соответствии с вариантом осуществления настоящего изобретения.

ПОДРОБНОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

Хотя описания вариантов осуществления настоящего изобретения приведены ниже применительно к речевым сигналам и AMR-WB - стандарту компании 3GPP на кодек для широкополосной передачи речи по спецификации AMR (стандарт ITU-T G.722.2), следует иметь в виду, что принципы настоящего изобретения применимы также к звуковым сигналам других типов и другим речевым и аудиокодерам.

На фиг.1 приведен пример модифицированного сигнала-остатка 12 в границах одного кадра. Как видно из фиг.1, временной сдвиг в модифицированном сигнале остатке ограничен так, чтобы данный модифицированный сигнал-остаток был синхронизирован по времени с исходным немодифицированным сигналом-остатком 11 на границах кадра, которые соответствуют моментам времени tn-1 и tn. В данном случае n является индексом рассматриваемого кадра.

В частности, временным сдвигом косвенно управляет кривая задержки, применяемая для интерполирования параметра задержки по текущему кадру. Параметр и кривую задержки определяют с учетом ограничительных условий по временному совмещению на вышеупомянутых границах кадра. Когда применяют линейное интерполирование, чтобы обеспечить вынужденное временное совмещение, результирующие параметры задержки имеют тенденцию к колебанию в течение нескольких кадров. Данная особенность часто приводит к появлению заметных артефактов в модифицированном сигнале, основной тон которого повторяет синтезированную осциллирующую кривую задержки. Применение подходящего способа нелинейного интерполирования для получения параметра задержки существенно ослабляет упомянутые колебания.

Функциональная блок-схема наглядного варианта осуществления способа модификации сигнала в соответствии с настоящим изобретением представлена на фиг.2. Работа способа начинается с блока 101 "поиска периода основного тона" посредством определения местоположения отдельных импульсов основного тона и периодов основного тона. Для поиска, выполняемого в блоке 101, применяется интерполированная по кадру оценка основного тона в разомкнутом контуре. Найденные импульсы основного тона служат основой для разбивки кадра на такие сегменты периодов основного тона, каждый из которых содержит один импульс основного тона и ограничен границами кадра tn-1 и tn.

Функцией блока 103 "выбора кривой задержки" является определение параметра задержки для долговременного предсказания и формирование кривой задержки для интерполирования данного параметра задержки по кадру. Параметр и кривая задержки определяются с учетом ограничительных условий по временному совмещению на границах кадра tn-1 и tn. Параметр задержки, найденный в блоке 103, кодируется и передается в декодер, если разрешена модификация сигнала для текущего кадра.

Процедура модификации сигнала фактически выполняется в блоке 105 "модификация сигнала синхронно с основным тоном". В блоке 105 сначала формируется контрольный сигнал на основе кривой задержки, найденной в блоке 103, для последующего согласования отдельных сегментов периодов основного тона с данным целевым сигналом. Затем сегменты периодов основного тона сдвигаются поодиночке, чтобы максимально повысить значение их корреляции с упомянутым целевым сигналом. Во избежание усложнения процедуры не применяется непрерывная деформация шкалы времени в процессе поиска оптимального сдвига и осуществления сдвига сегментов.

Приведенный для примера вариант способа модификации сигнала в соответствии с настоящим изобретением обычно осуществим только при обработке исключительно вокализированных речевых кадров. Например, начальные нарастания вокализированного сигнала не модифицируют вследствие высокого риска появления артефактов. В исключительно вокализированных кадрах периоды основного тона обычно изменяются сравнительно медленно, и поэтому небольших сдвигов достаточно для адаптирования сигнала к модели с долговременным предсказанием. Благодаря выполнению лишь небольших, пуательных корректировок, вероятность формирования артефактов сводится к минимуму.

Способ модификации сигнала является мощным классификатором исключительно вокализированных сегментов и, следовательно, механизмом определения скорости передачи, необходимым для управляемого источником кодирования речевых сигналов. Каждый из блоков 101, 103 и 105, показанных на фиг.2, обеспечивает получение нескольких признаков периодичности сигнала и соответствия модификации сигнала текущему кадру. Упомянутые признаки анализируются в логических блоках 102, 104 и 106, чтобы определить надлежащий режим кодирования и битовую скорость для текущего кадра. В частности, данные логические блоки 102, 104 и 106 контролируют, обеспечивается ли положительный результат операциями, выполняемыми в блоках 101, 103 и 105.

Если в блоке 102 обнаруживается, что выполняемая в блоке 101 операция обеспечивает положительный результат, то процедура способа модификации сигнала продолжает выполняться в блоке 103. Если же блок 102 определяет безуспешность выполнения операции в блоке 101, то процедура модификации сигнала завершается, и для кодирования сохраняется неизмененный исходный речевой кадр (см. блок 108, соответствующий нормальному режиму (без модификации сигнала)).

Если в блоке 104 определяется, что выполняемая в блоке 103 операция успешна, то исполнение процедуры способа модификации сигнала продолжается в блоке 105. Если же, напротив, данный блок 104 определяет безуспешность операции, выполняемой в блоке 103, то процедура модификации сигнала завершается и для кодирования сохраняется неизмененный исходный речевой кадр (см. блок 108, соответствующий нормальному режиму (без модификации сигнала)).

Если в блоке 106 определяется, что выполняемая в блоке 105 операция успешна, то используют режим низкой битовой скорости с модификацией сигнала (см. блок 107). Напротив, если в данном блоке 106 определяется безуспешность операции, выполняемой в блоке 105, то процедура модификации сигнала завершается, и для кодирования сохраняется неизмененный исходный речевой кадр (см. блок 108, соответствующий нормальному режиму (без модификации сигнала)). Ниже в настоящем описании более подробно изложены операции, выполняемые в блоках 101-108.

На фиг.3 представлена принципиальная блок-схема примера системы речевой связи, иллюстрирующая использование речевого кодера и декодера. Изображенная на фиг.3 система речевой связи поддерживает передачу и воспроизведение речевого сигнала в канале 205 связи. Хотя канал 205 связи может содержать, например, проводную, оптическую линию связи или волоконную линию, обычно, по меньшей мере, часть данного канала составляет радиолиния. Радиолиния часто поддерживает одновременный обмен множеством параллельных речевых сообщений, требующий совместно используемого ресурса полосы частот, как, например, в сотовой телефонии. Хотя не показано, канал 205 связи можно заменить запоминающим устройством, которое записывает и сохраняет кодированный речевой сигнал для последующего воспроизведения.

На стороне передатчика микрофон 201 выдает аналоговый речевой сигнал 210, который подается в аналого-цифровой преобразователь (АЦП) 202. АЦП 202 предназначен для преобразования аналогового речевого сигнала 210 в цифровой речевой сигнал 211. Речевой кодер 203 кодирует цифровой речевой сигнал 211 и выдает набор кодовых параметров 212, которые закодированы в двоичном формате и подаются в канальный кодер 204. Канальный кодер 204 вносит избыточность в двоичное представление кодовых параметров перед их передачей в двоичном потоке 213 по каналу связи 205.

На стороне приемника вышеупомянутое избыточное двоичное представление кодовых параметров из принятого двоичного потока 214 поступает в канальный декодер 206, который обнаруживает и исправляет канальные ошибки, возникающие при передаче. Речевой декодер 207 преобразует двоичный поток 215, поступающий из канального декодера 206 с исправленными канальными ошибками, обратно в набор кодовых параметров для формирования синтезированного цифрового речевого сигнала 216. Синтезированный цифровой речевой сигнал 216, реконструированный речевым декодером 207, преобразуется в аналоговый речевой сигнал 217 цифроаналоговым преобразователем (ЦАП) 208 и воспроизводится акустическим блоком 209.

На фиг.4 представлена принципиальная блок-схема, изображающая операции, выполняемые вариантом осуществления речевого кодера 203 (фиг.3), содержащего в том числе встроенную функцию модификации сигнала. В настоящем описании представлен новый вариант осуществления функции модификации сигнала, представленной блоком 603 на фиг.4. Другие операции, выполняемые речевым кодером 203, широко известны специалистам в данной области техники и описаны, например, в публикации [10]

[10] 3GPP TS 26.190, "AMR Wideband Speech Codec: Transcoding Functions", 3GPP Technical Specification,

которая включена в настоящее описание посредством ссылки. В отсутствие других указаний выполнение операций кодирования и декодирования в приведенных вариантах осуществления и примерах настоящего изобретения будет соответствовать стандарту на кодек для широкополосной передачи речи по спецификации AMR (AMR-WB).

Как видно из фиг.4, речевой кодер 203 кодирует оцифрованный речевой сигнал с использованием одного или нескольких режимов кодирования. Если применяются несколько режимов кодирования, а функция модификации сигнала в одном из упомянутых режимов заблокирована, то работа в данном конкретном режиме будет соответствовать традиционным стандартам, известным специалистам в данной области техники.

Речевой сигнал дискретизируется с частотой 16 кГц, и каждый отсчет речевого сигнала оцифровывается, однако, данные операции на фиг.4 не показаны. Затем цифровой речевой сигнал разбивается на последовательные кадры заданной протяженности, а каждый из полученных таким образом кадров разбивается на заданное число последовательных подкадров. Далее цифровой речевой сигнал подвергается предварительной обработке в соответствии со стандартом AMR-WB. Данная предварительная обработка включает в себя фильтрацию верхних частот, фильтрацию предыскажений с использованием фильтра P(z)=1-0,68z-1 и субдискретизацию с частоты 16 кГц до 12,8 кГц. В последующих операциях, изображенных на фиг.4, предполагается, что входной речевой сигнал s(t) уже подвергнут предварительной обработке и субдискретизации до частоты взятия отсчетов 12,8 кГц.

Речевой кодер 203 содержит модуль анализа и квантования с линейным предсказанием (LP-модуль) 601, который, в зависимости от входного предварительно обработанного цифрового речевого сигнала s(t) 617, вычисляет и квантует параметры a0, a1, a2, ..., anA фильтра с линейным предсказанием (LP-фильтра) 1/A(z), где nA обозначает порядок фильтра, а A(z)=a0+a1z-1+a2z-2+...+anAz-nA. Двоичное представление 616 данных квантованных параметров LP-фильтра подается в мультиплексор 614 и затем мультиплексируется в двоичный поток 615. Неквантованные и квантованные параметры LP-фильтра можно интерполировать для получения соответствующих параметров LP-фильтра для каждого подкадра.

Речевой кодер 203 также содержит модуль 602 оценивания основного тона, чтобы вычислять оценки 619 основного тона без обратной связи для текущего кадра в зависимости от параметров 618 LP-фильтра, поступающих из LP-модуля 601 анализа и квантования. Упомянутые оценки 619 основного тона без обратной связи интерполируются по кадру для использования в модуле 603 модификации сигнала.

Операции, выполняемые в LP-модуле 601 анализа и квантования и модуле 602 оценивания основного тона, могут соответствовать спецификации вышеупомянутого стандарта AMR-WB.

Показанный на фиг.4 модуль 603 модификации сигнала выполняет операцию модификации сигнала до поиска в замкнутом контуре возбуждающего сигнала основного тона по адаптивной кодовой книге для коррекции речевого сигнала по найденной кривой задержки d(t). В приведенном варианте осуществления изобретения кривая задержки d(t) определяет задержку долговременного предсказания для каждого отсчета кадра. По своему построению кривая задержки полностью характеризуется по кадру t∈(tn-1, tn) параметром задержки 620 dn=d(tn) и его предшествующим значением dn-1=d(tn-1), которые равны значению кривой задержки на границах кадра. Определение параметра задержки 620 составляет часть операции модификации сигнала, и данный параметр кодируется и затем подается в мультиплексор 614, где мультиплексируется в двоичный поток 615.

Кривая задержки d(t), определяющая параметр задержки долговременного предсказания для каждого отсчета кадра, подается в адаптивную кодовую книгу 607. Адаптивная кодовая книга 607 формирует, соответственно кривой задержки df(t), возбуждающий сигнал ub(t) по адаптивной кодовой книге для текущего подкадра из возбуждающего сигнала u(t) с использованием кривой задержки d(t) по формуле ub(t)=u(t-d(t)). Следовательно, кривая задержки отображает прошлый отсчет возбуждающего сигнала u(t-d(t)) в текущий отсчет в возбуждающем сигнале ub(t) по адаптивной кодовой книге.

Кроме того, процедура модификации сигнала выдает модифицированный сигнал-остаток , используемый при формировании модифицированного целевого сигнала 621 для поиска в замкнутом контуре возбуждающего сигнала uc(t) по фиксированной кодовой книге. Модифицированный сигнал-остаток получают в модуле 603 модификации сигнала деформацией шкалы времени сегментов периодов основного тона сигнала-остатка долговременного предсказания и подают в модуль 604 для вычисления модифицированного целевого сигнала. Фильтрация посредством синтеза с линейным предсказанием модифицированного сигнала-остатка фильтром 1/A(z) обеспечивает формирование модулем 604 модифицированного речевого сигнала. Модифицированный целевой сигнал 621 поиска возбуждающего сигнала по фиксированной кодовой книге формируется в модуле 604 в соответствии со спецификацией стандарта AMR-WB, но с заменой исходного речевого сигнала его модифицированной версией.

После получения возбуждающего сигнала ub(t) по адаптивной кодовой книге и модифицированного целевого сигнала 621 для текущего подкадра далее кодирование можно выполнять традиционным способом.

Назначение поиска в замкнутом контуре возбуждающего сигнала по фиксированной кодовой книге состоит в том, чтобы определить возбуждающий сигнал uc(t) по фиксированной кодовой книге для текущего подкадра. Чтобы схематически проиллюстрировать операцию поиска в замкнутом контуре по фиксированной кодовой книге, возбуждающий сигнал u