2461080 - Способ и средство для кодирования информации фонового шума

Способ и средство для кодирования информации фонового шума

Иллюстрации

Показать все

Изобретение относится к способам и средствам для кодирования информации фонового шума в способе кодирования речевого сигнала. Сущность изобретения состоит в том, чтобы известную для передачи речевой информации масштабируемость аналогичным образом предусмотреть при формировании SID-кадра. При этом предусматривается кодирование узкополосной первой и широкополосной второй составляющей информации фонового шума и формирование SID-кадра, описывающего фоновый шум с раздельными областями для первой и второй составляющих. Технический результат - возможность воспроизводить шумовой сигнал с повышенным качеством по сравнению с обычным узкополосным кодированием при сохранении соответствия стандарту G.729.B. 2 н. и 13 з.п. ф-лы, 1 ил.

Реферат

Изобретение относится к способу и средству для кодирования информации фонового шума при способе речевого кодирования.

Для телефонных разговоров с самого начала развития телекоммуникации предусмотрено ограничение ширины полосы для аналоговой передачи речи. Передача речи осуществляется в ограниченном диапазоне частот от 300 Гц до 3400 Гц.

Такой ограниченный диапазон частот предусмотрен и при многих способах кодирования речевых сигналов для современной цифровой телекоммуникации. Перед процессом кодирования для этого осуществляется ограничение ширины полосы аналогового сигнала. Для кодирования и декодирования при этом используется кодек, который ввиду описанного ограничения ширины полосы в частотном диапазоне между 300 Гц и 3400 Гц далее определяется как узкополосный речевой кодек. Под понятием «кодек» при этом понимается как предписание кодирования для цифрового кодирования аудиосигналов, так и предписание декодирования для декодирования данных с целью восстановления аудиосигнала.

Узкополосный речевой кодек известен, например, из ITU-T-Рекомендации G.729. Посредством описанного там предписания кодирования предусматривается передача узкополосного речевого сигнала со скоростью передачи данных 8 кбит/с.

Кроме того, известны так называемые широкополосные речевые кодеки, которые для улучшения восприятия прослушивания предусматривают кодирование в расширенном частотном диапазоне. Подобный расширенный частотный диапазон лежит, например, между частотой 50 Гц и 7000 Гц. Широкополосный речевой кодек известен, например, из ITU-T-Рекомендации G.729.EV.

Обычно способы кодирования для широкополосных речевых кодеков выполняются масштабируемыми. Под масштабируемостью здесь понимается то, что передаваемые кодированные данные содержат различные ограниченные блоки, которые содержат узкополосную составляющую, широкополосную составляющую и/или полную ширину полосы кодированного речевого сигнала. Такое масштабируемое выполнение обеспечивает, с одной стороны, обратную совместимость на стороне приемника, а с другой стороны, предоставляет простую возможность, в случае ограниченных пропускных способностей передачи данных в канале передачи, согласования на стороне передатчика и приемника скорости передачи данных и величины передаваемых кадров данных.

Для снижения скорости передачи данных посредством кодека обычно предусматривается сжатие передаваемых данных. Сжатие реализуется, например, посредством способа кодирования, при котором для кодирования речевых данных определяются параметры для сигнала возбуждения и параметры фильтра. Параметры фильтра, а также параметры, определяющие сигнал возбуждения, затем передаются в приемник. Там посредством кодека синтезируется синтетический речевой сигнал, который в максимально возможной степени подобен первоначальному речевому сигналу в отношении субъективного слухового восприятия. С помощью этого способа, также называемого способом «анализа через синтез», передаются не сами определенные и оцифрованные выборки, а определенные параметры, которые обеспечивают возможность синтеза речевого сигнала на стороне приемника.

Дополнительную возможность для сокращения скорости передачи данных предоставляет способ прерывистой передачи, известный специалистам также как определяемый термином DTX. Основополагающей целью DTX является снижение скорости передачи данных в случае речевой паузы.

Для этого на стороне передатчика используется распознавание речевой паузы (детектирование речевой активности - VAD), при котором, при снижении ниже определенного уровня сигнала, принимается решение о речевой паузе. Обычно приемник во время речевой паузы не ожидает полной тишины. Напротив, полная тишина на стороне приемника вызвала бы заблуждение или привела бы к предположению о разъединении соединения. По этой причине применяются способы для формирования так называемого комфортного шума.

В случае комфортного шума речь идет о шуме, который синтезируется для заполнения фазы тишины на стороне приемника. Комфортный шум служит субъективному впечатлению продолжающего существовать соединения, не требуя предусматриваемой для передачи речевых сигналов скорости передачи данных. Иными словами, для кодирования шума на стороне передатчика требуются меньшие затраты, чем для кодирования речевых данных. Для того чтобы еще реалистически воспринимать синтезирование комфортного шума на стороне приема, передаются данные с существенно более низкой скоростью передачи данных. При этом передаваемые данные специалистами обозначаются как SID (описание вставки паузы).

Находящиеся в настоящее время в разработке кодеки концентрируются на масштабируемом кодировании речевой информации. С помощью масштабируемого подхода достигается то, что результат процесса кодирования содержит различные блоки, которые содержат узкополосную составляющую первоначального речевого сигнала, широкополосную составляющую или также полную ширину полосы речевого сигнала, то есть, например, диапазон частот между 50 и 7000 Гц.

В современных масштабируемых способах кодирования кодирование информации фонового шума осуществляется либо по всей ширине полосы входного шумового сигнала, либо по участку ширины полосы входного речевого сигнала. Кодированный шумовой сигнал передается в форме SID-кадров посредством DTX-способа и восстанавливается на стороне приемника. Восстановленный, то есть синтезированный комфортный шум имеет, таким образом, в конечном счете, другое качество, чем синтезированная на стороне приемника речевая информация. Это отрицательно действует на прием в приемнике.

Задачей изобретения является предложить улучшенную реализацию DTX-способа в масштабируемом речевом кодеке.

Эта задача решается совокупностью признаков независимых пунктов формулы изобретения.

Основная идея изобретения состоит в том, чтобы обеспечить масштабируемость, известную для передачи речевой информации, аналогично формированию SID-кадра.

Соответствующий изобретению способ для кодирования SID-кадра для передачи информации фонового шума в применении масштабируемого способа кодирования речевого сигнала предусматривает кодирование узкополосной первой и широкополосной второй составляющей информации фонового шума. Кодирование обычно осуществляется одинаково по времени и различным образом. Однако кодирование составляющей может, разумеется, также со сдвигом по времени осуществляться перед кодированием или после кодирования другой составляющей. Также кодирование обеих составляющих, как вариант, может осуществляться одинаковым образом.

После кодирования обеих составляющих формируется SID-кадр с отдельными диапазонами для первой и второй составляющих. Иными словами, это означает, что в SID-кадре в первой области данных размещаются данные для кодированной первой составляющей, в то время как в отдельной от нее второй области данных размещаются данные для кодированной второй составляющей.

Существенное преимущество изобретения состоит в том, что на стороне приемника определяется, должен ли появиться комфортный шум, исходя из широкополосной составляющей или узкополосной составляющей передаваемого SID-кадра. Это составляет особое преимущество для акустического восприятия на стороне приемника в ситуации, в которой скорость передачи для кадров речевой информации была снижена, чтобы передавалась еще только узкополосная речевая информация. Если, в частности, как в современном уровне техники, узкополосная речевая информация синтезируется в соединении с широкополосным шумом, это является очень мешающим для приемника. Упомянутое уменьшение скорости передачи для кадров речевой информации может, например, обуславливаться высокой нагрузкой (перегрузкой) сети между передатчиком и приемником. Существенно меньшие SID-кадры не затрагиваются такими сетевыми перегрузками. Для них, таким образом, не существует обязательного требования, чтобы сокращать их скорость передачи данных или их содержимое.

Предпочтительные варианты осуществления изобретения приведены в зависимых пунктах формулы изобретения.

Согласно первому предпочтительному выполнению изобретения предусмотрена третья составляющая при определении SID-кадра. Она содержит кодированные параметры фонового шума, которые кодированы с повышенной скоростью передачи данных, даже если третья составляющая все еще содержит узкополосные данные (расширенные узкополосные данные или «расширенную низкую полосу»). Преимущество определения SID-кадра с этой третьей составляющей состоит в возможности воспроизводить шумовой сигнал с повышенным, по сравнению с обычным узкополосным кодированием, качеством и при этом сохранять соответствие стандарту G.729.B.

Пример выполнения с дополнительными преимуществами и формами выполнения изобретения далее поясняется более подробно со ссылками на чертеж, где показана структура SID-кадра, соответствующего изобретению.

Далее более подробно описываются технические предпосылки, лежащие в основе изобретения, сначала без ссылок на чертеж.

В современных масштабируемых способах кодирования для широкополосных речевых кодеков реализованные способы для прерывистой передачи (DTX) не поддерживают в настоящее время для передачи информации фонового шума масштабируемый характер, который предусмотрен для передачи речевой информации.

В качестве обходного решения в настоящее время осуществляется кодирование либо по всей ширине полосы входного шумового сигнала, либо по участку из ширины полосы входного шумового сигнала. По этой причине существует потребность в улучшенных способах.

В прошлом разрабатывались главным образом два типа речевых кодеков: с одной стороны, узкополосные речевые кодеки, например 3GPP AMR, ITU-T G.729, а с другой стороны - широкополосные речевые кодеки, например 3GPP AMR-WB, ITU-T G.722. Узкополосный речевой кодек кодирует речевые сигналы с частотой дискретизации 8 кГц с шириной полосы, которая обычно лежит в частотном диапазоне между 300 и 3400 Гц. Широкополосный кодек кодирует речевой сигнал с частотой дискретизации 16 кГц при ширине полосы в частотном диапазоне между 50 и 7000 Гц.

Некоторые из этих кодеков применяют DTX-способ, то есть прерывистый способ передачи, чтобы снизить полную скорость передачи в канале связи. Согласно DTX-способу посылаются SID-кадры, причем ширина полосы SID-кадров корреспондируется с шириной полосы речевого сигнала. В SID-кадре описывается фоновый шум в течение речевой паузы.

Находящиеся в настоящее время в разработке кодеки концентрируются на масштабируемом кодировании. С помощью масштабируемого подхода достигается то, что результат процесса кодирования содержит различные блоки, которые содержат узкополосную составляющую первоначального речевого сигнала, широкополосную составляющую или также полную ширину полосы речевого сигнала, то есть, например, диапазон частот между 50 и 7000 Гц. Широкополосная составляющая начинается обычно с частоты 4 кГц.

Современные DTX-способы не поддерживают в настоящее время масштабируемый характер кодеков. Вместо этого осуществляется кодирование либо по всей ширине полосы входного речевого сигнала, либо по участку из ширины полосы входного сигнала. По этой причине существует потребность в улучшенных способах.

Для наглядности далее описывается способ кодирования согласно стандарту ITU-T G.729.1. В случае этого G.729.1 кодека речь идет о масштабируемом речевом кодеке, в котором DTX-способ в настоящее время применяется без масштабирования по всей ширине полосы.

Способ кодирования, во время активного речевого периода, - для ограничения от известной как «Silent Period» (период молчания) речевой паузы - можно охарактеризовать следующим образом.

Речевой сигнал разлагается на две составляющие, в частности на узкополосную (низкая полоса) часть и широкополосную (высокая полоса) составляющую. Оба сигнала дискретизируются с частотой дискретизации, равной 8 кГц. Разделение на узкополосную и широкополосную составляющие осуществляется в специальном полосовом фильтре, который также обозначается как QMF (квадратурный зеркальный фильтр).

Узкополосная составляющая речевого сигнала кодируется со скоростью передачи данных 8 и 12 кбит/с. Для кодирования речевого сигнала применяется способ CELP (линейное предсказание с кодовым возбуждением). Для скоростей передачи данных выше 14 кбит/с узкополосная составляющая далее модифицируется с учетом раздела «Кодеки преобразования» в G.729.1. Широкополосная составляющая текущего кадра - вновь в предположении, что она содержит речевые сигналы, - кодируется со скоростью передачи данных 14 кбит/с с применением способа TDBWE (расширение ширины полосы во временной области). Для скоростей передачи данных выше 14 кбит/с применяется раздел «Кодеки преобразования» в G.729.1.

Так как стандарт G.729.1 не обеспечивает способов для прерывистой передачи, в речевых паузах или «периодах отсутствия речевой активности» применяется обходное решение, которое описывается ниже.

Речевой сигнал также разлагается на узкополосную и широкополосную составляющие, причем обе составляющие дискретизируются с частотой 8 кГц. Разложение осуществляется также посредством QMF-фильтра.

Узкополосная составляющая кодируется с применением узкополосной SID-информации. Эта узкополосная SID-информация в более поздний момент времени посылается на приемник в SID-кадре, который является совместимым со стандартом G.729. Дополнительные меры, как описано выше, могут способствовать улучшению узкополосной SID-составляющей.

Широкополосная составляющая кодируется с применением модифицированного TDBWE-способа. В течение так называемого периода затягивания речевой сигнал далее кодируется со скоростью передачи данных 14 кбит/с, в то время как одновременно оценивается распознанный в течение речевой паузы фоновый шум, и устанавливаются соответствующие параметры. Оценка фонового шума осуществляется относительно энергии шумового сигнала и относительно распределения частот. Однако в противоположность TDBWE-способу, предусмотренному стандартом G.729.1, не оценивается временная тонкая структура, а формируется только среднее значение энергии по кадру.

Далее поясняется форма выполнения соответствующего изобретению способа со ссылками на чертеж.

На чертеже показан SID-кадр с раздельными областями для узкополосной первой составляющей LB (низкая полоса), широкополосной второй составляющей НВ (высокая полоса) и промежуточной третьей составляющей ELB (расширенная низкая полоса).

При этом первая составляющая LB содержит кодированные параметры фонового шума, которые кодированы со скоростью передачи данных 8 кбит/с или ниже. Длина данных первой составляющей LB составляет, например, 15 битов.

Вторая составляющая НВ содержит кодированные параметры фонового шума, которые кодированы со скоростью передачи данных между 14 кбит/с и 32 кбит/с. Длина данных второй составляющей НВ составляет, например, 19 битов.

Третья составляющая ELB содержит кодированные параметры фонового шума, которые кодированы со скоростью передачи данных более 8 кбит/с, например 12 кбит/с. Длина данных третьей составляющей ELB составляет, например, 9 битов. Преимущество определения SID-кадра с третьей составляющей ELB состоит в возможности воспроизводить шумовой сигнал с повышенным, по сравнению с обычным узкополосным кодированием, качеством и при этом сохранять соответствие стандарту G.729.B.

Во время речевой паузы на стороне кодера осуществляется обучение характеристикам фонового шума. Эти характеристики включают в себя, в частности, временное распределение в качестве спектральной формы фонового шума. Для процесса обучения применяется способ фильтрации, который учитывает временные и спектральные параметры фонового шума из предыдущих кадров. Если возникают существенные изменения в характере или уровне фонового шума, то принимается решение на основе параметров граничных значений (пороговых значений), имеется ли необходимость актуализировать обученные параметры.

На стороне декодера или приемника осуществляется следующий способ: если принимается «регулярный», то есть содержащий речевой сигнал кадр, то выполняется обычное декодирование. Скорость передачи данных для такого регулярного кадра составляет обычно 8 кбит/с или выше. Если принимается SID-кадр, то синтезируется комфортный шум, причем в случае широкополосного SID синтезируется широкополосный комфортный шум и выдается со считанным коэффициентом усиления.

Далее соответствующий изобретению способ описывается с другими формами выполнения изобретения.

Формы выполнения касаются других деталей для использования DTX-способа в широкополосных кодеках, как, например, G.729.1, а также способов для модифицирования TDBWE-способа, которые поддерживают синтезирование комфортного шума во время неактивных кадров, то есть кадров без речевой информации.

Согласно одной форме выполнения предусмотрен следующий способ.

- Формирование узкополосной SID-информации для формирования SID-кадра, совместимого с G.729 или G.729.В (первая составляющая LB соответствующего изобретению SID-кадра),

- формирование широкополосной SID-информации с применением модифицированного TDBWE-способа (вторая составляющая НВ соответствующего изобретению SID-кадра),

- факультативно, выполнение улучшений относительно узкополосной и/или широкополосной SID-информации,

- анализ (или «обучение») фонового шума в течение фазы, которая предшествует посылке первого SID-кадра, в отношении энергии и/или распределения частот,

- посылку SID-кадров, если обнаружено значительное изменение широкополосной составляющей фонового шума, или если должна посылаться актуализация узкополосной SID-информации.

Реализация этого примера выполнения осуществляется в следующих фазах:

- С помощью VAD-способа определяется активная речевая фаза или речевая пауза.

- Если посредством VAD-способа регистрируется переход на речевую паузу, то инициируется период затягивания. Во время периода затягивания снижается скорость передачи данных кодера до 14 кбит/с, если предшествующая скорость передачи данных имела более высокое значение. Для случая, когда предшествующая скорость передачи данных кодера уже составляла значение 12 кбит/с, то скорость передачи данных сокращается до значения 8 кбит/с.

- В течение периода затягивания осуществляется обучение в отношении фонового шума относительно узкополосной составляющей аналогично способу по стандарту G.729, однако с применением более высокого числа кадров. При этом факультативно может применяться способ фильтрации, посредством которого достигается то, что текущему кадру придается более высокая важность, чем предыдущим кадрам.

- В течение периода затягивания обучение в отношении фонового шума осуществляется, кроме того, в широкополосной составляющей. Факультативно, для упрощения реализации, в частности для снижения потребности в объеме памяти, используется модифицированный TDBWE-способ, который отличается упрощенным кодированием во временной области. Факультативно, дополнительное упрощение в модифицированном TDBWE-способе достигается тем, что кодирование во временной области корреспондируется только с энергией сигнала во временной области. Другое факультативное упрощенное кодирование состоит в том, чтобы применять спектральный способ сглаживания, так как энергия во временной области и в частотной области, как следствие теоремы Парсеваля, обеспечивает одинаковые значения. Также в широкополосной составляющей фонового шума могут факультативно применяться другие меры фильтрации, которые имеют своей целью придать текущим кадрам более высокую важность, чем предыдущим кадрам.

- По окончании периода затягивания посылается первый SID-кадр, который содержит грубое представление фонового шума. Грубое описание фонового шума является результатом обучения во время периода затягивания.

- Пока посредством VAD не обнаруживается никакая активная фаза (разговора), на стороне декодера или приемника синтезируется комфортный шум на основе принятого SID-кадра.

- Изменения фонового шума обнаруживаются в узкополосной составляющей SID-кадра, причем осуществляется способ, подобный G.729, хотя и учитываются отличающиеся параметры.

- В широкополосной составляющей используются отфильтрованные параметры энергии для описания фонового шума. Они включают в себя, например, параметры огибающей во временной области tenv_fidx и/или параметры огибающей в частотной области fenv_fidx[i], причем соответствующий индекс idx идентифицирует соответствующий кадр, и причем огибающая в частотной области формируется из соответствующего числа частотных значений i={1, …, NB-SUBBANDS} для описания спектральных свойств фонового шума. Отфильтрованные параметры энергии выводятся из определенных в G.729.1 TDBWE-параметров с применением подходящих фильтров нижних частот:

которые соответственно применяются к параметрам огибающих в частотной и временной области.

- Изменения в широкополосной составляющей параметров энергии контролируются и детектируются, при этом отфильтрованные параметры энергии текущего шумового сигнала сравниваются с двумя блоками значений сравнения этих параметров, причем один блок значений сравнения соответствует параметрам из предыдущего кадра с индексом idx-1.

И при этом другой блок состоит из параметров последнего переданного кадра с индексом last_tx. Если одна из разностей параметров (temp_d, spec_d, temp_ch, spec_ch) превышает соответственно выбранное граничное значение:

должен посылаться новый SID-кадр обновления.

- Как только посредством VAD распознается речевой период, передается речевой сигнал с необходимой скоростью передачи, и синтезирование комфортного шума на стороне декодера завершается. Тем самым устанавливается регулярный режим декодирования, как в G.729.1.

1. Способ кодирования SID-кадра для передачи информации фонового шума с применением способа масштабируемого кодирования речевого сигнала, содержащий этапы, на которых:принимают речевой сигнал;осуществляют разложение речевого сигнала на узкополосную первую составляющую (LB) и широкополосную вторую составляющую (НВ);кодируют первую составляющую (LB) и вторую составляющую (НВ) речевого сигнала, причем кодированная первая составляющая (LB) и кодированная вторая составляющая (НВ) содержат кодированные параметры фонового шума;формируют SID-кадр, содержащий первую область данных и вторую область данных, причем в первой области данных размещаются данные для кодированной первой составляющей (LB), а в отдельной от нее второй области данных размещаются данные для кодированной второй составляющей (НВ);обеспечивают масштабируемость, известную для передачи речевой информации, аналогично формированию SID-кадра таким образом, что на стороне приемника определяется, должен ли появиться комфортный шум, исходя из узкополосной первой составляющей (LB) или широкополосной второй составляющей (НВ) переданного SID-кадра.

2. Способ по п.1, отличающийся тем, что кодируют расширенную узкополосную третью составляющую (ELB), при этом данные для кодированной третьей составляющей (ELB) размещают в дополнительной отдельной области данных в SID-кадре.

3. Способ по п.2, отличающийся тем, что воспроизводят шумовой сигнал с повышенным, по сравнению с узкополосным кодированием, качеством в соответствии со стандартом G.729.B.

4. Способ по п.1, отличающийся тем, что первую составляющую (LB) кодируют согласно правилам кодирования известного стандарта G.729.B.

5. Способ по п.1, отличающийся тем, что в течение речевой паузы на стороне кодера осуществляют анализ параметров фонового шума, причем эти параметры включают в себя временное распределение и спектральную форму фонового шума.

6. Способ по п.5, отличающийся тем, что для анализа применяют способ фильтрации, который учитывает временные и спектральные параметры фонового шума из предыдущих кадров.

7. Способ по п.6, отличающийся тем, что, если возникают существенные изменения в характере или уровне фонового шума, то на основании параметров граничных значений (пороговых значений) принимают решение о том, необходимо ли актуализировать анализированные параметры.

8. Способ по п.7, отличающийся тем, что SID-кадр отправляют, если обнаружено значительное изменение второй составляющей (НВ) фонового шума или если должна отправляться актуализация первой составляющей (LB).

9. Способ по п.1, отличающийся тем, что вторую составляющую (НВ) кодируют согласно модифицированному TDBWE-способу.

10. Способ по п.9, отличающийся тем, что достигают упрощение в модифицированном TDBWE-способе благодаря тому, что кодирование во временной области осуществляется только для энергии сигнала во временной области.

11. Способ по любому из предыдущих пунктов, отличающийся тем, что во время периода затягивания применяют способ фильтрации для придания более высокой важности текущему кадру по сравнению с предшествующим кадром.

12. Способ по п.1, отличающийся тем, что во второй составляющей (НВ) используют отфильтрованные параметры энергии для описания фонового шума, включающие в себя параметры огибающей во временной области (tenv_fidx) и/или параметры огибающей в частотной области (fenv_fidx[i]).

13. Способ по п.12, отличающийся тем, что соответствующий индекс (idx) идентифицирует соответствующий кадр, и что огибающую в частотной области формируют из соответствующего числа частотных значений i={1,…,NB-SUBBANDS} для описания спектральных свойств фонового шума.

14. Кодек со средствами для осуществления способа по любому из пп.1-13.

15. Кодек по п.14, отличающийся своей реализацией согласно известному ITU-T стандарту G.729.1.

Способ и средство для кодирования информации фонового шума

Патент 2461080