Способ и средство для декодирования информации о фоновом шуме

Иллюстрации

Показать все

Изобретение относится к способам и средствам для декодирования информации о фоновом шуме в процессе кодирования речевого сигнала. Сущность изобретения заключается в установлении информации о характере изменения скорости передачи данных во время речевой фазы. В соответствии с изобретением во время речевой фазы на стороне декодера собирают информацию о доле широкополосных речевых кадров относительно количества узкополосных речевых кадров. Высокая доля широкополосных активных речевых кадров указывает на то, что на стороне декодера предпочтительно используется широкополосный режим и, следовательно, в фазе DTX следует синтезировать шумовую информацию в широкополосном режиме. Технический результат - улучшение качества синтезированного в декодере сигнала путем изменения скорости передачи данных кадра SID во время речевой паузы. 2 н. и 11 з.п. ф-лы, 3 ил.

Реферат

Изобретение относится к способам и средствам для декодирования информации о фоновом шуме в процессе кодирования речевого сигнала.

В телефонной связи с момента начала развития связи для аналоговой передачи речи используют ограниченную полосу пропускания. Передача речи выполняется на ограниченной полосе частот от 300 Гц до 3400 Гц.

Такая ограниченная полоса также предусмотрена для многих процессов кодирования речевого сигнала. Перед процедурой кодирования выполняют ограничение полосы аналогового сигнала. Для кодирования и декодирования используется кодек, который по причине ограничения полосы частот от 300 Гц до 3400 Гц называют узкополосным речевым кодеком. Под термином кодек, таким образом, понимаются как правила кодирования для цифрового кодирования аудиосигналов, так и правила декодирования для декодирования данных с целью реконструкции аудиосигнала.

Узкополосный речевой кодек хорошо известен, например, из рекомендаций ITU-T G.729. При использовании описанного в упомянутом документе процесса кодирования обеспечивается передача узкополосного речевого сигнала со скоростью 8 кбит/с.

Помимо этого известен так называемый широкополосный речевой кодек, который предназначен для улучшения восприятия речи путем кодирования в расширенной полосе частот. Такая расширенная полоса частот занимает, например, частоты от 50 Гц до 7000 Гц. Широкополосный речевой кодек известен, например, из рекомендации ITU-T G.729.EV.

Обычно для широкополосных речевых кодеков предусмотрены масштабируемые способы кодирования. Под масштабируемостью подразумевается, что передаваемые закодированные данные содержат различные блоки, которые включают в себя узкополосную часть, широкополосную часть и/или полную полосу кодированного речевого сигнала. Указанный подход с масштабированием обеспечивает, с одной стороны, обратную совместимость на стороне приемника и, с другой стороны, обеспечивает простой способ, в случае ограниченной пропускной способности линии связи, подстройки передатчиком и приемником скорости передачи и размера передаваемых данных.

Для уменьшения скорости передачи данных кодеком обычно используют сжатие предназначенных для передачи данных. Сжатие, выполняемое, например, в рамках процедуры кодирования, определяют во время кодирования параметров речи для возбуждающего сигнала и параметров фильтра. Определенные параметры возбуждающего сигнала и параметры фильтра затем передают в приемник. После этого, используя кодек, синтезируют сигнал искусственной речи, который сходен, насколько это возможно, с исходным сигналом речи с точки зрения субъективного восприятия. С помощью такого подхода, также называемого способ “анализа посредством синтеза”, определенные и оцифрованные выборки не передаются, а используются для вычисления параметров, которые обеспечивают возможность приемнику синтезировать речь.

Еще один подход к уменьшению скорости передачи данных обеспечивается способом разрывной передачи, известным специалистам под аббревиатурой DTX. Основной задачей DTX является уменьшение скорости передачи в паузах речи.

Для этого на стороне отправителя используют распознавание пауз в речи (VAD), при котором обнаруживают падение сигнала ниже определенного уровня в речевых паузах.

Обычно на стороне приемника не предполагается полная тишина во время речевой паузы. Напротив, полное молчание приемника может вызвать раздражение или даже привести к предположению о разрыве связи. Учитывая это, могут применяться методики генерации так называемого "комфортного шума".

Под комфортным шумом подразумевают шум, синтезируемый для заполнения периодов молчания на стороне приемника. Комфортный шум создает субъективное ощущение наличия соединения без влияния на скорость передачи, планируемую для передачи сигналов речи. Другими словами, передатчик выполняет кодирование шума с меньшими затратами, чем в случае кодирования речевых данных. Для приемника синтез (т.е. декодирование) реалистичного комфортного шума подразумевает передачу данных с гораздо меньшими скоростями, передаваемые при этом данные известны специалистам как описание интервала тишины (SID).

Из уровня техники известны проблемы, связанные с процессом разрывной передачи с использованием широкополосных речевых кодеков, таких как ITU-T G.729.1, G.722.2 или 3GPP AMR-WB. Вышеперечисленные масштабируемые широкополосные речевые кодеки обычно поддерживают различные скорости передачи данных в диапазоне от 50 до 7000 Гц. Возможны, например, следующие скорости передачи данных для кодирования речевой информации: 8, 12, 14, 16 ,..., 32 кбит/с, которые, например, перечислены в стандарте G.729.l. Скорости передачи данных 8 и 12 кбит/с используются для узкополосных сигналов (от 50 Гц до 4 кГц). Скорости передачи данных более 12 кбит/с используются для верхней полосы частот от 4 до 7 кГц.

Во время передачи возможны переключения между указанными скоростями передачи данных. Известно, что внезапный переход от узкополосной к широкополосной передаче оказывает негативное влияние на человека-реципиента. Такие переключения происходят, например, в результате усечения потока данных, которое выполняется, например, коммуникационной сетью между передатчиком и приемником, например, как следствие установления дополнительных соединений или перегрузки в сети передачи. Упомянутое усечение приводит к изменению скорости передачи данных и, в конечном счете, к переходу от узкополосной к широкополосной передаче речевого сигнала.

Если используется процедура разрывной передачи, или способ DTX, то возможна экономия на скорости передачи данных при передаче каждого кадра данных. Процедура DTX используется, если соответствующий кадр определен как речевая пауза. В случае применения процедуры DTX уменьшение скорости передачи данных, связанной с передаваемыми кадрами, достигается в силу двух факторов. Первое, не все неактивные кадры должны посылаться кодером в декодер. Второе, при передаче кадра SID или неактивного кадра используется гораздо меньше битов, чем при передаче речевого кадра.

Такая процедура требует наличия распознавания голосовой активности (VAD) на стороне кодирования. С помощью детектора речевой активности в кодер на стороне приема передают данные, указывающие, имеются ли реальные выборки, содержащие кадры, предназначенные для кодирования, или присутствует речевая пауза с фоновым шумом. С учетом такого указания в кодере выполняются действия, с помощью которых выясняются относящиеся к восприятию характеристики неактивного кадра. Такие относящиеся к восприятию характеристики включают в себя, например, среднюю энергию, а также спектральные и временные характеристики.

Затем кодер отправляет кадр со спектральной маркировкой (кадр SID) в декодер. Декодер синтезирует, основываясь на содержащейся в кадре SID информации, комфортный шум, посредством чего декодер может определить, основываясь на кадре SID, содержит ли он информацию о шуме в форме узкополосных данных, или широкополосных данных.

Переключение скорости передачи данных между узкополосными данными и широкополосными данными является обычным сценарием для каждого масштабируемого широкополосного речевого кодека. Обработка переключения скорости передачи данных во время нормальной речевой фазы, т.е. в отсутствие пауз, в достаточной мере описано в литературе, однако обработка при нахождении в DTX фазе до настоящего времени не рассматривалась.

Таким образом, имеется насущная потребность в способе переключения скорости передачи данных при нахождении в DTX фазе, для оптимальной реакции на переключение между скоростью передачи данных для широкой и узкой полосы перед или во время перехода в DTX фазу.

Во время паузы уменьшение скорости передачи данных является маловероятным, поскольку используемый битовый поток в кадре SID в любом случае использует меньшее количество битов, чем активный речевой кадр при “нормальной” работе кодека, т.е. при работе кодека исключительно в речевой фазе.

Это подразумевает возможный сценарий, в котором скорость передачи данных меняется во время активной фазы речи, однако во время речевой паузы, т.е. в DTX фазе, сохраняется широкополосный режим. Человек-реципиент на стороне декодера может испытывать неприятные ощущения, если активные речевые кадры декодируются на узкой полосе, тогда как фоновый шум в речевых паузах воспроизводится на широкой полосе.

Это происходит с высокой вероятностью, например, в ситуации, когда голосовые данные, отправленные со стороны кодера, урезаются передающей сетью, но передающая сеть все еще обладает достаточной пропускной способностью для передачи широкополосных кадров SID.

До настоящего времени не разработан способ для изменения скорости передачи данных кадров SID во время речевой паузы. Существующие процедуры изменения скорости передачи данных относятся только к нормальной работе кодека во время активной речевой фазы.

Целью настоящего изобретения является предоставления способа изменения скорости передачи данных кадров SID во время речевой паузы, результатом чего является улучшенное качество синтезированного в декодере сигнала.

Указанная проблема решается с помощью объектов, описанных в независимых пунктах формулы изобретения.

Основная идея изобретения заключается в том, что определяют информацию о процессе изменения полосы во время активной речевой фазы. При этом масштабируемая природа используемых согласно изобретению способов кодирования речевого сигнала, или кодеров, уже обеспечивает возможность для кодека выполнять изменение полосы пропускания.

Согласно изобретению во время речевой фазы на стороне декодера собирают информацию о проценте широкополосных активных речевых кадров по отношению к узкополосным активным речевым кадрам. Другими словами, информацию о природе фонового шума собирают не только во время изменения в речевой паузе, как до сих пор предлагалось в уровне техники. Высокий процент широкополосных активных речевых кадров указывает процессу, что кодек предпочтительно используется в широкополосном режиме и, следовательно, необходимо в фазе DTX синтезировать, т.е. декодировать, широкополосную шумовую информацию. Напротив, если определен низкий процент, на стороне декодера при входе в фазе DTX генерируется узкополосный шум, если даже принятый SID кадр позволяет синтезировать, т.е. декодировать, широкополосный шум.

Настоящее изобретение в полной мере решает поставленную задачу предоставления способа изменения скорости передачи данных для кадров SID во время паузы. Проблема переключения между шумовой информацией с различными скоростями передачи может быть решена, согласно изобретению, с помощью определения доли шумовой информации с различными скоростями передачи. В отличие от подхода с резким переходом между шумовой информацией с различными скоростями передачи эта доля является регулируемой.

Подстройка качества шумового сигнала к уже определенному качеству речевого сигнала (узкополосного/широкополосного) дает в результате на стороне приемника полный сигнал (т.е. шум плюс речь) значительно улучшенного качества. Таким образом, изобретение решает проблему улучшения качества синтезированного в декодере сигнала.

Такой подход является основополагающим для заявленного изобретения и частных вариантов осуществления, изложенных в зависимых пунктах формулы изобретения.

Согласно способу по изобретению, если принято решение о синтезе во время паузы шумового сигнала определенного качества (т.е. широкополосного или узкополосного), может сложиться ситуация, когда для последних нескольких кадров во время активной речевой фазы со стороны сети было выполнено урезание активных кадров данных.

Для ясности примем, что кодек преимущественно использует широкополосный режим и в прошлом коммуникационная сеть в основном гарантировала выполнение широкополосной передачи. Это может привести к ситуации, когда в принимающий декодер приходят несколько активных речевых кадров в виде узкополосных речевых кадров перед приемом первого кадра SID.

В этом случае, если не будет предпринято специальных мер, происходит резкий переход от узкополосного речевого сигнала к широкополосному шумовому сигналу во время первых нескольких кадров SID. Такой переход оправдан с точки зрения общей поддержки условий широкополосного приема, однако реципиентом это воспринимается как раздражающая помеха.

Согласно одному из вариантов осуществления изобретения при входе в фазу DTX сначала выполняют преимущественно узкополосное декодирование информации о фоновом шуме, что по прошествии заданного интервала времени изменяют на преимущественно широкополосное декодирование. Такой переход преимущественно является квазинепрерывным, с переходами, выполняемыми в дискретных временных точках, что оправдывает термин «квази», которые определяются долевым коэффициентом.

Согласно одному из вариантов осуществления изобретения предложен способ быстрого переключения, при котором в течение заданного временного интервала 100 мс выполняют квазинепрерывный переход от узкополосного (долевой коэффициент = 0) к широкополосному (долевой коэффициент = 1) качеству шумового сигнала. Этот переход выполняется на стороне декодера.

Особенно подходящим для субъективного восприятия звука человеком в соответствии с одним из вариантов осуществления являются следующие значения долевого коэффициента:

в момент вхождения в фазу DTX долевой коэффициент равен нулю, и, следовательно, присутствует только узкополосный шум;

через 20 мс после вхождения в фазу DTX долевой коэффициент равен 0,09525986892242,

через 40 мс после вхождения в фазу DTX долевой коэффициент равен 0,09525986892242,

через 60 мс после вхождения в фазу DTX долевой коэффициент равен 0,09525986892242,

через 80 мс после вхождения в фазу DTX долевой коэффициент равен 0,09525986892242,

через 100 мс после вхождения в фазу DTX долевой коэффициент равен 1, и, следовательно, присутствует только широкополосный шум.

В соответствии с еще одним вариантом осуществления предполагается, что используемые кодеки преимущественно использует широкополосный режим и в прошлом коммуникационная сеть не гарантировала выполнение широкополосной передачи. Это может привести к ситуации, когда в принимающий декодер приходят несколько активных речевых кадров в виде широкополосных речевых кадров перед приемом первого кадра SID.

Согласно одному из вариантов осуществления изобретения при входе в фазу DTX сначала выполняют преимущественно широкополосное декодирование информации о фоновом шуме, что по прошествии заданного интервала времени изменяют на преимущественно узкополосное декодирование. Так же как и в описанных выше вариантах осуществления, такой переход преимущественно является квазинепрерывным, с переходами, выполняемыми в дискретных временных точках, которые определяются долевым коэффициентом.

Согласно одному из вариантов осуществления изобретения предложен способ быстрого переключения, при котором в течение заданного временного интервала 100 мс выполняют квазинепрерывный переход от широкополосного (долевой коэффициент = 1) к узкополосному (долевой коэффициент = 1) качеству шумового сигнала. Этот переход выполняется на стороне декодера.

Для осуществления квазинепрерывного перехода от широкополосного к узкополосному качеству шумового сигнала используют описанные выше долевые коэффициенты, однако, в обратном порядке.

Иллюстративные примеры изобретения, а также дополнительные преимущества и конструктивные особенности описаны ниже со ссылками на чертежи, на которых:

Фиг.1 - временная диаграмма для скорости передачи между передатчиком и приемником, с несколькими переключениями полосы и вхождением в одну речевую паузу, когда посылается кадр SID.

Фиг.2А - схематическое представление первого сценария переключения полосы.

Фиг.2А - схематическое представление второго сценария переключения полосы.

Фиг.3 - реализованный на стороне декодера процесс переключения полосы с квазинепрерывным переходом от узкополосного к широкополосному качеству шумового сигнала.

На фиг.1 показана временная диаграмма передачи кадров речевых данных с соответствующей скоростью передачи DR, а также, начиная с момента t3, передача кадра SID.

До момента времени t1 выполняется передача широкополосных активных речевых кадров со скоростью 32 кбит/с. В момент времени t1 выполняется изменение скорости передачи до 22 кбит/с, и в момент времени t2 выполняется изменение скорости передачи до 12 кбит/с. Скорость передачи 12 кбит/с соответствует узкополосным речевым кадрам.

В момент времени t3 предполагается, что вследствие речевой паузы на стороне передатчика выполняется переход к фазе DTX. Таким образом, начиная с момента времени t3 через определенные интервалы посылаются кадры SID.

Начиная с момента времени t3 создается уже описанная выше ситуация, когда в прошлом - в течение временного интервала между двумя моментами времени t2 и t3 - присутствовал узкополосный речевой сигнал, тем не менее, начиная с момента t3 устанавливается широкополосный шумовой сигнал, соответствующий кадру SID. Скорость передачи для кадра SID составляет 43 бит/20 мс = 2,15 кбит/с при длине 43 бит на кадр SID и периоде 20 мс.

В этой ситуации мы имеем случай, когда на стороне декодера происходит непосредственный, т.е. резкий, переход от узкополосного речевого сигнала к широкополосному шумовому сигналу. Такой резкий переход воспринимается человеком-реципиентом как исключительно неприятный.

На фиг.2А и 2В показаны два возможных сценария изменения скорости передачи DR в течение времени t.

На фиг.2А вследствие ограничений сети или вследствие других обстоятельств передача выполняется в основном на узкой полосе, в данном примере - 8 кбит/с, при этом некоторое время, между моментами времени t1 и t2, выполняется широкополосная передача со скоростью 32 кбит/с.

На фиг.2В показана обратная ситуация, а именно выполняется широкополосная передача на скорости 32 кбит/с, и в очень коротком интервале, между моментами времени t4 и t5, выполняется узкополосная передача.

Ниже предполагается, что в момент времени t3 для примера по фиг.2А и в момент времени t6 для примера по Фиг.2В происходит вхождение в фазу DTX.

Согласно способу по изобретению во время речевой фазы на стороне декодера выполняется накопление информации о доле широкополосных активных речевых кадров относительно количества узкополосных активных речевых кадров.

Для примера на фиг.2А при этом будет определена очень низкая доля широкополосных активных речевых кадров, тогда как для примера на фиг.2В будет определена очень высокая доля широкополосных активных речевых кадров.

При вхождении в фазу DTX в момент времени t3 в примере по фиг.2А при использовании способа по изобретению генерируется узкополосный шум, хотя принимаемые начиная с момента времени t3 кадры SID (не показаны) допускают синтез широкополосного шума.

Напротив, в примере по фиг.2В в момент t6 начала фазы DTX предпочтительным является синтез широкополосной шумовой информации.

На фиг.3 показано качество HB-SHARE шумового сигнала в зависимости от времени, выраженного в мс. При этом на фиг.3 показана структура шумового сигнала, соответствующая сценарию, изображенному на фиг.2В, в котором на стороне декодера была выявлена доля широкополосных активных речевых кадров, подразумевающая синтез во время фазы DTX широкополосной шумовой информации.

На фиг.3 переход в фазу DTX происходит в момент времени 0 мс. Чтобы выполнить переход от узкополосного речевого сигнала к широкополосному шумовому сигналу квазинепрерывно, что, как показано, является наиболее благоприятным для субъективного восприятия чаловеком-реципиентом, этот момент времени начинается с узкополосного шумового сигнала, т.е. с долей HB-SHARE широкополосного шума, равной нулю. В момент времени 100 мс доля широкополосного шума составляет 1, т.е. 100%. Для квазинепрерывного перехода от полного узкополосного шумового сигнала в момент времени 0 мс к полному широкополосному шумовому сигналу в момент времени 100 мс на практике хорошо себя зарекомендовали следующие промежуточные значения доли HB-SHARE в дискретные моменты времени.

Для момента времени TIME = 20 мс доля HB-SHARE 0,09525986892242.

Для момента времени TIME = 40 мс доля HB-SHARE 0,19753086419753.

Для момента времени TIME = 60 мс доля HB-SHARE 0,36595031245237.

Для момента времени TIME = 80 мс доля HB-SHARE 0,62429507696997.

В других вариантах осуществления изобретения аналогичным образом рассматривается переход от широкополосного речевого сигнала к узкополосному шумовому сигналу.

Для этого сначала со ссылкой на фиг.2А рассмотрим слегка модифицированный сценарий, при котором в отличие от показанного на фиг.2А вскоре после момента времени t3 (не показано) происходит переключение на передачу со скоростью 32 кбит/с. Несмотря на этот «пик» доля широкополосных активных речевых кадров остается очень низкой, так что теперь при переходе в фазу DTX должен начаться синтез широкополосного шумового сигнала, который, однако, вследствие в основном узкополосной передачи в прошлом и вследствие того, что узкополосный характер передачи ожидается и в будущем, должен быть переведен в узкополосный шумовой сигнал. Для того чтобы организовать квазинепрерывный переход от широкополосного речевого сигнала к узкополосному шумовому сигналу, вхождение в фазу DTX начинают с полностью широкополосного сигнала, т.е. с долей HB-SHARE широкополосного шума, равной единице. В момент времени 100 мс доля узкополосного шума составляет 0. Для квазинепрерывного перехода от полного широкополосного шумового сигнала в момент вхождения в фазу DTX до полного узкополосного шумового сигнала в моменты времени после 100 мс используют предложенные выше значения в обратном порядке. Это будет соответствовать кривой на фиг.3, зеркально отраженной относительно оси ординат HB-SHARE.

1. Способ декодирования кадра SID для предоставления информации о фоновом шуме для масштабируемого процесса кодирования речевого сигнала, содержащий этапы, на которых:определяют долю принимаемых широкополосных речевых кадров относительно принимаемых узкополосных речевых кадров во время речевой фазы;декодируют в кадре SID информацию о фоновом шуме при вхождении в фазу DTX, причем упомянутое декодирование выполняют с учетом упомянутой определенной доли, причемв случае определения высокой доли принимаемых широкополосных речевых кадров при вхождении в фазу DTX преимущественно выполняют широкополосное декодирование информации о фоновом шуме, илив случае определения низкой доли принимаемых широкополосных речевых кадров при вхождении в фазу DTX преимущественно выполняют узкополосное декодирование информации о фоновом шуме.

2. Способ по п.1, отличающийся тем, что в случае определения высокой доли принимаемых широкополосных речевых кадров при вхождении в фазу DTX сначала преимущественно выполняют узкополосное декодирование информации о фоновом шуме, тогда как через заданный интервал времени переходят к преимущественно широкополосному декодированию.

3. Способ по п.2, отличающийся тем, что переход к преимущественно широкополосному декодированию является регулируемым с долевым коэффициентом (HB-SHARE), который выражает соотношение между широкополосным и узкополосным качеством шумового сигнала.

4. Способ по п.3, отличающийся тем, что долевой коэффициент устанавливают в ноль при вхождении в фазу DTX.

5. Способ по п.3 или 4, отличающийся тем, что долевой коэффициент устанавливают в единицу через 100 мс после вхождения в фазу DTX.

6. Способ по п.3 или 4, отличающийся тем, что долевой коэффициентустанавливают в 0,09525986892242 через 20 мс после вхождения в фазу DTX;устанавливают в 0,19753086419753 через 40 мс после вхождения в фазу DTX;устанавливают в 0,36595031245237 через 60 мс после вхождения в фазу DTX;устанавливают в 0,62429507696997 через 80 мс после вхождения в фазу DTX.

7. Способ по п.1, отличающийся тем, что в случае определения низкой доли принимаемых широкополосных речевых кадров при вхождении в фазу DTX сначала преимущественно выполняют широкополосное декодирование информации о фоновом шуме, тогда как через заданный интервал времени переходят к преимущественно узкополосному декодированию.

8. Способ по п.7, отличающийся тем, что переход к преимущественно узкополосному декодированию является регулируемым с долевым коэффициентом (HB-SHARE), который выражает соотношение между широкополосным и узкополосным качеством шумового сигнала.

9. Способ по п.8, отличающийся тем, что долевой коэффициент устанавливают в единицу при вхождении в фазу DTX.

10. Способ по п.8 или 9, отличающийся тем, что долевой коэффициент устанавливают в ноль через 100 мс после вхождения в фазу DTX.

11. Способ по п.8 или 9, отличающийся тем, что долевой коэффициентустанавливают в 0,62429507696997 через 20 мс после вхождения в фазу DTX;устанавливают в 0,36595031245237 через 40 мс после вхождения в фазу DTX;устанавливают в 0,19753086419753 через 60 мс после вхождения в фазу DTX;устанавливают в 0,09525986892242 через 80 мс после вхождения в фазу DTX.

12. Кодек, содержащий средства для выполнения способа по любому одному из пп.1-11.

13. Кодек по п.12, отличающийся тем, что он выполнен в соответствии со ITU-T стандартом G.729.1.