2469419 - Способ и устройство для управления сглаживанием стационарного фонового шума

Способ и устройство для управления сглаживанием стационарного фонового шума

Иллюстрации

Показать все

Изобретение относится к кодированию речевого сигнала в телекоммуникационных системах, в частности, к способам и устройствам для управления сглаживанием стационарного фонового шума в таких системах. Техническим результатом является улучшение управления операцией сглаживания фонового шума в сеансах речевой связи в телекоммуникационных системах. Указанный результат достигается тем, что в способе сглаживания стационарного фонового шума принимают и декодируют сигнал, представляющий сеанс речевой связи, причем упомянутый сигнал содержит как составляющую речевого сигнала, так и составляющую фонового шума; предоставляют показатель шумовых свойств для упомянутого сигнала, причем упомянутый показатель шумовых свойств указывает предсказуемость сигнала, причем упомянутая предсказуемость определена в показателях выигрыша предсказания линейного предиктивного кодера (LPC) упомянутого сигнала, и адаптивно сглаживают упомянутую составляющую фонового шума в зависимости от предоставленного показателя шумовых свойств. Упомянутой операцией сглаживания управляют с помощью упомянутого показателя шумовых свойств посредством параметра управления сглаживанием, изменяемого постепенно, соответственно обнаруженному увеличению упомянутого показателя шумовых свойств, и изменяемого немедленно, соответственно обнаруженному уменьшению упомянутого показателя шумовых свойств. 4 н. и 18 з.п. ф-лы, 7 ил.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение, в целом, относится к кодированию речевого сигнала в телекоммуникационных системах, в частности к способам и устройствам для управления сглаживанием стационарного фонового шума в таких системах.

Уровень техники

Кодирование речевого сигнала является процессом получения компактного представления голосовых сигналов для эффективной передачи через проводные и беспроводные каналы ограниченной полосы частот и/или запоминания. В настоящее время кодеры речевого сигнала стали неотъемлемыми компонентами в телекоммуникационной и в мультимедийной инфраструктуре. Коммерческие системы, которые зависят от эффективного кодирования речевого сигнала, включают в себя сотовую связь, протокол передачи речи через Интернет (VOIP), проведение видеоконференций, электронные игры, архивирование и цифровой стандарт одновременной передачи речи и данных (DSVD), а также многочисленные игры и мультимедийные приложения на основе ПК.

Являясь непрерывным во времени сигналом, речевой сигнал может быть представлен в цифровом виде посредством процесса выборки и квантования. Выборки речевого сигнала обычно квантуют с использованием либо 16-битового, либо 8-битового квантования. Подобно многим другим сигналам речевой сигнал содержит большое количество информации, которая является либо избыточной (ненулевая взаимная информация между последовательными выборками в сигнале), либо перцепционно нерелевантной (информация, которая является неразличаемой слушателями). Большинству телекоммуникационных кодеров свойственны потери, заключающиеся в том, что синтезированный речевой сигнал перцепционно подобен оригиналу, но может быть физически непохожим на него.

Кодер речевого сигнала преобразует оцифрованный речевой сигнал в закодированное представление, которое обычно передают кадрами. Соответственно, декодер речевого сигнала принимает закодированные кадры и синтезирует восстановленный речевой сигнал.

Многие современные кодеры речевого сигнала принадлежат к большому классу кодеров речевого сигнала, известному как LPC (линейные предиктивные кодеры). Примерами таких кодеров являются: кодеки речи FR, EFR, AMR и AMR-WB 3GPP, кодеки речи EVRC, SMV и EVRC-WB 3GPP2 и различные кодеки ITU-T, такие как G.728, G.723, G.729 и т.д.

Все эти кодеры используют концепцию синтезирующего фильтра в процессе генерации сигнала. Фильтр используют для того, чтобы моделировать кратковременный спектр сигнала, который должен быть воспроизведен, хотя допускают, что вход в фильтр должен обрабатывать все остальные изменения сигнала.

Общим признаком этих моделей синтезирующих фильтров является то, что воспроизводимый сигнал представляют с помощью параметров, определяющих фильтр. Понятие “линейный предиктивный” относится к классу способов, часто используемых для оценки параметров фильтра. Таким образом, воспроизводимый сигнал частично представляют с помощью набора параметров фильтра и частично с помощью сигнала возбуждения, управляющего фильтром.

Преимущество такой концепции кодирования заключается в том, что как фильтр, так и его управляющий сигнал возбуждения могут быть эффективно описаны с помощью относительно малого числа бит.

Один конкретный класс кодеков, основанных на LPC, основан на принципе “анализ через синтез” (AbS). Эти кодеки включают в себя локальную копию декодера в кодере и обнаруживают управляющий сигнал возбуждения синтезирующего фильтра с помощью выбора того сигнала возбуждения среди набора возможных сигналов возбуждения, который максимизирует сходство синтезированного выходного сигнала с исходным речевым сигналом.

Концепция использования такого линейного предиктивного кодирования и, в частности, кодирования AbS, показала, что она работает относительно хорошо для речевых сигналов даже с низкими скоростями передачи данных, например 4-12 Кбит/с. Однако когда пользователь мобильного телефона, использующий такой способ кодирования, молчит, а входной сигнал содержит окружающие звуки, то из-за этого у известных в настоящее время кодеров появляются трудности, чтобы справиться с этой ситуацией, поскольку они оптимизированы для речевых сигналов. Слушатель на другой стороне может легко разозлиться, если знакомые фоновые звуки не могут быть распознаны, поскольку они “плохо обработаны” с помощью кодера.

Так называемое завихрение вызывает одно из самых серьезных ухудшений качества в воспроизведенных фоновых звуках. Это явление случается в сценариях с относительно стационарными фоновыми звуками, таким как звук автомобиля, и вызвано неестественными временными флуктуациями мощности и спектра декодированного сигнала. Эти флуктуации, в свою очередь, вызваны недостаточной оценкой и квантованием коэффициентов синтезирующего фильтра и его сигнала возбуждения. Обычно завихрение становится меньше, когда увеличивается скорость передачи данных кодека.

Завихрение ранее было определено как проблема, и многочисленные ее решения предложены в литературе. Патент США 5632004 [1] раскрывает одно из предложенных решений. В соответствии с этим патентом в течение речевой неактивности параметры фильтра модифицируют посредством фильтрации нижних частот или расширения полосы частот таким образом, что уменьшают спектральные изменения синтезированного фонового звука. Этот способ был дополнительно усовершенствован в патенте США 5579432 [2] таким образом, что описанный способ против завихрения применяют только после обнаруженной стационарности фонового шума.

Патент США 5487087 [3] раскрывает дополнительный способ обращения к проблеме завихрения. Этот способ использует модифицированную схему квантования сигнала, которая соответствует как самому сигналу, так и его временным изменениям. В частности, предусмотрено использование такого квантователя с уменьшенной флуктуацией для параметров фильтра LPC и параметров усиления сигнала в течение периодов речевой неактивности.

Ухудшения качества сигнала, вызванные нежелательными флуктуациями мощности синтезированного сигнала, имеют отношения к другому набору способов. Один из них описан в патенте США 6275798 [4] и также является частью алгоритма работы речевого кодека AMR, описанного в TS 26.090 3GPP [5]. В соответствии с этим раскрытием усиление, по меньшей мере, одной составляющей синтезированного сигнала возбуждения фильтра, фиксированного вклада кодовой книги, адаптивно сглаживают в зависимости от стационарности кратковременного спектра LPC. Этот способ дополнительно исследован в описаниях к патенту EP 1096476 [6] и заявке на патент EP 1688920 [7], в которых операция сглаживания дополнительно включает в себя ограничение усиления, используемого в синтезе сигнала. Родственный способ, используемый в вокодерах LPC, описан в US 5953697 [8]. В соответствии с этим раскрытием усилением сигнала возбуждения синтезирующего фильтра управляют таким образом, что максимальная амплитуда синтезированного речевого сигнала точно достигает огибающую входного речевого сигнала.

Другой класс способов, имеющий отношение к проблеме завихрения, работает как постпроцессор после декодера речевого сигнала. Патент ЕР 0665530 [9] описывает способ, который в течение обнаруженной речевой неактивности заменяет часть выходного декодированного речевого сигнала на отфильтрованный с помощью фильтра низких частот белый шум или подходящий сигнал шума. Подобные подходы взяты в различных публикациях, которые раскрывают родственные способы, заменяющие часть выходного сигнала речевого декодера на отфильтрованный шум.

Масштабируемое или вложенное кодирование, со ссылкой на Фиг.1, является парадигмой кодирования, в которой кодирование выполняют уровнями. Базовый или внутренний уровень кодирует сигнал с низкой скоростью передачи данных, в то время как дополнительные уровни, причем каждый один над другим, обеспечивают некоторое улучшение относительно кодирования, которое выполняют с помощью всех уровней от внутреннего до соответствующего предыдущего уровня. Каждый уровень добавляет некоторую дополнительную скорость передачи данных. Сгенерированный битовый поток является вложенным, означая, что битовый поток кодирования нижнего уровня вложен в битовые потоки верхних уровней. Это свойство делает возможным где-нибудь в передаче или в приемнике удалять биты, принадлежащие верхним уровням. Такой разделенный битовый поток все же может быть декодирован до уровня, биты которого сохранены.

Самым используемым в настоящее время алгоритмом масштабированного сжатия речевого сигнала является логарифмический кодек РСМ принципа A/U G.711 64 Кбит/с. Кодек G.711 с частотой выборки 8 kHz преобразует 12-битовые или 13-битовые линейные выборки PCM в 8-битовые логарифмические выборки. Упорядоченное битовое представление логарифмических выборок предусматривает удаление наименьших значащих битов (LSB) в битовом потоке G.711, делая кодер G.711 практически масштабируемым SNR между 48, 56 и 64 Кбит/с. Это свойство масштабируемости кодека G.711 используют в сетях связи с коммутацией каналов для целей передачи управляющих служебных сигналов в основной полосе. Последним примером использования этого свойства масштабирования G.711 является протокол TFO 3GPP, который дает возможность настройки и передачи широкополосного речевого сигнала через существующие линии связи PCM 64 Кбит/с. Восемь Кбит/с первоначального потока G.711 64 Кбит/с сначала используют для того, чтобы позволить установление вызова услуги широкополосного речевого сигнала без существенного влияния на качество узкополосной услуги. После установления вызова широкополосный речевой сигнал будет использовать 16 Кбит/с из потока G.711 64 Кбит/с. Другими, более старыми, стандартами кодирования речевого сигнала, поддерживающими масштабируемость без обратной связи, являются G.727 (вложенный ADPCM) и до некоторой степени G.722 (ADPCM поддиапазона).

Сравнительно недавним успехом в технологии масштабируемого кодирования речевого сигнала является стандарт MPEG-4, который обеспечивает расширения масштабируемости для MPEG4-CELP. Базовый уровень МРЕ может быть усовершенствован с помощью передачи дополнительной информации о параметрах фильтра или дополнительной информации о параметрах нововведения. Сектор стандартизации Международного союза электросвязи, ITU-T, недавно закончил стандартизацию нового масштабируемого кодека G.729.1, прозванного s G.729.EV. Диапазон скорости передачи данных этого масштабируемого кодека речевого сигнала лежит в интервале от 8 до 32 Кбит/с. Главное применение для этого кодека заключается в следующем: позволить эффективное совместное использование ограниченного ресурса полосы частот в домашних или офисных шлюзах, например, совместно используемой восходящей линии связи 64/128 Кбит/с xDSL между несколькими вызовами VOIP.

Одна из последних тенденций в масштабируемом кодировании речевого сигнала направлена на то, чтобы обеспечить верхние уровни поддержкой для кодирования неречевых аудиосигналов, таких как музыка. В таких кодеках нижние уровни используют простое традиционное кодирование речевого сигнала, например, в соответствии с парадигмой анализа через синтез, известным примером которой является CELP. Так как такое кодирование является очень подходящим только для речевого сигнала, и в меньшей степени для неречевых аудиосигналов, таких как музыка, верхние уровни работают в соответствии с парадигмой кодирования, которую используют в аудиокодеках. В данном случае обычно кодирование верхнего уровня работает относительно ошибки кодирования нижнего уровня.

Другим релевантным способом, касающимся кодеков речевого сигнала, является так называемая компенсация угла наклона спектральной линии, которую выполняют в контексте адаптивной пост фильтрации декодированного речевого сигнала. Проблема, решаемая с помощью этого способа, заключается в том, чтобы компенсировать угол наклона спектральной линии, внесенный кратковременными или формантными постфильтрами. Такие способы являются частью, например, кодека AMR и кодека SMV, и первичной целью являются функциональные характеристики кодека во время продолжительности речевого сигнала, а не его функциональные характеристики фонового шума. Кодек SMV применяет эту компенсацию угла наклона во взвешенной остаточной области до синтезирующей фильтрации, даже не учитывая анализ LPC остатка.

Общим для любых из вышеописанных способов, имеющих отношение к проблеме завихрения, является тот факт, что их необходимо применять таким образом, чтобы они обеспечивали наилучший возможный результат улучшения относительно завихрения без отрицательного влияния на качество воспроизведения речевого сигнала. Следовательно, все эти способы дают преимущества, только если выполнены надлежащие правила, в соответствии с которыми их активируют или деактивируют в зависимости от характеристик восстанавливаемого сигнала. В дальнейшем современные способы против завихрения обсуждены согласно конкретному аспекту того, как ими управлять.

Одна публикация [10] предшествующего уровня техники раскрывает конкретный способ сглаживания шума и специфическое управление им. Управление основано на оценке коэффициента фонового шума в декодированном сигнале, который, в свою очередь, управляет определенными коэффициентами усиления в этом специфическом способе сглаживания. Стоит подчеркнуть, что в отличие от других способов активацией этого способа сглаживания не управляют в ответ на флаг VAD или, например, другую метрику стационарности.

В отличие от описанной выше публикации другая публикация [11] предшествующего уровня техники описывает операцию сглаживания в ответ на некоторый детектор стационарного шума. Специализированный VAD не используется, вместо этого принимают строгое решение в зависимости от измерений параметров LPC (LSF) и флуктуаций энергии, а также от информации об основном тоне. Для того чтобы облегчить проблемы с неправильными классификациями речевых кадров как кадров стационарного шума, к пачкам речевых сигналов добавляют период откладывания.

Другое раскрытие публикации [9] предшествующего уровня техники описывает функцию управления способом сглаживания фонового шума, который работает в ответ на флаг VAD. Для того чтобы препятствовать объявлению речевых кадров как неактивных, период откладывания добавляют к пачкам сигналов, объявленных активными речевыми сигналами, в течение которых сглаживание шума остается неактивным. Чтобы гарантировать плавные переходы из периодов с деактивированным сглаживанием фонового шума в периоды с активированным сглаживанием, сглаживание постепенно активируют до некоторой фиксированной максимальной степени операции сглаживания. Мощность и спектральные характеристики (степень фильтрации верхних частот) сигнала шума, заменяющего части декодированного речевого сигнала, делают адаптивными к оценке уровня фонового шума в декодированном речевом сигнале. Однако степень операции сглаживания, т.е. величина, на которую декодированный речевой сигнал заменяют просто шумом, зависит от решения VAD и никоим образом от анализа характеристик (таких как стационарность или таковых) фонового шума.

Ранее упомянутое раскрытие публикации [4] описывает способ сглаживания параметров для декодера, который предусматривает постепенное сглаживание параметра (усиления) в ответ на смешанный фактор. Смешанный фактор является признаком стационарности восстанавливаемого сигнала и управляет сглаживанием параметров таким образом, что чем большее сглаживание выполняют, тем больше получается обнаруженная стационарность.

Главная проблема с алгоритмом управления сглаживанием в соответствии с вышеупомянутой публикацией [10] состоит в том, что он специально настроен на конкретное устройство сглаживания, описанное в настоящей заявке. Следовательно, не очевидно, в каком случае (и как) он мог бы быть использован в связи с любыми другими способами сглаживания шума. Тот факт, что не используют VAD, вызывает конкретную проблему, заключающуюся в том, что способ выполняет модификации сигнала точно в течение активных частей речевого сигнала, что потенциально ухудшает речевой сигнал или, по меньшей мере, влияет на натуральность его воспроизведения.

Главная проблема с алгоритмами сглаживания в соответствии с [11] и [9] состоит в том, что степень сглаживания фонового шума сильно зависит от характеристик фонового шума, который должен быть аппроксимирован. Например, в публикации [11] предшествующего уровня техники используется обнаружение кадра стационарного шума, в зависимости от чего операцию сглаживания полностью разрешают или запрещают. Подобным образом способ, раскрытый в [9], не имеет возможности управлять способом сглаживания таким образом, чтобы его использовали в меньшей степени в зависимости от характеристик фонового шума. Это означает, что способы могут страдать от неестественных воспроизведений шума для тех типов фонового шума, которые классифицируют как стационарный шум или как неактивный речевой сигнал, несмотря на то, что проявляются свойства, которые не могут быть адекватно смоделированы с помощью использованного способа сглаживания шума.

Главная проблема способа, раскрытого в [4], состоит в том, что он сильно зависит от оценки стационарности, которая принимает во внимание, по меньшей мере, текущий параметр текущего кадра и соответствующий предыдущий параметр. Однако во время исследований, связанных с настоящим изобретением, было обнаружено, стационарность, даже если она полезна, не всегда обеспечивает правильное указание, является ли сглаживание фонового шума желательным или нет. Простая зависимость от показателя стационарности может опять привести к ситуациям, в которых определенные типы шума классифицируют как стационарный шум, даже если они проявляют свойства, которые не могут быть адекватно смоделированы с помощью использованного способа сглаживания шума.

Конкретная проблема, ограничивающая все описанные способы, возникает из того факта, что они являются простыми способами декодера. Вследствие этого факта они имеют концептуальные проблемы оценки характеристик фонового шума с точностью, которая требовалась бы, если операцией сглаживания шума требовалось бы управлять с постепенным разрешением. Однако это было бы необходимо для естественного воспроизведения шума.

Общая проблема всех способов, зависящих от показателя стационарности, состоит в том, что сама стационарность является характеристикой, указывающей на то, сколько статистических характеристик сигнала, как энергия или спектр, остаются постоянными во времени. По этой причине показатели стационарности часто вычисляют с помощью сравнения статистических характеристик данного кадра или подкадра, с характеристиками предшествующего кадра или подкадра. Однако показатели стационарности в меньшей степени обеспечивают указание действительных перцепционных характеристик фонового сигнала. В частности, показатели стационарности не указывают на то, насколько сигнал похож на шум, что, однако, в соответствии с исследованиями, проведенными изобретателями, является существенным параметром для хорошего способа против завихрения.

Таким образом, имеется потребность в способах и устройствах, предназначенных для управления операцией сглаживания фонового шума в сеансах речевой связи в телекоммуникационных системах.

Раскрытие изобретения

Задача настоящего изобретения состоит в том, чтобы предоставить улучшенное качество сеанса речевой связи в телекоммуникационной системе.

Дополнительная задача настоящего изобретения состоит в том, чтобы предоставить возможность улучшенного управления сглаживанием стационарного фонового шума в телекоммуникационной системе.

Эти и другие задачи решают в соответствии с прилагаемой формулой изобретения.

По существу, в способе сглаживания стационарного фонового шума в телекоммуникационном сеансе речевой связи сначала принимают и декодируют S10 сигнал, представляющий сеанс речевой связи, причем упомянутый сигнал содержит как составляющую речевого сигнала, так и составляющую фонового шума. Далее, предоставляют S20 показатель шумовых свойств для сигнала и адаптивно S30 сглаживают составляющую фонового шума на основании предоставленного показателя шумовых свойств.

Преимущества настоящего изобретения заключаются в:

улучшенном качестве сеансов речевой связи в телекоммуникационной системе,

улучшенном качестве восстановления сигналов стационарного фонового шума.

Краткое описание чертежей

Изобретение совместно с его дополнительными задачами и преимуществами может быть лучше всего понято с помощью ссылки на следующее описание, взятое совместно с сопровождающими чертежами, на которых:

Фиг.1 - принципиальная блок-схема масштабируемого речевого и аудиокодека,

Фиг.2 - блок-схема последовательности этапов, иллюстрирующая вариант осуществления способа сглаживания фонового шума в соответствии с настоящим изобретением,

Фиг.3 - схема, иллюстрирующая временную диаграмму способа непрямого управления сглаживанием в соответствии с вариантом осуществления настоящего изобретения,

Фиг.4 - схема, иллюстрирующая временную диаграмму активации, управляемой с помощью VAD, сглаживания фонового шума в соответствии с настоящим изобретением,

Фиг.5 - блок-схема последовательности этапов, иллюстрирующая вариант осуществления устройства в соответствии с настоящим изобретением,

Фиг.6 - блок-схема, иллюстрирующая вариант осуществления устройства контроллера в соответствии с настоящим изобретением,

Фиг.7 - блок-схема, иллюстрирующая варианты осуществления устройств в соответствии с настоящим изобретением.

Сокращения

AbS - анализ через синтез

ADPCM - адаптивная дифференциальная импульсно-кодовая модуляция

AMR-WB - адаптивный многоскоростной широкополосный

EVRC-WB - усовершенствованный широкополосный кодек переменной скорости

CELP - линейное предсказание с мультикодовым управлением

DXT - дискретная передача

DSVD - цифровой стандарт одновременной передачи речи и данных

ISP - иммитансная спектральная пара

ITU-T - Международный союз электросвязи

LPC - линейные кодеры с предсказанием

LSF - линейная спектральная частота

MPEG - группа экспертов в области движущихся изображений

PCM - импульсно-кодовая модуляция

SMV - вокодер с возможностью выбора режима

VAD - детектор речевой активности

VOIP - протокол передачи речи через Интернет

Осуществление изобретения

Настоящее изобретение будет описано в контексте беспроводного мобильного сеанса речевой связи. Однако оно также применимо к проводному соединению. Во всем следующем описании термины “речь” и “голос” будут использованы как одинаковые. Таким образом, сеанс речевой связи означает передачу голосового/речевого сигнала, по меньшей мере, между двумя терминалами или узлами в телекоммуникационной сети. Допускают, что сеанс речевой связи всегда должен включать в себя две составляющие, а именно составляющую речевого сигнала и составляющую фонового шума. Составляющая речевого сигнала является действительной речевой связью сеанса, которая может быть активной (например, один человек говорит) и неактивной (например, человек молчит между словами или фразами). Составляющая фонового шума является окружающим шумом из среды, окружающей говорящего человека. Этот шум по характеру может быть более или менее стационарным.

Как было упомянуто ранее, одна проблема с сеансами речевой связи состоит в том, как улучшить качество сеанса речевой связи в среде, включающей в себя стационарный фоновый шум или любой шум в этом отношении. В соответствии с известными способами часто используют различные способы сглаживания фонового шума. Однако имеется риск того, что операция сглаживания фактически уменьшит качество или “возможность прослушивания” сеанса речевой связи за счет искажения составляющей речевого сигнала или за счет добавления помех в имеющийся фоновый шум.

В ходе исследований, лежащих в основе настоящего изобретения, было обнаружено, что сглаживание фонового шума является особенно полезным только для определенных фоновых сигналов, таких как шум автомобиля. Для других типов фоновых шумов, таких как гул, шум в офисе, поздняя реакция и т.д., сглаживание фонового шума не обеспечивает ту же степень улучшений качества в синтезированном сигнале и даже может сделать воспроизведение фонового шума неестественным. Дополнительно было обнаружено, что “шумовые свойства” являются подходящим отличительным признаком, означающим, может ли сглаживание фонового шума обеспечить улучшения качества, или нет. Также было обнаружено, что шумовые свойства являются более подходящим признаком, чем стационарность, которая использована в способах предшествующего уровня техники.

Таким образом, главной целью настоящего изобретения является постепенное управление операцией сглаживания стационарного фонового шума на основании показателя шумовых свойств или метрики фонового сигнала. Если в течение речевой неактивности обнаружено, что фоновый сигнал является очень похожим на шум, тогда используют большую степень сглаживания. Если сигнал неактивности является менее похожим на шум, тогда степень сглаживания шума уменьшают или вовсе не выполняют сглаживание. Показатель шумовых свойств предпочтительно получают в кодере и передают в декодер, в котором управление сглаживанием шума зависит от показателя шумовых свойств. Однако он может быть получен в самом декодере.

По существу, со ссылкой на Фиг.2, общий вариант осуществления в соответствии с настоящим изобретением представляет собой способ сглаживания стационарного фонового шума в телекоммуникационном сеансе речевой связи, по меньшей мере, между двумя терминалами в телекоммуникационной системе. Сначала принимают и декодируют S10 сигнал, представляющий сеанс речевой связи, т.е. обмен речевой информацией, по меньшей мере, между двумя мобильными пользователями, причем сигнал может быть описан как включающий в себя как составляющую речевого сигнала, т.е. фактическую речь, и составляющую фонового шума, т.е. окружающие звуки. Для того чтобы сгладить фоновый шум в течение периодов речевой неактивности, показатель шумовых свойств определяют для сеанса речевой связи и предоставляют S20 для сигнала. Показатель шумовых свойств - это величина, показывающая насколько шумной является составляющая стационарного фонового шума. Затем составляющую фонового шума адаптивно сглаживают S30 или модифицируют на основании предоставленного показателя шумовых свойств. В конечном счете, сигнал, представляющий переданный сигнал, синтезируют со сглаженной таким образом составляющей фонового шума, чтобы улучшить качество принятого сигнала.

В соответствии с дополнительным вариантом осуществления изобретения метрика шумовых свойств показывает, насколько сигнал похож на шум или сколько он содержит случайных составляющих. Более конкретно, показатель или метрика шумовых свойств может быть определена и описана в показателях предсказуемости сигнала, где сигналы с сильными случайными составляющими являются плохо предсказуемыми, в то время как сигналы с более слабой случайной составляющей являются более предсказуемыми. Следовательно, такой показатель шумовых свойств может быть определен посредством широко известного выигрыша предсказания LPC, Gp, сигнала, который определен следующим образом:

В уравнении обозначает дисперсию фонового (шума) сигнала, а обозначает дисперсию ошибки предсказания LPC этого сигнала, полученную с помощью анализа LPC порядка p. Вместо дисперсии выигрыш предсказания также может быть определен посредством мощности или энергии. Также известно, что дисперсия ошибки предсказания и последовательность дисперсий ошибки предсказания k = 1,…,p-1, без труда получают как побочные результаты алгоритма Левинсона-Дурбина, который используют для вычисления параметров LPC из последовательности параметров автокорреляции сигнала фонового шума. Обычно выигрыш предсказания выше для сигналов со слабой случайной составляющей, в то же время он ниже для сигналов, похожих на шум.

В соответствии с предпочтительным вариантом осуществления настоящего изобретения подходящую подобную метрику шумовых свойств получают с помощью взятия отношения выигрышей предсказания двух фильтров предсказания LPC с разными порядками p и q, где p>q:

Эта метрика дает указание, насколько увеличивается выигрыш предсказания при увеличении порядка фильтра LTP от q до p. Она дает большое значение, если сигнал имеет низкие шумовые свойства, и значение, близкое к 1, если шумовые свойства являются высокими. Подходящими выборами являются q=2 p=16, хотя также возможны другие значения для порядков LPC.

Следует заметить, что предпочтительно, когда вышеописанную метрику или показатель шумовых свойств определяют или вычисляют на стороне кодера, а затем передают на сторону декодера и предоставляют на стороне декодера. Однако также можно (только с помощью незначительной адаптации) определять или вычислять метрику шумовых свойств на основании фактического принятого сигнала на стороне декодера.

Одно преимущество вычисления метрики на стороне кодера состоит в том, что вычисление может быть основано на неквантованных параметрах LPC и, следовательно, потенциально иметь наилучшее возможное разрешение. Кроме того, вычисление метрики не требует дополнительной вычислительной сложности (как объяснено выше), поскольку требуемые дисперсии ошибки предсказания без труда получают как побочный результат анализа LPC, который обычно выполняют в любом случае. Вычисление метрики в кодере требует, чтобы метрика затем была квантована и чтобы закодированное представление квантованной метрики было передано в декодер, где ее используют для управления сглаживанием фонового шума. Передача параметра шумовых свойств требует некоторой скорости передачи данных, например, 5 бит в кадр длиной 20 ms и, следовательно, 250 бит/с, что может выглядеть как недостаток. Однако учитывая то, что параметр шумовых свойств требуется только в течение периодов речевой неактивности, можно в соответствии со специальным вариантом осуществления пропустить эту передачу в течение активного речевого сигнала и передавать его только в течение неактивности, при которой обычно эта скорость передачи данных может быть доступной, поскольку кодек не требует ту же самую скорость передачи данных, что и в течение активного речевого сигнала. Подобным образом, учитывая специальный случай речевого кодека, который кодирует не звонкие звуки речи и звуки неактивности с помощью некоторого определенного низкоскоростного режима, также можно предоставить возможность этой дополнительной скорости передачи данных без дополнительных затрат.

Однако, как уже было упомянуто, можно получить показатель шумовых свойств на стороне декодера на основании принятых и декодированных параметров LPC. Эти широко известные процедуры увеличения/уменьшения предоставляют способ для вычисления последовательности дисперсий ошибки предсказания из принятых параметров LPC, которые, в свою очередь, как было объяснено выше, могут быть использованы для того, чтобы вычислить показатель шумовых свойств.

Следует подчеркнуть, что в соответствии с экспериментальными результатами показатель шумовых свойств настоящего изобретения является очень выгодным в сочетании со специальным способом сглаживания фонового шума, с которым он быть объединен в исследовании. Однако в сочетании с другими методами противодействия завихрению может быть выгодным объединить этот показатель с показателями стационарности, которые известны из уровня техники. Одним из таких показателей, с которым может быть объединен показатель шумовых свойств, является метрика подобия параметра LPC. Эта метрика оценивает параметры LPC двух последовательных кадров, например, посредством евклидового расстояния между соответствующими векторами параметра LPC, такими как, например, параметры LSF. Эта метрика приводит к большим значениям, если последовательные векторы параметра LPC являются очень разными, и, следовательно, может быть использована как указание стационарности сигнала.

Также следует заметить, что кроме вышеупомянутого концептуального различия между “шумовыми свойствами” настоящего изобретения и “стационарностью” методов уровня техники имеется, по меньшей мере, одно важное отличие между этими показателями. А именно, вычисление стационарности включает в себя получение, по меньшей мере, текущего параметра текущего кадра и получение отношения его, по меньшей мере, к предыдущему параметру некоторого предыдущего кадра. Напротив, шумовые свойства могут быть вычислены как мгновенный показатель в текущем кадре без какого-либо знания некоторого более раннего кадра. Выгодой является то, что может быть сэкономлена память для запоминания состояния из предыдущего кадра.

Следующие варианты осуществления описывают способы, в которых можно управлять способами противодействия завихрению на основании предоставленной оценки шумовых свойств. Допускается, что операцией сглаживания управляют посредством управляющих коэффициентов и, что без ограничения общности, управляющий коэффициент, равный 1, означает отсутствие операции сглаживания, в то время как коэффициент, равный 0, означает сглаживание с максимально возможной степенью.

В соответствии с основным вариантом осуществления предоставленный показатель шумовых свойств непосредственно управляет степенью сглаживания, которую применяют в течение декодирования сигнала фонового шума. Допускается, что степенью сглаживания управляют посредством параметра . Затем, например, можно преобразовать показатель шумовых свойств из вышеупомянутого в в соответствии со следующим иллюстративным выражением

γ=Q{(метрика-1)·µ}+ν (3)

Подходящий выбор для ν равен 0,5, а для значения µ - между 0,5 и 2. Также следует заметить, что Q{.} обозначает оператор квантования, который также выполняет ограничение диапазона чисел, такого, что управляющие коэффициенты не могут превышать 1. Дополнительно следует заметить, что предпочтительно коэффициент µ выбирают в зависимости от спектрального содержания входного сигнала. В частности, если кодек является широкополосным кодеком, работающим со скоростью выборки 16 кГц, а входной сигнал имеет широкополосный спектр (0-7 кГц), тогда метрика приведет к относительно меньшим значениям, чем в случае, когда входной сигнал имеет узкополосный спектр (0-3400 Гц). Для того чтобы компенсировать этот эффект, µ должно быть больше для широкополосного содержания, чем для узкополосного содержания. Подходящим выбором является µ=2 для широкополосного содержания и µ=0,5 для узкополосного содержания. Однако возможны другие значения в зависимости от конкретной ситуации. Таким образом, степень операции сглаживания может быть конкретно откалибрована посредством параметра µ в зависимости от того, содержит ли сигнал широкополосное содержание или узкополосное содержание.

Один важный аспект, влияющий на качество восстановленного сигнала фонового шума, состоит в том, что метрика шумовых свойств в течение периодов неактивности может изменяться очень быстро. Если вышеупомянутую меру шумовых свойств используют для того, чтобы непосредственно управлять сглаживанием фонового шума, это может внести нежелательные флуктуации сигнала. В соответствии с дополнительным предпочтительным вариантом осуществления изобретения, со ссылкой на Фиг.3, показатель шумовых свойств используют не для прямого управления сглаживанием фонового шума, а для косвенного управления. Одно

Способ и устройство для управления сглаживанием стационарного фонового шума

Патент 2469419