Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов

Иллюстрации

Показать все

Настоящее изобретение относится к обнаружению звуковой активности, оценке фоновых шумов и классификации звуковых сигналов, где под звуком понимается полезный сигнал. Техническим результатом является улучшение производительности обнаружения звуковой активности в присутствии музыкальных сигналов, а также улучшение распознавания невокализованных звуков и музыки. Указанный результат достигается тем, что в способе оценки тональности звукового сигнала выполняют вычисление текущего остаточного спектра звукового сигнала, обнаружение пиков в текущем остаточном спектре, вычисление карты корреляции между текущим остаточным спектром и предыдущим остаточным спектром для каждого обнаруженного пика, вычисление долгосрочной карты корреляции на основе вычисленной карты корреляции. При этом долгосрочная карта корреляции характеризует тональность звукового сигнала. 12 н. и 54 з.п. ф-лы, 6 ил.

Реферат

Область технического применения

Настоящее изобретение относится к обнаружению звуковой активности, оценке фоновых шумов и классификации звуковых сигналов, где под звуком понимается полезный сигнал. Настоящее изобретение также относится к соответствующим детектору звуковой активности, эстиматору фонового шума и классификатору звуковых сигналов.

В частности, но не исключительно:

- обнаружение звуковой активности используется при выборе кадров для кодирования с использованием технологий, оптимизированных для неактивных кадров;

- классификатор звуковых сигналов используется для распознавания речевых сигналов различных классов и музыки, что позволяет осуществлять более эффективное кодирование звуковых сигналов, т.е. кодирование, оптимизированное для сигналов невокализованной речи и стабильной вокализованной речи, а также обобщенного кодирования других звуковых сигналов;

- предложен алгоритм, использующий несколько релевантных параметров и особенностей для улучшения выбора режима кодирования и более устойчивой оценки фонового шума;

- оценка тональности используется для улучшения производительности обнаружения звуковой активности в присутствии музыкальных сигналов, а также для лучшего распознавания невокализованных звуков и музыки. Например, оценка тональности может использоваться в сверхширокополосном кодеке для принятия решения о кодировании моделью кодека сигнала с частотой выше 7 кГц.

Предпосылки изобретения

В последнее время в различных областях применения, таких как конференц-связь, мультимедиа и беспроводная связь, возрастает потребность в эффективных цифровых узкополосных и широкополосных технологиях кодирования речевого сигнала с хорошим компромиссом между субъективным качеством и скоростью передачи битовых данных (битрейтом). До последнего времени диапазон частот телефонной связи, ограниченный 200-3400 Гц, в основном использовался для приложений, кодирующих речевой сигнал (дискретизация сигнала на частоте 8 кГц). Однако широкополосные речевые приложения, в сравнении с традиционным диапазоном частот телефонной связи, обеспечивают повышенную разборчивость и естественность передачи информации. В широкополосных средствах связи входной сигнал дискретизируется на частоте 16 кГц, а диапазон кодированных частот находится в пределах 50-7000 Гц. Установлено, что этот частотный диапазон является достаточным для обеспечения хорошего качества, давая впечатление общения практически лицом к лицу. Дальнейшее улучшение качества достигается при использовании так называемых сверхширокополосных технологий, где сигнал дискретизируется на частоте 32 кГц, а диапазон кодированных частот находится в пределах 50―15000 Гц. Поскольку практически вся энергия человеческой речи находится ниже 14000 Гц, для голосовых сигналов обеспечивается качество общения лицом к лицу. Данный частотный диапазон также обеспечивает значительное улучшение качества для аудиосигналов в целом, включая музыку (широкополосный частотный диапазон эквивалентен АМ-радиовещанию, сверхширокополосный - FM-радиовещанию). Более высокий частотный диапазон используется для аудиосигналов полного диапазона 20-20000 Гц (CD-качество с дискретизацией на частоте 44,1 кГц или 48 кГц).

Кодировщик звукового сигнала преобразует звуковой сигнал (голосовой или аудиосигнал) в цифровой поток, который передается через канал связи или хранится на информационном носителе. Звуковой сигнал оцифровывается, т.е. дискретизируется и кодируется, обычно 16 битами на каждое значение. Кодировщик звука представляет данные цифровые значения в виде минимального количества битов, при котором сохраняется хорошее субъективное качество. Декодер звука оперирует с переданным или сохраненным цифровым потоком, преобразуя его обратно в звуковой сигнал.

Технология кодирования Кодовое линейное предсказание (CELP) является одной из лучших среди предложенных ранее для достижения компромисса между субъективным качеством и скоростью передачи битовых данных. Данная технология лежит в основе нескольких стандартов кодирования речи как в беспроводных, так и проводных приложениях. При кодировании методом CELP дискретизированный речевой сигнал обрабатывается в виде последовательных блоков из L значений, обычно называемых кадрами, где L - заранее заданное число, соответствующее обычно 10-30 мс. Вычисляется фильтр с линейным предсказанием (ЛП) и передается каждый кадр. Кадр из L значений разбивается на меньшие блоки, называемые подкадрами. В каждом подкадре сигнал возбуждения обычно получается из двух компонент, компоненты прошлого возбуждения и прогрессивной компоненты, возбуждения с фиксированным словарем кодов. Компонента, полученная из прошлого возбуждения, часто называется адаптивным словарем кодов или возбуждением основного тона. Параметры, характеризующие сигнал возбуждения, кодируются и передаются в декодер, где реконструированный сигнал возбуждения используется в фильтре ЛП в качестве входного.

Использование кодирования речи с зависящей от источника переменной скоростью передачи битовых данных (VBR) существенно улучшает производительность системы. В зависящем от источника VBR-кодировании кодек использует модуль классификации сигналов, а для кодирования каждого речевого кадра на основе его сущности (например, вокализованной, невокализованной, промежуточной, фонового шума) используется оптимизированная модель кодирования. Кроме того, для каждого из классов могут использоваться различные скорости передачи битовых данных. Простейший способ зависящего от источника VBR-кодирования - обнаружение активности речи (VAD) и кодирование неактивных речевых кадров (фонового шума) с очень низкой скоростью передачи битовых данных. Кроме того, в отсутствие передачи данных (устойчивого фонового шума) возможно использование прерывистой передачи (DTX). Для генерирования фоновых шумовых характеристик декодер может использовать генерацию комфортного шума (CNG). Применение VAD/DTX/CNG приводит к значительному снижению средней скорости передачи битовых данных, а также, в приложениях с коммутацией пакетов, значительно снижает количество трассируемых пакетов. Алгоритмы VAD хорошо применимы к речевым сигналам, однако в случае музыкальных сигналов они могут привести к значительным трудностям. Фрагменты музыкальных сигналов могут быть классифицированы как невокализованные сигналы и соответственно кодироваться по оптимизированной для невокализованных сигналов модели, которая чрезвычайно отрицательно влияет на качество музыки. Кроме того, некоторые фрагменты устойчивых музыкальных сигналов могут быть классифицированы как устойчивый фоновый шум, что запустит модификацию фонового шума по алгоритму VAD и приведет к снижению производительности алгоритма. Поэтому было бы полезным расширение алгоритма VAD для лучшего распознавания музыкальных сигналов. В предыдущем раскрытии данный алгоритм носил название алгоритма выявления звуковой активности (SAD), где звук мог представлять из себя речь, музыку или любой другой полезный сигнал. В настоящем раскрытии также описан способ использования обнаружения тональности для улучшения производительности алгоритма SAD для случая музыкальных сигналов.

Другой подход к кодированию речевых и аудиосигналов заключается в концепции встраиваемого кодирования, также известной как многоуровневое кодирование. В многоуровневом кодировании сигнал кодируется на первом уровне с образованием первого цифрового потока. Затем расхождение между оригинальным сигналом и кодированным сигналом первого уровня кодируется, образуя второй цифровой поток. Кодируя различие между оригинальным сигналом и кодированным сигналом со всех предшествующих уровней, можно получать новые уровни. Для передачи цифровые потоки со всех уровней соединяются. Преимуществом многоуровневого кодирования является то, что части цифрового потока (соответствующие верхним уровням) могут быть потеряны в сети (например, в результате перегрузки), однако при этом сохраняется возможность декодирования сигнала в приемнике в зависимости от количества полученных уровней. Многоуровневое кодирование также пригодно для многоадресных приложений, где кодировщик генерирует цифровой поток от всех уровней, а сеть принимает решение об отсылке разных скоростей передачи битовых данных в разные конечные точки в зависимости от доступности скорости передачи битовых данных каждого из каналов связи.

Встраиваемое или многоуровневое кодирование также может быть применимо для улучшения качества существующих широко используемых кодеков, поддерживая функциональную совместимость с этими кодеками. Добавление новых уровней к базовому уровню кодека может привести к улучшению качества и даже увеличить частотный диапазон кодированного аудиосигнала. Примером является недавно стандартизированная рекомендация сектора электросвязи МСЭ G.729.1, где основной уровень функционально совместим с широко используемым широкополосным стандартом 8 кбит/с G.729, а верхние уровни генерируют скорости передачи битовых данных до 32 кбит/с (с широкополосным сигналом, начиная от 16 кбит/с). Текущие работы по стандартизации имеют целью добавление большего количества уровней для создания сверхширокополосного кодека (частотный диапазон 14 кГц) и стереорасширений. Другой пример - рекомендация сектора электросвязи МСЭ G.718 для кодирования широкополосных сигналов 8, 12, 16, 24 и 32 кбит/с. Данный кодек также расширен для кодирования сверхширокополосных и стереосигналов на более высоких скоростях передачи битовых данных.

Требования к встраиваемым кодекам обычно заключаются в хорошем качестве речевых и аудиосигналов. Поскольку речь может кодироваться на относительно невысоких скоростях передачи битовых данных с использованием приближения на основе модели, первый уровень (или первые два уровня) кодируется (кодируются) с использованием технологий, специфичных для кодирования речи, а сигнал рассогласования для верхних уровней кодируется с использованием обобщенных технологий кодирования аудиоинформации. Это обеспечивает хорошее качество речи на низких скоростях передачи битовых данных и хорошее качество аудио при повышении скоростей передачи битовых данных. В рекомендациях G.718 и G.729.1 первые два уровня основаны на технологии ACELP (алгебраическое кодовое линейное предсказание), пригодной для кодирования речевых сигналов. На верхних уровнях для кодирования сигнала рассогласования (разницы между исходным сигналом и выходным сигналом с первых двух уровней) используется кодирование на основе преобразования, пригодное для аудиосигналов. Для преобразования сигнала рассогласования в частотную область используется хорошо известное модифицированное дискретное косинусное преобразование (MDCT). На сверхширокополосных уровнях сигналы выше 7 кГц кодируются с использованием обобщенной модели кодирования или модели тонального кодирования. Для выбора наиболее подходящей модели кодирования также может быть использовано вышеупомянутое обнаружение тональности.

Краткое описание изобретения

Согласно первой особенности настоящего изобретения, изобретение предусматривает способ оценки тональности звукового сигнала, который включает в себя вычисление текущего остаточного спектра звукового сигнала; обнаружение пиков в текущем остаточном спектре; вычисление карты корреляции между текущим остаточным спектром и предыдущим остаточным спектром для каждого обнаруженного пика; вычисление на основе вычисленной карты корреляции долгосрочной карты корреляции, являющейся признаком тональности звукового сигнала.

Согласно второй особенности настоящего изобретения, изобретение предусматривает устройство для оценки тональности звукового сигнала, которое включает в себя средства вычисления текущего остаточного спектра звукового сигнала; средства обнаружения пиков в текущем остаточном спектре; средства вычисления карты корреляции между текущим остаточным спектром и предыдущим остаточным спектром для каждого обнаруженного пика; средства вычисления на основе вычисленной карты корреляции долгосрочной карты корреляции, являющейся признаком тональности звукового сигнала.

Согласно третьей особенности настоящего изобретения, изобретение предусматривает устройство для оценки тональности звукового сигнала, которое включает в себя вычислитель текущего остаточного спектра звукового сигнала; детектор пиков в текущем остаточном спектре; вычислитель карты корреляции между текущим остаточным спектром и предыдущим остаточным спектром для каждого обнаруженного пика; вычислитель на основе вычисленной карты корреляции долгосрочной карты корреляции, являющейся признаком тональности звукового сигнала.

Вышеперечисленные цели, преимущества и особенности настоящего изобретения станут яснее при ознакомлении с нижеследующим неограничивающим описанием иллюстративного варианта осуществления изобретения, данного исключительно в качестве примера с отсылкой к прилагаемым иллюстрациям.

Краткое описание графических материалов

Фиг.1 - блок-схема части примера системы звуковой связи, включающей обнаружение звуковой активности, модификацию оценки фонового шума и классификацию звуковых сигналов.

Фиг.2 - неограничивающая иллюстрация обработки методом окна в спектральном анализе.

Фиг.3 - неограничивающая графическая иллюстрация принципа вычисления спектрального дна.

Фиг.4 - неограничивающая иллюстрация вычисления карты спектральной корреляции в текущем кадре.

Фиг.5 - пример функциональной блок-схемы алгоритма классификации сигналов.

Фиг.6 - пример дерева решений для распознавания невокализованной речи.

Подробное описание изобретения

В неограничительном иллюстративном варианте осуществления настоящего изобретения обнаружение звуковой активности (SAD) осуществляется в системе звуковой связи для классификации кратковременных кадров сигналов звука или фонового шума/тишины. Обнаружение звуковой активности основано на частотно-зависимом отношении сигнал/шум (SNR) и использует оценку энергии фонового шума на критическую полосу. Принятие решения о модификации оценки фонового шума основывается на нескольких параметрах, включающих параметры, различающие фоновый шум/тишину и музыку, и предотвращающих таким образом модификацию оценки фонового шума на музыкальных сигналах.

SAD соответствует первому этапу классификации сигналов, используемому с целью распознавания неактивных кадров для оптимизированного кодирования неактивного сигнала. На втором этапе с целью оптимизированного кодирования невокализованного сигнала распознаются невокализованные речевые кадры. Также на втором этапе, во избежание классификации музыки как невокализованного сигнала, добавляется обнаружение музыки. На третьей стадии вокализованные сигналы распознаются через дальнейшее изучение параметров кадра.

Раскрытые здесь технологии могут употребляться как с узкополосными (УП) звуковыми сигналами, дискретизированными на частоте 8000 значений/с, так и с широкополосными (ШП) звуковыми сигналами, дискретизированными на частоте 16000 значений/с, или на любой другой частоте дискретизации. Кодировщик, используемый в неограничительном иллюстративном варианте осуществления настоящего изобретения, основан на кодеках AMR-WB (широкополосный речевой кодек AMR) [AMR Wideband Speech Codec: Transcoding Functions, 3GPP Technical Specification TS 26.190 (http://www.3gpp.org)] и VMR-WB (зависимый от источника многорежимный широкополосный речевой кодек с переменной скоростью передачи битовых данных) [Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service Options 62 и 63 для Spread Spectrum Systems, 3GPP2 Technical Specification C.S0052-A v1.0, апрель 2005 г. (http://www.3gpp2.org)], которые используют внутреннее преобразование дискретизации для преобразования частоты дискретизации сигнала к 12800 значений/с (функционирует в частотном диапазоне 6,4 кГц). Таким образом, технология обнаружения звуковой активности является неограничительным иллюстративным вариантом осуществления изобретения, функционирующим после преобразования к 12,8 кГц как на узкополосных, так и на широкополосных сигналах.

На фиг.1 приведена блок-схема системы звуковой связи 100 согласно неограничительному иллюстративному варианту осуществления изобретения, который включает в себя обнаружение звуковой активности.

Система звуковой связи 100 (фиг.1) включает в себя препроцессор 101. Предварительная обработка в модуле 101 может осуществляться, как описано в нижеследующем примере (фильтрация верхних частот, передискретизация, предыскажения).

Перед преобразованием частоты входной звуковой сигнал подвергается фильтрации верхних частот. В данном неограничительном иллюстративном варианте осуществления изобретения частота среза фильтра верхних частот составляет 25 Гц для ШП и 100 Гц для УП. Фильтр верхних частот выступает в качестве меры предосторожности от низкочастотных составляющих. Например, может быть использована следующая функция преобразования:

где для ШП: b 0=0,9930820, b 1 =-1,98616407, b 2=0,9930820, a 1=-1,9861162, a 2=0,9862119292; для УП: b 0=0,945976856, b 1=-1,891953712, b 2 =0,945976856, a 1=-1,889033079, a 2=0,894874345. Разумеется, фильтрация высоких частот может осуществляться и после редискретизации на 12,8 кГц.

В случае ШП, входной звуковой сигнал прореживается от 16 кГц до 12,8 кГц. Прореживание осуществляется при помощи повышающего дискретизатора, который осуществляет повышающую дискретизацию звукового сигнала на 4. Результирующий выходной сигнал затем фильтруется через фильтр низких КИХ (конечных импульсных характеристик) с частотой среза 6,4 кГц. Затем сигнал, подвергнутый фильтрации нижних частот, подвергается понижающей дискретизации на 5 при помощи подходящего понижающего дискретизатора. Задержка фильтрации на частоте дискретизации 16 кГц составляет 15 значений.

В случае УП, звуковой сигнал подвергается повышающей дискретизации от 8 кГц до 12,8 кГц. Для этой цели повышающий дискретизатор осуществляет повышающую дискретизацию звукового сигнала на 8. Результирующий звуковой сигнал фильтруется через фильтр низких КИХ с частотой среза 6,4 кГц. Затем понижающий дискретизатор осуществляет понижающую дискретизацию сигнала, подвергнутого фильтрации нижних частот, на 5. Задержка фильтрации на частоте дискретизации 8 кГц составляет 16 значений.

После преобразования дискретизации перед процессом кодирования звуковой сигнал подвергается предыскажению. В ходе предыскажения для введения предыскажений высоких частот используется фильтр верхних частот первого порядка, который образует предысказитель и использует, например, следующую функцию преобразования:

.

Предыскажение используется для того, чтобы улучшить производительность кодека на высоких частотах и перцепционное взвешивание в процессе минимизации рассогласования, используемой в кодировщике.

Как было описано выше, входной звуковой сигнал преобразуется к частоте дискретизации 12,8 кГц и подвергается предварительной обработке, пример которой также приведен выше. Однако раскрытая технология может таким же образом быть применена к сигналам с другими частотами дискретизации, например 8 кГц или 16 кГц, с другой предварительной обработкой или без предварительной обработки.

В неограничительном иллюстративном варианте осуществления настоящего изобретения кодировщик 109 (фиг.1), использующий обнаружение звуковой активности, функционирует на кадрах по 20 мс, содержащих 256 значений с частотой дискретизации 12,8 кГц. Кроме того, кодировщик 109 использует 10 мс предварительный вид следующего кадра для его анализа (фиг.2). Обнаружение звуковой активности следует той же структуре кадров.

Спектральный анализ согласно фиг.1 производится в анализаторе 102 спектра. В каждом кадре производится два анализа с использованием 20 мс окон с 50% перекрыванием. Принцип обработки методом окна проиллюстрирован на фиг.2. Энергия сигнала вычисляется для элементов разрешения по частоте и критических полос [J. D. Johnston, "Transform coding of audio signal using perceptual noise criteria," IEEE J. Select. Areas Commun., vol. 6, pp. 314-323, февраль 1988 г.].

Обнаружение звуковой активности (первый этап классификации сигнала) осуществляется в детекторе 103 звуковой активности с использованием оценок энергии шума, вычисленных в предыдущем кадре. Выводной сигнал детектора 103 звуковой активности представляет собой двоичную переменную, которая затем используется кодировщиком 109 и определяет кодирование текущего кадра как активного или неактивного.

Эстиматор 104 шума осуществляет нисходящую модификацию оценки шума (первый уровень оценки и модификации шума), т.е. если в критической полосе энергия кадра меньше, чем оценка энергии фонового шума, энергия оценки шума модифицируется в этой критической полосе.

В случае необходимости, к речевому сигналу прилагается шумоподавление посредством необязательного шумоподавителя 105, использующего, например, метод вычитания спектров. Пример такого шумоподавления описан в работе [M. Jelinek и R. Salami, "Noise Reduction Method for Wideband Speech Coding," in Proc. Eusipco, Vienna, Austria, сентябрь 2004 г.].

Анализ линейного предсказания (ЛП) и анализ основного тона с разомкнутой петлей осуществляются (обычно как часть алгоритма кодирования речи) ЛП-анализатором и следящим фильтром высоты тона 106. В данном неограничительном иллюстративном варианте осуществления изобретения параметры, полученные из ЛП-анализатора и следящего фильтра высоты тона 106, используются для принятия решения о модификации оценки шума в критических полосах, что производится в модуле 107. В качестве альтернативы, для принятия решения о модификации шума может использоваться детектор 103 звуковой активности. В качестве дополнительной альтернативы, функции, осуществляемые ЛП-анализатором и следящим фильтром высоты тона 106, могут являться составляющими алгоритма кодирования звука.

Перед модификацией оценок энергии шума в модуле 107 для предотвращения ложной модификации активных музыкальных сигналов осуществляется обнаружение музыки. Обнаружение музыки использует спектральные параметры, вычисленные анализатором 102 спектра.

В конечном итоге, оценки энергии шума модифицируются в модуле 107 (второй уровень оценки и модификации шума). Для принятия решения о модификации оценок энергии шума модуль 107 использует все доступные параметры, вычисленные в модулях 102-106.

В классификаторе 108 сигналов звуковой сигнал дополнительно классифицируется как невокализованный, устойчиво вокализованный или обобщенный. Для обеспечения принятия этого решения вычисляется несколько параметров. Режим кодирования звукового сигнала текущего кадра в классификаторе сигналов выбирается для наилучшего представления класса сигнала, который кодируется.

Кодировщик 109 сигнала осуществляет кодирование звукового сигнала на основе режима кодирования, который выбирается в классификаторе 108 сигналов. В других приложениях классификатором 108 сигналов может выступать автоматическая система распознавания речи.

Спектральный анализ

Спектральный анализ осуществляется спектральным анализатором 102 (фиг.1).

Для осуществления спектрального анализа и оценки энергии спектра используется преобразование Фурье. Спектральный анализ каждого кадра осуществляется дважды с использованием быстрого преобразование Фурье (БПФ) по 256 точкам с 50% перекрыванием (как показано на фиг.2). Окна анализа расположены таким образом, чтобы задействовать весь предварительный вид. Начало первого окна находится в начале текущего кадра кодировщика. Второе окно находится на 128 значений дальше. Для взвешивания входного звукового сигнала для спектрального анализа используется окно квадратных корней Хеннинга (которое эквивалентно окну синусов). Это окно особенно хорошо подходит для методов сложения с перекрытием (так, именно этот спектральный анализ используется в шумоподавлении, основанном на вычитании спектров и анализе/синтезе сложения с перекрытием). Окно квадратных корней Хеннинга задано следующим образом:

где L FFT=256 ― объем БПФ. Поскольку данное окно симметрично, вычисляется и сохраняется только половина окна (от 0 до L FFT/2).

Сигналы, обработанные методом окна, для обоих спектральных анализов (первого и второго спектрального анализа) получены с использованием следующих соотношений:

где s'(0) - первое значение в текущем кадре. В неограничивающем иллюстративном примере осуществления настоящего изобретения начало первого окна расположено в начале текущего кадра. Второе окно расположено 128 значениями дальше.

БПФ осуществляется на обоих сигналах, обработанных методом окна, давая для каждого кадра два набора спектральных параметров:

где N=L FFT.

БПФ дает вещественную и мнимую части спектра, обозначенные как X R (k), k=0-128, и X I (k), k=1-127. X R (0) соответствует спектру при 0 Гц (постоянная составляющая), X R (128) соответствует спектру при 6400 Гц. В этих точках спектр имеет только вещественные значения.

Спектр, полученный после анализа БПФ, разделяется на критические полосы с использованием интервалов, имеющих следующие верхние пределы [M. Jelinek и R. Salami, "Noise Reduction Method for Wideband Speech Coding," in Proc. Eusipco, Vienna, Austria, сентябрь 2004 г.] (20 полос в диапазоне частот 0-6400 Гц):

Критические полосы = {100,0, 200,0, 300,0, 400,0, 510,0, 630,0, 770,0, 920,0, 1080,0, 1270,0, 1480,0, 1720,0, 2000,0, 2320,0, 2700.0, 3150,0, 3700,0, 4400,0, 5300,0, 6350,0} Гц.

БПФ на 256 точках приводит к разрешающей способности по частоте 50 Гц (6400/128). Поэтому после пропуска постоянной составляющей спектра количество элементов разрешения по частоте для каждой критической полосы M CB={2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 8, 9, 11, 14, 18, 21} соответственно.

Средняя энергия в критической полосе вычисляется по следующему соотношению:

где XR(k) и XI(k) - соответственно, вещественная и мнимая части k элемента разрешения по частоте, а ji - индекс первого элемента разрешения по частоте в i критической полосе, который задан как j i={1, 3, 5, 7, 9, 11, 13, 16, 19, 22, 26, 30, 35, 41, 47, 55, 64, 75, 89, 107}.

Также спектральный анализатор 102 вычисляет нормированную энергию на элемент разрешения по частоте E BIN (k) в интервале 0-6400 Гц, используя для этого соотношение

Кроме того, энергии спектра на элемент разрешения по частоте в обоих анализах объединяются, давая среднюю log-энергию спектра (в децибелах), т.е.

где верхние индексы (1) и (2) используются для указания первого и второго спектральных анализов соответственно.

В конечном итоге, анализатор 102 спектра вычисляет среднюю полную энергию для обоих, первого и второго, спектральных анализов в 20 мс кадре путем добавления средних энергий критических полос E CB. Таким образом, энергия спектра для определенного спектрального анализа вычисляется по следующему соотношению:

(5)

а полная энергия кадра вычисляется как среднее энергий спектра для первого и второго спектральных анализов кадра:

, дБ (6)

Выводные параметры анализатора 102 спектра - средняя энергия на критическую полосу, энергия на элемент разрешения по частоте и полная энергия - используются в детекторе 103 звуковой активности. Средняя log-энергия спектра используется при обнаружении музыки.

В узкополосных вводных сигналах, дискретизированных на 8000 значений/с, после преобразования дискретизации в 12800 значений/с, содержимое на обоих концах спектра отсутствует, поэтому при вычислении релевантных параметров первая низкочастотная критическая полоса и три последние высокочастотные критические полосы не учитываются (учитываются только полосы i=1―16), что, однако, не оказывает влияния на уравнения (3) и (4).

Обнаружение звуковой активности (SAD)

Обнаружение звуковой активности осуществляется при помощи детектора 103 звуковой активности на основе отношения сигнал/шум (фиг.1).

Спектральный анализ, описанный выше, осуществляется анализатором 102 дважды для каждого кадра. Пусть вычисленные по уравнению (2), обозначают информацию об энергии на критическую полосу в первом и втором спектральных анализах соответственно. Средняя энергия на критическую полосу для всего кадра и части предыдущего кадра вычисляется по следующему соотношению:

(7)

где - информация об энергии на критическую полосу из второго спектрального анализа для предыдущего кадра. Тогда отношение сигнал/шум для каждой критической полосы вычисляется по следующему соотношению:

с ограничением (8)

где - оценка энергии шума на критическую полосу, как будет разъяснено ниже. Тогда среднее отношение сигнал/шум для каждого кадра вычисляется следующим образом:

(9)

где и для широкополосных сигналов, и - для узкополосных сигналов.

Звуковая активность обнаруживается путем сопоставления средних отношений сигнал/шум для каждого кадра с определенным порогом, являющимся функцией долгосрочного отношения сигнал/шум, которое задается следующим соотношением:

(10)

где и вычисляются по уравнениям (13) и (14) соответственно, как будет описано ниже. Исходное значение составляет 45 дБ.

Порог является кусочно-линейной функцией долгосрочного отношения сигнал/шум. Используются две функции, одна из них описывает четкий речевой сигнал, а вторая - речевой сигнал, искаженный шумами.

Для широкополосных сигналов, если SNR LT<35 (речевой сигнал, искаженный шумами), пороговая величина равна

иначе (четкий речевой сигнал):

Для узкополосных сигналов, если SNR LT<20 (речевой сигнал, искаженный шумами), пороговая величина равна

иначе (четкий речевой сигнал)

Кроме того, в алгоритм принятия решения об обнаружении звуковой активности (SAD) для предотвращения частых переключений в конце активного звукового периода добавлен гистерезис. Стратегия гистерезиса отличается для широкополосных и узкополосных сигналов и вступает в действие только в случае сигнала, искаженного шумами.

Для широкополосных сигналов стратегия гистерезиса применяется в тех случаях, когда кадр находится в "периоде затягивания", длительность которого изменяется в зависимости от долгосрочного отношения сигнал/шум:

, если

, если

, если

Период затягивания начинается в первом неактивном звуковом кадре после трех (3) последовательных активных звуковых кадров. Его назначение заключается в форсировании каждого неактивного кадра в течение периода затягивания как активного кадра. Принятие решения SAD будет разъяснено ниже.

Для узкополосных сигналов стратегия гистерезиса заключается в снижении порога принятия решения SAD

, если

, если

, если

Таким образом, для сигналов, искаженных шумами с низким отношением сигнал/шум, пороговое значение становится ниже, отдавая предпочтение при принятии решения активным сигналам. Для узкополосных сигналов затягивание отсутствует.

В конечном итоге детектор 103 звуковой активности имеет два выходных сигнала - флаг SAD и локальный флаг SAD. Если обнаруживается активный сигнал, обоим флагам присваивается значение 1, иначе - 0. Кроме того, флагу SAD присваивается значение 1 в периоде затягивания. Решение SAD принимается путем сопоставления среднего отношения сигнал/шум для каждого кадра с порогом принятия решения SAD (например, при помощи компаратора):

если

иначе

если в периоде затягивания

иначе

конец

конец.

Первый уровень оценки и модификации шума

Эстиматор 104 шума, показанный на фиг.1, вычисляет полную энергию шума, относительную энергию кадра, а также модифицирует долгосрочную среднюю энергию шума, долгосрочную среднюю энергию кадра, среднюю энергию на критическую полосу и коэффициент коррекции шума. Кроме того, эстиматор 104 шума осуществляет присвоение исходных значений и нисходящую модификацию энергии шума.

Полная энергия шума для каждого кадра вычисляется по следующему соотношению:

(11)

где - оценка энергии шума на критическую полосу.

Относительная энергия кадра определяется по разности между энергией кадра в дБ и долгосрочной средней энергией. Относительная энергия кадра вычисляется по следующему соотношению:

(12)

где E t определяется из уравнения (6).

Долгосрочная средняя энергия шума или долгосрочная средняя энергия кадра модифицируется в каждом кадре. В случае активных кадров сигнала (флаг SAD=1), долгосрочная средняя энергия кадра модифицируется с использованием соотношения