2470385 - Система и способ улучшения декодированного тонального звукового сигнала

Система и способ улучшения декодированного тонального звукового сигнала

Иллюстрации

Показать все

Изобретение относится к системе и способу улучшения декодированного тонального звукового сигнала, в частности музыкального сигнала, закодированного с использованием речевого кодека, посредством подавления уровня шума квантования в областях спектра, в которых наблюдается малая энергия. Техническим результатом является улучшение декодированного тонального звукового сигнала, например музыкального сигнала. Указанный результат достигается тем, что в системе улучшения тонального звукового сигнала, декодированного декодером речевого кодека в ответ на принятый закодированный поток битов, спектральный анализатор реагирует на декодированный тональный звуковой сигнал для выработки спектральных параметров, характеризующих декодированный тональный звуковой сигнал. Спектральные параметры содержат спектральную энергию, рассчитываемую спектральным анализатором в кадре декодированного тонального звукового сигнала. Классификатор декодированного тонального звукового сигнала на множество разных категорий звукового сигнала содержит искатель отклонения вариации рассчитанной спектральной энергии кадра по множеству предыдущих кадров декодированного тонального звукового сигнала. Подавитель шума квантования уменьшает шум квантования в спектральных областях малых энергий декодированного тонального звукового сигнала в ответ на спектральные параметры из спектрального анализатора и классификацию декодированного тонального звукового сигнала на множество разных категорий звукового сигнала. 2 н. и 24 з.п. ф-лы, 6 ил., 1 табл.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение относится к системе и способу улучшения декодированного тонального звукового сигнала, например, такого аудиосигнала, как музыкальный сигнал, закодированный с использованием специального речевого кодека. С этой целью система и способ подавляют уровень шума квантования в областях спектра, в которых наблюдается малая энергия.

Уровень техники

Спрос на эффективные методики цифрового кодирования речи и аудио с хорошим компромиссом между субъективным качеством и скоростью передачи битов увеличивается в различных прикладных областях, таких как телеконференцсвязь, мультимедиа и беспроводная связь.

Речевой кодер конвертирует речевой сигнал в цифровой поток битов, который передают по каналу связи или хранят на носителе информации. Речевой сигнал оцифровывают, то есть производят выборку и квантуют обычно с помощью 16 битов для каждой выборки. Роль речевого кодера заключается в представлении цифровых выборок с помощью меньшего количества битов при сохранении хорошего субъективного качества речи. Речевой декодер или синтезатор оперирует передаваемым или хранимым потоком битов и конвертирует его обратно в звуковой сигнал.

Линейное предсказание с кодовым возбуждением (CELP) является одной из лучших методик предшествующего уровня техники для достижения хорошего компромисса между субъективным качеством и скоростью передачи битов. Методика CELP-кодирования является основой для нескольких стандартов кодирования речевого сигнала как в беспроводных, так и в проводных приложениях. В CELP-кодировании подвергнутый выборке речевой сигнал обрабатывают в последовательных блоках по L выборок, обычно называемых кадрами, где L - предопределенное количество выборок, соответствующих, как правило, 10-30 мс. Вычисляют фильтр с линейным предсказанием (LP) и передают каждый кадр. Вычисление LP-фильтра, как правило, использует опережающий просмотр, например, речевого сегмента 5-15 мс из последующего кадра. Кадр из L выборок разделяют на меньшие блоки, называемые подкадрами. Обычно количество подкадров равно трем (3) или четырем (4), в результате чего получают подкадры 4-10 мс. В каждом подкадре сигнал возбуждения обычно получают из двух компонентов, прошлого возбуждения и нового, возбуждения фиксированной кодовой книги. Компонент, сформированный из прошлого возбуждения, часто называют возбуждением кодовой книги основного тона или адаптивной кодовой книги. Параметры, характеризующие сигнал возбуждения, кодируют и передают в декодер, где сигнал возбуждения восстанавливают и используют как входной сигнал LP-фильтра.

В некоторых приложениях, таких как музыка при удержании вызова, используют специальные речевые кодеки с низкой скоростью передачи битов для оперирования музыкальными сигналами. Это обычно в результате приводит к плохому качеству музыки из-за использования модели выработки речевого сигнала в специальном речевом кодеке с низкой скоростью передачи битов.

В некоторых музыкальных сигналах наблюдается тональная структура спектра, в которой присутствуют несколько тонов (соответствующих спектральным пикам), которые не являются соотнесенными гармонически. Эти музыкальные сигналы трудно кодировать с помощью специального речевого кодека с низкой скоростью передачи битов, использующего полюсный синтезирующий фильтр и фильтр основного тона. Фильтр основного тона способен моделировать голосовые сегменты, в которых наблюдается гармоническая структура спектра, содержащая основную частоту и гармоники этой основной частоты. Однако такой фильтр основного тона не может должным образом моделировать тоны, которые гармонически не соотнесены. Кроме того, полюсный синтезирующий фильтр не может моделировать впадины на спектре между тонами. Таким образом, когда используют специальный речевой кодек с низкой скоростью передачи битов с использованием модели выработки речевого сигнала, например CELP, наблюдается слышимый шум квантования музыкальных сигналов в областях малых энергий спектра (межтоновые области или впадины на спектре).

Сущность изобретения

Целью настоящего изобретения является улучшение тонального звукового сигнала, декодированного декодером специального речевого кодека в ответ на принятый закодированный поток битов, например, такого аудиосигнала, как музыкальный сигнал, посредством подавления шума квантования в областях малых энергий спектра (межтоновые области или впадины на спектре).

Более конкретно, согласно настоящему изобретению, предоставлена система для улучшения тонального звукового сигнала, декодированного декодером специального речевого кодека в ответ на принятый закодированный поток битов, содержащая: спектральный анализатор, реагирующий на декодированный тональный звуковой сигнал для выработки спектральных параметров, характеризующих декодированный тональный звуковой сигнал, и подавитель шума квантования в спектральных областях малых энергий декодированного тонального звукового сигнала в ответ на спектральные параметры из спектрального анализатора.

Настоящее изобретение дополнительно относится к способу улучшения тонального звукового сигнала, декодированного декодером специального речевого кодека в ответ на принятый закодированный поток битов, содержащему этапы, на которых: выполняют спектральный анализ декодированного тонального звукового сигнала для выработки спектральных параметров, характеризующих декодированный тональный звуковой сигнал, и подавляют шум квантования в спектральных областях малых энергий декодированного тонального звукового сигнала в ответ на спектральные параметры из спектрального анализатора.

Настоящее изобретение дополнительно относится к системе для улучшения декодированного тонального звукового сигнала, содержащей: спектральный анализатор, реагирующий на декодированный тональный звуковой сигнал для выработки спектральных параметров, характеризующих декодированный тональный звуковой сигнал, причем спектральный анализатор разделяет спектр, получающийся в результате спектрального анализа, на набор критических полос частот, и причем каждая критическая полоса частот содержит множество отсчетов частоты, и подавитель шума квантования в спектральных областях малых энергий декодированного тонального звукового сигнала в ответ на спектральные параметры из спектрального анализатора, причем подавитель шума квантования содержит аттенюатор шума, который масштабирует спектр декодированного тонального звукового сигнала для каждой критической полосы частот, для каждого отсчета частоты или и для каждой критической полосы частот, и для каждого отсчета частоты.

Настоящее изобретение, кроме того, дополнительно относится к способу улучшения декодированного тонального звукового сигнала, содержащему этапы, на которых: выполняют спектральный анализ декодированного тонального звукового сигнала для выработки спектральных параметров, характеризующих декодированный тональный звуковой сигнал, причем спектральный анализ декодированного тонального звукового сигнала содержит этап, на котором разделяют спектр, получающийся в результате спектрального анализа, на набор критических полос частот, каждая содержит множество отсчетов частоты, и подавляют шум квантования в спектральных областях малых энергий декодированного тонального звукового сигнала в ответ на спектральные параметры из спектрального анализатора, причем подавление шума квантования содержит этап, на котором масштабируют спектр декодированного тонального звукового сигнала для каждой критической полосы частот, для каждого отсчета частоты или и для каждой критической полосы частот, и для каждого отсчета частоты.

Вышеизложенные и другие цели, преимущества и признаки настоящего изобретения станут более очевидными после прочтения нижеследующего не ограничивающего описания их иллюстративных вариантов осуществления, заданных только для примера со ссылкой на прилагаемые чертежи.

Краткое описание чертежей

В прилагаемых чертежах:

Фиг.1 - схематическая блок-схема, изображающая общее представление системы и способа для улучшения декодированного тонального звукового сигнала.

Фиг.2 - график, иллюстрирующий обработку методом окна при спектральном анализе.

Фиг.3 - схематическая блок-схема, изображающая общее представление системы и способа для улучшения декодированного тонального звукового сигнала.

Фиг.4 - схематическая блок-схема, иллюстрирующая коррекцию коэффициента передачи тона.

Фиг.5 - схематическая блок-схема примера классификатора типа сигнала.

Фиг.6 - схематическая блок-схема декодера специального речевого кодека с низкой скоростью передачи битов с использованием модели выработки речевого сигнала, содержащей синтезирующий LP-фильтр, моделирующий форму голосового тракта (спектральная огибающая), и фильтр основного тона, моделирующий голосовые связки (гармоническая тонкая структура).

Подробное описание

В нижеследующем подробном описании внутри специального речевого кодека с низкой скоростью передачи битов выполняют методику подавления межтонового шума для подавления уровня межтонового шума квантования, например, в музыкальном содержимом. Методика подавления межтонового шума может применяться или с узкополосными звуковыми сигналами, из которых произведена выборка с 8000 выборок/с, или с широкополосными звуковыми сигналами, из которых произведена выборка с 16000 выборок/с, или с любой другой частотой выборки. методику подавления межтонового шума применяют к декодированному тональному звуковому сигналу для подавления шума квантования во впадинах на спектре (области малой энергии между тонами). В некоторых музыкальных сигналах наблюдается тональная структура спектра, в которой присутствуют несколько тонов (соответствующих спектральным пикам), которые не являются соотнесенными гармонически. Эти музыкальные сигналы трудно кодировать посредством специального речевого кодека с низкой скоростью передачи битов, который использует полюсный синтезирующий LP-фильтр и фильтр основного тона. Фильтр основного тона может моделировать сегменты вокализированной речи, в отношении спектра которых наблюдается гармоническая структура с основной частотой и гармониками этой основной частоты. Однако фильтр основного тона не может должным образом моделировать тоны, которые гармонически не соотнесены. Дополнительно, полюсный синтезирующий LP-фильтр не может моделировать впадины на спектре между тонами. Соответственно, с использованием специального речевого кодека с низкой скоростью передачи битов с моделью выработки речевого сигнала, например CELP, наблюдается слышимый шум квантования смоделированных сигналов в областях малых энергий спектра (межтоновые области или впадины на спектре). Методика подавления межтонового шума, следовательно, связана с подавлением шума квантования в спектральных областях малых энергий для улучшения декодированного тонального звукового сигнала, более конкретно для улучшения качества декодированного тонального звукового сигнала.

В одном варианте осуществления специальный речевой кодек с низкой скоростью передачи битов основан на модели выработки речевого сигнала CELP, оперирующей или узкополосными, или широкополосными сигналами (частота выборки 8 или 16 кГц). Также может использоваться любая другая частота выборки.

Со ссылкой на фиг.6 вкратце будет описан пример 600 декодера специального речевого кодека с низкой скоростью передачи битов, использующего модель выработки речевого сигнала CELP. В ответ на индекс фиксированной кодовой книги, извлеченный из принятого закодированного потока битов, фиксированная кодовая книга 601 вырабатывает вектор 602 фиксированной кодовой книги, умноженный на коэффициент g передачи, для выработки нового возбуждения 603 фиксированной кодовой книги. Подобным образом, адаптивная кодовая книга 604 реагирует на задержку основного тона, извлекаемую из принятого закодированного потока битов, для выработки вектора 607 адаптивной кодовой книги, в адаптивную кодовую книгу 604 также подают (см. 605) сигнал 610 возбуждения через контур обратной связи, содержащий фильтр 606 основного тона. Вектор 607 адаптивной кодовой книги умножают на коэффициент G передачи для выработки возбуждения 608 адаптивной кодовой книги. Новое возбуждение 603 фиксированной кодовой книги и возбуждение 608 адаптивной кодовой книги суммируются посредством сумматора 609 для формирования сигнала 610 возбуждения, подаваемого в синтезирующий LP-фильтр 611, причем синтезирующий LP-фильтр 611 управляется параметрами LP-фильтра, извлекаемыми из принятого закодированного потока битов. Синтезирующий LP-фильтр 611 вырабатывает синтезированный звуковой сигнал 612, или декодированный тональный звуковой сигнал, частота выборки которого может быть увеличена/уменьшена в модуле 613 перед улучшением его с использованием системы 100 и способа для улучшения декодированного тонального звукового сигнала.

Например, может быть использован кодек на основе структуры AMR-WB ([1] - 3GPP TS 26.190, "Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions"). Речевой кодек AMR-WB использует внутреннюю частоту выборки 12,8 кГц, и из сигнала может быть повторно произведена выборка или с 8, или с 16 кГц перед выполнением подавления межтонового шума квантования или, в качестве альтернативы, подавление шума или улучшение аудиосигнала может быть выполненено с 12,8 кГц.

Фиг.1 является схематической блок-схемой, изображающей общее представление системы и способа 100 для улучшения декодированного тонального звукового сигнала.

Согласно фиг.1 закодированный поток 101 битов (закодированный звуковой сигнал) принимается и обрабатывается посредством декодера 102 (например, декодера 600 по фиг.6) специального речевого кодека с низкой скоростью передачи битов для выработки декодированного звукового сигнала 103. Как указано в вышеизложенном описании, декодер 102 может быть, например, речевым декодером, использующим модель выработки речевого сигнала CELP, например декодером AMR-WB.

Декодированный звуковой сигнал 103 на выходе декодера 102 звукового сигнала конвертируют (повторно производят выборку) с частотой выборки 8 кГц. Однако следует учитывать, что методика подавления межтонового шума, раскрытая в этом документе, может одинаково применяться к декодированным тональным звуковым сигналам с другими частотами выборки, например, 12,8 кГц или 16 кГц.

Может применяться или не применяться предобработка к декодированному звуковому сигналу 103. Когда применяют предобработку, декодированный звуковой сигнал 103, например, предыскажают посредством препроцессора 104 перед выполнением спектрального анализа в спектральном анализаторе 105.

Для предыскажения декодированного звукового сигнала 103 препроцессор 104 содержит фильтр верхних частот первого порядка (не изображен). Фильтр верхних частот первого порядка искажает верхние частоты декодированного звукового сигнала 103 и может иметь, для этой цели, следующую передаточную функцию:

H_pre-emph(z)=l-0,68z^-1

(1)

где z представляет переменную Z-преобразования.

Предыскажение верхних частот декодированного звукового сигнала 103 обладает свойством выравнивания спектра декодированного звукового сигнала 103, что является полезным для подавления межтонового шума.

После предыскажения верхних частот декодированного звукового сигнала 103 в препроцессоре 104:

- В спектральном анализаторе 105 выполняется спектральный анализ предыскажененного декодированного звукового сигнала 106. Этот спектральный анализ использует Дискретное преобразование Фурье (DFT) и описан более подробно в нижеследующем описании.

- Методику подавления межтонового шума применяют в ответ на спектральные параметры 107 из спектрального анализатора 107 и реализуют в подавителе 108 шума квантования в спектральных областях малых энергий декодированного тонального звукового сигнала. Функционирование подавителя 108 шума квантования описано более подробно в нижеследующем описании.

- Обратный анализатор и оператор 110 сложения с перекрытием (a) применяет обратное DFT (Дискретное преобразование Фурье) к уменьшенным спектральным параметрам 109 межтонового шума для конвертирования этих параметров 109 обратно во временную область, и (b) использует операцию сложения с перекрытием для восстановления улучшенного декодированного тонального звукового сигнала 111. Операция обратного анализатора и оператора 110 сложения с перекрытием описана более подробно в нижеследующем описании.

- Постпроцессор 112 выполняет постобработку восстановленного улучшенного декодированного тонального звукового сигнала 111 из обратного анализатора и оператора 110 сложения с перекрытием. Эта постобработка является обратной к этапу предобработки (препроцессор 104) и, следовательно, может состоять из устранения искажения верхних частот улучшенного декодированного тонального звукового сигнала. Такое устранение искажения описано более подробно в нижеследующем описании.

- Наконец, может быть предоставлена система 114 воспроизведения звука для конвертирования постобработанного улучшенного декодированного тонального звукового сигнала 113 из постпроцессора 112 в слышимый звук.

Например, специальный речевой кодек, в котором реализована методика подавления межтонового шума, оперирует кадрами 20 мс, содержащими 160 выборок с частотой выборки 8 кГц. Также согласно этому примеру декодер 102 звукового сигнала использует опережающий просмотр 10 мс из будущего кадра для оптимальных характеристик маскирования стирания кадра. Этот опережающий просмотр также используется в методике подавления межтонового шума для лучшей разрешающей способности по частоте. Методика подавления межтонового шума, реализованная в подавителе 108 шума квантования, придерживается такой же структуры кадрирования, как в декодере 102. Однако может быть введено некоторое смещение между структурой кадрирования декодера и структурой кадрирования подавления межтонового шума для максимизации использования опережающего просмотра. В нижеследующем описании индексы, приписываемые выборкам, отражают структуру кадрирования подавления межтонового шума.

Спектральный анализ

Согласно фиг.3 в спектральном анализаторе 105 используется ДПФ (Дискретное преобразование Фурье) для выполнения спектрального анализа и оценки энергии спектра предыскаженного декодированного тонального звукового сигнала 106. В спектральном анализаторе 105 спектральный анализ выполняется в каждом кадре с использованием окон анализа 30 мс с перекрытием 33%. Более конкретно, спектральный анализ в анализаторе 105 (фиг.3) проводится один раз для каждого кадра с использованием Быстрого преобразования Фурье (FFT) с 256 точками с обработкой методом окна с перекрытием 33,3 процента, как изображено на фиг.2. Окна анализа размещены так, чтобы использовать весь опережающий просмотр. Начало первого окна анализа смещают на 80 выборок от начала текущего кадра декодера 102 звукового сигнала.

Для взвешивания предыскаженного декодированного тонального звукового сигнала 106 для частотного анализа используют окна анализа. Окна анализа являются плоскими в середине с функцией синуса на краях (Фиг. 2), что хорошо подходит для операций сложения с перекрытием. Более конкретно, окно анализа может быть описано следующим образом:

где L_Window=240 выборок - размер окна анализа. Так как используется БПФ с 256 точками (L_FFT=256), то сигнал, обрабатываемый методом окна, заполняют 16 нулевыми выборками.

В случае широкополосного сигнала может использоваться альтернативное окно анализа при наличии только маленького опережающего просмотра. Это окно анализа может иметь следующую форму:

где =360 - размер широкополосного окна анализа. В этом случае используется БПФ с 512 точками. Следовательно, сигнал, обрабатываемый методом окна, заполняют 152 нулевыми выборками. Потенциально может использоваться другое основание БПФ для максимально возможного уменьшения заполнения нулями и уменьшения сложности.

Пусть s'(n) обозначают декодированный тональный звуковой сигнал с индексом 0, соответствующий первой выборке в кадре подавления межтонового шума. (Как указано выше в данном документе, в этом варианте осуществления, это соответствует 80 выборкам, следующим за началом кадра декодера звукового сигнала.) Декодированный тональный звуковой сигнал, обрабатываемый методом окна, для спектрального анализа может быть получен с использованием следующего отношения:

(2)

где s'(0) - первая выборка в текущем кадре подавления межтонового шума.

БПФ выполняют на декодированном тональном звуковом сигнале, обрабатываемом методом окна, для получения одного набора спектральных параметров для каждого кадра:

(3)

где N=L_FFT.

Выходной сигнал БПФ дает действительную и мнимую части спектра, обозначаемые X_R(k), k=0, …, L_FFT/2, и X_I(k), k=1, …, (L_FFT/2-1). Отметим, что X_R(0) соответствует спектру при 0 Гц (DC), и X_R(L_FFT/2) соответствует спектру при F_s/2 Гц, где F_S соответствует частоте выборки. Спектр в этих двух (2) точках имеет только действительное значение и обычно не учитывается в последующем анализе.

После анализа БПФ получающийся в результате спектр разделяют на критические полосы частот с использованием интервалов, имеющих следующие верхние границы (17 критических полос в диапазоне частот 0-4000 Гц и 21 критическая полоса частот в диапазоне частот 0-8000 Гц) (См. [2]: J. D. Johnston, "Transform coding of audio signal using perceptual noise criteria," IEEE J. Select. Areas Commun., vol.6, pp.314-323, Feb. 1988).

В случае узкополосного кодирования критические полосы частот = {100,0, 200,0, 300,0, 400,0, 510,0, 630,0, 770,0, 920,0, 1080,0, 1270,0, 1480,0, 1720,0, 2000,0, 2320,0, 2700,0, 3150,0, 3700,0, 3950,0} Гц.

В случае широкополосного кодирования критические полосы частот = {100,0, 200,0, 300,0, 400,0, 510,0, 630,0, 770,0, 920,0, 1080,0, 1270,0, 1480,0, 1720,0, 2000,0, 2320,0, 2700,0, 3150,0, 3700,0, 4400,0, 5300,0, 6700,0, 8000,0} Гц.

В результате 512-точечного или 256-точечного БПФ получают разрешающую способность по частоте 31,25 Гц (4000/128=8000/256). После отбрасывания компонента DC спектра количество отсчетов частоты для каждой критической полосы частот в случае узкополосного кодирования равно M_CB={3, 3, 3, 3, 3, 4, 5, 4, 5, 6, 7, 7, 9, 10, 12, 14, 17, 12}, соответственно, когда разрешающая способность аппроксимируется 32 Гц. В случае широкополосного кодирования M_CB={3, 3, 3, 3, 3, 4, 5, 4, 5, 6, 7, 7, 9, 10, 12, 14, 17, 22, 28, 44, 41} Гц.

Среднюю спектральную энергию для каждой критической полосы частот вычисляют следующим образом:

(4)

где X_R(k) и X_I(k) являются, соответственно, действительной и мнимой частями k-го отсчета частоты, и j_i - индекс первого отсчета в i-й критической полосе, задаваемый j_i={1, 4, 7, 10, 13, 16, 20, 25, 29, 34, 40, 47, 54, 63, 73, 85, 99, 116}, в случае узкополосного кодирования, и j_i= {1, 4, 7, 10, 13, 16, 20, 25, 29, 34, 40, 47, 54, 63, 73, 85, 99, 116, 138, 166, 210}, в случае широкополосного кодирования.

Спектральный анализатор 105 по фиг.3 также вычисляет энергию спектра для каждого отсчета частоты, E_BIN(k), для первых 17 критических полос (115 отсчетов, за исключением компонента DC) с использованием следующего отношения:

(5)

Наконец, спектральный анализатор 105 вычисляет общую спектральную энергию кадра как среднее значение спектральных энергий первых 17 критических полос частот, рассчитанных спектральным анализатором 105, в кадре с использованием следующего отношения:

(6)

Спектральные параметры 107 из спектрального анализатора 105 по фиг.3, более конкретно вышеупомянутое рассчитанное среднее значение спектральной энергии для каждой критической полосы, спектральная энергия для каждого отсчета частоты и общая спектральная энергия используются в подавителе 108 для подавления шума квантования и выполнения коррекции коэффициента передачи.

Следует отметить что, для широкополосного декодированного тонального звукового сигнала, из которого произведена выборка с 16000 выборок/с, может использоваться до 21 критической полосы частот, но вычисление общей энергии кадра, E^t _fr, в момент времени t будет, по-прежнему, выполняться на первых 17 критических полосах.

Классификатор типа сигнала:

Методика подавления межтонового шума, осуществляемая системой и способом 100, улучшает декодированный тональный звуковой сигнал, например музыкальный сигнал, закодированный посредством специального речевого кодека. Обычно нетональные звуки, например речевой сигнал, хорошо кодируются специальным речевым кодеком, и им не требуется этот тип основанного на частоте улучшения.

Система и способ 100 для улучшения декодированного тонального звукового сигнала дополнительно содержат, как изображено на фиг.3, классификатор 301 типа сигнала, предназначенный для дополнительной максимизации эффективности подавителя 108 шума квантования посредством идентификации того, какой звук хорошо подходит для подавления межтонового шума, подобный музыкальному, и какой звук не подходит, подобный речевому.

Классификатор 301 типа сигнала содержит признак не только деления декодированного звукового сигнала на категории звукового сигнала, но также и выдает команду в подавитель 108 шума квантования для подавления до минимума любого возможного ухудшения речевого сигнала.

Схематическая блок-схема классификатора 301 типа сигнала изображена на фиг.5. В представленном варианте осуществления классификатор 301 типа сигнала оставлен настолько простым, насколько это возможно. Наиболее важными входными данными для классификатора 301 типа сигнала является общая спектральная энергия E_t кадра, выраженная в виде Уравнения (6).

Во-первых, классификатор типа сигнала 301 содержит искатель 501, который определяет среднее из прошлых сорока (40) вариаций общей спектральной энергии (E_t) кадра, рассчитываемых с использованием следующего отношения:

(7)

где Δ^t _E=E^t _fr-E^(t-1) _fr

Далее, искатель 501 определяет статистическое отклонение истории вариации энергии σ_E по последним пятнадцати (15) кадрам с использованием следующего отношения:

(8)

Классификатор 301 типа сигнала содержит память 502, обновляемую средним значением и отклонением вариации общей спектральной энергии E_t кадра, рассчитываемыми в Уравнениях (7) и (8).

Получающееся в результате отклонение β_E сравнивают с четырьмя (4) плавающими порогами в компараторах 503-506 для определения эффективности подавителя 108 шума квантования на текущем декодированном звуковом сигнале. В примере по фиг.5 выходной сигнал 302 (фиг. 3) классификатора 301 типа сигнала разбивают на пять (5) категорий звукового сигнала, называемых категориями с 0 по 4 звукового сигнала, причем каждая категория звукового сигнала имеет свою собственную настройку подавления межтонового шума.

Пять (5) категорий 0-4 звукового сигнала могут быть определены, как указано в следующей таблице:

Категория	Улучшенная полоса(узкополосный сигнал)	Улучшенная полоса(широкополосный сигнал)	Допустимое подавление
	Гц	Гц	дБ
0	NA	NA	0
1	[2000, 4000]	[2000, 8000]	6
2	[1270, 4000]	[1270, 8000]	9
3	[700, 4000]	[700, 8000]	12
4	[400, 4000]	[400, 8000]	12

Категория 0 звукового сигнала является категорией нетонального звукового сигнала, подобного речевому сигналу, которую не модифицируют посредством методики подавления межтонового шума. Эта категория декодированного звукового сигнала имеет большое статистическое отклонение истории вариации спектральной энергии. Когда компараторами 503-506 не детектированы категории 1-4, контроллер 511 выдает команду в подавитель 108 шума квантования не подавлять межтоновый шум квантования (подавление = 0 дБ).

Дерево между категориями звукового сигнала включает в себя звуковые сигналы с разными типами статистического отклонения истории вариации спектральной энергии.

Категория 1 звукового сигнала (самая большая вариация после декодированного звукового сигнала "типа речевого сигнала") детектируется компаратором 506, когда статистическое отклонение истории вариации спектральной энергии меньше Порога 1. Контроллер 510 реагирует на это детектирование компаратором 506 и выдает команду, когда последняя детектированная категория звукового сигнала была > 0, подавителю 108 шума квантования, улучшить декодированный тональный звуковой сигнал внутри полосы частот от 2000 до F_s/2 Гц посредством подавления межтонового шума квантования на максимально допустимую амплитуду 6 дБ.

Категория 2 звукового сигнала детектируется компаратором 505, когда статистическое отклонение истории вариации спектральной энергии меньше Порога 2. Контроллер 509 реагирует на это детектирование компаратором 505 и выдает команду, когда последняя детектированная категория звукового сигнала была ≥1, подавителю 108 шума квантования, улучшить декодированный тональный звуковой сигнал внутри полосы частот от 1270 до F_s/2 Гц посредством подавления межтонового шума квантования на максимально допустимую амплитуду 9 дБ.

Категория 3 звукового сигнала детектируется компаратором 504, когда статистическое отклонение истории вариации спектральной энергии меньше Порога 3. Контроллер 508 реагирует на это детектирование компаратором 504 и выдает команду, когда последняя детектированная категория звукового сигнала была ≥2, подавителю 108 шума квантования, улучшить декодированный тональный звуковой сигнал внутри полосы частот от 700 до F_s/2 Гц посредством подавления межтонового шума квантования на максимально допустимую амплитуду 12 дБ.

Категория 4 звукового сигнала детектируется компаратором 503, когда статистическое отклонение истории вариации спектральной энергии меньше Порога 4. Контроллер 507 реагирует на это детектирование компаратором 503 и выдает команду, когда последняя детектированная категория типа сигнала была ≥3, подавителю 108 шума квантования, улучшить декодированный тональный звуковой сигнал внутри полосы частот от 400 до F_s/2 Гц посредством подавления межтонового шума квантования на максимально допустимую амплитуду 12 дБ.

В варианте осуществления по фиг.5 классификатор 301 типа сигнала использует плавающие пороги 1-4 для разбиения декодированного звукового сигнала на разные категории 0-4. Эти плавающие пороги 1-4, в частности, полезны для предотвращения неправильной классификации типа сигнала. Как правило, декодированный тональный звуковой сигнал, подобный музыкальному, приобретает гораздо меньшее статистическое отклонение вариации своей спектральной энергии, чем нетональный звуковой сигнал, подобный речевому. Но музыкальный сигнал может содержать большее статистическое отклонение, а речевой сигнал может содержать меньшее статистическое отклонение. Маловероятно, что содержимое музыки или речи изменяется с одного на другое на покадровой основе. Плавающие пороги действуют подобно системе звукоусиления для предотвращения любой неправильной классификации, которая может в результате привести к субоптимальным характеристикам подавителя 108 шума квантования.

Счетчики последовательности кадров категории 0 звукового сигнала и последовательности кадров категории 3 или 4 звукового сигнала используются для соответствующего уменьшения или увеличения порогов.

Например, если счетчик 512 насчитывает последовательность больше чем 30 кадров категории 3 или 4 звукового сигнала, то плавающие пороги 1-4 увеличиваются пороговым контроллером 514 с целью обеспечения того, чтобы больше кадров рассматривалось как категории 4 звукового сигнала. Каждый раз, когда значение счетчика 512 прирастает, счетчик 513 сбрасывается в ноль.

Также справедливо обратное для категории 0 звукового сигнала. Например, если счетчик 513 насчитывает последовательность больше чем 30 кадров категории 0 звукового сигнала, то пороговый контроллер 514 уменьшает плавающие пороги 1-4 с целью обеспечения того, чтобы больше кадров рассматривалось как категории 0 звукового сигнала. Плавающие пороги 1-4 ограничены абсолютными максимальными и минимальными значениями для обеспечения того, чтобы классификатор 301 типа сигнала не был взаимно связан с фиксированной категорией.

Увеличение и уменьшение порогов 1-4 может быть проиллюстрировано следующими отношениями:

В случае стирания кадра все пороги 1-4 сбрасывают до их минимальных значений, и выходной сигнал классификатора 301 типа сигнала рассматривается как нетональный (категория 0 звукового сигнала) для трех (3) кадров, включающих в себя потерянный кадр.

Если информация из Детектора голосовой активности (VAD) (не изображен) доступна и не указывает на голосовую активность (наличие паузы), то классификатор 301 типа сигнала вынужден установить категорию 0 звукового сигнала.

Согласно альтернативному варианту классификатора 301 типа сигнала полоса частот допустимого улучшения и/или уровня максимального подавления межтонового шума может быть полностью динамической (без жесткого этапа).

В случае маленького опережающего просмотра может быть необходимым ввести сглаживание минимального подавления коэффициента передачи в первых критических полосах для дополнительного подавления любого потенциального искажения, введенного с помощью подавления межтонового шума. Это сглаживание может быть выполнено с использованием следующего отношения:

где RedGain_i - максимальное подавление коэффициента передачи для каждой полосы, FEhBand - первая полоса, в которой допускается подавление межтонового шума (изменяются, как правило, между 400 Гц и 2 кГц или критические полосы 3 и 12 частот). Allow_red - уровень подавления шума, допустимого для каждой категории звукового сигнала, представленный в предыдущей таблице, и max_band - максимальная полоса для подавления межтонового шума (17 для Узкополосного канала (NB) и 20 для Широкополосного канала (WB)).

Подавление межтонового шума:

Применяют подавление межтонового шума (см. подавитель 108 шума квантования (фиг.3)), и восстанавливают улучшенный декодированный звуковой сигнал с использованием операции сложения с перекрытием (см. оператор 303 сложения с перекрытием (фиг.3)). Выполняют подавление межтонового шума квантования посредством масштабирования спектра в каждой критической полосе частот с масштабирующим коэффициентом передачи, ограниченным между g_min и 1, и выведенным из отношения сигнал/шум (SNR) в этой критической полосе частот. Особенность методики подавления межтонового шума заключается в том, что для частот ниже, чем определенная частота, например, относящихся к голосовому сигналу, обработку выполняют на основе отсчета частоты, а не на основе критической полосы частот. Соответственно, масштабирующий коэффициент передачи применяют к каждому отсчету частоты, выведенному из SNR в этом отсчете (SNR вычисляют с использованием энергии отсчета, разделенной на энергию шума критической полосы, включающей в себя этот отсчет). Этот признак имеет эффект сохранения энергии в частотах, близких к гармоникам или тонам, с предотвращением искажения при сильном подавлении шума квантования между гармониками. В случае узкополосных сигналов анализ для каждого отсчета может использоваться для всего спектра. Анализ для каждого отсчета может в качестве альтернативы ис

Система и способ улучшения декодированного тонального звукового сигнала

Патент 2470385