Способ оценки шума в аудиосигнале, средство оценки шума, аудиокодер, аудиодекодер и система для передачи аудиосигналов

Иллюстрации

Показать все

Изобретение относится к области обработки аудиосигналов. Технический результат – обеспечение эффективной оценки шума в аудиосигнале. Данный способ оценки шума в аудиосигнале заключается в том, что оценивают (S100) значение энергии для аудиосигнала и преобразуют (S102) его в логарифмическую область. Уровень шума для аудиосигнала оценивают (S104) на основании преобразованного значения энергии. 6 н. и 5 з.п. ф-лы, 3 ил., 1 табл.

Реферат

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Изобретение относится к области обработки аудиосигналов, в частности, относится к подходу к оценке шума в аудиосигнале, например, в аудиосигнале, подлежащем кодированию, или в аудиосигнале, который был декодирован. В вариантах осуществления изобретения описаны способ оценки шума в аудиосигнале, средство оценки шума, аудиокодер, аудиодекодер и система для передачи аудиосигналов.

УРОВЕНЬ ТЕХНИКИ

В области обработки аудиосигналов, например, для кодирования аудиосигналов или для обработки декодированных аудиосигналов возникают ситуации, когда требуется оценить шум. Например, в PCT/EP2012/077525 и PCT/EP2012/077527, включенных в настоящий документ путем ссылки, описано использование средства оценки шума, например, средства оценки шума на основе статистики минимумов для оценки спектра фонового шума в частотной области. Сигнал, который подают в алгоритм, уже преобразован на поблочной основе в частотную область, например, с использованием быстрого преобразования Фурье (FFT) или любого другого подходящего банка фильтров. Кадрирование обычно идентично кадрированию кодека, то есть, можно повторно использовать преобразования, уже существующие в кодеке, например, в кодере EVS (усовершенствованные услуги телефонии), в котором преобразование FFT используют для предварительной обработки. В целях оценки шума вычисляют спектр мощности для FFT. Этот спектр группируют в полосы на основании психоакустических характеристик, и в полосе накапливают элементы дискретизации спектра мощности для формирования значения энергии для каждой полосы. В конце концов, с помощью этого подхода получают набор значений энергии, который также часто используют для психоакустической обработки аудиосигнала. Для каждой полосы имеется свой собственный алгоритм оценки шума, то есть, в каждом кадре значение энергии данного кадра обрабатывают с использованием алгоритма оценки шума, который анализирует изменение сигнала во времени и выдает оценку уровня шума для каждой полосы в любом данном кадре.

Выборочное разрешение, используемое для высококачественных речевых и аудиосигналов, может составлять 16 бит, то есть, такой сигнал имеет отношение сигнал-шум (SNR), равное 96 дБ. Вычисление спектра мощности представляет собой преобразование сигнала в частотную область и вычисление квадрата каждого элемента дискретизации по частоте. Из-за использования квадратичной функции требуется иметь динамический диапазон, равный 32 бита. Суммирование нескольких элементов дискретизации спектра мощности по частоте в полосы потребует дополнительный запас по динамическому диапазону, поскольку распределение энергии в полосе в действительности неизвестно. В результате, для функционирования средства оценки шума в процессоре потребуется динамический диапазон, превышающий 32 бита, как правило, около 40 бит.

В устройствах, обрабатывающих аудиосигналы, которые функционируют, потребляя энергию, полученную от блока накопления энергии типа батареи, например, в портативных устройствах типа мобильных телефонов, с точки зрения срока службы батареи очень важно обеспечить энергосберегающую обработку аудиосигналов. Согласно известным подходам такая обработка аудиосигналов выполняется процессорами с фиксированной точкой, которые, как правило, поддерживают обработку данных в формате 16 или 32 бита с фиксированной точкой. Минимальная сложность обработки достигается при использовании обработки 16-битных данных, в то время как для обработки 32-битных данных уже потребуются некоторые дополнительные ресурсы. Для обработки данных с динамическим диапазоном 40 бит потребуется расщепление данных на две части, а именно, мантиссу и порядок, с каждой из которых необходимо иметь дело при модификации данных, что, в свою очередь, приводит как к увеличению сложности вычислений, так и повышению расхода памяти.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Исходя из уровня техники, описанного выше, задача настоящего изобретения состоит в создании подхода к эффективной оценке шума в аудиосигнале с использованием процессора с фиксированной точкой во избежание ненужного использования дополнительных вычислительных ресурсов.

Данная задача решается объектом изобретения, определенным в независимых пунктах формулы изобретения.

Настоящее изобретение обеспечивает способ оценки шума в аудиосигнале, причем способ содержит этапы, на которых определяют значения энергии для аудиосигнала, преобразуют значение энергии в логарифмическую область и оценивают уровень шума для аудиосигнала на основании преобразованного значения энергии.

Настоящее изобретение обеспечивает средство оценки шума, содержащее детектор, выполненный с возможностью определения значения энергии для аудиосигнала, преобразователь, выполненный с возможностью преобразования значения энергии в логарифмическую область, и средство оценки, выполненное с возможностью оценки уровня шума для аудиосигнала на основании преобразованного значения энергии.

Настоящее изобретение обеспечивает средство оценки шума, выполненное с возможностью функционирования согласно предложенному в изобретении способу.

Согласно вариантам осуществления изобретения, логарифмическая область содержит логарифмическую область по основанию 2.

Согласно вариантам осуществления, оценка уровня шума содержит выполнение заданного алгоритма оценки шума на основании преобразованного значения энергии непосредственно в логарифмической области. Оценку шума можно выполнить, используя алгоритм на основе статистики минимумов, описанный в работе R. Martin, ʺNoise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statisticsʺ, 2001. В других вариантах осуществления могут быть использованы альтернативные алгоритмы оценки шума типа средства оценки шума на основе MMSE, описанного в работе T. Gerkmann и R. C. Hendriks, ʺUnbiased MMSE-based noise power estimation with low complexity and low tracking delayʺ, 2012, или алгоритм, описанный в работе L. Lin, W. Holmes, и E. Ambikairajah, ʺAdaptive noise estimation algorithm for speech enhancementʺ, 2003.

Согласно вариантам осуществления определение значения энергии содержит получение спектра мощности аудиосигнала посредством преобразования аудиосигнала в частотную область, группирование спектра мощности в полосы на основании психоакустических характеристик и накопление элементов дискретизации спектра мощности в полосе для формирования значения энергии для каждой полосы, причем значение энергии для каждой полосы преобразуют в логарифмическую область, и при этом уровень шума оценивают для каждой полосы на основании соответствующего преобразованного значения энергии.

Согласно вариантам осуществления аудиосигнал содержит множество кадров, причем значение энергии для каждого кадра определяют и преобразуют в логарифмическую область, и для каждой полосы оценивают уровень шума на основании преобразованного значения энергии.

Согласно вариантам осуществления, значение энергии преобразуют в логарифмическую область следующим образом:

где - минимальное (x),

- значение энергии полосы n в логарифмической области по основанию 2,

- значение энергии полосы n в линейной области,

- разрешение/точность.

Согласно вариантам осуществления оценка уровня шума на основании преобразованного значения энергии обеспечивает логарифмические данные, причем способ дополнительно содержит использование этих логарифмических данных непосредственно для дополнительной обработки или преобразование этих логарифмических данных обратно в линейную область для дополнительной обработки.

Согласно вариантам осуществления логарифмические данные преобразуют непосредственно в данные передачи в случае выполнения передачи в логарифмической области, и при преобразовании логарифмических данных непосредственно в данные передачи используют функцию сдвига вместе со справочной таблицей или аппроксимацию, например, .

Настоящее изобретение обеспечивает постоянный компьютерный программный продукт, содержащий машиночитаемый носитель, на котором хранятся команды, которые при их выполнении компьютером осуществляют способ согласно изобретению.

Настоящее изобретение также обеспечивает аудиокодер, содержащий средство оценки шума согласно изобретению.

Настоящее изобретение также обеспечивает аудиодекодер, содержащий средство оценки шума согласно изобретению.

Настоящее изобретение обеспечивает систему для передачи аудиосигналов, причем эта система содержит аудиокодер, выполненный с возможностью создания кодированного аудиосигнала на основании полученного аудиосигнала, и аудиодекодер, выполненный с возможностью приема кодированного аудиосигнала, для декодирования кодированного аудиосигнала и вывода, декодированного аудиосигнала, причем по меньшей мере одно из аудиокодера или аудиодекодера содержит средство оценки шума согласно изобретению.

Настоящее изобретение основано на выводах авторов изобретения о том, что в отличие от стандартных подходов, в которых алгоритм оценки шума выполняется на линейных данных энергии, в целях оценки уровней шумов в аудио/речевом материале можно выполнять алгоритм также и на основании логарифмических входных данных. Для оценки шума требование к точности данных не очень высоко, например, при использовании оценки значений для формирования комфортного шума (как описано в PCT/EP2012/077525 или PCT/EP2012/077527, которые включены в настоящий документ путем ссылки) было обнаружено, что достаточно получить грубую оценку уровня шума для каждой полосы, то есть независимо от того, превышает ли оценка уровня шума, например, 0,1 дБ, он не будет значительно ощущаться в конечном сигнале. Таким образом, хотя возможно потребуется 40 бит для покрытия динамического диапазона данных, точность данных для сигналов со средним/высоким уровнем в стандартных подходах гораздо выше, чем это реально необходимо. На основании этих новых результатов согласно вариантам осуществления ключевым элементом изобретения является преобразование значения энергии для каждой полосы в логарифмическую область (предпочтительно в логарифмическую область по основанию 2) и выполнение оценки шума, например, на основе алгоритма статистики минимумов или любого другого подходящего алгоритма непосредственно в логарифмической области, что позволяет представлять значения энергии в 16-битном формате, а это, в свою очередь, позволяет обеспечить более эффективную обработку, например, используя процессор с фиксированной точкой.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Ниже описаны варианты осуществления настоящего изобретения с обращением к сопровождающим чертежам, на которых:

Фиг. 1 - упрощенная блок-схема системы для передачи аудиосигналов, в которой реализуется подход согласно изобретению к оценке шума в аудиосигнале, подлежащем кодированию, или в декодированном аудиосигнале;

Фиг. 2 - упрощенная блок-схема средства оценки шума согласно варианту осуществления, который можно использовать в кодере аудиосигнала и/или декодере аудиосигнала; и

Фиг. 3 - блок-схема, иллюстрирующая подход к оценке шума в аудиосигнале согласно изобретению в соответствии с вариантом осуществления изобретения.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

Ниже подробно описаны варианты осуществления подхода согласно изобретению, причем следует заметить, что элементы на сопровождающих чертежах, имеющие одинаковые или близкие функциональные возможности, обозначены одинаковыми ссылочными позициями.

На фиг. 1 представлена упрощенная блок-схема системы для передачи аудиосигналов, которая реализует подход согласно изобретению на стороне кодера и/или на стороне декодера. Система по фиг. 1 содержит кодер 100, принимающий на входе 102 аудиосигнал 104. Кодер включает в себя кодирующий процессор 106, получающий аудиосигнал 104 и создающий кодированный аудиосигнал, который обеспечивается на выходе 108 кодера. Кодирующий процессор может быть запрограммирован или построен для обработки последовательных аудиокадров аудиосигнала и для реализации подхода к оценке шума в аудиосигнале 104, подлежащем кодированию, согласно изобретению. В других вариантах осуществления кодер не обязательно является частью системы передачи; то есть он может представлять собой автономное устройство, формирующее кодированные аудиосигналы, или он может быть частью передатчика аудиосигнала. Согласно одному варианту осуществления кодер 100 может содержать антенну 110, позволяющую осуществлять беспроводную передачу аудиосигнала, как показано ссылочной позицией 112. В других вариантах осуществления кодер 100 может выводить кодированный аудиосигнал, обеспечиваемый на выходе 108, используя проводную соединительную линию, как показано, например, под ссылочной позицией 114.

Система по фиг. 1, кроме того, содержит декодер 15, имеющий вход 152, принимающий кодированный аудиосигнал, подлежащий обработке декодером 150, например, через проводную линию 114 или через антенну 154. Декодер 150 содержит декодирующий процессор 156, работающий с кодированным сигналом и обеспечивающий декодированный аудиосигнал 158 на выходе 160. Декодирующий процессор может быть запрограммирован или построен для обработки, предназначенной для реализации подхода согласно изобретению к оценке шума в декодированном аудиосигнале 104. В других вариантах осуществления декодер не обязательно должен быть частью системы передачи, а может представлять собой автономное устройство для декодирования кодированных аудиосигналов или может быть частью приемника аудиосигнала.

На фиг. 2 показана упрощенная блок-схема средства 170 оценки шума согласно одному варианту осуществления. Средство 170 оценки шума может быть использовано в кодере аудиосигнала и/или декодере аудиосигнала, показанных на фиг. 1. Средство 170 оценки шума включает в себя детектор 172 для определения значения 174 энергии для аудиосигнала 102, преобразователь 176 для преобразования значения 174 энергии в логарифмическую область (см. преобразованное значение 178 энергии) и средство 180 оценки для оценки уровня 182 шума для аудиосигнала 102 на основании преобразованного значения 178 энергии. Средство 170 оценки может быть реализовано процессором общего назначения или множеством процессоров, запрограммированных или построенных для реализации функциональных возможностей детектора 172, преобразователя 176 и средства 180 оценки.

Ниже подробно описаны варианты осуществления подхода согласно изобретению, который может быть реализован по меньшей мере в одном процессоре (кодирующем процессоре 106 и/или декодирующем процессоре 156 по фиг. 1) или средством 170 оценки по фиг. 2.

На фиг. 3 показана блок-схема подхода согласно изобретению к оценке шума в аудиосигнале. После приема аудиосигнала на первом шаге S100 определяют значение 174 энергии для аудиосигнала, которое затем на шаге S102 преобразуют в логарифмическую область. На шаге S104 на основании преобразованного значения 178 энергии выполняют оценку шума. Согласно вариантам осуществления на шаге S106 определяют, требуется ли дополнительная обработка данных оценки шума, которые представлены логарифмическими данными 182, в логарифмической области. В случае, когда необходима дополнительная обработка в логарифмической области (да, на шаге S106), на шаге S108 выполняют обработку логарифмических данных, представляющих оценку шума; например, выполняют преобразование логарифмических данных в параметры передачи в том случае, когда передача происходит также в логарифмической области. В противном случае (нет, на шаге S106) логарифмические данные 182 преобразуют обратно в линейные данные на шаге S110, которые обрабатывают на шаге S112.

Согласно вариантам осуществления определение на шаге S100 значения энергии для аудиосигнала может быть выполнено согласно стандартным подходам. Сначала вычисляют спектр мощности преобразования FFT, примененного к данному аудиосигналу, а затем группируют полосы на основании психоакустических характеристик. Далее аккумулируют элементы дискретизации спектра мощности в полосе для формирования значения энергии для каждой полосы, чтобы получить набор значений энергии. В других вариантах осуществления возможно вычисление спектра мощности на основе любого подходящего спектрального преобразования типа MDCT (модифицированное дискретное косинусное преобразование), CLDFB (комплексный банк фильтров с низкой задержкой) или комбинации из нескольких преобразований, охватывающих разные части спектра. На шаге S100 определяют значение 174 энергии для каждой полосы, а затем значение 174 энергии для каждой полосы преобразуют на шаге S102 в логарифмическую область, согласно вариантам осуществления в логарифмическую область по основанию 2. Энергию полос можно преобразовать в логарифмическую область по основанию 2 следующим образом:

где - минимальное (x),

- значение энергии полосы n в логарифмической области по основанию 2,

- значение энергии полосы n в линейной области,

- разрешение/точность.

Согласно вариантам осуществления выполняют преобразование в логарифмическую область по основанию 2, которое обеспечивает преимущество, заключающееся в том, что целочисленную логарифмическую функцию по основанию 2 обычно можно вычислить очень быстро, например за один цикл, на процессорах с фиксированной точкой, используя функцию «норма», которая определяет количество начальных нулей в числе с фиксированной точкой. Иногда необходима более высокая точность, чем (целочисленный) log2, которая выражается в приведенной выше формуле константой N. Эта чуть более высокая точность может быть обеспечена посредством использования простой справочной таблицы, содержащей старшие значащие биты, после команды «норма» и аппроксимации, что относится к общим подходам, обеспечивающим несложные логарифмические вычисления, когда допустима более низкая точность. В приведенной выше формуле добавлена константа «1» в логарифмической функции по основанию 2 для того, чтобы преобразованные значения энергии гарантированно оставались положительными. Согласно вариантам осуществления это может оказаться важным в том случае, когда средство оценки шума основано на статистической модели энергии шума, так как выполнение оценки шума на отрицательных значениях нарушает принцип построения модели и приводит к непредвиденным результатам функционирования средства оценки.

Согласно варианту осуществления в вышеприведенной формуле N установлено равным 6, что эквивалентно 26=64 битам динамического диапазона. Это превышает вышеописанный динамический диапазон, равный 40 бит, и, следовательно, является достаточным. При обработке данных целью является использование 16-битных данных, что позволяет использовать 9 бит для мантиссы и один бит для знака. Этот формат обычно обозначается как формат «6Q9». В альтернативном варианте, поскольку можно рассматривать только положительные значения, бит знака можно опустить и использовать для мантиссы, оставляя для нее всего 10 бит (такой формат называется форматом «6Q10»).

Подробное описание алгоритма на основе статистики минимумов можно найти в работе R. Martin, ʺNoise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statisticsʺ, 2001. По существу, он заключается в отслеживании минимумов сглаженного спектра мощности в скользящем временном окне заданной длины для каждой спектральной полосы, как правило, в течение пары секунд. Этот алгоритм также включает в себя компенсацию смещения для повышения точности оценки шума. Кроме того, для улучшения отслеживания изменяющегося во времени шума можно использовать локальные минимумы, вычисленные на гораздо более коротком временном окне, вместо использования исходных минимумов, при условии, что это вызывает умеренное увеличение оценок энергии шума. Допустимая величина увеличения определена в работе R. Martin, ʺNoise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statisticsʺ, 2001, в виде параметра noise_slope_max. Согласно одному варианту осуществления используют алгоритм оценки шума на основе статистики минимумов, который обычно выполняется на линейных данных энергии. Однако, согласно полученным авторами изобретения новым результатам, в целях оценки уровней шума в аудиоматериале или речевом материале данный алгоритм может работать вместо этого с логарифмическими входными данными. Хотя сама обработка сигнала остается неизменной, потребуется минимальное количество возвратов, что выражается в уменьшении параметра noise_slope_max для обеспечения возможности работы с уменьшенным динамическим диапазоном логарифмических данных по сравнению с линейными данными. До сих пор полагалось, что алгоритм на основе статистики минимумов или другие подходящие способы оценки шума должны выполняться на линейных данных, то есть, полагалось, что логарифмическое представление в действительности здесь не подходит. В отличие от этого традиционного предположения, авторы изобретения установили, что оценку шума действительно можно выполнять на основании логарифмических данных, что позволяет использовать входные данные, которые представлены только в 16-битном формате, что, как следствие, значительно упрощает реализации с фиксированной точкой, так как большинство операций может выполняться в 16-битном формате, и лишь для некоторых частей алгоритма все же требуется 32-битный формат. Например, в алгоритме на основе статистики минимумов компенсация смещения основана на дисперсии входной мощности, хотя для статистики четвертого порядка, как правило, все же требуется 32-битное представление.

Как было описано выше в связи с фиг. 3, результат процесса оценки шума можно дополнительно обработать различными путями. Согласно вариантам осуществления, первый путь состоит в непосредственном использовании логарифмических данных 182, как показано на шаге S108, например, путем непосредственного преобразования логарифмических данных 182 в параметры передачи, если эти параметры также передаются в логарифмической области, что часто встречается. Второй путь заключается в обработке логарифмических данных 182, в ходе которой их преобразуют обратно в линейную область для дальнейшей обработки, например, используя функцию сдвига, что обычно выполняется очень быстро и, как правило, занимает только один цикл работы процессора вместе со справочной таблицей, или посредством использования аппроксимации, например:

Далее со ссылками на кодер описан подробный пример реализации подхода согласно изобретению к оценке шума на основании логарифмических данных; однако, как подчеркивалось выше, подход согласно изобретению также можно применить к сигналам, которые были декодированы в декодере, как это описано, например, PCT/EP2012/077525 или PCT/EP2012/077527, содержание которых включено в настоящий документ путем ссылки. В нижеследующем варианте осуществления описана реализация подхода согласно изобретению к оценке шума в аудиосигнале в аудиокодере типа кодера 100 по фиг. 1. В частности, далее описан алгоритм обработки сигнала, используемый в кодере EVS (усовершенствованные услуги телефонии) для реализации подхода согласно изобретению к оценке шума в аудиосигнале, полученном EVS кодером.

Положим, что входные блоки отсчетов аудио длительностью 20 мс представлены в 16-битном едином формате PCM (импульсно-кодовой модуляции). Положим, что имеется четыре частоты дискретизации, например, 8000, 16000, 32000 и 48000 отсчетов/с, а скорости передачи в битах для кодированного битового потока могут составлять 5,9, 7,2, 8,0, 9,6, 13,2, 16,4, 24,4, 32,0, 48,0 64,0, или 128,0 кбит/с. Также может быть обеспечен межоперационный режим AMR-WB (Адаптивный многоскоростной широкополосный кодек) со скоростями передачи в битах для кодированного битового потока 6,6, 8,85, 12,65, 14,85, 15,85, 18,25, 19,85, 23,05, или 23,85 кбит/с.

В последующем описании для математических выражений приняты следующие обозначения:

- указывает наибольшее целое число, меньшее или равное x: , и ;

- указывает суммирование;

если не задано иное, то log(x) обозначает логарифм по основанию 10 для всего последующего описания.

Кодер получает полнодиапазонный (FB), сверхширокополосный (SWB), широкополосный (WB) или узкополосный (NB) сигналы, дискретизированные с частотой 48, 32, 16 или 8 кГц. Аналогичным образом, на выходе декодера может быть сигнал с частотой 48, 32, 16 или 8 кГц, типа FB, SWB, WB или NB. Для указания частоты входной дискретизации в кодере или частоты выходной дискретизации в декодере используют параметр R (8, 16, 32 или 48).

Входной сигнал обрабатывают, используя кадры длительностью 20 мс. Задержка кодека зависит от частоты дискретизации на входе и выходе. При WB входе и WB выходе общая логарифмическая задержка составляет 43,75 мс. Она состоит из одного 20-миллисекундного кадра, 1,85-миллисекундной задержки входных и выходных фильтров передискретизации, 10 мс на опережение кодера, 1-миллисекундной задержки постфильтрации и 10 мс на декодере, что позволяет выполнить дополнительную операцию перекрытия для кодирования преобразования на более высоком уровне. Для NB входа и NB выхода более высокие уровни не используют, но используют 10-миллисекундную задержку декодера для улучшения рабочих характеристик кодека при наличии стираний кадров и для сигналов музыки. Общая алгоритмическая задержка для NB входа и NB выхода составляет 43,85 мс (один 20-миллисекндый кадр, 2 мс на входном фильтре передискретизации, 10 мс на опережение кодера, 1,85 мс на выходном фильтре передискретизации и 10-милискундная задержка в декодере). Если выход ограничен уровнем 2, то задержка кодека может быть сокращена на 10 мс.

В общие функциональные возможности кодера входят следующие разделы: общая обработка, режим кодирования с линейным предсказанием и кодовым возбуждением (CELP), режим кодирования с модифицированным дискретным косинусным преобразованием (MDCT), коммутация режимов кодирования, вспомогательная информация о маскировании стирания кадров, операция DTX/CNG (прерывистая передача/формирование комфортного шума), межоперационная опция AMR-WB и кодирование, ориентированное на канал.

Согласно настоящему варианту осуществления подход согласно изобретению реализован в разделе операции DTX/CNG. Кодек снабжен алгоритмом обнаружения активности сигнала (SAD) для классификации каждого входного кадра как активного или неактивного. Это поддерживает операцию прерывистой передачи (DTX), в которой для аппроксимации и обновления статистики фонового шума с переменной скоростью передачи в битах используют модуль формирования комфортного шума в частотной области (FD-CNG). Таким образом, скорость передачи в течение периодов неактивного сигнала является переменной и зависит от оцененного уровня фонового шума. Однако частота обновления CNG также может быть фиксированной путем применения командного линейного параметра.

Чтобы иметь возможность создания искусственного шума, похожего на реальный входной фоновый шум в плане спектрально-временных характеристик, для формирования FD-CNG используют алгоритм оценки шума для отслеживания значений энергии фонового шума на входе кодера. Затем оценки этого шума передают в качестве параметров в виде кадров SID (дескриптор ввода паузы) для обновления амплитуды случайных последовательностей, формируемых в каждой частотной полосе на стороне декодера во время неактивных фаз.

Работа средства оценки шума FD-CNG основана на подходе, содержащем гибридный спектральный анализ. Низкие частоты, соответствующие базовой полосе частот, подвергаются анализу на основе FFT с высоким разрешением, в то время как остальные более высокие частоты анализируют с помощью методики CLDFB, который характеризуется значительно меньшим спектральным разрешением, составляющим 400 Гц. Заметим, что CLDFB также используют в качестве средства передискретизации для понижения частоты дискретизации входного сигала до базовой частоты дискретизации.

Однако на практике размер кадра SID ограничен. Для сокращения количества параметров, описывающих фоновый шум, значения энергий на входе усредняют по группам спектральных полос, называемых ниже участками.

1. Энергии спектральных участков

Энергии участков вычисляют отдельно для полос FFT и CLDFB. Энергии , соответствующие участкам FFT, и энергии , соответствующие участкам CLDFB, сводят затем в единый массив размером , который служит входом в средство оценки шума, описанное ниже (см. раздел «2. Оценка шума FD-CNG»).

1.1 Вычисление энергий участков FFT

Энергии участков для частот, покрывающих базовую полосу, получают в виде

где и - средние значения энергии в критической полосе i для первого и второго окон анализа соответственно. Количество участков для FFT, захватывающих базовую полосу, находится в диапазоне от 17 до 21 в соответствии с использованной конфигурацией (см. «1.3. Конфигурации кодера FD-CNG»). Для компенсации фильтра верхних частот используют уменьшенные спектральные веса , которые определены в виде

1.2. Вычисление энергий участков CLDFB

Энергии участков для частот, превышающих базовую полосу, вычисляют как

где и индексы первой и последней полосы CLDFB в i-м участке соответственно; - общая энергия j-й полосы CLDFB, и - коэффициент масштабирования. Константа 16 относится к количеству временных слотов в CLDFB. Количество участков зависит от использованной конфигурации, как это описано ниже.

1.3. Конфигурации кодера FD-CNG

В приведенной ниже таблице перечислены количество участков и их верхние границы для разных конфигураций FD-CNG в кодере.

Скорости передачи в битах[кбит/с] [Гц] [Гц]
NB 17 0 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3975
WB 20 0 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375
20 1 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375 8000
21 0 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375, 7975
SWB/FB 20 4 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375 8000, 10000, 12000, 14000
21 3 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375, 7975 10000, 12000, 16000

Таблица 1. Конфигурации оценки шума FD-CNG в кодере

Для каждого участка , соответствует частоте последней полосы в i-м участке. Индексы и первой и второй полосы в каждом спектральном участке можно получить как функцию конфигурации базового участка следующим образом:

где - частота первой полосы в первом спектральном участке. Таким образом, FD-CNG формирует некоторый комфортный шум только выше 50 Гц.

2. Оценка шума FD-CNG

FD-CNG основан на средстве оценки шума для отслеживания энергии фонового шума, присутствующего во входном спектре. По большей части это основано на алгоритме статистики минимумов, описанном в работе R. Martin, ʺNoise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statisticsʺ, 2001. Однако для уменьшения динамического диапазона входных энергий и упрощения реализации алгоритма оценки шума с фиксированной точкой, перед средством оценки шума используют нелинейное преобразование (см. «2.1. Сжатие динамического диапазона для входных энергий»). Затем выполняют обратное преобразование результирующих оценок шума для восстановления исходного динамическо