2633107 - Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных

Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных

Иллюстрации

Показать все

Изобретение относится к средствам для моделирования фонового шума при низких скоростях передачи данных. Технический результат заключается в повышении естественности звучания кодированного аудиосигнала. Декодер выполнен с возможностью обработки закодированного звукового битового потока. Декодер содержит: декодер битового потока, выполненный с возможностью извлечения декодированного звукового сигнала из битового потока, причем декодированный звуковой сигнал содержит по меньшей мере один декодированный кадр; устройство оценки шума, выполненное с возможностью формирования сигнала оценки шума, содержащего оценку уровня и/или спектральной формы шума в декодированном звуковом сигнале; устройство генерирования комфортного шума, выполненное с возможностью извлечения сигнала комфортного шума из сигнала оценки шума; и объединитель, выполненный с возможностью объединения декодированного кадра декодированного звукового сигнала и сигнала комфортного шума, чтобы получить звуковой выходной сигнал. 7 н. и 19 з.п. ф-лы, 6 ил.

Реферат

Изобретение относится к обработке звуковых сигналов и, в частности, к кодированию шумной речи и добавлению комфортного шума к звуковым сигналам.

Генераторы комфортного шума обычно используются в прерывистой передаче (DTX) звуковых сигналов, в частности, звуковых сигналов, содержащих речь. В таком режиме звуковой сигнал сначала классифицируется на активные и неактивные кадры посредством детектора речевой активности (VAD). Пример VAD может быть найден в [1]. На основе результата VAD только активные речевые кадры кодируются и передаются на номинальной скорости передачи данных. Во время длительных пауз, когда присутствует только фоновый шум, скорость передачи данных снижается или обнуляется, и фоновый шум кодируется эпизодически и параметрически. Средняя скорость передачи данных, следовательно, значительно уменьшается. Шум генерируется во время неактивных кадров на стороне декодера посредством генератора комфортного шума (CNG). Например, речевые кодеры AMR-WB [2] и ITU G.718 [1] имеют возможность быть запущенными оба в режиме DTX.

Кодирование речи и особенно шумной речи на низких скоростях передачи данных подвержено артефактам. Речевые кодеры обычно основаны на модели производства речи, которая больше не держит в присутствии фонового шума. В этом случае кодирование эффективно падает, и качество декодированного звукового сигнала уменьшается. Кроме того, определенные характеристики речевого кодирования могут быть особенно возмущающими при обработке шумной речи. Действительно, при низких скоростях грубое квантование параметров кодирования производит некоторые колебания с течением времени, при этом колебания с точки зрения чувственного восприятия являются раздражающим при кодировании речи по стационарному фоновому шуму.

Шумоподавление представляет собой хорошо известный метод для повышения разборчивости речи и улучшения связи при наличии фонового шума. Оно также было принято в кодировании речи. Например, кодер G.718 использует шумоподавление для выведения некоторых параметров кодирования, таких как высота тона речи. Он также имеет возможность кодировать расширенный сигнал вместо исходного сигнала. Речь в таком случае является более преобладающей по сравнению с уровнем шума в декодированном сигнале. Однако она обычно звучит ухудшенной или менее естественной, поскольку шумоподавление может исказить компоненты речи и вызвать слышимые музыкальные шумовые артефакты в дополнение к артефактам кодирования.

Цель настоящего изобретения состоит в том, чтобы предоставить улучшенные принципы для обработки звуковых сигналов. Цель настоящего изобретения достигается посредством декодера по п. 1 формулы изобретения, посредством кодера по п. 18 формулы изобретения, посредством системы по п. 19 формулы изобретения, посредством способа по п. 20 или 21 формулы изобретения, посредством битового потока по п. 22 формулы изобретения и посредством компьютерной программы по п. 15 формулы изобретения.

В одном из аспектов изобретение предоставляет декодер, выполненный с возможностью обработки закодированного звукового битового потока, где декодер содержит:

декодер битового потока, выполненный с возможностью извлечения декодированного звукового сигнала из битового потока, где декодированный звуковой сигнал содержит по меньшей мере один декодированный кадр;

устройство оценки шума, выполненное с возможностью формирования сигнала оценки шума, содержащего оценку уровня и/или спектральной формы шума в декодированном звуковом сигнале;

устройство генерирования комфортного шума, выполненное с возможностью извлечения сигнала комфортного шума из сигнала оценки шума; и

объединитель, выполненный с возможностью объединения декодированного кадра декодированного звукового сигнала и сигнала комфортного шума, чтобы получить выходной звуковой сигнал.

Декодер битового потока может быть устройством или компьютерной программой, способной декодировать звуковой битовый поток, который представляет собой поток цифровых данных, содержащих звуковую информацию. Процесс декодирования имеет результатом цифровой декодированный звуковой сигнал, который может быть подан в A/D (аналого-цифровой) преобразователь для формирования аналогового звукового сигнала, который затем может быть подан в громкоговоритель, чтобы сформировать слышимый сигнал.

Декодированный звуковой сигнал разделен на так называемые кадры, где каждый из этих кадров содержит звуковую информацию, относящуюся к определенному временному интервалу. Такие кадры могут быть классифицированы на активные и неактивные кадры, где активный кадр представляет собой кадр, который содержит требуемые компоненты звуковой информации, такие как речь или музыка, тогда как неактивный кадр представляет собой кадр, который не содержит каких-либо требуемых компонентов звуковой информации. Неактивные кадры обычно возникают во время пауз, когда не присутствуют требуемые компоненты, такие как музыка или речь. Следовательно, неактивные кадры обычно содержат исключительно фоновый шум.

В прерывистой передаче (DTX) звукового сигнала только активные кадры декодированного звукового сигнала получаются посредством декодирования битового потока, поскольку во время неактивных кадров кодер не передает звуковой сигнал в битовом потоке.

В не-прерывистой передаче (не-DTX) звукового сигнала активные кадры, так же как и неактивные кадры, получаются посредством декодирования битового потока.

Кадры, которые получены путем декодирования битового потока посредством декодера битового потока, называются декодированными кадрами.

Устройство оценки шума выполнено с возможностью формирования сигнала оценки шума, содержащего оценку уровня и/или спектральной формы шума в декодированном звуковом сигнале. Кроме того, устройство генерирования комфортного шума выполнено с возможностью извлечения сигнала комфортного шума из сигнала оценки шума. Сигнал оценки шума может быть сигналом, который содержит информацию, касающуюся характеристик шума, содержащегося в декодированном звуковом сигнале в параметрической форме. Сигнал комфортного шума представляет собой искусственный звуковой сигнал, который соответствует шуму, содержащемуся в декодированном звуковом сигнале. Эти отличительные признаки позволяют комфортному шуму звучать подобно фактическому фоновому шуму, не требуя какой-либо дополнительной информации, касающейся фонового шума в битовом потоке.

Объединитель выполнен с возможностью объединения декодированного кадра декодированного звукового сигнала и сигнала комфортного шума, чтобы получить выходной звуковой сигнал. В результате звуковой выходной сигнал содержит декодированные кадры, которые содержат искусственный шум. Искусственный шум в декодированных кадрах позволяет маскировать артефакты в звуковом выходном сигнале, особенно когда битовый поток передается на малых скоростях передачи данных. Он сглаживает обычно наблюдаемые колебания и тем временем маскирует преобладающие артефакты кодирования.

В отличие от предшествующего уровня техники, настоящее изобретение применяет принцип добавления искусственного комфортного шума к декодированным кадрам. Изобретательский замысел может быть применен как к режимам DTX, так и не-DTX.

Изобретение предоставляет способ для повышения качества шумной речи, закодированной и переданной на низких скоростях передачи данных. На низких скоростях передачи данных кодирование шумной речи, т.е., речи, записанной с фоновым шумом, обычно не является таким эффективным, как кодирование чистой речи. Декодированный синтез обычно подвержен артефактам. Два различных вида источников, шум и речь, не могут быть эффективно закодированы посредством схемы кодирования, опирающейся на модель с одним источником. Настоящее изобретение предоставляет принцип для моделирования и синтеза фонового шума на стороне декодера и требует очень мало или вовсе не требует дополнительной информации. Это достигается путем оценки уровня и спектральной формы фонового шума на стороне декодера и путем искусственного генерирования комфортного шума. Сгенерированный шум объединяется с декодированным звуковым сигналом и позволяет маскировать артефакты кодирования.

Кроме того, принцип может быть объединен со схемой шумоподавления, примененной на стороне кодера. Шумоподавление повышает уровень отношения сигнал-шум (SNR) и повышает производительностью последующего звукового кодирования. Недостающее количество шума в декодированном звуковом сигнале затем компенсируется комфортным шумом на стороне декодера. Однако, он обычно звучит ухудшенным или менее естественным, поскольку шумоподавление может исказить звуковые компоненты и вызвать слышимые музыкальные шумовые артефакты в дополнение к артефактам кодирования. Один из аспектов настоящего изобретения состоит в том, чтобы замаскировать такие неприятные искажения путем добавления комфортного шума на стороне декодера. При использовании схемы шумоподавления добавление комфортного шума не ухудшает SNR. Кроме того, комфортный шум скрывает большую часть раздражающего музыкального шума, типичного для методов шумоподавления.

В предпочтительном варианте осуществления изобретения декодированный кадр представляет собой активный кадр. Этот отличительный признак распространяет принцип добавления комфортного шума на декодированные активные кадры.

В предпочтительном варианте осуществления изобретения устройство оценки шума содержит устройство спектрального анализа, выполненное с возможностью создания сигнала анализа, содержащего уровень и спектральную форму шума в декодированном звуковом сигнале, и устройство формирования оценки шума, выполненное с возможностью формирования сигнала оценки шума на основе сигнала анализа.

В предпочтительном варианте осуществления изобретения устройство генерирования комфортного шума содержит генератор шума, выполненный с возможностью создания сигнала комфортного шума частотной области на основе сигнала оценки шума, и спектральный синтезатор, выполненный с возможностью создания сигнала комфортного шума на основе сигнала комфортного шума частотной области.

В предпочтительном варианте осуществления изобретения декодер содержит переключающее устройство, выполненное с возможностью переключения декодера альтернативно в первый режим работы или второй режим работы, где в первом режиме работы сигнал комфортного шума подается в объединитель, тогда как сигнал комфортного шума не подается в объединитель во втором режиме работы. Эти отличительные признаки позволяют прекратить использование искусственного комфортного шума в ситуациях, когда он не нужен.

В предпочтительном варианте осуществления изобретения декодер содержит управляющее устройство, выполненное с возможностью управления переключающим устройством автоматически, где управляющее устройство содержит детектор шума, выполненный с возможностью управления переключающим устройством в зависимости от соотношения сигнал-шум декодированного звукового сигнала, где в условиях низкого соотношения сигнал-шум декодер переключается в первый режим работы, а в условиях высокого соотношения сигнал-шум - во второй режим работы. Посредством этих отличительных признаков комфортный шум может быть вызван только в сценариях шумной речи, т.е. не в ситуациях чистой речи или чистой музыки. В целях различения между условиями низкого соотношения сигнал-шум и условиями высокого соотношения сигнал-шум порог для соотношения сигнал-шум может быть определен и использован.

В предпочтительном варианте осуществления управляющее устройство содержит приемник дополнительной информации, выполненный с возможностью приема дополнительной информации, содержащейся в битовом потоке, которая соответствует соотношению сигнал-шум декодированного звукового сигнала, и выполненный с возможностью создания сигнала обнаружения шума, где детектор шума управляет переключающим устройством в зависимости от сигнала обнаружения шума. Эти отличительные признаки позволяют управлять переключающим устройством на основе анализа сигнала, выполненного внешним устройством, формирующим и/или обрабатывающим принятый битовый поток. Внешнее устройство в особенности может быть кодером, формирующим битовый поток.

В предпочтительном варианте осуществления изобретения дополнительная информация, соответствующая соотношению сигнал-шум декодированного звукового сигнала, состоит из по меньшей мере одного выделенного бита в битовом потоке. Выделенный бит в целом представляет собой бит, который содержит, один или вместе с другими выделенными битами, определенную информацию. Здесь выделенный бит может указывать, находится ли соотношение сигнал-шум выше или ниже предопределенного порога.

В предпочтительном варианте осуществления изобретения управляющее устройство содержит устройство оценки энергии требуемого сигнала, выполненное с возможностью определения энергии требуемого сигнала декодированного звукового сигнала, устройство оценки энергии шума, выполненное с возможностью определения энергии шума декодированного звукового сигнала, и устройство оценки соотношения сигнал-шум, выполненное с возможностью определения соотношения сигнал-шум декодированного звукового сигнала на основе энергии требуемого сигнала и на основе энергии шума, где переключающее устройство переключается в зависимости от соотношения сигнал-шум, определенного управляющим устройством. В этом случае нет необходимости в дополнительной информации в битовом потоке. Поскольку энергия требуемого сигнала обычно превышает энергию шума декодированного сигнала, общая энергия декодированного звукового сигнала, включая энергию требуемого сигнала, а также энергию шума, дает грубую оценку энергии требуемого сигнала декодированного звукового сигнала. По этой причине соотношение сигнал-шум может быть вычислено в приближении путем деления общей энергии декодированного звукового сигнала на энергию шума декодированного сигнала.

В предпочтительном варианте осуществления изобретения битовый поток содержит активные кадры и неактивные кадры, где управляющее устройство выполнено с возможностью определения энергии требуемого сигнала декодированного звукового сигнала во время активных кадров и определения энергии шума декодированного звукового сигнала во время неактивных кадров. Посредством этого высокая точность в оценке соотношения сигнал-шум может быть достигнута простым способом.

В предпочтительном варианте осуществления изобретения битовый поток содержит активные кадры и неактивные кадры, где декодер содержит приемник дополнительной информации, выполненный с возможностью различения между активными кадрами и неактивными кадрами на основе дополнительной информации в битовом потоке, указывающей, является ли текущий кадр активным или неактивным. Посредством этого отличительного признака активные кадры или неактивные кадры соответственно могут быть идентифицированы без усилий расчета.

В предпочтительном варианте осуществления изобретения дополнительная информация, указывающая, является ли текущий кадр активным или неактивным, состоит из по меньшей мере одного выделенного бита в битовом потоке.

В предпочтительном варианте осуществления изобретения управляющее устройство выполнено с возможностью определения энергии требуемого сигнала декодированного звукового сигнала на основе сигнала анализа. В этом случае сигнал анализа, который обычно должен быть вычислен в целях оценки шума, может быть использован повторно, так что сложность может быть уменьшена.

В предпочтительном варианте осуществления изобретения управляющее устройство выполнено с возможностью определения энергии шума декодированного звукового сигнала на основе сигнала оценки шума. В таком варианте осуществления сигнал оценки шума, который обычно должен быть вычислен в целях генерирования комфортного шума, может быть использован повторно, так что сложность может быть дополнительно уменьшена.

В предпочтительном варианте осуществления изобретения устройство генерирования комфортного шума выполнено с возможностью создания сигнала комфортного шума на основе сигнала целевого уровня комфортного шума. Уровень добавленного комфортного шума должен быть ограничен, чтобы сохранить разборчивость и качество. Это может быть достигнуто путем масштабирования комфортного шума с использованием целевого сигнала шума, который указывает предопределенный целевой уровень шума.

В предпочтительном варианте осуществления изобретения сигнал целевого уровня комфортного шума регулируется в зависимости от скорости передачи данных битового потока. Обычно декодированный звуковой сигнал показывает более высокое соотношение сигнал-шум, чем исходный входной сигнал, особенно на низких скоростях передачи данных, где артефакты кодирования являются наиболее серьезными. Это ослабление уровня шума в кодировании речи исходит из парадигмы модели источника, которая ожидает речь в качестве входа. В противном случае кодирование исходной модели не является полностью подходящим и не будет способно воспроизвести всю энергию не-речевых компонентов. Следовательно, сигнал целевого уровня комфортного шума может быть отрегулирован в зависимости от скорости передачи данных, чтобы примерно компенсировать ослабление шума, по своей сути, введенное процессом кодирования.

В предпочтительном варианте осуществления изобретения сигнал целевого уровня комфортного шума регулируется в зависимости от уровня ослабления шума, вызванного способом шумоподавления, примененным к битовому потоку. Посредством этих отличительных признаков ослабление шума, вызванное модулем шумоподавления в кодере, может быть компенсировано.

В предпочтительном варианте осуществления энергия сигнала комфортного шума частотной области случайного шума w(k) регулируется в зависимости от сигнала целевого уровня комфортного шума, который указывает целевой уровень g_tar комфортного шума для каждой частоты k как , где относится к оценке энергии шума декодированного звукового сигнала на частоте k, как доставлено устройством формирования оценки шума. Посредством этих отличительных признаков разборчивость и качество выходного сигнала могут быть повышены.

В предпочтительном варианте осуществления изобретения декодер содержит дополнительный декодер битового потока, где декодер битового потока и дополнительный декодер битового потока являются декодерами различных типов, при этом декодер содержит переключатель, выполненный с возможностью подачи либо декодированного сигнала из декодера битового потока, либо декодированного сигнала из дополнительного декодера битового потока в устройство оценки шума и в объединитель. Поскольку добавление комфортного шума выполняется при использовании декодера битового потока, а также при использовании дополнительного декодера битового потока, переходные артефакты при переключении между декодером битового потока и дополнительным декодером битового потока могут быть минимизированы. Например, декодер битового потока может быть декодером битового потока линейного предсказания с возбуждением алгебраическим кодом (ACELP), тогда как дополнительный декодер битового потока может быть декодером битового потока основанного на преобразовании ядра (TCX).

Изобретение дополнительно предоставляет обрабатывающий звуковой сигнал кодер, выполненный с возможностью формирования звукового битового потока, где кодер содержит:

кодер битового потока, выполненный с возможностью формирования закодированного звукового сигнала, соответствующего звуковому входному сигналу, и извлечения битового потока из закодированного звукового сигнала;

анализатор сигнала, имеющий устройство оценки соотношения сигнал-шум, выполненное с возможностью определения соотношения сигнал-шум звукового входного сигнала на основе энергии требуемого сигнала звукового сигнала, определенной устройством оценки энергии требуемого сигнала, и на основе энергии шума звукового входного сигнала, определенной устройством оценки энергии шума;

устройство шумоподавления, выполненное с возможностью формирования звукового сигнала с уменьшенным шумом; и

переключающее устройство, выполненное с возможностью подачи, в зависимости от определенного соотношения сигнал-шум звукового входного сигнала, либо звукового входного сигнала, либо звукового сигнала с уменьшенным шумом в кодер битового потока с целью кодирования соответствующего сигнала, где кодер битового потока выполнен с возможностью передачи дополнительной информации, которая указывает, закодирован ли звуковой входной сигнал или звуковой сигнал с уменьшенным шумом, в битовом потоке.

Кодер битового потока может быть устройством или компьютерной программой, способной кодировать звуковой сигнал, который представляет собой сигнал цифровых данных, содержащих звуковую информацию. Процесс кодирования имеет результатом цифровой битовый поток, который может быть передан по цифровой линии передачи данных в удаленное местоположение.

Звуковой входной сигнал непосредственно кодируется кодером битового потока. Кодер битового потока может быть речевым кодером или схемой с малой задержкой, переключающейся между речевым кодером ACELP и основанным на преобразовании звуковым кодером TCX. Кодер битового потока является ответственным за кодирование звукового входного сигнала и генерирование битового потока, необходимого для декодирования звукового сигнала. Параллельно входной сигнал анализируется любым модулем, называемым анализатором сигнала. В предпочтительном варианте осуществления анализ сигнала является тем же, что и используемый в G.718. Он состоит из устройства спектрального анализа, за которым следует устройство формирования оценки шума. Спектры как исходного сигнала, так и оцененного шума представляют собой входные сигналы в модуль шумоподавления. Шумоподавление ослабляет уровень фонового шума в частотной области. Степень снижения задается целевым уровнем ослабления. Сигнал расширенной временной области (звуковой сигнал с уменьшенным шумом) генерируется после спектрального синтеза. Сигнал используется для выведения некоторых отличительных признаков, таких как стабильность основного тона, который затем используется VAD для различения между активными и неактивными кадрами. Результат классификации может быть дополнительно использован модулем кодера. В предпочтительном варианте осуществления определенный режим кодирования используется для обработки неактивных кадров. Таким образом декодер может вывести флаг VAD из битового потока без требования выделенного бита.

Чтобы избежать ненужных искажений в бесшумных ситуациях (чистая речь или чистая музыка), шумоподавление применяется только в случае шумной речи и игнорируется в противном случае. Различение между шумными и бесшумными сигналами достигается путем оценки долгосрочной энергии как шумного, так и желаемого сигнала (речи или музыки). Долгосрочная энергия вычисляется путем авто-регрессионной фильтрации первого порядка либо энергии входного кадра (во время активных кадров), либо с использованием выходного сигнала модуля оценки шума (во время неактивных кадров), таким образом может быть вычислена оценка соотношения сигнал-шум, которая определена как соотношение долгосрочной энергии речи или музыки по долгосрочной энергии шума. Если соотношение сигнал-шум ниже предопределенного порога, кадр считается шумной речью, в противном случае он классифицируется как чистая речь. Поскольку кодер битового потока выполнен с возможностью передачи в битовом потоке дополнительной информации, которая указывает, закодирован ли звуковой входной сигнал или звуковой сигнал с уменьшенным шумом, декодер может регулировать сигнал целевого уровня комфортного шума автоматически к режиму работы кодера.

В предпочтительном варианте осуществления изобретения во время активных кадров обновляется только долгосрочная оценка энергии речь/музыка. Во время неактивных кадров обновляется только оценка энергии шума.

Изобретение дополнительно предоставляет систему, содержащую звуковой сигнал, обрабатывающий декодер и обрабатывающий звуковой сигнал кодер, где декодер спроектирован в соответствии с заявленным изобретением и/или кодер спроектирован в соответствии с заявленным изобретением.

В другом аспекте изобретение предоставляет способ декодирования звукового битового потока, где способ состоит в том, что:

извлекают декодированный звуковой сигнал из битового потока, где декодированный звуковой сигнал содержит по меньшей мере один декодированный кадр;

формируют сигнал оценки шума, содержащий оценку уровня и/или спектральной формы шума в декодированном звуковом сигнале;

извлекают сигнал комфортного шума из сигнала оценки шума; и

объединяют декодированный кадр декодированного звукового сигнала и сигнал комфортного шума, чтобы получить выходной звуковой сигнал.

Изобретение дополнительно предоставляет способ кодирования звукового сигнала для формирования звукового битового потока, где способ состоит в том, что:

определяют соотношение сигнал-шум звукового входного сигнала на основе определенной энергии требуемого сигнала звукового входного сигнала и определенной энергии шума звукового входного сигнала;

формируют звуковой сигнал с уменьшенным шумом;

формируют закодированный звуковой сигнал, соответствующий звуковому входному сигналу, где в зависимости от определенного соотношения сигнал-шум звукового входного сигнала кодируется либо звуковой входной сигнал, либо звуковой сигнал с уменьшенным шумом;

извлекают битовый поток из закодированного звукового сигнала; и

передают дополнительную информацию, которая указывает, закодирован ли звуковой входной сигнал или звуковой сигнал с уменьшенным шумом, в битовом потоке.

Изобретение дополнительно предоставляет битовый поток, сформированный в соответствии со способом выше. Заявленный битовый поток содержит дополнительную информацию, которая указывает, закодирован ли звуковой входной сигнал или звуковой сигнал с уменьшенным уровнем шума.

Дополнительный аспект изобретения предоставляет компьютерную программу для выполнения, при исполнении на компьютере или процессоре, изобретательных способов.

Предпочтительные варианты осуществления изобретения впоследствии обсуждаются со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1 иллюстрирует первый вариант осуществления декодера в соответствии с изобретением;

Фиг. 2 иллюстрирует второй вариант осуществления декодера в соответствии с изобретением;

Фиг. 3 иллюстрирует кодер в соответствии с предшествующим уровнем техники;

Фиг. 4 иллюстрирует первый вариант осуществления кодера в соответствии с изобретением;

Фиг. 5 иллюстрирует второй вариант осуществления кодера в соответствии с изобретением; и

Фиг. 6 иллюстрирует вариант осуществления формата кадра битового потока в соответствии с изобретением.

Фиг. 1 иллюстрирует первый вариант осуществления декодера 1 в соответствии с изобретением. Декодер 1 выполнен с возможностью обработки закодированного звукового битового потока BS, где декодер 1 содержит:

декодер 2 битового потока, выполненный с возможностью извлечения декодированного звукового сигнала DS из битового потока BS, где декодированный звуковой сигнал DS содержит по меньшей мере один декодированный кадр;

устройство 3 оценки шума, выполненное с возможностью формирования сигнала NE оценки шума, содержащего оценку уровня и/или спектральной формы шума N в декодированном звуковом сигнале DS;

устройство 4 генерирования комфортного шума, выполненное с возможностью извлечения звукового сигнала комфортного шума CN из сигнала NE оценки шума; и

объединитель 5, выполненный с возможностью объединения декодированного кадра декодированного звукового сигнала DS и сигнала CN комфортного шума, чтобы получить звуковой выходной сигнал OS.

Декодер 2 битового потока может быть устройством или компьютерной программой, способной декодировать звуковой битовый поток BS, который представляет собой поток цифровых данных, содержащих звуковую информацию. Процесс декодирования имеет результатом цифровой декодированный звуковой сигнал DS, который может быть подан в A/D (аналого-цифровой) преобразователь для формирования аналогового звукового сигнала, который затем может быть подан в громкоговоритель, чтобы сформировать слышимый сигнал.

Декодированный звуковой сигнал DS содержит так называемые кадры, где каждый из этих кадров содержит звуковую информацию, относящуюся к определенному времени. Такие кадры могут быть классифицированы на активные и неактивные кадры, где активный кадр представляет собой кадр, который содержит требуемые компоненты WS звуковой информации, также называемые требуемым сигналом WS, такие как речь или музыка, тогда как неактивный кадр представляет собой кадр, который не содержит каких-либо требуемых компонентов звуковой информации. Неактивные кадры обычно возникают во время пауз, когда не присутствуют требуемые компоненты, такие как музыка или речь. Следовательно, неактивные кадры обычно содержат исключительно фоновый шум N.

Устройство 3 оценки шума выполнено с возможностью формирования сигнала NE оценки шума, содержащего оценку уровня и/или спектральной формы шума в декодированном звуковом сигнале DS. Кроме того, устройство 4 генерирования комфортного шума выполнено с возможностью извлечения звукового сигнала CN комфортного шума из сигнала NE оценки шума. Сигнал NE оценки шума может быть сигналом, который содержит информацию, касающуюся характеристик шума N, содержащегося в декодированном звуковом сигнале DS в параметрической форме. Сигнал CN комфортного шума представляет собой искусственный звуковой сигнал, который соответствует шуму N, содержащемуся в декодированном звуковом сигнале DS. Эти отличительные признаки позволяют комфортному шуму CN звучать как фактический фоновый шум N, не требуя какой-либо дополнительной информации в битовом потоке BS, касающейся фонового шума N.

Объединитель 5 выполнен с возможностью объединения декодированного кадра декодированного звукового сигнала DS и сигнала CN комфортного шума, чтобы получить звуковой выходной сигнал OS. В результате звуковой выходной сигнал OS содержит декодированные кадры, которые содержат искусственный шум CN. Искусственный шум CN в декодированных кадрах позволяет маскировать артефакты в звуковом выходном сигнале OS, особенно когда битовый поток BS передается на малых скоростях передачи данных.

В отличие от предшествующего уровня техники, настоящее изобретение применяет принцип добавления искусственного комфортного шума CN к декодированным активным или неактивным кадрам. Изобретательский замысел может быть применен как к режимам DTX, так и не-DTX.

Изобретение предоставляет способ для повышения качества шумной речи, закодированной и переданной на низких скоростях передачи данных. На низких скоростях передачи данных кодирование шумной речи, т.е., речи, записанной с фоновым шумом N, обычно не является таким эффективным, как кодирование чистой речи WS. Декодированный синтез обычно подвержен артефактам. Два различных вида источников, шум N и речь WS, не могут быть эффективно закодированы посредством схемы кодирования, опирающейся на модель с одним источником. Настоящее изобретение предоставляет принцип для моделирования и синтеза фонового шума N на стороне декодера и требует очень мало или вовсе не требует дополнительной информации. Это достигается путем оценки уровня и спектральной формы фонового шума N на стороне декодера и путем искусственного генерирования комфортного шума CN. Сгенерированный шум CN объединяется с декодированным звуковым сигналом DS и позволяет маскировать артефакты во время декодированных кадров.

Кроме того, принцип может быть объединен со схемой шумоподавления, примененной на стороне кодера. Шумоподавление повышает уровень отношения сигнал-шум (SNR) и повышает производительностью последующего звукового кодирования. Недостающее количество шума N в декодированном звуковом сигнале DS затем компенсируется комфортным шумом CN на стороне декодера. Однако, он обычно звучит ухудшенным или менее естественным, поскольку шумоподавление может исказить звуковые компоненты и вызвать слышимые музыкальные шумовые артефакты в дополнение к артефактам кодирования. Один из аспектов настоящего изобретения состоит в том, чтобы замаскировать такие неприятные искажения путем добавления комфортного шума CN на стороне декодера. При использовании схемы шумоподавления добавление комфортного шума не ухудшает SNR. Кроме того, комфортный шум скрывает большую часть раздражающего музыкального шума, типичного для методов шумоподавления.

В предпочтительном варианте осуществления изобретения устройство 3 оценки шума содержит устройство 6 спектрального анализа, выполненное с возможностью создания сигнала AS анализа, содержащего уровень и спектральную форму шума в декодированном звуковом сигнале DS, и устройство 7 формирования оценки шума, выполненное с возможностью формирования сигнала NE оценки шума на основе сигнала AS анализа.

В предпочтительном варианте осуществления изобретения устройство 4 генерирования комфортного шума содержит генератор 8 шума, выполненный с возможностью создания сигнала FD комфортного шума частотной области на основе сигнала NE оценки шума, и спектральный синтезатор 9, выполненный с возможностью создания сигнала CN комфортного шума на основе сигнала FD комфортного шума частотной области.

В предпочтительном варианте осуществления изобретения декодер 1 содержит переключающее устройство 10, выполненное с возможностью переключения декодера 1 альтернативно в первый режим работы или второй режим работы, где в первом режиме работы сигнал CN комфортного шума подается в объединитель, тогда как сигнал CN комфортного шума не подается в объединитель 5 во втором режиме работы. Эти отличительные признаки позволяют прекратить использование искусственного комфортного шума CN в ситуациях, когда он не нужен.

В предпочтительном варианте осуществления изобретения декодер 1 содержит управляющее устройство 11, выполненное с возможностью управления переключающим устройством 10 автоматически, где управляющее устройство 10 содержит детектор 12 шума, выполненный с возможностью управления переключающим устройством 10 в зависимости от соотношения сигнал-шум декодированного звукового сигнала DS, где в условиях низкого соотношения сигнал-шум декодер переключается в первый режим работы, а в условиях высокого соотношения сигнал-шум - во второй режим работы. Посредством этих отличительных признаков использование комфортного шума CN может быть вызвано только в сценариях шумной речи, т.е. не в ситуациях чистой речи или чистой музыки. В целях различения между условиями низкого соотношения сигнал-шум и условиями высокого соотношения сигнал-шум порог для соотношения сигнал-шум может быть определен и использован.

В предпочтительном варианте осуществления управляющее устройство 11 содержит приемник 13 дополнительной

Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных

Патент 2633107