2586838 - Аудиокодек, использующий синтез шума в течение неактивной фазы

Аудиокодек, использующий синтез шума в течение неактивной фазы

Иллюстрации

Показать все

Изобретение относится к аудиокодеку, поддерживающему синтез шума в течение неактивных фаз. Техническим результатом является уменьшение скорости передачи битов с поддержанием достижимого качества формирования шума. Параметрическая оценка фонового шума непрерывно обновляется в течение активной фазы или фазы немолчания, так что формирование шума может начинаться сразу при переходе к неактивной фазе после активной фазы. Спектральная область очень эффективно используется для того, чтобы параметризовать фоновый шум, за счет этого обеспечивая синтез фонового шума, который является более реалистичным и в силу этого приводит к более прозрачному переключению активной фазы на неактивную. 5 н. и 22 з.п. ф-лы, 13 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Изобретение относится к аудиокодеку, поддерживающему синтез шума в течение неактивных фаз.

УРОВЕНЬ ТЕХНИКИ

Возможность сокращения полосы пропускания передачи посредством использования преимущества неактивных периодов речи или других источников шума известна в данной области техники. Такие схемы обычно используют некоторую форму обнаружения для того, чтобы осуществлять различение между неактивными (или молчания) и активными (немолчания) фазами. В течение неактивных фаз более низкая скорость передачи битов достигается посредством прекращения передачи обычного потока данных, точно кодирующего записанный сигнал, и вместо этого отправки только обновления описания вставки молчания (SID). SID-обновления могут передаваться с равным интервалом или тогда, когда обнаруживаются изменения характеристик фонового шума. SID-кадры затем могут быть использованы на стороне декодирования для того, чтобы формировать фоновый шум с характеристиками, аналогичными фоновому шуму в течение активных фаз, так что прекращение передачи обычного потока данных, кодирующего записанный сигнал, не приводит к неприятному переходу от активной фазы к неактивной фазе на стороне получателя.

Тем не менее по-прежнему существует потребность в дополнительном уменьшении скорости передачи. Растущее число потребителей скорости передачи битов, к примеру растущее число мобильных телефонов и растущее число вариантов применения с большим или меньшим потреблением скорости передачи битов, таких как беспроводная широковещательная передача, требует постоянного уменьшения используемой скорости передачи битов.

С другой стороны, синтезированный шум должен близко эмулировать реальный шум, так что синтез является прозрачным для пользователей.

Соответственно одна цель изобретения состоит в том, чтобы предоставлять схему аудиокодека, поддерживающую формирование шума в течение неактивных фаз, которое обеспечивает уменьшение скорости передачи битов с поддержанием достижимого качества формирования шума.

Эта цель достигается посредством предмета изобретения в части находящихся на рассмотрении независимых пунктов формулы изобретения.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Основная идея изобретения заключается в том, что ценная скорость передачи битов может сокращаться при сохранении качества формирования шума в неактивных фазах, если параметрическая оценка фонового шума непрерывно обновляется в течение активной фазы, так что формирование шума может начинаться сразу при переходе к неактивной фазе после активной фазы. Например, непрерывное обновление может быть выполнено на стороне декодирования, и нет необходимости предварительно предоставлять стороне декодирования кодированное представление фонового шума в течение подготовительной фазы сразу после обнаружения неактивной фазы, при том, что это предоставление потребляет ценную скорость передачи битов, поскольку сторона декодирования непрерывно обновляет параметрическую оценку фонового шума в течение активной фазы и в силу этого в любое время подготовлена к тому, чтобы сразу переходить к неактивной фазе с надлежащим формированием шума. Аналогично такая подготовительная фаза может исключаться, если параметрическая оценка фонового шума выполняется на стороне кодирования. Вместо предварительного продолжения предоставления стороне декодирования традиционного кодированного представления фонового шума после обнаружения перехода к неактивной фазе, чтобы распознавать фоновый шум и информировать сторону декодирования после обучающей фазы соответствующим образом, кодер имеет возможность предоставлять в декодер необходимую параметрическую оценку фонового шума сразу после обнаружения перехода к неактивной фазе посредством возвращения к параметрической оценке фонового шума, непрерывно обновляемой в течение предыдущей активной фазы, тем самым исключая затратное с точки зрения скорости передачи битов предварительное выполнение чрезмерного кодирования фонового шума.

В соответствии с конкретными вариантами осуществления изобретения достигается более реалистичное формирование шума при небольших затратах с точки зрения, например, скорости передачи битов и вычислительной сложности. В частности, в соответствии с этими вариантами осуществления спектральная область используется для того, чтобы параметризовать фоновый шум, за счет этого обеспечивая синтез фонового шума, который является более реалистичным и в силу этого приводит к более прозрачному переключению активной фазы на неактивную. Кроме того, выяснено, что параметризация фонового шума в спектральной области обеспечивает отделение шума от полезного сигнала, и соответственно параметризация фонового шума в спектральной области имеет преимущество при комбинировании с вышеуказанным непрерывным обновлением параметрической оценки фонового шума в течение активных фаз, поскольку в спектральной области может достигаться лучшее разделение между шумом и полезным сигналом, так что дополнительный переход от одной области к другой не требуется при комбинировании обоих преимущественных аспектов настоящей заявки.

Дополнительно преимущественные подробности вариантов осуществления изобретения являются предметом зависимых пунктов текущей формулы изобретения.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Предпочтительные варианты осуществления настоящей заявки описываются ниже со ссылкой на чертежи.

Фиг. 1 показывает блок-схему, показывающую аудиодекодер согласно варианту осуществления;

фиг. 2 показывает возможную реализацию механизма 14 кодирования;

фиг. 3 показывает блок-схему аудиодекодера согласно варианту осуществления;

фиг. 4 показывает возможную реализацию механизма декодирования согласно фиг. 3 в соответствии с вариантом осуществления;

фиг. 5 показывает блок-схему аудиокодера согласно дополнительному более подробному описанию варианта осуществления;

фиг. 6 показывает блок-схему декодера, который может быть использован в связи с кодером согласно фиг. 5 в соответствии с вариантом осуществления;

фиг. 7 показывает блок-схему аудиодекодера в соответствии с дополнительным более подробным описанием варианта осуществления;

фиг. 8 показывает блок-схему блока расширения спектральной полосы пропускания аудиокодера в соответствии с вариантом осуществления;

фиг. 9 показывает реализацию CNG-кодера расширения спектральной полосы пропускания согласно фиг. 8 в соответствии с вариантом осуществления;

фиг. 10 показывает блок-схему аудиодекодера в соответствии с вариантом осуществления с использованием расширения спектральной полосы пропускания;

фиг. 11 показывает блок-схему возможного подробного описания варианта осуществления для аудиодекодера с использованием репликации спектральной полосы пропускания;

фиг. 12 показывает блок-схему аудиокодера в соответствии с дополнительным вариантом осуществления с использованием расширения спектральной полосы пропускания; и

фиг. 13 показывает блок-схему дополнительного варианта осуществления аудиодекодера.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Фиг. 1 показывает аудиокодер согласно варианту осуществления изобретения. Аудиокодер согласно фиг. 1 содержит модуль 12 оценки фонового шума, механизм 14 кодирования, детектор 16, вход 18 для аудиосигналов и выход 20 потока данных. Поставщик 12, механизм 14 кодирования и детектор 16 имеют вход, соединенный с входом 18 для аудиосигналов соответственно. Выходы модуля 12 оценки и механизма 14 кодирования соответственно соединяются с выходом 20 потока данных через коммутатор 22. Коммутатор 22, модуль 12 оценки и механизм 14 кодирования имеют вход для управляющих сигналов, соединенный с выходом детектора 16 соответственно.

Модуль 12 оценки фонового шума может быть выполнен с возможностью непрерывно обновлять параметрическую оценку фонового шума в течение активной фазы 24 на основе входного аудиосигнала, поступающего в аудиокодер 10 на входе 18. Хотя фиг. 1 предлагает то, что модуль 12 оценки фонового шума может получать непрерывное обновление параметрической оценки фонового шума на основе аудиосигнала, вводимого на входе 18, это не обязательно имеет место. Модуль 12 оценки фонового шума альтернативно или дополнительно может получать версию аудиосигнала из механизма 14 кодирования, как проиллюстрировано посредством пунктирной линии 26. В этом случае модуль 12 оценки фонового шума альтернативно или дополнительно должен соединяться с входом 18 косвенно через соединительную линию 26 и механизм 14 кодирования соответственно. В частности, существуют различные возможности для модуля 12 оценки фонового шума с тем, чтобы непрерывно обновлять оценку фонового шума, и некоторые из этих возможностей описываются дополнительно ниже.

Механизм 14 кодирования выполнен с возможностью кодировать входной аудиосигнал, поступающий на вход 18, в поток данных в течение активной фазы 24. Активная фаза должна охватывать все случаи, в которых полезная информация содержится в аудиосигнале, такие как речь или другой полезный звук источника шума. С другой стороны, звуки с практически независимой от времени характеристикой, к примеру с независимым от времени спектром, вызываемые, например, дождем или трафиком на фоне динамика, должны быть классифицированы в качестве фонового шума, и каждый раз, когда присутствует только этот фоновый шум, соответствующий период времени должен быть классифицирован в качестве неактивной фазы 28. Детектор 16 отвечает за обнаружение входа в неактивную фазу 28 после активной фазы 24 на основе входного аудиосигнала на входе 18. Другими словами, детектор 16 выполняет различение между двумя фазами, а именно между активной фазой и неактивной фазой, когда детектор 16 определяет то, какая фаза в данный момент присутствует. Детектор 16 информирует механизм 14 кодирования в отношении текущей фазы, и, как уже упомянуто, механизм 14 кодирования выполняет кодирование входного аудиосигнала в поток данных в течение активных фаз 24. Детектор 16 управляет коммутатором 22 соответствующим образом, так что поток данных, выводимый посредством механизма 14 кодирования, выводится на выходе 20. В течение неактивных фаз механизм 14 кодирования может прекращать кодирование входного аудиосигнала. По меньшей мере, в поток данных, выведенный на выходе 20, более не подается поток данных, возможно выводимый посредством механизма 14 кодирования. В дополнение к этому механизм 14 кодирования может выполнять только минимальную обработку для того, чтобы поддерживать модуль 12 оценки с определенными обновлениями переменных состояния. Это действие значительно сокращает вычислительную мощность. Коммутатор 22, например, установлен таким образом, что выход модуля 12 оценки соединяется с выходом 20 вместо выхода механизма кодирования. Таким образом, сокращается ценная скорость передачи битов для передачи потока битов, выводимого на выходе 20.

Модуль 12 оценки фонового шума выполнен с возможностью непрерывно обновлять параметрическую оценку фонового шума в течение активной фазы 24 на основе входного аудиосигнала 18, как уже упомянуто выше, и, вследствие этого, модуль 12 оценки имеет возможность вставлять в поток 30 данных, выводимый на выходе 20, параметрическую оценку фонового шума, непрерывно обновляемую в течение активной фазы 24, сразу после перехода от активной фазы 24 к неактивной фазе 28, т.е. непосредственно после входа в неактивную фазу 28. Модуль 12 оценки фонового шума, например, может вставлять кадр 32 дескриптора вставки молчания в поток 30 данных сразу после окончания активной фазы 24 и сразу после момента 34 времени, в который детектор 16 обнаруживает переход к неактивной фазе 28. Другими словами, отсутствует временной промежуток между обнаружением посредством детекторов перехода к неактивной фазе 28 и вставкой SID 32, необходимый вследствие непрерывного обновления посредством модуля оценки фонового шума параметрической оценки фонового шума в течение активной фазы 24.

Таким образом, суммируя вышеприведенное описание, аудиокодер 10 на фиг. 1 может работать следующим образом. Представим себе в качестве иллюстрации, что в данный момент идет активная фаза 24. В этом случае механизм 14 кодирования в данный момент кодирует входной аудиосигнал на входе 18 в поток 20 данных. Коммутатор 22 соединяет выход механизма 14 кодирования с выходом 20. Механизм 14 кодирования может использовать параметрическое кодирование и кодирование с преобразованием для того, чтобы кодировать входной аудиосигнал 18 в поток данных. В частности, механизм 14 кодирования может кодировать входной аудиосигнал в единицах кадров, при этом каждый кадр кодирует один из последовательных - частично взаимно перекрывающихся - временных интервалов входного аудиосигнала. Механизм 14 кодирования дополнительно может иметь возможность переключаться между различными режимами кодирования между последовательными кадрами потока данных. Например, некоторые кадры могут быть кодированы с использованием прогнозирующего кодирования, к примеру CELP-кодирования, а некоторые другие кадры могут быть кодированы с использованием кодирования с преобразованием, к примеру TCX- или AAC-кодирования. Следует обратиться, например, к USAC и его режимам кодирования, как описано в ISO/IEC CD 23003-3, опубликованном 24 сентября 2010 года.

Модуль 12 оценки фонового шума непрерывно обновляет параметрическую оценку фонового шума в течение активной фазы 24. Соответственно модуль 12 оценки фонового шума может быть выполнен с возможностью осуществлять различение между компонентом шума и компонентом полезного сигнала во входном аудиосигнале, чтобы определять параметрическую оценку фонового шума просто из компонента шума. Согласно вариантам осуществления, дополнительно описанным ниже, узел 12 оценки фонового шума может выполнять это обновление в спектральной области, к примеру в спектральной области, также используемой для кодирования с преобразованием в механизме 14 кодирования. Тем не менее также доступны другие альтернативы, такие как временная область. В случае спектральной области, она может быть областью перекрывающихся преобразований, такой как MDCT-область, или областью гребенки фильтров, такой как комплекснозначная область гребенки фильтров, к примеру QMF-область.

Кроме того, узел 12 оценки фонового шума может выполнять обновление на основе сигнала возбуждения или остаточного сигнала, полученного в качестве промежуточного результата в механизме 14 кодирования, например, в ходе прогнозирующего кодирования и/или кодирования с преобразованием, вместо аудиосигнала, поступающего на вход 18 или кодированного с потерями в поток данных. За счет этого большая величина компонента полезного сигнала во входном аудиосигнале уже удалена, так что обнаружение компонента шума упрощается для модуля 12 оценки фонового шума.

В течение активной фазы 24 детектор 16 также непрерывно работает для того, чтобы обнаруживать вход в неактивную фазу 28. Детектор 16 может быть осуществлен в качестве детектора речевой/звуковой активности (VAD/SAD) или некоторого другого средства, которое определяет то, присутствует или нет компонент полезного сигнала в данный момент во входном аудиосигнале. Базовый критерий для определения посредством детектора 16 того, продолжается или нет активная фаза 24, может представлять собой проверку того, остается или нет фильтрованная по нижним частотам мощность входного аудиосигнала ниже определенного порогового значения, при условии, что вход в неактивную фазу осуществляется, как только превышается пороговое значение.

Независимо от точного способа, которым детектор 16 выполняет обнаружение перехода к неактивной фазе 28 после активной фазы 24, детектор 16 сразу информирует другие объекты 12, 14 и 22 относительно входа в неактивную фазу 28. Вследствие непрерывного обновления посредством модуля оценки фонового шума параметрической оценки фонового шума в течение активной фазы 24 можно сразу не допускать дополнительную подачу потока 30 данных, выводимого на выходе 20, из механизма 14 кодирования. Вместо этого модуль 12 оценки фонового шума непосредственно после информирования относительно входа в неактивную фазу 28 должен вставлять в поток 30 данных информацию относительно последнего обновления параметрической оценки фонового шума в форме SID-кадра 32. Иными словами, SID-кадр 32 может следовать сразу после последнего кадра механизма кодирования, который кодирует кадр аудиосигнала относительно временного интервала, в котором детектор 16 обнаруживает вход в неактивную фазу.

Обычно фоновый шум не изменяется очень часто. В большинстве случаев фоновый шум имеет тенденцию быть до некоторой степени независимым от времени. Соответственно после того, как модуль 12 оценки фонового шума вставляет SID-кадр 32 сразу после того, как детектор 16 обнаруживает начало неактивной фазы 28, любая передача потока данных может прерываться, так что в этой фазе 34 прерывания поток 30 данных не потребляет скорость передачи битов либо потребляет только минимальную скорость передачи битов, требуемую для некоторых целей передачи. Чтобы поддерживать минимальную скорость передачи битов, модуль 12 оценки фонового шума может прерывистым образом повторять вывод SID 32.

Тем не менее несмотря на тенденцию фонового шума не изменяться во времени все-таки может происходить то, что фоновый шум изменяется. Например, представим себе пользователя мобильного телефона, выходящего из автомобиля, так что фоновый шум изменяется с шума двигателя на шум трафика за пределами автомобиля в ходе звонка пользователя. Чтобы отслеживать такие изменения фонового шума, модуль 12 оценки фонового шума может быть выполнен с возможностью непрерывно исследовать фоновый шум даже в течение неактивной фазы 28. Каждый раз, когда модуль 12 оценки фонового шума определяет то, что параметрическая оценка фонового шума изменяется на величину, которая превышает некоторое пороговое значение, модуль 12 оценки фонового шума может вставлять обновленную версию параметрической оценки фонового шума в поток 20 данных с помощью другого SID 38, после чего другая фаза 40 прерывания может следовать, например, до тех пор, пока не начнется другая активная фаза 42, обнаруженная посредством детектора 16, и т.д. Естественно SID-кадры, раскрывающие в данный момент обновленную параметрическую оценку фонового шума, альтернативно или дополнительно могут вставляться в неактивных фазах промежуточным способом независимо от изменений параметрической оценки фонового шума.

Очевидно поток 44 данных, выводимый посредством механизма 14 кодирования и указываемый на фиг. 1 посредством использования штриховки, использует большую скорость передачи битов, чем фрагменты 32 и 38 потока данных, которые должны быть переданы в течение неактивных фаз 28, и соответственно экономия скорости передачи битов является значительной. Кроме того, в случае возможности модуля 12 оценки фонового шума сразу начинать с перехода к дополнительной подаче потока 30 данных, необязательно предварительно продолжать передачу потока 44 данных механизма 14 кодирования за пределами момента 34 времени обнаружения неактивной фазы, за счет этого дополнительно сокращая общую потребляемую скорость передачи битов.

Как подробнее поясняется ниже относительно более конкретных вариантов осуществления, механизм 14 кодирования может быть выполнен с возможностью при кодировании входного аудиосигнала прогнозирующим образом кодировать входной аудиосигнал в коэффициенты линейного прогнозирования и сигнал возбуждения с кодированием с преобразованием сигнала возбуждения и кодированием коэффициентов линейного прогнозирования в поток 30 данных и 44 соответственно. Одна возможная реализация показана на фиг. 2. Согласно фиг. 2 механизм 14 кодирования содержит преобразователь 50, формирователь 52 шума в частотной области и модуль 54 квантования, которые последовательно соединяются в порядке упоминания между входом 56 для аудиосигналов и выходом 58 потока данных механизма 14 кодирования. Дополнительно механизм 14 кодирования согласно фиг. 2 содержит модуль 60 анализа с линейным прогнозированием, который выполнен с возможностью определять коэффициенты линейного прогнозирования из аудиосигнала 56 посредством соответствующего анализа, вырезающего (в виде окон) части аудиосигнала и применения автокорреляции к вырезанным частям либо определять автокорреляцию на основе преобразований в области преобразования входного аудиосигнала, выводимого посредством преобразователя 50, при использовании его спектра мощности и применении обратного DFT к нему с тем, чтобы определять автокорреляцию с последующим выполнением LPC-оценки на основе автокорреляции, к примеру, с использованием алгоритма (Винера-Левинсона-Дурбина).

На основе коэффициентов линейного прогнозирования, определенных посредством модуля 60 анализа с линейным прогнозированием, в поток данных, выводимый на выходе 58, подается соответствующая информация относительно LPC, и формирователь шума в частотной области управляется таким образом, что он спектрально формирует спектрограмму аудиосигнала в соответствии с передаточной функцией, соответствующей передаточной функции фильтра анализа с линейным прогнозированием, определенного посредством коэффициентов линейного прогнозирования, выводимых посредством модуля 60. Квантование LPC для их передачи в потоке данных может быть выполнено в LSP/LSF-области и с использованием интерполяции, с тем, чтобы уменьшать скорость передачи по сравнению со скоростью анализа в анализаторе 60. Дополнительно взвешивающее преобразование LPC в спектр, выполняемое в FDNS, может заключать в себе применение ODFT к LPC и применение результирующих взвешенных значений к спектрам преобразователя в качестве делителя.

Модуль 54 квантования затем квантует коэффициенты преобразования спектрально сформированной (сглаженной) спектрограммы. Например, преобразователь 50 использует перекрывающееся преобразование, к примеру MDCT, чтобы переводить аудиосигнал из временной области в спектральную область, тем самым получая последовательные преобразования, соответствующие перекрытию вырезанных частей входного аудиосигнала, которые затем спектрально формируются посредством формирователя 52 шума в частотной области посредством взвешивания этих преобразований в соответствии с передаточной функцией аналитического LP-фильтра.

Сформированная спектрограмма может быть интерпретирована в качестве сигнала возбуждения, и как проиллюстрировано посредством пунктирной стрелки 62, модуль 12 оценки фонового шума может быть выполнен с возможностью обновлять параметрическую оценку фонового шума с использованием этого сигнала возбуждения. Альтернативно, как указано посредством пунктирной стрелки 64, модуль 12 оценки фонового шума может использовать представление перекрывающего преобразования, выводимое посредством преобразователя 50, в качестве основы для непосредственного обновления, т.е. без формирования шума в частотной области посредством формирователя 52 шума.

Более подробная информация, связанная с возможной реализацией элементов, показанных на фиг. 1 и 2, может быть получена из нижеизложенных более подробных вариантов осуществления, и следует отметить, что все эти подробности могут по отдельности переноситься на элементы фиг. 1 и 2.

Тем не менее перед описанием этих более подробных вариантов осуществления следует обратиться к фиг. 3, который показывает дополнительно или альтернативно, что обновление параметрической оценки фонового шума может быть выполнено на стороне декодера.

Аудиодекодер 80 согласно фиг. 3 выполнен с возможностью декодировать поток данных, поступающий на вход 82 декодера 80, с тем, чтобы восстанавливать из него аудиосигнал, который должен выводиться на выходе 84 декодера 80. Поток данных содержит, по меньшей мере, активную фазу 86, после которой следует неактивная фаза 88. Внутренне, аудиодекодер 80 содержит модуль 90 оценки фонового шума, механизм 92 декодирования, параметрический генератор 94 случайных чисел и формирователь 96 фонового шума. Механизм 92 декодирования соединяется между входом 82 и выходом 84, и аналогично последовательное соединение поставщика 90, формирователя 96 фонового шума и параметрического генератора 94 случайных чисел соединяется между входом 82 и выходом 84. Декодер 92 выполнен с возможностью восстанавливать аудиосигнал из потока данных в течение активной фазы, так что аудиосигнал 98, выводимый на выходе 84, содержит шум и полезный звук в надлежащем качестве. Модуль 90 оценки фонового шума выполнен с возможностью непрерывно обновлять параметрическую оценку фонового шума из потока данных в ходе активной фазы. С этой целью модуль 90 оценки фонового шума может соединяться с входом 82 не непосредственно, а через механизм 92 декодирования, как проиллюстрировано посредством пунктирной линии 100, с тем, чтобы получать из механизма 92 декодирования некоторую восстановленную версию аудиосигнала. В принципе модуль 90 оценки фонового шума может быть выполнен с возможностью работать во многом аналогично модулю 12 оценки фонового шума за исключением того факта, что модуль 90 оценки фонового шума имеет доступ только к восстанавливаемой версии аудиосигнала, т.е. включающей в себя потери, вызываемые посредством квантования на стороне кодирования.

Параметрический генератор 94 случайных чисел может содержать один или более генераторов истинных или псевдослучайных чисел, выводимая последовательность значений которых может соответствовать статистическому распределению, которое может быть параметрическим образом задано с помощью формирователя 96 фонового шума.

Формирователь 96 фонового шума выполнен с возможностью синтезировать аудиосигнал 98 в течение неактивной фазы 88 посредством управления параметрическим генератором 94 случайных чисел в течение неактивной фазы 88 в зависимости от параметрической оценки фонового шума, получаемой из модуля 90 оценки фонового шума. Хотя оба объекта 96 и 94 показаны как последовательно соединенные, последовательное соединение не должно быть интерпретировано как ограничивающее. Формирователь 96 и генератор 94 могут быть связаны между собой. Фактически генератор 94 может быть интерпретирован в качестве части формирователя 96.

Таким образом, режим работы аудиодекодера на фиг. 3 может быть следующим. В ходе активной фазы 86 на вход 82 непрерывно предоставляется часть 102 потока данных, которая должна быть обработана посредством механизма 92 декодирования в ходе активной фазы 86. Поток 104 данных, поступающий на вход 82, затем прекращает передачу части 102 потока данных, выделяемой для механизма 92 декодирования, в некоторый момент времени 106. Иными словами, дополнительный кадр части потока данных недоступен в момент 106 времени для декодирования посредством механизма 92. Сигнализирование входа в неактивную фазу 88 может быть либо прекращением передачи части 102 потока данных, либо может быть передано в служебных сигналах посредством некоторой информации 108, размещаемой непосредственно в начале неактивной фазы 88.

В любом случае вход в неактивную фазу 88 происходит очень внезапно, но это не является проблемой, поскольку модуль 90 оценки фонового шума непрерывно обновляет параметрическую оценку фонового шума в ходе активной фазы 86 на основе части 102 потока данных. Вследствие этого, модуль 90 оценки фонового шума имеет возможность предоставлять в формирователь 96 фонового шума самую последнюю версию параметрической оценки фонового шума, как только неактивная фаза 88 начинается на 106. Соответственно с момента 106 времени и далее механизм 92 декодирования прекращает вывод восстановления аудиосигналов, поскольку в механизм 92 декодирования более не подается часть 102 потока данных, а параметрический генератор 94 случайных чисел управляется посредством формирователя 96 фонового шума в соответствии с параметрической оценкой фонового шума, так что эмуляция фонового шума может выводиться на выходе 84 сразу после момента 106 времени таким образом, что она следует без интервала отсутствия сигнала после восстановленного аудиосигнала, выводимого посредством механизма 92 декодирования до момента 106 времени. Перекрестное затухание может быть использовано для того, чтобы переходить от последнего восстановленного кадра активной фазы, выводимого посредством механизма 92, к фоновому шуму, определенному посредством недавно обновленной версии параметрической оценки фонового шума.

Поскольку модуль 90 оценки фонового шума выполнен с возможностью непрерывно обновлять параметрическую оценку фонового шума из потока 104 данных в ходе активной фазы 86, он может быть выполнен с возможностью осуществлять различение между компонентом шума и компонентом полезного сигнала в версии аудиосигнала, восстановленной из потока 104 данных в активной фазе 86, и определять параметрическую оценку фонового шума просто из компонента шума, а не из компонента полезного сигнала. Способ, посредством которого модуль 90 оценки фонового шума выполняет это различение/разделение, соответствует способу, указанному выше относительно модуля 12 оценки фонового шума. Например, может быть использован сигнал возбуждения или остаточный сигнал, внутренне восстановленный из потока 104 данных в механизме 92 декодирования.

Аналогично фиг. 2, фиг. 4 показывает возможную реализацию для механизма 92 декодирования. Согласно фиг. 4 механизм 92 декодирования содержит вход 110 для приема части 102 потока данных и выход 112 для вывода восстановленного аудиосигнала в активной фазе 86. Последовательно соединенный между ними механизм 92 декодирования содержит модуль 114 деквантования, формирователь 116 шума в частотной области и обратный преобразователь 118, которые соединяются между входом 110 и выходом 112 в порядке упоминания. Часть 102 потока данных, поступающая на вход 110, содержит кодированную с преобразованием версию сигнала возбуждения, т.е. уровни коэффициентов преобразования, представляющие ее, которые подаются на вход модуля 114 деквантования, а также информацию относительно коэффициентов линейного прогнозирования, причем эта информация подается в формирователь 116 шума в частотной области. Модуль 114 деквантования деквантует спектральное представление сигнала возбуждения и перенаправляет его в формирователь 116 шума в частотной области, который, в свою очередь, спектрально формирует спектрограмму сигнала возбуждения (вместе с гладким шумом квантования) в соответствии с передаточной функцией, которая соответствует синтезирующему фильтру линейного прогнозирования, тем самым формируя шум квантования. В принципе, FDNS 116 согласно фиг. 4 работает аналогично FDNS согласно фиг. 2: LPC извлекаются из потока данных и затем подвергаются взвешивающему преобразованию LPC в спектральную область, например, посредством применения ODFT к извлеченным LPC с последующим применением результирующих спектральных взвешиваний к деквантованным спектрам, входящим из модуля 114 деквантования, в качестве множителей. Повторный преобразователь 118 затем переводит такое полученное восстановление аудиосигналов из спектральной области во временную область и выводит такой полученный восстановленный аудиосигнал на выход 112. Перекрывающееся преобразование может быть использовано посредством обратного преобразователя 118, к примеру посредством IMDCT. Как проиллюстрировано посредством пунктирной стрелки 120, спектрограмма сигнала возбуждения может быть использована посредством модуля 90 оценки фонового шума для параметрического обновления фонового шума. Альтернативно может быть использована спектрограмма самого аудиосигнала, как указано посредством пунктирной стрелки 122.

Относительно фиг. 2 и 4 следует отметить, что эти варианты осуществления для реализации механизмов кодирования/декодирования не должны быть интерпретированы в качестве ограничивающих. Альтернативные варианты осуществления также осуществимы. Кроме того, механизмы кодирования/декодирования могут иметь многорежимный тип кодека, в котором части согласно фиг. 2 и 4 просто принимают на себя ответственность за кодирование/декодирование кадров, имеющих ассоциированный конкретный режим кадрового кодирования, тогда как другие кадры подвергаются обработке посредством других частей механизмов кодирования/декодирования, не показанных на фиг. 2 и 4. Такой другой режим кадрового кодирования также может представлять собой, например, режим прогнозирующего кодирования с использованием линейного прогнозного кодирования, но с кодированием во временной области вместо использования кодирования с преобразованием.

Фиг. 5 показывает более подробный вариант осуществления кодера согласно фиг. 1. В частности, модуль 12 оценки фонового шума показывается подробнее на фиг. 5 в соответствии с конкретным вариантом осуществления.

В соответствии с фиг. 5 модуль 12 оценки фонового шума содержит преобразователь 140, FDNS 142, модуль 144 LP-анализа, модуль 146 оценки шума, модуль 148 оценки параметров, модуль 150 измерения стационарности и модуль 152 квантования. Некоторые вышеуказанные компоненты могут частично или полностью совместно использоваться посредством механизма 14 кодирования. Например, преобразователь 140 и преобразователь 50 согласно фиг. 2 могут быть идентичными, модули 60 и 144 LP-анализа быть идентичными, FDNS 52 и 142 могут быть идентичными, и/или модули 54 и 152 квантования могут быть реализованы в одном модуле.

Фиг. 5 также показывает модуль 154 пакетирования потоков битов, который принимает на себя пассивную ответственность за работу коммутатора 22 на фиг. 1. В частности, VAD, как для примера называется детектор 16 кодера согласно фиг. 5, просто выполняет определение в отношении того, какой тракт должен быть использован, тракт кодирования 14 аудио или тракт модуля 12 оценки фонового шума. Если точнее, механизм 14 кодирования и модуль 12 оценки фонового шума соединяются параллельно между входом 18 и модулем 154 пакетирования, при этом в модуле 12 оценки фонового шума преобразователь 140, FDNS 142, модуль 144 LP-анализа, модуль 146 оценки шума, модуль 148 оценки параметров и модуль 152 квантования последовательно соединяются между входом 18 и модулем 154 пакетирования (в порядке упоминания), в то время как модуль 144 LP-анализа соединяется между входом 18 и LPC-входом FDNS-модуля 142 и дополнительным входом модуля 152 квантования соответственно и модуль 150 измерения стационарности дополнительно соединяется между модулем 144 LP-анализа и входом для управляющих сигналов модуля 152 квантования. Модуль 154 пакетирования потоков битов просто выполняет пакетирование, если он принимает ввод из какого-либо из объектов, соединенных с его входами.

В случае передачи нулевых кадров, т.е. в течение фазы прерывания неактивной фазы, детектор 16 информирует модуль 12 оценки фонового шума, в частности модуль 152 квантования, о необходимости прекращать обработку и не отправлять вообще ничего в модуль 154 пакетирования потоков битов.

В соответствии с фиг. 5 детектор 16 может работать во временной области и/или в области преобразования/спектральной области для того, чтобы обнаруживать активные/неактивные фазы.

Режим работы кодера согласно фиг. 5 заключается в следующем. Как должно быть понятно, кодер согласно фиг. 5 имеет возможность повышать качество комфортного шума, такого как стационарный шум в целом, к примеру шум автомобилей, шум приглушенных разговоров множества говорящих, некоторых музыкальных инструментов, и, в частности, шумов, которые имеют насыщенные гармоники, к примеру капли дождя.

В частности, кодер согласно фиг. 5 должен управлять генератором случайных чисел на стороне декодирования таким образом, чтобы возбуждать коэффициенты преобразования, так что эмулируется шум, обнаруженный на стороне кодирования. Соответственно перед дальнейшим пояснением функциональности кодера согласно фиг. 5 следует вкратце обратиться к фиг. 6, показывающей возможный вариант осуществления для декодера, который имеет возможность эмулировать комфортный шум на стороне декодирования согласно инструкциям посредством кодера согласно фиг. 5. Если обобщать, фиг. 6 показывает возможную реализацию декодера, соответствующего кодеру согласно фиг. 1.

В частности, декодер согласно фи

Аудиокодек, использующий синтез шума в течение неактивной фазы

Патент 2586838