2654139 - Аудиокодирование в частотной области, поддерживающее переключение длины преобразования

Аудиокодирование в частотной области, поддерживающее переключение длины преобразования

Иллюстрации

Показать все

Изобретение относится к аудиокодированию в частотной области, поддерживающему переключение длины преобразования. Технический результат - обеспечение возможности поддержки дополнительной длины преобразования. Для этого коэффициенты частотной области соответствующего кадра передаются перемеженным образом независимо от сигнализации, сигнализирующей для кадров в отношении того, какая длина преобразования применяется в действительности, и дополнительно извлечение коэффициентов частотной области и извлечение множителей масштабирования функционируют независимо от сигнализации. Поэтому устаревшие аудиокодеры/аудиодекодеры в частотной области, не чувствительные к сигнализации, будут тем не менее иметь возможность функционирования без сбоев и с воспроизведением приемлемого качества. Одновременно, аудиокодеры/аудиодекодеры в частотной области, способные поддерживать дополнительную длину преобразования, будут предлагать даже лучшее качество, несмотря на обратную совместимость. Поскольку рассматриваются ухудшения эффективности кодирования из-за кодирования коэффициентов частотной области прозрачным для более старых декодеров образом, ухудшения носят сравнительно незначительный характер благодаря перемежению. 6 н. и 7 з.п. ф-лы, 5 ил., 2 табл.

Реферат

Настоящая заявка имеет отношение к аудиокодированию в частотной области, поддерживающему переключение длины преобразования.

Современные системы кодирования речи/аудиокодирования в частотной области, такие как кодек Opus/Celt IETF [1], MPEG-4 (HE-)AAC [2] или, в частности, MPEG-D xHE-AAC (USAC) [3], предлагают средства для кодирования аудиокадров с использованием либо одного длинного преобразования – длинного блока – или восьми последовательных коротких преобразований – коротких блоков – в зависимости от стационарности сигнала во времени.

Для некоторых аудиосигналов, таких как дождь или аплодисменты большой аудитории, кодирование ни с длинным, ни с коротким блоком не дает удовлетворительного качества при низких скоростях передачи битов. Это может быть объяснено плотностью выраженных переходных процессов в таких записях; кодирование только с длинными блоками может вызвать частое и слышимое размывание временной характеристики ошибки кодирования, также известное как опережающее эхо, тогда как кодирование только с короткими блоками является в общем неэффективным из-за увеличенных издержек данных, что приводит к спектральным провалам.

Соответственно, будет полезно иметь под рукой концепцию аудиокодирования в частотной области, которая поддерживает длины преобразования, которые также подходят для только что обозначенных видов аудиосигналов. Естественно, будет иметь смысл построить новый аудиокодек в частотной области, поддерживающий переключение между набором длин преобразования, который, среди прочего, охватывает некоторую желаемую длину преобразования, подходящую для некоторого вида аудиосигнала. Однако, получение аудиокодека в частотной области, применяемого на рынке, является непростой задачей. Хорошо известные кодеки уже доступны и часто используются. Соответственно, будет полезно иметь возможность иметь концепцию под рукой, которая обеспечивает существующим аудиокодекам в частотной области возможность расширения таким образом, чтобы дополнительно поддерживать желаемую, новую длину преобразования, но которая, тем не менее, сохраняет обратную совместимость с существующими кодерами и декодерами.

Соответственно, целью настоящего изобретения является предусмотреть такую концепцию, которая обеспечивает существующим аудиокодекам в частотной области возможность расширения обратно совместимым образом в сторону поддержки дополнительной длины преобразования, так чтобы переключаться между длинами преобразования, также включающими в себя эту новую длину преобразования.

Эта цель достигается объектом изобретения по независимым пунктам прилагаемой формулы изобретения.

Настоящее изобретение основано на обнаружении, что аудиокодек в частотной области может быть обеспечен возможностью дополнительной поддержки некоторой длины преобразования обратно совместимым образом, когда коэффициенты частотной области соответствующего кадра передаются перемеженным образом независимо от сигнализации, сигнализирующей для кадров о том, какая длина преобразования применяется в действительности, и когда дополнительно извлечение коэффициентов частотной области и извлечение множителей масштабирования функционируют независимо от сигнализации. Поэтому, устаревшие аудиокодеры/аудиодекодеры в частотной области, нечувствительные к сигнализации, будут тем не менее иметь возможность функционирования без сбоев и при этом воспроизводя приемлемое качество. Одновременно, аудиокодеры/аудиодекодеры в частотной области, отвечающие за переключение с/на дополнительно поддерживаемую длину преобразования, будут достигать даже лучшего качества, не смотря на обратную совместимость. Поскольку рассматриваются ухудшения эффективности кодирования из-за кодирования коэффициентов частотной области прозрачным для более старых декодеров образом, ухудшения носят сравнительно незначительный характер благодаря перемежению.

Предпочтительные реализации по настоящей заявке являются предметом формулы изобретения.

В частности, предварительные варианты осуществления по настоящей заявке описаны ниже относительно Фигур, среди которых

Фиг. 1 показывает схематичную блок-схему аудиодекодера в частотной области в соответствии с вариантом осуществления;

Фиг. 2 показывает схематичную блок-схему, иллюстрирующую функциональность обратного преобразователя по Фиг. 1;

Фиг. 3 показывает схематичную блок-схему, иллюстрирующую возможное смещение процесса фильтрации обратного TNS по Фиг. 2 в обратном направлении в соответствии с вариантом осуществления;

Фиг. 4 показывает возможность выбора окон при использовании разбиения преобразования для длинного старт-стопного окна в USAC в соответствии с вариантом осуществления; и

Фиг. 5 показывает блок-схему аудиокодера в частотной области согласно варианту осуществления.

Фиг. 1 показывает аудиодекодер в частотной области, поддерживающий переключение длины преобразования, в соответствии с вариантом осуществления по настоящей заявке. Аудиодекодер в частотной области по Фиг. 1 в общем указан с использованием ссылочного обозначения 10 и содержит блок 12 извлечения коэффициентов частотной области, блок 14 извлечения множителей масштабирования, обратный преобразователь 16 и блок 18 объединения. На их входе блок извлечения коэффициентов частотной области и блок 12 и 14 извлечения множителей масштабирования имеют доступ к входящему потоку 20 данных. Выходы блока 12 извлечения коэффициентов частотной области и блока 14 извлечения множителей масштабирования соединены с соответствующими входами обратного преобразователя 16. Выход обратного преобразователя 16, в свою очередь, соединен со входом блока 18 объединения. Последний выводит реконструированный аудиосигнал на выход 22 кодера 10.

Блок 12 извлечения коэффициентов частотной области выполнен с возможностью извлечения коэффициентов 24 частотной области кадров 26 аудиосигнала из потока 20 данных. Коэффициенты 24 частотной области могут быть MDCT-коэффициентами или могут принадлежать к некоторому другому преобразованию, такому как другое преобразование с перекрытием. Описанным дополнительно ниже образом, коэффициенты 24 частотной области, принадлежащие некоторому кадру 26, описывают спектр аудиосигнала в пределах соответствующего кадра 26 при варьирующемся спектро-временном разрешении. Кадры 26 представляют временные участки, на которые аудиосигнал последовательно подразделяется во времени. Собрав вместе коэффициенты 24 частотной области всех кадров, они представляют спектрограмму 28 аудиосигнала. Кадры 26 могут, например, иметь одинаковую длину. Из-за изменения вида аудиоконтента аудиосигнала во времени может быть невыгодным описывать спектр для каждого кадра 26 с помощью непрерывного спектро-временного разрешения посредством использования, например, преобразований, имеющих постоянную длину преобразования, которая протягивается, например, на продолжительность каждого кадра 26, т.е. содержит значения выборок в пределах этого кадра 26 аудиосигнала, так же как и выборки временной области, предшествующие и следующие за соответствующим кадром. Артефакты опережающего эхо могут, например, возникать в результате передачи с потерей спектра соответствующего кадра в виде коэффициентов 24 частотной области. Соответственно, дополнительно обозначенным ниже образом, коэффициенты 24 частотной области соответствующего кадра 26 описывают спектр аудиосигнала в пределах этого кадра 26 в переключаемом спектро-временном разрешении посредством переключения между разными длинами преобразования. Однако, поскольку рассматривается блок 12 извлечения коэффициентов частотной области, последнее обстоятельство прозрачно для него. Блок 12 извлечения коэффициентов частотной области функционирует независимо от любой сигнализации, сигнализирующей только что упомянутое переключение между разными спектро-временными разрешениями для кадров 26.

Блок 12 извлечения коэффициентов частотной области может использовать энтропийное кодирование для того, чтобы извлечь коэффициенты 24 частотной области из потока 20 данных. Например, блок извлечения коэффициентов частотной области может использовать контекстно-зависимое энтропийное декодирование, такое как арифметическое декодирование с переменным контекстом, для извлечения коэффициентов 24 частотной области из потока 20 данных с помощью присваивания, каждому из коэффициентов 24 частотной области, одинакового контекста независимо от вышеупомянутой сигнализации, сигнализирующей спектро-временное разрешение кадра 26, которому принадлежит соответствующий коэффициент частотной области. В качестве альтернативы и в качестве второго примера блок 12 извлечения может использовать декодирование Хаффмана и задать набор кодовых слов Хаффмана независимо от вышеуказанной сигнализации, точно определяющей разрешение кадра 26.

Существуют разные возможности для способа, которым коэффициенты 24 частотной области описывают спектрограмму 28. Например, коэффициенты 24 частотной области могут лишь представлять некоторый остаток предсказания. Например, коэффициенты частотной области могут представлять остаток предсказания, который, по меньшей мере частично, был получен посредством стереопредсказания из другого аудиосигнала, представляющего соответствующий аудиоканал, или понижающего микширования из многоканального аудиосигнала, которому принадлежит спектрограмма 28 сигнала. В качестве альтернативы, или дополнительно к остатку предсказания, коэффициенты 24 частотной области могут представлять суммарный (средний) или разностный (боковой) сигнал согласно парадигме M/S стерео [5]. К тому же, коэффициенты 24 частотной области могут быть подвергнуты временному ограничению шума.

Помимо этого, коэффициенты частотной области 12 квантуются, и для того, чтобы удержать ошибку квантования ниже психоакустического порога обнаружения (или маскирования), например, размер шага квантования спектрально варьируется таким образом, который управляется посредством соответствующих множителей масштабирования, ассоциированных с коэффициентами 24 частотной области. Блок 14 извлечения множителей масштабирования отвечает за извлечение множителей масштабирования из потока 20 данных.

Кратко приводя чуть больше сведений по переключению между разными спектро-временными разрешениями от кадра к кадру, отмечено нижеследующее. Как будет описано более подробно ниже, переключение между разными спектро-временными разрешениями будет указывать, что либо в пределах определенного кадра 26 все коэффициенты 24 частотной области принадлежат одному преобразованию, либо, что коэффициенты 24 частотной области некоторого кадра 26 в действительности принадлежат разным преобразованиям, таким как, например, два преобразования, длина преобразования которых составляет половину длины преобразования только что упомянутого одного преобразования. Вариант осуществления, описанный в дальнейшем по отношению к Фигурам, предполагает переключение между одним преобразованием с одной стороны и двумя преобразованиями с другой стороны, но по факту, переключение между одним преобразованием и более чем двумя преобразованиями, в принципе, будет иметь смысл, так же как с вариантами осуществления, приведенными ниже, являющимися легко переносимыми на такие альтернативные варианты осуществления.

Фиг. 1 иллюстрирует, с использованием штриховки, примерный случай, когда текущий кадр имеет тип, представленный двумя короткими преобразованиями, одно из которых было получено с использованием задней половины текущего кадра 26, и другое из которых было получено посредством преобразования передней (ведущей) половины текущего кадра 26 аудиосигнала. Из-за укороченной длины преобразования спектральное разрешение, при котором коэффициенты 24 частотной области описывают спектр кадра 26, уменьшено, а именно уменьшено наполовину в случае использования двух коротких преобразований, тогда как временное разрешение увеличено, а именно удвоено в настоящем случае. На Фиг. 1, например, коэффициенты 24 частотной области, показанные заштрихованными, должны принадлежать переднему (ведущему) преобразованию, тогда как незаштрихованные коэффициенты 24 частотной области должны принадлежать заднему (хвостовому) преобразованию. Спектрально совместно размещенные коэффициенты 24 частотной области, таким образом, описывают одну и ту же спектральную составляющую аудиосигнала в пределах кадра 26, но в немного разных моментах времени, а именно в двух последовательных окнах преобразования кадра с разбиением преобразования.

В потоке 20 данных, коэффициенты 24 частотной области передаются перемеженным образом, так чтобы спектрально соответствующие коэффициенты частотной области двух разных преобразований следовали сразу друг за другом. Даже другими словами, коэффициенты 24 частотной области кадра с разбитым преобразованием, т.е. кадра 26, для которого разбиение преобразования сигнализировано в потоке 20 данных, передаются так, чтобы если коэффициенты 24 частотной области, которые приняты из блока 12 извлечения коэффициентов частотной области, будут последовательно упорядочены таким образом, как если они были бы коэффициентами частотной области длинного преобразования, то они скомпонованы в этой последовательности перемеженным образом, так чтобы спектрально совместно размещенные коэффициенты 24 частотной области соседствовали непосредственно с друг с другом, и пары таких спектрально совместно размещенных коэффициентов 24 частотной области упорядочиваются в соответствии со спектральным/частотным порядком. Примечательно, что упорядоченная таким образом последовательность перемеженных коэффициентов 24 частотной области выглядит аналогичной последовательности коэффициентов 24 частотной области, полученной посредством одного длинного преобразования. Снова, поскольку рассматривается блок 12 извлечения коэффициентов частотной области, переключение между разными длинами преобразования или спектро-временными разрешениями в единицах кадров 26 является прозрачным для него, и соответственно, выбор контекста для энтропийного кодирования коэффициентов 24 частотной области контекстно-адаптивным образом приводит в результате в выбору того же контекста – независимо от текущего кадра, в действительности являющегося кадром с длинным преобразованием, или текущего кадра, имеющего тип с разбитым преобразованием, при том, что блок 12 извлечения не знает об этом. Например, блок 12 извлечения коэффициентов частотной области может выбрать контекст, который должен быть использован для некоторого коэффициента частотной области на основе уже кодированных/декодированных коэффициентов частотной области в спектрально-временной окрестности, причем эта спектрально-временная окрестность задана в перемеженном состоянии, изображенном на Фиг. 1. Это имеет нижеследующее последствие. Представим, что текущий кодированный/декодированный коэффициент 24 частотной области был частью переднего преобразования, указанного с использованием штриховки на Фиг. 1. Непосредственно спектрально смежным коэффициентом частотной области будет тогда в действительности коэффициент 24 частотной области того же переднего преобразования (т.е. заштрихованного на Фиг. 1). Тем не менее, однако, блок 12 извлечения коэффициентов частотной области использует для выбора контекста коэффициент 24 частотной области, принадлежащий к заднему преобразованию, а именно спектрально соседствующий коэффициент 24 частотной области (в соответствии с уменьшенным спектральным разрешением укороченного преобразования), предполагая, что последний будет непосредственным спектральным соседом одного длинного преобразования текущего коэффициента 24 частотной области. Аналогично, при осуществлении выбора контекста для коэффициента 24 частотной области заднего преобразования, блок 12 извлечения коэффициентов частотной области будет использовать в качестве непосредственного спектрального соседа коэффициент 24 частотной области, принадлежащий к переднему преобразованию и являющийся в действительности спектрально совместно размещенным с этим коэффициентом. В частности, порядок декодирования, заданный среди коэффициентов 24 текущего кадра 26, может возникнуть, например, от самой нижней частоты для самой высокой частоты. Аналогичные наблюдения являются достоверными в случае, когда блок 12 извлечения коэффициентов частотной области выполнен с возможностью энтропийного декодирования коэффициентов 24 частотной области текущего кадра 26 в группах/кортежах непосредственно последовательных коэффициентов 24 частотной области, когда упорядочены не обратно перемеженным образом. Вместо использования кортежа спектрально соседних коэффициентов 24 частотной области, принадлежащих только одному и тому же короткому преобразованию, блок 12 извлечения коэффициентов частотной области может выбрать контекст для некоторого кортежа смеси коэффициентов 24 частотной области, принадлежащих разным коротким преобразованиям на основании спектрально соседнего кортежа такой смеси коэффициентов 24 частотной области, принадлежащих к разным преобразованиям.

Из-за того факта, что, как указано выше, в перемеженном состоянии, результирующий спектр, который получен посредством двух коротких преобразований, кажется очень похожим со спектром, полученным посредством одного длинного преобразования, ухудшение энтропийного кодирования, возникающее в результате агностической операции блока 12 извлечения коэффициентов частотной области относительно переключения длины преобразования, является низким.

Описание декодера 10 возобновляется с блока 14 извлечения множителей масштабирования, который, как упомянуто выше, отвечает за извлечение множителей масштабирования коэффициентов 24 частотной области из потока 20 данных. Спектральное разрешение, при котором множители масштабирования присваиваются коэффициентам 24 частотной области, грубее, чем сравнительно тонкое спектральное разрешение, поддерживаемое длинным преобразованием. Как проиллюстрировано фигурными скобками 30, коэффициенты 24 частотной области могут быть сгруппированы в многочисленные диапазоны множителей масштабирования. Подразделение в диапазонах множителей масштабирования может быть выбрано на основе психоакустических соображений и может, например, совпадать с так называемыми диапазонами Барка (или критическими). Так блок 14 извлечения множителей масштабирования является агностическим для переключения длины преобразования, прямо как блок 12 извлечения коэффициентов частотной области, блок 14 извлечения множителей масштабирования предполагает, что каждый кадр 26 должен быть подразделен на некоторое число диапазонов множителей масштабирования 30, которое является равным, независимо от сигнализации переключения длины преобразования, и извлекает множитель 32 масштабирования для каждого такого диапазона 30 множителей масштабирования. На стороне кодера приписывание коэффициентов 24 частотной области к этим диапазонам множителей масштабирования 30 сделано в не обратно перемеженном состоянии, проиллюстрированном на Фиг. 1. Как следствие, поскольку рассматриваются кадры 26, соответствующие разбитому преобразованию, каждый множитель 32 масштабирования принадлежит к группе, наполненной как коэффициентами 24 частотной области переднего преобразования, так и коэффициентами 24 частотной области заднего преобразования.

Обратный преобразователь 16 выполнен с возможностью приема для каждого кадра 26 соответствующих коэффициентов 24 частотной области и соответствующих множителей масштабирования 32 и подвергания коэффициентов 24 частотной области кадра 26, отмасштабированных согласно множителям масштабирования 32, обратному преобразованию для получения участков временной области аудиосигнала. Обратным преобразователем 16 может быть использовано преобразование с перекрытием, такое как, например, модифицированное дискретное косинусное преобразование (MDCT). Блок 18 объединения объединяет участки временной области для получения аудиосигнала, как например, посредством использования, например, подходящего процесса перекрытия с суммированием, приводящим в результате, например, к подавлению помех дискретизации во временной области в пределах перекрывающихся участков для участков временной области, выведенных обратным преобразователем 16.

Естественно, обратный преобразователь 16 отвечает на вышеупомянутое переключение длины преобразования, сигнализированное внутри потока 20 данных для кадров 26. Операция обратного преобразователя 16 описана более подробно по отношению к Фиг. 2.

Фиг. 2 показывает возможную внутреннюю структуру обратного преобразователя 16 более подробно. Как указано на Фиг. 2, обратный преобразователь 16 принимает для текущего кадра коэффициенты 24 частотной области, ассоциированные с этим кадром, так же как и соответствующие множители 32 масштабирования для деквантования коэффициентов 24 частотной области. К тому же, обратный преобразователь 16 управляется посредством сигнализации 34, которая присутствует в потоке 20 данных для каждого кадра. Обратным преобразователем 16 можно дополнительно управлять посредством других компонентов потока 20 данных, опционально содержащихся в нем. В ниже следующем описании, описаны сведения, касающиеся этих дополнительных параметров.

Как показано на Фиг. 2, обратный преобразователь 16 по Фиг. 2 содержит блок 36 деквантования, активируемый обращенный перемежитель 38 и ступень 40 обратного преобразования. Для простоты понимания нижеследующего описания, входящие коэффициенты 24 частотной области, которые получены для текущего кадра из блока 12 извлечения коэффициентов частотной области, показаны пронумерованными с 0 по N–1. Снова, так как блок 12 извлечения коэффициентов частотной области является агностическим по отношению к, т.е. функционирует независимо от сигнализации 34, блок 12 извлечения коэффициентов частотной области предусматривает обратный преобразователь 16 с коэффициентами 24 частотной области таким же образом независимо от того, имеет ли текущий кадр тип с разбитым преобразованием или тип с одним преобразованием, т.е. число коэффициентов 24 частотной области составляет N в настоящем иллюстративном случае, и ассоциация индексов с 0 по N–1 для N коэффициентов 24 частотной области также остается такой же независимо от сигнализации 34. В случае, когда текущий кадр имеет тип с одним или длинным преобразованием, индексы с 0 по N–1 соответствуют упорядочиванию коэффициентов 24 частотной области от меньшей частоты к наивысшей частоте, и в случае, когда текущий кадр имеет тип с разбитым преобразованием, индексы соответствуют порядку коэффициентов частотной области при спектральной компоновке согласно их спектральному порядку, но перемеженным образом, так чтобы каждый второй коэффициент 24 частотной области принадлежал заднему преобразованию, тогда как остальные принадлежали переднему преобразованию.

Аналогичные факты справедливы для множителей 32 масштабирования. Так как блок 14 извлечения множителей масштабирования функционирует агностическим по отношению к сигнализации 34 образом, число и порядок, так же как и значения множителей 32 масштабирования, поступающих из блока 14 извлечения множителей масштабирования, не зависит от сигнализации 34, причем множители 32 масштабирования на Фиг. 2 для примера обозначены как S₀-S_M с индексом, соответствующим последовательному порядку среди диапазонов множителей масштабирования, с которыми эти множители масштабирования ассоциированы.

Аналогичным блоку 12 извлечения коэффициентов частотной области и блоку 14 извлечения множителей масштабирования образом, блок 36 деквантования может функционировать агностически по отношению к, или независимо от, сигнализации 34. Блок 36 деквантования деквантует, или масштабирует, входящие коэффициенты 24 частотной области с использованием множителя масштабирования, ассоциированного с диапазоном множителей масштабирования, которому принадлежат соответствующие коэффициенты частотной области. Снова, принадлежность входящих коэффициентов 24 частотной области к индивидуальным диапазонам множителей масштабирования, и таким образом ассоциация входящих коэффициентов 24 частотной области с множителями 32 масштабирования, не зависит от сигнализации 34, и обратный преобразователь 16 таким образом подвергает коэффициенты 24 частотной области масштабированию согласно множителям 32 масштабирования при спектральном разрешении, которое не зависит от сигнализации. Например, блок 36 деквантования, независимо от сигнализации 34, присваивает коэффициенты частотной области с индексами 0-3 первому диапазону множителей масштабирования и соответственно первому множителю масштабирования S₀, коэффициенты частотной области с индексами 4-9 второму диапазону множителей масштабирования и таким образом множителю масштабирования S₁ и т.д. Границы множителей масштабирования являются лишь иллюстративными. Блок 36 деквантования может, например, для того, чтобы деквантовать коэффициенты 24 частотной области, выполнить умножение с использованием ассоциированного множителя масштабирования, т.е. вычислить коэффициент частотной области x₀ как x₀ ∙ s₀, x₁ как x₁ ∙ s₀, …, x₃ как x₃ ∙ s₀, x₄ как x₄ ∙ s₁, …, x₉ как x₉ ∙ s₁, и т.д. В качестве альтернативы, блок 36 деквантования может выполнить интерполяцию множителей масштабирования, в действительности используемых для деквантования коэффициентов 24 частотной области, из грубого спектрального разрешения, заданного диапазонами множителей масштабирования. Интерполяция может быть независимой от сигнализации 34. В качестве альтернативы, однако, последняя интерполяция может быть зависимой от сигнализации, для того, чтобы учитывать разные спектро-временные положения выборки коэффициентов 24 частотной области, в зависимости от того, имеет ли текущий кадр тип с разбитым преобразованием или тип с одним/длинным преобразованием.

Фиг. 2 иллюстрирует, что вплоть до стороны входа активируемого обращенного перемежителя 38, порядок среди коэффициентов 24 частотной области остается таким же, и он же применяется, по меньшей мере, существенно, по отношению ко всей операции вплоть до этого момента. Фиг. 2 показывает, что до активируемого обращенного перемежителя 38, дополнительные операции могут быть выполнены посредством обратного преобразователя 16. Например, обратный преобразователь 16 может быть выполнен с возможностью выполнения заполнения шумом в отношении коэффициентов 24 частотной области. Например, в последовательности коэффициентов 24 частотной области могут быть идентифицированы диапазоны множителей масштабирования, т.е. группы входящих коэффициентов частотной области в порядке, следующем индексам с 0 по N–1, где все коэффициенты 24 частотной области соответствующих диапазонов множителей масштабирования квантованы до нуля. Такие коэффициенты частотной области могут быть заполнены, например, с использованием генерирования искусственного шума, такого как, например, с использованием генератора псевдослучайных чисел. Сила/уровень шума, заполняемого в диапазон квантованных до нуля множителей масштабирования, может быть отрегулирован с использованием множителя масштабирования соответствующего диапазона множителей масштабирования, так как он не нужен для масштабирования, так как спектральные коэффициенты в нем все равны нулю. Такое заполнение шумом показано на Фиг. 2 в 40 и описано более подробно в варианте осуществления в патенте EP2304719A1 [6].

Фиг. 2 показывает кроме того, что обратный преобразователь 16 может быть выполнен с возможностью поддержки кодирования сведенного стерео и/или межканального стереопредсказания. В механизме межканального стереопредсказания обратный преобразователь 16 может, например, предсказать 42 спектр в не обратно перемеженном размещении, представленном порядком индексов с 0 по N–1 из другого канала аудиосигнала. То есть, может быть, что коэффициенты 24 частотной области описывают спектрограмму канала стереоаудиосигнала, и что обратный преобразователь 16 выполнен с возможностью интерпретации коэффициентов 24 частотной области как остатка предсказания сигнала предсказания, полученного из другого канала этого стереоаудиосигнала. Это межканальное стереопредсказание может быть, например, выполнено при некоторой спектральной гранулярности независимо от сигнализации 34. Параметры 44 комплексного предсказания, управляющие комплексным стереопредсказанием 42, могут, например, активировать комплексное стереопредсказание 42 для некоторых из вышеупомянутых диапазонов множителей масштабирования. Для каждого диапазона множителей масштабирования, для которого комплексное предсказание активировано посредством параметра 44 комплексного предсказания, масштабированные коэффициенты 24 частотной области, скомпонованные в порядке с 0 по N–1, находящиеся в пределах соответствующего диапазона множителей масштабирования, будут суммированы с сигналом межканального предсказания, полученным из другого канала стереоаудиосигнала. Комплексный множитель, содержащийся внутри параметров 44 комплексного предсказания для этого соответствующего диапазона множителей масштабирования, может управлять сигналом предсказания.

Кроме того, внутри механизма кодирования сведенного стерео, обратный преобразователь 16 может быть выполнен с возможностью выполнения MS-декодирования 46. То есть, декодер 10 по Фиг. 1 может выполнить операции, описанные уже дважды, один раз для первого канала и другой раз для второго канала стереоаудиосигнала, и управляемые посредством MS-параметров внутри потока 20 данных, обратный преобразователь 16 может осуществить MS-декодирование этих двух каналов или оставить их как они есть, а именно как левый и правый каналы стереоаудиосигнала. MS-параметры 48 могут переключать между MS-кодирование на уровне кадра или даже на более тонком уровне, таком как в единицах диапазонов множителей масштабирования или их группах. В случае активированного MS-декодирования, например, обратный преобразователь 16 может сформировать сумму соответствующих коэффициентов 24 частотной области в порядке коэффициентов с 0 по N – 1, с соответствующими коэффициентами частотной области другого канала стереоаудиосигнала, или их разность.

Фиг. 2 затем показывает, что активируемый обращенный перемежитель 38 отвечает на сигнализацию 34 для текущего кадра для того, чтобы, в случае сигнализирования текущего кадра посредством сигнализации 34 как кадра с разбитым преобразованием, осуществить обратное перемежение входящих коэффициентов частотной области, так чтобы получить два преобразования, а именно переднее преобразование 50 и заднее преобразование 52, и оставить коэффициенты частотной области перемеженными, так чтобы получить в результате одно преобразование 54 в случае сигнализации 34, указывающей текущий кадр как кадр с длинным преобразованием. В случае обратного перемежения, обращенный перемежитель 38 формирует одно преобразование из 50 и 52, первое короткое преобразование из коэффициентов частотной области, имеющих четные индексы, и другое короткое преобразование из коэффициентов частотной области в нечетных положениях индексов. Например, коэффициенты частотной области с четным индексом могут сформировать переднее преобразование (начиная с индекса 0), тогда как остальные формируют заднее преобразование. Преобразования 50 и 52 подвергаются обратному преобразованию с более короткой длиной преобразования, давая в результате участки 56 и 58 временной области, соответственно. Блок 18 объединения по Фиг. 1 корректно располагает участки 56 и 58 временной области во времени, а именно участок 56 временной области, возникающий из переднего преобразования 50, перед участком 58 временной области, возникающим из заднего преобразования 52, и выполняет процесс перекрытия с суммированием между ними и с участками временной области, возникающими из предшествующего и последующего кадров аудиосигнала. В случае не обратного перемежения, коэффициенты частотной области, поступающие на перемежитель 38, составляют длинное преобразование 54 как они есть, и ступень 40 обратного преобразования выполняет в отношении них обратное преобразование, так чтобы дать в результате участок 60 временной области, протягивающийся на весь временной интервал текущего кадра 26 и за его пределы. Блок 18 объединения объединяет участок 60 временной области с соответствующими участками временной области, возникающими из предшествующего и последующего кадров аудиосигнала.

Аудиодекодер в частотной области, уже описанный, обеспечивает возможность переключения длины преобразования таким образом, который обеспечивает возможность совместимости с аудиодекодерами в частотной области, которые не отвечают на сигнализацию 34. В частности, такие "устаревшие" декодеры будут ошибочно предполагать, что кадры, которые в действительности сигнализированы посредством сигнализации 34 как имеющие тип с разбитым преобразованием, имеют тип с длинным преобразованием. То есть, они будут ошибочно оставлять коэффициенты частотной области с типом с разбиением перемеженными и выполнять обратное преобразование с длиной длинного преобразования. Однако, результирующее качество подверженных воздействию кадров реконструированного аудиосигнала будет вес еще достаточно приемлемым.

Ухудшение эффективности кодирования, в свою очередь, тоже будет все еще приемлемым. Ухудшение эффективности кодирования возникает в результате игнорирования сигнализации 34, так как коэффициенты частотной области и множители масштабирования кодируются без учета переменного смысла коэффициентов и использования этой переменчивости для того, чтобы увеличить эффективность кодирования. Однако, последнее ухудшение является относительно небольшим по сравнению с преимуществом обеспечения возможности обратной совместимости. Последнее утверждение также справедливо в отношении ограничения на активацию и деактивацию блока 40 заполнения шумом, комплексного стереопредсказания 42 и MS-декодирования 46 лишь в пределах непрерывных спектральных участков (диапазонов множителей масштабирования) в обратно перемеженном состоянии, заданных индексами с 0 по N–1 на Фиг. 2. Возможность осуществления управления этими инструментами кодирования конкретно для типа кадра (например, имеющего два уровня шума) может, вероятно, предоставить преимущества, но преимущества с избытком компенсируются преимуществом обладания обратной совместимостью.

Фиг. 2 показывает, что декодер по Фиг. 1 может быть даже выполнен с возможностью поддержки TNS-кодирования, при этом тем не менее сохраняя обратную совместимость с декодерами, являющимися нечувствительными к сигнализации 34. В частности, Фиг. 2 иллюстрирует возможность выполнения фильтрации обратного TNS после какого-либо комплексного стереопредсказания 42 и MS-декодирования 46, если таковые есть. Для того, чтобы обеспечить обратную совместимость, обратный преобразователь 16 выполнен с возможностью выполнения фильтрации 62 обратного TNS в отношении последовательности из N коэффициентов независимо от сигнализации 34 с использованием соответствующих TNS-коэффициентов 64. Поэтому, поток 20 данных кодирует TNS-коэффициенты 64 в равной степени, независимо от сигнализации 34. То есть, число TNS-коэффициентов и способов их кодирования является одинаковым. Однако, обратный преобразователь 16 выполнен с возможностью по-разному применять TNS-коэффициенты 64. В случае, когда текущий кадр является кадром с длинным преобразованием, фильтрация обратного TNS выполняется в отношении длинного преобразования 54, т.е. коэффициенты частотной области, размещенные последовательно в перемеженном состоянии, и в случае, когда текущий кадр сигнализируется посредством сигнализации 34 как кадр с разбитым преобразованием, обратный преобразователь 16 осуществляет фильтрование 62 обратного TNS связи переднего преобразования 50 и заднего преобразования 52, т.е. последовательности коэффициентов частотной области с

Аудиокодирование в частотной области, поддерживающее переключение длины преобразования

Патент 2654139