2661776 - Заполнение шумом при многоканальном кодировании аудио

Заполнение шумом при многоканальном кодировании аудио

Иллюстрации

Показать все

Изобретение относится к средствам для заполнения шумом при многоканальном кодировании аудио. Технический результат заключается в повышении эффективности кодирования на низких скоростях передачи битов. Идентифицируют первые полосы коэффициентов масштабирования спектра первого канала текущего кадра многоканального аудиосигнала, в которых все спектральные линии квантуются в нулевые, и вторые полосы коэффициентов масштабирования спектра, в которых по меньшей мере одна спектральная линия квантуется в ненулевую. Заполняют спектральные линии в предварительно определенной полосе коэффициентов масштабирования первых полос коэффициентов масштабирования шумом, сформированным с использованием спектральных линий понижающего микширования предыдущего кадра многоканального аудиосигнала, с регулированием уровня шума с использованием коэффициента масштабирования предварительно определенной полосы коэффициентов масштабирования. Деквантуют спектральные линии во вторых полосах коэффициентов масштабирования с использованием коэффициентов масштабирования вторых полос коэффициентов масштабирования. 10 н. и 18 з.п. ф-лы, 6 ил.

Реферат

Изобретение относится к заполнению шумом при многоканальном кодировании аудио.

Современные системы кодирования речи/аудио в частотной области, такие как Opus/Celt-кодек IETF[1], MPEG-4 (HE-)AAC[2] или, в частности, MPEG-D xHE-AAC (USAC) [3], предлагают средство кодировать аудиокадры либо с использованием одного длинного преобразования (длинного блока), либо с использованием восьми последовательных коротких преобразований (коротких блоков) в зависимости от временной стационарности сигнала. Помимо этого, для кодирования с низкой скоростью передачи битов эти схемы предоставляют инструментальные средства для того, чтобы восстанавливать частотные коэффициенты канала с использованием псевдослучайного шума или более низких частотных коэффициентов того же канала. В xHE-AAC, эти инструментальные средства известны как заполнение шумом и репликация полос спектра, соответственно.

Тем не менее, для очень тонального или переходного стереофонического ввода, только заполнение шумом и/или репликация полос спектра ограничивают достижимое качество кодирования на очень низких скоростях передачи битов, главным образом поскольку слишком много спектральных коэффициентов обоих каналов должны передаваться явно.

Таким образом, цель заключается в том, чтобы предоставлять принцип для выполнения заполнения шумом при многоканальном кодировании аудио, который обеспечивает более эффективное кодирование, в частности, на очень низких скоростях передачи битов.

Это цель достигается посредством предмета изобретения в прилагаемых независимых пунктах формулы изобретения.

Настоящая заявка основана на таких выявленных сведениях, что при многоканальном кодировании аудио, повышенная эффективность кодирования может достигаться, если заполнение шумом нульквантованных полос коэффициентов масштабирования канала выполняется с использованием источников заполнения шумом, отличных от искусственно сформированной шумовой или спектральной реплики того же канала. В частности, эффективность при многоканальном кодировании аудио может повышаться посредством выполнения заполнения шумом на основе шума, сформированного с использованием спектральных линий из предыдущего кадра или другого канала текущего кадра многоканального аудиосигнала.

Посредством использования спектрально совместно размещенных спектральных линий предыдущего кадра или спектровременно совместно размещенных спектральных линий других каналов многоканального аудиосигнала, можно достигать более удовлетворительного качества восстановленного многоканального аудиосигнала, в частности, на очень низких скоростях передачи битов, на которых необходимость для кодера нульквантовать спектральные линии является близкой к такой ситуации, чтобы нульквантовать полосы коэффициентов масштабирования в целом. Вследствие улучшенного заполнения шумом, кодер в таком случае может, с меньшей потерей качества, выбирать нульквантование большего числа полос коэффициентов масштабирования, за счет этого повышая эффективность кодирования.

В соответствии с вариантом осуществления настоящей заявки, источник для выполнения заполнения шумом частично перекрывается с источником, используемым для выполнения комплекснозначного стереопрогнозирования. В частности, понижающее микширование предыдущего кадра может использоваться в качестве источника для заполнения шумом и совместно использоваться в качестве источника для выполнения или, по меньшей мере, улучшения оценки мнимой части для выполнения комплексного межканального прогнозирования.

В соответствии с вариантами осуществления, существующий многоканальный аудиокодек расширяется обратно совместимым способом таким образом, чтобы передавать в служебных сигналах, на покадровой основе, использование заполнения межканальным шумом. Нижеуказанные конкретные варианты осуществления, например, расширяют xHE-AAC посредством передачи служебных сигналов обратно совместимым способом с передачей служебных сигналов, включающей и выключающей заполнение межканальным шумом с помощью неиспользуемых состояний условно кодированного параметра заполнения шумом.

Преимущественные реализации настоящей заявки являются предметом зависимых пунктов формулы изобретения. Предпочтительные варианты осуществления настоящей заявки описываются ниже со ссылкой на чертежи, на которых:

Фиг. 1 показывает блок-схему параметрического декодера в частотной области согласно варианту осуществления настоящей заявки;

Фиг. 2 показывает принципиальную схему, иллюстрирующую последовательность спектров, формирующих спектрограммы каналов многоканального аудиосигнала, чтобы упрощать понимание описания декодера по фиг. 1;

Фиг. 3 показывает принципиальную схему, иллюстрирующую текущие спектры из спектрограмм, показанных на фиг. 2, для упрощения понимания описания фиг. 1;

Фиг. 4 показывает блок-схему параметрического аудиодекодера в частотной области в соответствии с альтернативным вариантом осуществления, согласно которому понижающее микширование предыдущего кадра используется в качестве основы для заполнения межканальным шумом; и

Фиг. 5 показывает блок-схему параметрического аудиокодера в частотной области в соответствии с вариантом осуществления.

Фиг. 1 показывает аудиодекодер в частотной области в соответствии с вариантом осуществления настоящей заявки. Декодер, в общем, указывается с использованием ссылки с номером 10 и содержит модуль 12 идентификации полос коэффициентов масштабирования, деквантователь 14, заполнитель 16 шумом и обратный преобразователь 18, а также модуль 20 извлечения спектральных линий и модуль 22 извлечения коэффициентов масштабирования. Необязательные дополнительные элементы, которые может содержать декодер 10, охватывают модуль 24 комплексного стереопрогнозирования, MS (средний/боковой) декодер 26 и инструментальное средство фильтра обратного TNS (временного формирования шума), два экземпляра которого 28a и 28b показаны на фиг. 1. Помимо этого, поставщик понижающего микширования показывается и приводится подробнее ниже использования ссылки с номером 30.

Аудиодекодер 10 в частотной области по фиг. 1 представляет собой параметрический декодер, поддерживающий заполнение шумом, согласно которому некоторая нульквантованная полоса коэффициентов масштабирования заполнена шумом с использованием коэффициента масштабирования этой полосы коэффициентов масштабирования в качестве средства управления уровнем шума, заполненного в эту полосу коэффициентов масштабирования. Помимо этого, декодер 10 по фиг. 1 представляет многоканальный аудиодекодер, выполненный с возможностью восстанавливать многоканальный аудиосигнал из входящего потока 30 данных. Тем не менее, фиг. 1 концентрируется на элементах декодера 10, участвующих в восстановлении одного из многоканальных аудиосигналов, кодированных в поток 30 данных, и выводит этот (выходной) канал на выходе 32. Ссылка с номером 34 указывает то, что декодер 10 может содержать дополнительные элементы либо может содержать некоторый конвейерный функциональный контроллер, отвечающий за восстановление других каналов многоканального аудиосигнала, при этом описание, приведенное ниже, указывает то, как восстановление декодера 10 интересующего канала на выходе 32 взаимодействует с декодированием других каналов.

Многоканальный аудиосигнал, представленный посредством потока 30 данных, может содержать два или более каналов. Далее описание вариантов осуществления настоящей заявки концентрируется на стереослучае, в котором многоканальный аудиосигнал содержит только два канала, но в принципе варианты осуществления, приведенные далее, могут легко переноситься на альтернативные варианты осуществления относительно многоканальных аудиосигналов и их кодирования, содержащего более двух каналов.

Как должно становиться очевидным из описания по фиг. 1 ниже, декодер 10 по фиг. 1 представляет собой декодер с преобразованием. Иными словами, согласно декодеру 10, лежащему в основе технологии кодирования, каналы кодируются в области преобразования, к примеру, с использованием перекрывающегося преобразования каналов. Кроме того, в зависимости от создателя аудиосигнала, возникают временные фазы, в течение которых каналы аудиосигнала большей частью представляют такой же аудиоконтент, отклоняющийся друг от друга просто посредством незначительных или детерминированных изменений между собой, таких как различные амплитуды и/или фаза, чтобы представлять аудиосцену, в которой разности между каналами предоставляют виртуальное позиционирование аудиоисточника аудиосцены относительно позиций виртуальных динамиков, ассоциированных с выходными каналами многоканального аудиосигнала. Тем не менее, в некоторых других временных фазах различные каналы аудиосигнала могут быть более или менее декоррелированными между собой и могут даже представлять, например, абсолютно различные аудиоисточники.

Чтобы учитывать возможно изменяющуюся во времени взаимосвязь между каналами аудиосигнала, декодер 10, лежащий в основе аудиокодека по фиг. 1, обеспечивает возможность изменяющегося во времени использования различных показателей для того, чтобы использовать межканальные избыточности. Например, MS-кодирование обеспечивает возможность переключения между представлением левого и правого каналов стереоаудиосигнала как есть или как пары M (средних) и S (боковых) каналов, представляющих понижающее микширование левого и правого каналов и их половинную разность, соответственно. Иными словами, предусмотрены непрерывные (в спектровременном смысле) спектрограммы двух каналов, передаваемых посредством потока 30 данных, но смысл этих (передаваемых) каналов может изменяться во времени и относительно выходных каналов, соответственно.

Комплексное стереопрогнозирование (другое инструментальное средство использования межканальных избыточностей) обеспечивает, в спектральной области, прогнозирование коэффициентов частотной области одного канала или спектральных линий с использованием спектрально совместно размещенных линий другого канала. Ниже описываются дополнительные сведения относительно этого.

Чтобы упрощать понимание последующего описания фиг. 1 и его показанных компонентов, фиг. 2 показывает, для примерного случая стереоаудиосигнала, представленного посредством потока 30 данных, возможный способ того, как выборочные значения для спектральных линий двух каналов могут кодироваться в поток 30 данных таким образом, чтобы обрабатываться посредством декодера 10 по фиг. 1. В частности, тогда как в верхней половине по фиг. 2 проиллюстрирована спектрограмма 40 первого канала стереоаудиосигнала, нижняя половина по фиг. 2 иллюстрирует спектрограмму 42 другого канала стереоаудиосигнала. С другой стороны, необходимо отметить, что "смысл" спектрограмм 40 и 42 может изменяться во времени вследствие, например, изменяющегося во времени переключения между MS-кодированной областью и не-MS-кодированной областью. Прежде всего, спектрограммы 40 и 42 связаны с M- и S-каналом, соответственно, тогда как во втором случае спектрограммы 40 и 42 связаны с левым и правым каналами. Переключение между MS-кодированной областью и не-MS-кодированной областью может передаваться в служебных сигналах в потоке 30 данных.

Фиг. 2 показывает то, что спектрограммы 40 и 42 могут кодироваться в поток 30 данных с изменяющимся во времени спектровременным разрешением. Например, оба (передаваемых) канала могут, с временным совмещением, подразделяться на последовательность кадров, указываемых с использованием фигурных скобок 44, которые могут быть одинаково длинными и примыкают друг к другу без перекрытия. Как упомянуто выше, спектральное разрешение, с которым спектрограммы 40 и 42 представлены в потоке 30 данных, может изменяться во времени. Предварительно, предполагается, что спектровременное разрешение изменения во времени одинаково для спектрограмм 40 и 42, но расширение этого упрощения также является целесообразным, как должно становиться очевидным из нижеприведенного описания. Изменение спектровременного разрешения, например, передается в служебных сигналах в потоке 30 данных в единицах кадров 44. Иными словами, спектровременное разрешение изменяется в единицах кадров 44. Изменение спектровременного разрешения спектрограмм 40 и 42 достигается посредством переключения длины преобразования и числа преобразований, используемых для того, чтобы описывать спектрограммы 40 и 42 в каждом кадре 44. В примере по фиг. 2, кадры 44a и 44b иллюстрируют кадры, в которых одно длинное преобразование использовано для того, чтобы дискретизировать каналы аудиосигнала, за счет этого приводя к наибольшему спектральному разрешению с одним выборочным значением спектральной линии в расчете на спектральную линию для каждого из таких кадров в расчете на один канал. На фиг. 2, выборочные значения спектральных линий указываются с использованием небольших крестиков в прямоугольниках, при этом прямоугольники, в свою очередь, размещаются в строках и столбцах и должны представлять спектральную временную сетку, причем каждая строка соответствует одной спектральной линии, а каждый столбец соответствует подыинтервалам кадров 44, соответствующих кратчайшим преобразованиям, участвующим в формировании спектрограмм 40 и 42. В частности, фиг. 2 иллюстрирует, например, для кадра 44d то, что кадр альтернативно может подвергаться последовательным преобразованиям меньшей длины, за счет этого получая в результате, для таких кадров, к примеру, кадра 44d, несколько временно последующих спектров с уменьшенным спектральным разрешением. Восемь коротких преобразований примерно использованы для кадра 44d, что приводит к спектровременной дискретизации спектрограмм 40 и 42 в этом кадре 42d, в спектральных линиях, разнесенных друг от друга, так что заполняется только каждая восьмая спектральная линия, но при этом выборочное значение для каждого из восьми окон преобразования на основе кодирования со взвешиванием или преобразований меньшей длины используется для того, чтобы преобразовывать кадр 44d. В качестве иллюстрации, на фиг. 2 показано то, что также должны быть целесообразными другие числа преобразований для кадра, к примеру, использование двух преобразований с длиной преобразования, которая составляет, например, половину от длины преобразования для длинных преобразований для кадров 44a и 44b, за счет этого приводя к дискретизации спектровременной сетки или спектрограмм 40 и 42, причем два выборочных значения спектральных линий получаются для каждой второй спектральной линии, одно из которых связано с начальным преобразованием, а другое - с конечным преобразованием.

Окна преобразования на основе кодирования со взвешиванием для преобразований, на которые подразделяются кадры, проиллюстрированы на фиг. 2 ниже каждой спектрограммы с использованием линий в форме накладывающихся окон кодирования со спектром. Временное перекрытие, например, служит для целей TDAC (подавления наложения спектров во временной области).

Хотя варианты осуществления, подробно описанные ниже, также могут реализовываться другим способом, фиг. 2 иллюстрируют случай, в котором переключение между различными спектровременными разрешениями для отдельных кадров 44 выполняется таким образом, что для каждого кадра 44, идентичное число значений спектральных линий, указываемых посредством небольших крестиков на фиг. 2, в результате получается для спектрограммы 40 и спектрограммы 42, причем разность заключается только в способе, которым линии спектровременно дискретизируют соответствующий спектровременной мозаичный фрагмент, соответствующий надлежащему кадру 44, охватываемому временно в течение времени соответствующего кадра 44 и охватываемому спектрально от нулевой частоты до максимальной частоты f_max.

С использованием стрелок на фиг. 2, фиг. 2 иллюстрирует относительно кадра 44d то, что аналогичные спектры могут получаться для всех кадров 44 посредством подходящего распределения выборочных значений спектральных линий, принадлежащих идентичной спектральной линии, но окнам кодирования с взвешиванием коротких преобразований в одном кадре одного канала, на незанятые (пустые) спектральные линии в этом кадре вплоть до следующей занятой спектральной линии этого кадра. Такие результирующие спектры далее называются "перемеженными спектрами". При перемежении n преобразований одного кадра одного канала, например, спектрально совместно размещенные значения спектральных линий n коротких преобразований идут друг за другом до того, как идет набор из n спектрально совместно размещенных значений спектральных линий n коротких преобразований спектрально последующей спектральной линии. Промежуточная форма перемежения также должна быть целесообразной: вместо перемежения всех коэффициентов спектральных линий одного кадра, должно быть целесообразным перемежать только коэффициенты спектральных линий строгого поднабора коротких преобразований кадра 44d. В любом случае, каждый раз, когда поясняются спектры кадров двух каналов, соответствующих спектрограммам 40 и 42, эти спектры могут означать перемеженные спектры или неперемеженные спектры.

Чтобы эффективно кодировать коэффициенты спектральных линий, представляющие спектрограммы 40 и 42 через поток 30 данных, передаваемый в декодер 10, они квантуются. Чтобы спектровременно управлять шумом квантования, размер шага квантования управляется через коэффициенты масштабирования, которые задаются в некоторой спектровременной сетке. В частности, в каждой последовательности спектров каждой спектрограммы, спектральные линии группируются в спектрально последовательные неперекрывающиеся группы коэффициентов масштабирования. Фиг. 3 показывает спектр 46 спектрограммы 40 в верхней половине и совместный временной спектр 48 из спектрограммы 42. Как показано здесь, спектры 46 и 48 подразделяются на полосы коэффициентов масштабирования вдоль спектральной оси f, с тем чтобы группировать спектральные линии в неперекрывающиеся группы. Полосы коэффициентов масштабирования проиллюстрированы на фиг. 3 с использованием фигурных скобок 50. Для простоты предполагается, что границы между полосами коэффициентов масштабирования совпадают между спектром 46 и 48, но это не должно обязательно иметь место.

Иными словами, посредством кодирования в потоке 30 данных, каждая из спектрограмм 40 и 42 подразделяется на временную последовательность спектров, и каждый из этих спектров спектрально подразделяется на полосы коэффициентов масштабирования, и для каждой полосы коэффициентов масштабирования поток 30 данных кодирует или передает информацию относительно коэффициента масштабирования, соответствующего надлежащей полосе коэффициентов масштабирования. Коэффициенты спектральных линий, попадающие в соответствующую полосу 50 коэффициентов масштабирования, квантуются с использованием соответствующего коэффициента масштабирования либо, что касается декодера 10, могут деквантоваться с использованием коэффициента масштабирования соответствующей полосы коэффициентов масштабирования.

Перед возвращением снова к фиг. 1 и его описанию, в дальнейшем предполагается, что конкретный обрабатываемый канал, т.е. канал, в декодировании которого участвуют конкретные элементы декодера по фиг. 1, отличные от 34, представляет собой передаваемый канал спектрограммы 40, который, как уже указано выше, может представлять один из левого и правого каналов, M-канала или S-канала, с учетом того, что многоканальный аудиосигнал, кодированный в поток 30 данных, представляет собой стереоаудиосигнал.

Хотя модуль 20 извлечения спектральных линий выполнен с возможностью извлекать данные спектральных линий, т.е. коэффициенты спектральных линий для кадров 44 из потока 30 данных, модуль 22 извлечения коэффициентов масштабирования выполнен с возможностью извлекать для каждого кадра 44 соответствующие коэффициенты масштабирования. С этой целью, модули 20 и 22 извлечения могут использовать энтропийное декодирование. В соответствии с вариантом осуществления, модуль 22 извлечения коэффициентов масштабирования выполнен с возможностью последовательно извлекать коэффициенты масштабирования, например, спектр 46 на фиг. 3, т.е. коэффициенты масштабирования полос 50 коэффициентов масштабирования, из потока 30 данных с использованием контекстно-адаптивного энтропийного декодирования. Порядок последовательного декодирования может соответствовать спектральному порядку, заданному для полос коэффициентов масштабирования, идущих, например, от низкой частоты до высокой частоты. Модуль 22 извлечения коэффициентов масштабирования может использовать контекстно-адаптивное энтропийное декодирование и может определять контекст для каждого коэффициента масштабирования в зависимости от уже извлеченных коэффициентов масштабирования в спектральном окружении текущего извлеченного коэффициента масштабирования, к примеру, в зависимости от коэффициента масштабирования непосредственно предшествующей полосы коэффициентов масштабирования. Альтернативно, модуль 22 извлечения коэффициентов масштабирования может прогнозирующе декодировать коэффициенты масштабирования из потока 30 данных, такого как, например, с использованием дифференциального декодирования при прогнозировании текущего декодированного коэффициента масштабирования на основе любого из ранее декодированных коэффициентов масштабирования, к примеру, непосредственно предшествующего коэффициента масштабирования. А именно, этот процесс извлечения коэффициента масштабирования является независимым относительно коэффициента масштабирования, принадлежащего полосе коэффициентов масштабирования, заполненной исключительно посредством нульквантованных спектральных линий либо заполненной посредством спектральных линий, из которых, по меньшей мере, одна квантуется в ненулевое значение. Коэффициент масштабирования, принадлежащий полосе коэффициентов масштабирования, заполненной только посредством нульквантованных спектральных линий, может как служить в качестве основы прогнозирования для последующего декодированного коэффициента масштабирования, который возможно принадлежит полосе коэффициентов масштабирования, заполненной посредством спектральных линий, из которых одна является ненулевой, так и прогнозироваться на основе ранее декодированного коэффициента масштабирования, который возможно принадлежит полосе коэффициентов масштабирования, заполненной посредством спектральных линий, из которых одна является ненулевой.

Только для полноты следует отметить, что модуль 20 извлечения спектральных линий извлекает коэффициенты спектральных линий, с которыми полосы 50 коэффициентов масштабирования заполняются, аналогично использованию, например, энтропийного кодирования и/или прогнозирующего кодирования. Энтропийное кодирование может использовать адаптивность контекста на основе коэффициентов спектральных линий в спектровременном окружении текущего декодированного коэффициента спектральной линии, и аналогично, прогнозирование может представлять собой спектральное прогнозирование, временное прогнозирование или спектровременное прогнозирование, прогнозирующее текущий декодированный коэффициент спектральной линии на основе ранее декодированных коэффициентов спектральных линий в своем спектровременном окружении. Для повышенной эффективности кодирования, модуль 20 извлечения спектральных линий может быть выполнен с возможностью осуществлять декодирование спектральных линий или коэффициентов линий в кортежах, которые собирают или группируют спектральные линии вдоль частотной оси.

Таким образом, на выходе модуля 20 извлечения спектральных линий, предоставляются коэффициенты спектральных линий, такие как, например, в единицах спектров, таких как спектр 46, собирающий, например, все коэффициенты спектральных линий соответствующего кадра, или альтернативно собирающий все коэффициенты спектральных линий некоторых коротких преобразований соответствующего кадра. На выходе модуля 22 извлечения коэффициентов масштабирования, в свою очередь, выводятся соответствующие коэффициенты масштабирования соответствующих спектров.

Модуль 12 идентификации полос коэффициентов масштабирования, а также деквантователь 14 имеют входы спектральных линий, связанные с выходом модуля 20 извлечения спектральных линий, и деквантователь 14 и заполнитель 16 шумом имеют входы коэффициентов масштабирования, связанные с выходом модуля 22 извлечения коэффициентов масштабирования. Модуль 12 идентификации полос коэффициентов масштабирования выполнен с возможностью идентифицировать так называемые нульквантованные полосы коэффициентов масштабирования в текущем спектре 46, т.е. полосы коэффициентов масштабирования, в которых все спектральные линии квантуются в нулевые, к примеру, полосу 50c коэффициентов масштабирования на фиг. 3 и оставшиеся полосы коэффициентов масштабирования спектра, в которых, по меньшей мере, одна спектральная линия квантуется в ненулевую. В частности, на фиг. 3 коэффициенты спектральных линий указываются с использованием областей со штриховкой на фиг. 3. Из него видно, что в спектре 46, все полосы коэффициентов масштабирования, кроме полосы 50b коэффициентов масштабирования, имеют, по меньшей мере, одну спектральную линию, коэффициент спектральной линии которой квантуется в ненулевое значение. Далее должно становиться очевидным, что нульквантованные полосы коэффициентов масштабирования, к примеру, 50d формируют объект заполнения межканальным шумом, подробнее описанного ниже. Перед продолжением описания следует отметить, что модуль 12 идентификации полос коэффициентов масштабирования может ограничивать свою идентификацию только строгим поднабором полос 50 коэффициентов масштабирования, к примеру, полосами коэффициентов масштабирования выше некоторой начальной частоты 52. На фиг. 3, это должно ограничивать процедуру идентификации полосами 50d, 50e и 50f коэффициентов масштабирования.

Модуль 12 идентификации полос коэффициентов масштабирования информирует заполнитель 16 шумом в отношении тех полос коэффициентов масштабирования, которые представляют собой нульквантованные полосы коэффициентов масштабирования. Деквантователь 14 использует коэффициенты масштабирования, ассоциированные с входящим спектром 46, для того чтобы деквантовать или масштабировать коэффициенты спектральных линий для спектральных линий спектра 46 согласно ассоциированным коэффициентам масштабирования, т.е. коэффициентам масштабирования, ассоциированным с полосами 50 коэффициентов масштабирования. В частности, деквантователь 14 деквантует и масштабирует коэффициенты спектральных линий, попадающие в соответствующую полосу коэффициентов масштабирования, с помощью коэффициента масштабирования, ассоциированного с соответствующей полосой коэффициентов масштабирования. Фиг. 3 должен интерпретироваться как показывающий результат деквантования спектральных линий.

Заполнитель 16 шумом получает информацию относительно нульквантованных полос коэффициентов масштабирования, которые формируют объект следующего заполнения шумом, деквантованного спектра, а также коэффициентов масштабирования, по меньшей мере, тех полос коэффициентов масштабирования, идентифицированных в качестве нульквантованных полос коэффициентов масштабирования, а также передачи служебных сигналов, полученной из потока 30 данных для текущего кадра, раскрывающей то, должно или нет выполняться заполнение межканальным шумом для текущего кадра.

Процесс заполнения межканальным шумом, описанный в нижеприведенном примере, фактически заключает в себе два типа заполнения шумом, а именно, вставку минимального уровня 54 шума, связанного со всеми спектральными линиями, квантованными до нуля независимо от их потенциального членства в любой нульквантованной полосе коэффициентов масштабирования, и фактическую процедуру заполнения межканальным шумом. Хотя эта комбинация описывается в дальнейшем в этом документе, следует подчеркнуть, что вставка минимального уровня шума может опускаться в соответствии с альтернативным вариантом осуществления. Кроме того, передача служебных сигналов относительно включения и отключения заполнения шумом, связанного с текущим кадром и полученного из потока 30 данных, может быть связана только с заполнением межканальным шумом либо может совместно управлять комбинацией обоих типов заполнения шумом.

Что касается вставки минимального уровня шума, заполнитель 16 шумом может работать следующим образом. В частности, заполнитель 16 шумом может использовать формирование искусственного шума, к примеру, генератор псевдослучайных чисел или некоторый другой источник случайности, для того чтобы заполнять спектральные линии, коэффициенты спектральных линий которых являются нулевыми. "Уровень" минимального уровня 54 шума, вставленного таким способом в нульквантованных спектральных линиях, может задаваться согласно явной передаче служебных сигналов в потоке 30 данных для текущего кадра или текущего спектра 46. "Уровень" минимального уровня 54 шума может определяться с использованием, например, среднеквадратичного значения (RMS) или энергетического показателя.

Таким образом, вставка минимального уровня шума представляет вид предварительного заполнения для тех полос коэффициентов масштабирования, идентифицированных в качестве нульквантованных, к примеру, для полосы 50d коэффициентов масштабирования на фиг. 3. Она также влияет на другие полосы коэффициентов масштабирования за пределами нульквантованных полос коэффициентов масштабирования, но последние дополнительно подвергаются следующему заполнению межканальным шумом. Как описано ниже, процесс заполнения межканальным шумом должен заполнять нульквантованные полосы коэффициентов масштабирования вплоть до уровня, который управляется через коэффициент масштабирования соответствующей нульквантованной полосы коэффициентов масштабирования. Он может быть непосредственно использован с этой целью вследствие квантования до нуля всех спектральных линий соответствующей нульквантованной полосы коэффициентов масштабирования. Тем не менее, поток 30 данных может содержать дополнительную передачу в служебных сигналах параметра для каждого кадра или каждого спектра 46, который обычно применяется к коэффициентам масштабирования всех нульквантованных полос коэффициентов масштабирования соответствующего кадра или спектра 46, и приводит, когда применяется к коэффициентам масштабирования нульквантованных полос коэффициентов масштабирования посредством заполнителя 16 шумом, к соответствующему уровню заполнения, который является отдельным для нульквантованных полос коэффициентов масштабирования. Иными словами, заполнитель 16 шумом может модифицировать, с использованием идентичной функции модификации, для каждой нульквантованной полосы коэффициентов масштабирования спектра 46, коэффициент масштабирования соответствующей полосы коэффициентов масштабирования с использованием вышеуказанного параметра, содержащегося в потоке 30 данных для этого спектра 46 текущего кадра, с тем чтобы получать целевой уровень заполнения для соответствующего измерения нульквантованной полосы коэффициентов масштабирования, с точки зрения энергии или RMS, например, уровень, вплоть до которого процесс заполнения межканальным шумом должен заполнять соответствующую нульквантованную полосу коэффициентов масштабирования (необязательно) дополнительным шумом (в дополнение к минимальному уровню 54 шума).

В частности, чтобы выполнять заполнение 56 межканальным шумом, заполнитель 16 шумом получает спектрально совместно размещенную часть спектра другого канала 48, в состоянии уже значительно или полностью декодированном, и копирует полученную часть спектра 48 в нульквантованную полосу коэффициентов масштабирования, с которой эта часть спектрально совместно размещена, масштабированную таким образом, что результирующий общий уровень шума в этой нульквантованной полосе коэффициентов масштабирования, извлекаемый посредством интегрирования по спектральным линиям соответствующей полосы коэффициентов масштабирования, равен вышеуказанному целевому уровню заполнения, полученному из коэффициента масштабирования нульквантованной полосы коэффициентов масштабирования. Посредством этого показателя, тональность шума, заполненного в соответствующую нульквантованную полосу коэффициентов масштабирования, улучшается по сравнению с искусственно сформированным шумом, к примеру, искусственно сформированным шумом, формирующим основу минимального уровня 54 шума, и также лучше, чем неуправляемое спектральное копирование/репликация из очень низкочастотных линий в идентичном спектре 46.

Еще точнее, заполнитель 16 шумом находит, для текущей полосы, к примеру, 50d, спектрально совместно размещенную часть в спектре 48 другого канала, масштабирует ее спектральные линии в зависимости от коэффициента масштабирования нульквантованной полосы 50d коэффициентов масштабирования вышеописанным способом, заключающим в себе, необязательно, некоторый дополнительный параметр коэффициента смещения или шума, содержащийся в потоке 30 данных для текущего кадра или спектра 46, так что его результат заполняет соответствующую нульквантованную полосу 50d коэффициентов масштабирования вплоть до требуемого уровня, как задано посредством коэффициента масштабирования нульквантованной полосы 50d коэффициентов масштабирования. В настоящем варианте осуществления, это означает то, что заполнение выполняется аддитивным способом относительно минимального уровня 54 шума.

В соответствии с упрощенным вариантом осуществления, результирующий заполненный шумом спектр 46 непосредственно должен вводиться на вход обратного преобразователя 18, с тем чтобы получать, для каждого окна преобразования на основе кодирования со взвешиванием, которому принадлежат коэффициенты спектральных линий спектра 46, часть временного аудиосигнала соответствующего канала, после чего (не показано на фиг. 1) процесс суммирования с перекрытием может комбинировать эти части временной области. Иными словами, если спектр 46 представляет собой неперемеженный спектр, коэффициенты спектральных линий которого принадлежат только одному преобразованию, то обратный преобразователь 18 подвергает этому преобразованию таким образом, чтобы приводить к одной части временной области, и предшествующие и задние концы которого должны подвергаться процессу суммирования с перекрытием с предшествующими и задними частями временной области, полученными посредством обратного преобразования предшествующих и последующих обратных преобразований, с тем чтобы реализовывать, например, подавление наложения спектров во временной области. Тем не менее, если спектр 46 имеет перемеженные коэффициенты спектральных линий более одного последовательного преобразования, то обратный преобразователь 18 должен подвергать их отдельным обратным преобразованиям, с тем чтобы получать одну часть временной области в расчете на обратное преобразование, и в соответствии с временным порядком, заданным между собой, эти части временной области должны подвергаться процессу суммирования с перекрытием между ними, а также относительно предшествующих и последующих частей временной области других спектров или кадров.

Тем не менее, для полноты следует отметить, что последующая обработка может выполняться для заполненного шумом спектра. Как показано на фиг. 1, обратный TNS-фильтр может выполнять обратную TNS-фильтрацию для заполненного шумом спектра. Иными словами, с управлением через коэффициенты TNS-фильтрации для текущего кадра или спектра 46, спектр, полученный ранее, подвергается линейной фильтрации вдоль спектрального направления.

С или без обратной TNS-фильтрации, модуль 24 комплексного стереопрогнозирования затем может трактовать спектр в качестве остатка прогнозирования для межканального прогнозирования. Более конкретно, модуль 24 межка

Заполнение шумом при многоканальном кодировании аудио

Патент 2661776