Устройство и способ для формирования сигнала управления многоканальным синтезатором и устройство и способ многоканального синтеза

Иллюстрации

Показать все

Изобретение относится к обработке многоканального аудио и, в частности, к многоканальному кодированию и синтезу с использованием параметрической дополнительной информации. На стороне кодера многоканальный входной сигнал анализируют для получения информации управления сглаживанием, которая должна использоваться в многоканальном синтезе на стороне декодера для сглаживания квантованных переданных параметров или значений, полученных из квантованных переданных параметров, для обеспечения улучшенного субъективного качества аудио, в частности для медленно перемещающихся точечных источников и быстро перемещающихся точечных источников, имеющих тональный сигнал, например быстро изменяющиеся синусоиды. Технический результат - существенное увеличение качества аудио путем адаптивного сглаживания параметров восстановления в многоканальном синтезаторе при малом количестве дополнительных битов. 22 н. и 19 з.п. ф-лы, 25 ил.

Реферат

Связанная заявка США

Настоящая заявка испрашивает приоритет предварительной заявки США № 60/671582, поданной 15 апреля 2005 г.

Область техники, к которой относится изобретение

Настоящее изобретение относится к обработке многоканального аудио и, в частности, к многоканальному кодированию и синтезу с использованием параметрической дополнительной информации.

Предшествующий уровень техники

В последнее время способы воспроизведения многоканального аудио становятся все более популярными. Это может иметь место вследствие того, что способы сжатия/кодирования аудио, такие как известный способ уровня 3 MPEG-1 (также известный как mp3), дали возможность распределять аудиосодержимое через Интернет или другие каналы передачи, имеющие ограниченную полосу частот.

Другая причина этой популярности заключается в улучшении пригодности многоканального содержимого и усиления проникновения многоканальных устройств воспроизведения в домашнюю среду.

Способ кодирования mp3 стал настолько известным из-за того факта, что он допускает распределение всех записей в стереоформате, то есть цифровом представлении аудио записи, включающем в себя первый, или левый, стереоканал и второй, или правый, стереоканал. Кроме того, способ mp3 создал новые возможности для распределения аудио при заданных доступной памяти и диапазонах частот передачи.

Однако имеются основные недостатки обычных звуковых систем с двумя каналами. Они приводят к ограниченному пространственному отображению вследствие того факта, что используются только два громкоговорителя. Поэтому были разработаны способы "окружающего" (surround) звука. Рекомендуемое представление многоканального окружающего звука включает в себя, в дополнение к двум стереоканалам L и R, дополнительный центральный канал, C, два канала Ls, Rs окружающего звука и, необязательно, низкочастотный канал расширения или канал «сабвуфер» (sub-woofer). Этот эталонный звуковой формат также называют как три/два-стерео (или формат 5.1), что означает три передних канала и два канала окружающего звука. Обычно требуются пять каналов передачи. В среде воспроизведения необходимы по меньшей мере пять динамиков в соответствующих пяти различных местах, чтобы получить оптимальное благозвучное пятно на некотором расстоянии от пяти хорошо расположенных громкоговорителей.

Известны несколько способов для уменьшения количества данных, требуемых для передачи многоканального аудиосигнала. Такие способы называются способами объединенного стерео. С этой целью приводится ссылка на фиг. 10, которая иллюстрирует устройство 60 объединенного стерео (Joint Stereo). Это устройство может быть устройством, реализующим, например, режим Intensity Stereo (IS), параметрического стерео (Parametric Stereo) (PS) или (связанное) бинауральное (стереофоническое) кодирование сигнала ключей (BCC). Такое устройство обычно принимает - в качестве ввода - по меньшей мере два канала (CH1, CH2, … CHn) и выдает один канал несущей и параметрические данные. Параметрические данные определены так, что в декодере может быть вычислена аппроксимация первоначального канала (CH1, CH2, … CHn).

Обычно канал несущей будет включать в себя выборки поддиапазона, спектральные коэффициенты, выборки во временной области и т. д., которые обеспечивают сравнительно точное представление основного сигнала, в то время как параметрические данные не включают в себя такие выборки спектральных коэффициентов, но включают в себя параметры управления для управления некоторым алгоритмом реконструкции (восстановления), такие как взвешивание посредством умножения, смещение во времени, смещение по частоте, сдвиг по фазе. Параметрические данные поэтому включают в себя только сравнительно грубое представление сигнала ассоциированного канала. Указывая в числах, количество данных, требуемых каналом несущей, кодированным с использованием обычного аудиокодера с потерями, должно находиться в пределах 60-70 кбит/с, в то время как количество данных, требуемых параметрической дополнительной информацией для одного канала, должно находиться в пределах 1,5-2,5 кбит/с. Примерами параметрических данных являются известные коэффициенты масштабирования, информация режима Intensity Stereo или параметры бинаурального (стереофонического) сигнала, как описано ниже.

Режим кодирования Intensity Stereo описан в AES preprint 3799, "Intensity Stereo Coding", J. Herre, K. H. Brandenburg, D. Lederer, at 96th AES, February 1994, Amsterdam (AES - Общество Аудиоинженерии). В целом, концепция Intensity Stereo основана на преобразовании основной оси, которое должно быть применено к данным обоих стереофонических аудиоканалов. Если большинство точек данных сконцентрировано вокруг первой принципиальной оси, выигрыш при кодировании может быть достигнут посредством поворота обоих сигналов на некоторый угол до кодирования и исключения второго ортогонального компонента из передачи в потоке битов. Восстановленные сигналы для левого и правого каналов состоят из по-разному взвешенных или масштабированных версий одного и того же переданного сигнала. Тем не менее, восстановленные сигналы отличаются по их амплитуде, но идентичны относительно их фазовой информации. Огибающие энергия-время обоих первоначальных аудиоканалов, однако, сохраняются посредством операции селективного масштабирования, которая обычно выполняется частотно-селективным образом. Это соответствует человеческому восприятию звука на высоких частотах, где доминирующие пространственные сигналы определяются огибающими энергии.

Дополнительно, при практической реализации переданный сигнал, то есть канал несущей, формируется из суммарного сигнала левого канала и правого канала вместо поворота обоих компонентов. Кроме того, эта обработка, то есть формирование параметров режима Intensity Stereo для выполнения операции масштабирования, выполняется частотно-селективным образом, то есть независимо для каждого диапазона с коэффициентом масштабирования, то есть разделением частоты кодера. Предпочтительно оба канала комбинируются (объединяются), чтобы сформировать объединенный или канал "несущей", и в дополнение к объединенному каналу определяют информацию режима Intensity Stereo, которая зависит от энергии первого канала, энергии второго канала или энергии объединенного канала.

Способ BCC описан в AES convention paper 5574, "Binaural cue coding applied to stereo and multichannel audio compression", C. Faller, F. Baumgarte, May 2002, Munich. При BCC кодировании множество входных аудиоканалов преобразуют в спектральное представление, используя основанное на DFT (дискретном преобразовании Фурье, ДПФ) преобразование с перекрывающимися "окнами". Результирующий однородный спектр разделяют на не перекрывающиеся части, причем каждая имеет индекс. Каждая часть имеет полосу частот, пропорциональную эквивалентной прямоугольной полосе частот (ERB). Межканальные разности по уровню (МРУ, ICLD) и межканальные разности по времени (МРВ, ICTD) оценивают для каждой части для каждого кадра k. ICLD и ICTD квантуют и кодируют, что приводит к битовому потоку BCC. Межканальные разности по уровню и межканальные разности по времени задаются для каждого канала относительно опорного канала. Затем вычисляют параметры в соответствии с предписанными формулами, которые зависят от некоторых частей сигнала, который должен быть обработан.

На стороне декодера декодер принимает монофонический сигнал и битовый поток BCC. Монофонический сигнал преобразуют в частотную область и вводят в блок пространственного синтеза, который также принимает декодированные значения ICLD и ICTD. В блоке пространственного синтеза значения параметров BCC (ICLD и ICTD) используются для выполнения операции взвешивания монофонического сигнала, чтобы синтезировать многоканальные сигналы, которые после преобразования "частота/время" представляют реконструкцию первоначального многоканального аудио сигнала.

В случае BCC модуль 60 объединенного стерео (Joint Stereo) выполняет операции, чтобы выдать канальную дополнительную (вспомогательную) информацию так, что параметрические канальные данные являются квантованными и закодированными ICLD или ICTD параметрами, причем один из первоначальных каналов используется как опорный канал для кодирования канальной дополнительной информации.

Как правило, в наиболее простом варианте осуществления канал несущей формируют из суммы участвующих исходных каналов.

Естественно, вышеупомянутые способы обеспечивают только монофоническое представление для декодера, который может обрабатывать только канал несущей, но не способен обработать параметрические данные для формирования одной или более аппроксимаций более чем одного входного канала.

Способ кодирования аудио, известный как бинауральное кодирование сигнала (BCC), также хорошо описан в публикациях патентных заявок США 2003/0219130 A1, 2003/0026441 A1 и 2003/0035553 A1. Дополнительная ссылка также делается на "Binaural Cue Coding. Part II: Schemes and Applications", C. Faller and F. Baumgarte, IEEE Trans. On Audio and Speech Proc., Vol. 11, No. 6, ноябрь 2003. Цитируемые публикации патентных заявок США и две процитированные технические публикации по способу BCC, написанные Faller и Baumgarte, включены здесь по ссылке в их полноте.

Значительные усовершенствования схемы бинаурального кодирования сигнала, которые делают параметрические схемы применимыми к намного более широкому диапазону скорости передачи информации в битах, известны как "параметрическое стерео" (Paremetric Stereo) (ПС, PS), например стандартизированный в MPEG-4 высоко эффективный AAC v2. Одно из важных расширений параметрического стерео - включение параметра пространственной "расплывчатости" (диффузности). Этот объект восприятия зафиксирован в математическом свойстве межканальной корреляции или межканальной когерентности (МКК, ICC). Анализ, перцептуальное квантование, передача и процессы синтеза параметров PS подробно описаны в "Parametric coding of stereo audio", J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, EURASIP J. Appl. Sign. Proc. 2005:9, 1305-1322. Далее ссылка делается на J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, "High-Quality Parametric Spatial Audio Coding at Low Bi-trates", AES 116th Convention, Berlin, Preprint 6072, May 2004, and E. Schuijers, J. Breebaart, H. Purnhagen, J. Eng-degard, "Low Complexity Parametric Stereo Coding", AES 116th Convention, Berlin, Preprint 6073, May 2004.

Ниже типичная общая схема BCC для многоканального кодирования аудио описана более подробно со ссылками на фиг. 11-13. Фиг. 11 иллюстрирует такую общую схему бинаурального кодирования сигнала для кодирования/передачи многоканальных аудио сигналов. Многоканальный входной аудиосигнал на входе 110 кодера BCC 112 является смешанным с уменьшением в блоке 114 смешения с уменьшением. В настоящем примере первоначальный многоканальный сигнал на входе 110 является 5-канальным сигналом окружающего звука, имеющим передний левый канал, передний правый канал, левый канал окружающего звука, правый канал окружающего звука и центральный канал. В предпочтительном варианте осуществления настоящего изобретения блок смешения с уменьшением выдает суммированный сигнал простым суммированием этих пяти каналов в монофонический сигнал. Другие схемы смешения с уменьшением известны в области техники, так что, используя многоканальный входной сигнал, может быть получен смешанный с уменьшением сигнал, имеющий единственный канал. Этот единственный канал выводится на линии 115 суммарного сигнала. Дополнительная информация, полученная блоком 116 анализа BCC, выводится на линию 117 дополнительной информации. В блоке анализа BCC межканальные разности по уровню (МРП, ICLD) и межканальные разности по времени (МРВ, ICTD) вычисляют так, как описано выше. Недавно блок анализа BCC унаследовал параметры Parametric Stereo (параметрического стерео) в форме значений межканальной корреляции (значения ICC). Суммарный сигнал и дополнительную информацию передают предпочтительно в квантованной и кодированной форме на декодер 120 BCC. Декодер BCC выполняет декомпозицию переданного суммарного сигнала на ряд поддиапазонов и применяет масштабирование, задержки и другую обработку, чтобы сформировать поддиапазоны выходных многоканальных аудиосигналов. Эта обработка выполняется так, что параметры ICLD, ICTD и ICC (ключи, сигналы) восстановленного (реконструированного) многоканального сигнала на выходе 121 являются аналогичными соответствующим ключам для первоначального многоканального сигнала на входе 110 в кодер 112 BCC. С этой целью декодер 120 BCC включает в себя блок 122 синтеза BCC и блок 123 обработки дополнительной информации.

Ниже описана внутренняя конструкция блока 122 синтеза BCC со ссылками на фиг. 12. Суммарный сигнал на линии 115 является входным в блок преобразования время/частота или блок 125 фильтров (БФ, FB). На выходе блока 125 существует количество N сигналов поддиапазонов или, в крайнем случае, блок спектральных коэффициентов, когда блок 125 фильтров аудио выполняет преобразование 1:1, то есть преобразование, которое производит N спектральных коэффициентов из N выборок во временной области.

Блок 122 синтеза BCC дополнительно содержит каскад 126 задержки, каскад 127 модификации уровня, каскад 128 обработки корреляции и каскад 129 блока обратных фильтров (БОФ, IFB). На выходе каскада 129 восстановленный многоканальный сигнал аудио, имеющий, например, пять каналов в случае 5-канальной системы окружающего звука, может выводиться на набор 124 громкоговорителей, как проиллюстрировано на фиг. 11.

Как показано на фиг. 12, входной сигнал s(n) преобразуют в частотную область или область блока фильтров посредством элемента 125. Сигнал, выводимый элементом 125, размножают так, что получают несколько версий одного и того же сигнала, как проиллюстрировано узлом 130 размножения. Число версий первоначального сигнала равно числу выходных каналов в выходном сигнале, который должен быть восстановлен. Когда, в общем случае, каждая версия первоначального сигнала в узле 130 подвергается некоторой задержке

d1, d2, …, di, …, dN. Параметры задержки вычисляют блоком 123 обработки дополнительной информации на фиг. 11 и получают из межканальных разностей по времени, как определено блоком 116 анализа BCC.

То же самое справедливо для параметров a1, a2, …, ai, …, aN умножения, которые также вычисляют блоком 123 обработки дополнительной информации на основании межканальных разностей по уровню, которые вычисляют блоком 116 анализа BCC.

Параметры ICC, вычисленные блоком 116 анализа BCC, используются для управления функциональными возможностями блока 118 так, что некоторые корреляции между задержанными и сигналами с манипулируемым уровнем получают на выходах блока 128. Следует отметить, что упорядочение каскадов 126, 127, 128 может отличаться от случая, показанного на фиг. 12.

Следует отметить, что в обработке аудиосигнала по кадрам анализ BCC выполняют по кадрам, то есть изменяющегося во времени и также изменяющегося по частоте. Это означает, что для каждой спектральной полосы получают параметры BCC. Это означает, что в случае, если блок 125 фильтров аудио выполняет декомпозицию входного сигнала на сигналы, например, 32 диапазонов, блоки анализа BCC получают набор параметров BCC для каждой из этих 32 диапазонов. Естественно, блок 122 синтеза BCC на фиг. 11, который показан подробно на фиг. 12, выполняет реконструкцию (восстановление), которая также основана на этих 32 диапазонах в данном примере.

Ниже ссылка приводится к фиг. 13, иллюстрирующую компоновку для определения некоторых параметров BCC. Обычно параметры ICLD, ICTD и ICC могут быть определены между парами каналов. Однако предпочтительно определить параметры ICLD и ICTD между опорным каналом и каждым другим каналом. Это иллюстрируется на фиг. 13A.

Параметры ICC могут быть определены различными способами. В наиболее общем случае можно оценивать параметры ICC в кодере между всеми возможными парами каналов, как показано на фиг. 13B. В этом случае декодер может синтезировать ICC так, что они являются приблизительно такими же, как в первоначальном многоканальном сигнале между всеми возможными парами каналов. Было, однако, предложено оценивать параметры ICC только между самыми сильными двумя каналами в каждый момент времени. Эта схема иллюстрируется на фиг. 13C, где показан пример, в котором в один момент времени оценивают параметр ICC между каналами 1 и 2, а в другой момент времени вычисляют параметр ICC между каналами 1 и 5. Декодер затем синтезирует межканальную корреляцию между самыми сильными каналами в декодере и применяет некоторое эвристическое правило для вычисления и синтеза межканальной когерентности для остающихся пар каналов.

Относительно вычисления, например, параметров ai, aN умножения на основании переданных параметров ICLD, ссылка делается к конвенционной статье 5574 AES, упомянутой выше. Параметры ICLD представляют распределение энергии в первоначальном многоканальном сигнале. Без потери общности на фиг. 13A показано, что имеются четыре параметра ICLD, показывающие разности энергии между всеми другими каналами и передним левым каналом. В блоке обработки дополнительной информации параметры ai, …, aN умножения получают из параметров ICLD так, что полная энергия всех восстановленных выходных каналов является такой же, как (или пропорциональной) энергия переданного суммарного сигнала. Простым путем определения этих параметров является процесс с 2 стадиями, в котором на первой стадии коэффициент умножения для левого переднего канала устанавливают равным единице, в то время как коэффициент умножения для других каналов на фиг. 13A устанавливают равным переданным значениям ICLD. Затем на второй стадии энергию всех пяти каналов вычисляют и сравнивают с энергией переданного суммарного сигнала. Затем все каналы масштабируют с уменьшением, используя коэффициент масштабирования с уменьшением, который является равным для всех каналов, при этом коэффициент масштабирования с уменьшением выбирают так, что полная энергия всех восстановленных выходных каналов масштабирования с уменьшением равна полной энергии переданного суммарного сигнала.

Естественно, существуют другие способы вычисления коэффициентов умножения, которые не основаны на процессе с 2 стадиями, но которые нуждаются только в процессе с 1 стадией. Способ с 1 стадией описан в препринте AES "The reference model architecture for MPEG spatial audio coding", J. Herre et al., 2005, Barcelona.

В отношении параметров задержки следует отметить, что параметры ICTD задержки, которые передаются от кодера BCC, могут использоваться непосредственно, когда параметр d1 задержки для левого переднего канала установлен равным нулю. Никакое перемасштабирование не должно быть сделано в этом случае, так как задержка не изменяет энергию сигнала.

В отношении измерения параметров ICC межканальной когерентности, переданных от кодера BCC на декодер BCC, следует отметить, что может быть выполнена манипуляция когерентности, модифицируя коэффициент умножения a1, …, aN, например, перемножая коэффициенты взвешивания всех поддиапазонов со случайными числами со значениями между 20log10(-6) и 20log10(6). Псевдослучайная последовательность предпочтительно выбирается такой, что дисперсия является приблизительно постоянной для всех критических диапазонов, а среднее равно нулю в пределах каждого критического диапазона. Та же самая последовательность применяется к спектральным коэффициентам для каждого отличного кадра. Таким образом, ширина слышимого изображения (картины) управляется посредством модификации дисперсии псевдослучайной последовательности. Большая дисперсия создает большую ширину изображения. Модификация дисперсии может быть выполнена в отдельных диапазонах, которые имеют критическую ширину полосы. Это допускает одновременное существование множества объектов в слышимой сцене, причем каждый объект имеет различную ширину изображения. Подходящим распределением амплитуды для псевдослучайной последовательности является однородное распределение по логарифмической шкале, как это указано в публикации патентной заявки США 2003/0219130 A1. Тем не менее, вся обработка синтеза BCC относится к единственному входному каналу, переданному в качестве суммарного сигнала с кодера BCC на декодер BCC, как показано на фиг. 11.

Как было отмечено выше со ссылкой на фиг. 13, параметрическая дополнительная информация, то есть межканальные разности по уровню (ICLD), межканальные разности по времени (ICTD) или параметр межканальной когерентности (ICC), может быть вычислена и передана для каждого из этих пяти каналов. Это означает, что обычно передают пять наборов межканальных разностей по уровню для сигнала с пятью каналами. То же самое справедливо для межканальных разностей по времени. Относительно параметра межканальной когерентности также может быть достаточно передать только, например, два набора этих параметров.

Как было отмечено выше со ссылкой на фиг. 12, имеется не один параметр разности по уровню, параметр разности во времени или параметр когерентности для одного кадра или временной части сигнала. Вместо этого, эти параметры определены для нескольких различных частотных диапазонов так, чтобы была получена частотно-зависимая параметризация. Так как предпочтительно использовать, например, 32 частотных канала, то есть блок фильтров, имеющий 32 частотных диапазона для анализа BCC и синтеза BCC, эти параметры могут занимать весьма большой объем данных. Хотя по сравнению с другими многоканальными передачами параметрическое представление приводит к весьма низкой частоте следования данных, имеется настоятельная потребность в дальнейшем сокращении необходимой частоты следования данных для представления многоканального сигнала, например сигнала, имеющего два канала (стереосигнал), или сигнала, имеющего больше двух каналов, например многоканального сигнала окружающего звука.

С этой целью вычисленные на стороне кодера параметры восстановления квантуются в соответствии с некоторым правилом квантования. Это означает, что не квантованные параметры восстановления отображаются в ограниченный набор уровней квантования или индексов квантования, как известно в данной области техники и подробно описано специально для параметрического кодирования в "Parametric coding of stereo audio", J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, EURASIP J. Appl. Sign. Proc. 2005:9, 1305-1322, и в C. Faller and F. Baumgarte, "Binaural cue coding applied to audio compression with flexible rendering," AES 113th Convention, Los Angeles, Preprint 5686, октябрь 2002.

Квантование имеет тот эффект, что все значения параметра, которые меньше, чем размер шага квантования, квантуются в ноль, в зависимости от того, имеет ли блок квантования характеристику с нулем в центре шага квантования или характеристику с нулем на границе шага квантования. Отображая большой набор неквантованных значений в маленький набор квантованных значений, получают экономию дополнительных данных. Эти экономии частоты следования данных дополнительно увеличивают посредством статистического кодирования квантованных параметров восстановления на стороне кодера. Предпочтительными методами статистического кодирования являются методы Хаффмана на основании заранее определенных кодовых таблиц или на основании фактического определения статистик сигнала и адаптивной к сигналу конструкции кодовых книг. Альтернативно, могут использоваться другие средства статистического кодирования, например арифметическое кодирование.

Вообще, существует правило, что частота следования данных, требуемая для параметров восстановления, уменьшается с увеличением размера шага блока квантования. Иначе говоря, более грубое квантование приводит к более низкой частоте следования данных, и более точное квантование приводит к более высокой частоте следования данных.

Так как параметрические представления сигнала обычно требуются для сред с низкой частотой следования данных, имеются попытки квантовать параметры восстановления настолько грубо, насколько возможно, чтобы получить представление сигнала, имеющее некоторое количество данных в основном канале, а также имеющее разумное малое количество данных для дополнительной информации, которые включают в себя квантованные и статистически кодированные параметры восстановления.

Предшествующие известные способы поэтому получают параметры восстановления, которые должны быть переданы непосредственно из многоканального сигнала, который должен быть закодирован. Грубое квантование, как описано выше, приводит к искажениям параметров восстановления, что приводит к большим ошибкам округления, когда квантованный параметр восстановления обратно квантуется в декодере и используется для многоканального синтеза. Естественно, ошибка округления увеличивается с размером шага блока квантования, то есть с выбранной "грубостью блока квантования". Такие ошибки округления могут приводить к изменению уровня квантования, то есть к изменению от первого уровня квантования в первый момент времени ко второму уровню квантования в более поздний момент времени, причем разность между одним уровнем блока квантования и другим уровнем блока квантования определяется весьма большим размером шага блока квантования, что является предпочтительным для грубого квантования. К сожалению, такая величина изменения уровня блока квантования, составляющая большой размер шага блока квантования, может быть вызвана только очень малым изменением параметра, когда неквантованный параметр находится в середине между двумя уровнями квантования. Ясно, что возникновение таких изменений индекса блока квантования в дополнительной информации приводит к таким же сильным изменениям на этапе синтеза сигнала. Когда, например, рассматривается межканальная разность по уровню, становится ясно, что большое изменение приводит к большому уменьшению громкости сигнала некоторого громкоговорителя и сопровождается большим увеличением громкости сигнала для другого громкоговорителя. Эта ситуация, которая вызвана только единственным изменением уровня квантования для грубого квантования, может быть воспринята как мгновенное перемещение источника звука от (виртуального) первого местоположения во (виртуальное) второе местоположение. Такое мгновенное перемещение из одного момента времени в другой момент времени звучит неестественно, то есть воспринимается как эффект модуляции, так как источники звука, в частности тональные сигналы, не изменяют свое местоположение очень быстро.

Вообще, ошибки передачи могут также приводить к большим изменениям индексов блока квантования, что немедленно приводит к большим изменениям в многоканальном выходном сигнале, что является даже еще более истинным для ситуаций, в которых был принят грубый блок квантования по причинам частоты следования данных.

Современные способы параметрического кодирования двух ("стерео") или более ("многоканальных") входных аудиоканалов выводят (получают) пространственные параметры непосредственно из входных сигналов. Примерами таких параметров являются, как отмечено выше, межканальные разности по уровню (ICLD) или межканальные разности по интенсивности (IID), межканальные временные задержки (ICTD) или межканальные разности фаз (IPD) и межканальная корреляция/когерентность (ICC), каждый из которых передается способом селекции по времени и частоте, то есть по полосам частот и как функция времени. Для передачи таких параметров на декодер желательно, чтобы грубое квантование этих параметров сохранило частоту следования дополнительной информации на минимуме. Как следствие, значительные ошибки округления имеют место при сравнении переданных значений параметра с их первоначальными значениями. Это означает, что даже мягкое и постепенное изменение одного параметра в первоначальном сигнале может привести к резкому изменению значения параметра, используемого в декодере, если порог принятия решения о переходе от одного значения квантованного параметра к следующему значению превышен. Так как эти значения параметра используются для синтеза выходного сигнала, резкие изменения значений параметра могут также вызывать "скачки" в выходном сигнале, которые для некоторых типов сигналов воспринимаются как раздражающие в качестве артефактов "переключение" или "модуляция" (в зависимости от степени разбиения во времени и степени квантования параметров).

Патентная заявка США № 10/883538 описывает процесс для постобработки переданных значений параметров в контексте способов типа BCC, чтобы избежать артефактов для некоторых типов сигналов при представлении параметров с низким разрешением. Эти неоднородности в процессе синтеза ведут к артефактам для тональных сигналов. Поэтому эта патентная заявка США предлагает использовать детектор тональности в декодере, который используется для анализа переданного "смешанного с уменьшением" сигнала. Когда обнаружено, что сигнал является тональным, через какое-то время выполняется операция сглаживания над переданными параметрами. Следовательно, этот тип обработки представляет средство для эффективной передачи параметров для тональных сигналов.

Имеются, однако, классы входных сигналов, отличных от тональных входных сигналов, которые являются одинаково чувствительными к грубому квантованию пространственных параметров.

Одним примером таких случаев являются точечные источники, которые медленно перемещаются между двумя позициями (например, шумовой сигнал, очень медленно перемещающийся между центральным и левым передним динамиками). Грубое квантование параметров уровня должно привести к заметным "скачкам" (неоднородностям) в пространственной позиции и траектории источника звука. Так как эти сигналы обычно не обнаруживаются в качестве тонального в декодере, известное в области техники сглаживание, очевидно, не должно помочь в этом случае.

Другими примерами являются быстро перемещающиеся точечные источники, которые имеют тональные данные, типа быстро изменяющихся синусоид. Известное в области техники сглаживание обнаружит эти компоненты как тональные и таким образом вызовет операцию сглаживания. Однако, поскольку скорость движения не известна для известного алгоритма сглаживания, примененная постоянная времени сглаживания может быть обычно неприемлемой и, например, будет воспроизводить перемещающийся точечный источник со значительно более медленной скоростью движения и существенной задержкой воспроизведенной пространственной позиции по сравнению с первоначально предназначенной позицией.

Задачей настоящего изобретения является создание улучшенной концепции обработки аудиосигналов, допускающей малую скорость передачи данных, с одной стороны, и хорошее субъективное качество, с другой стороны.

В соответствии с первым аспектом настоящего изобретения эта задача решается устройством для формирования сигнала управления многоканальным синтезатором, содержащим анализатор сигнала для анализа многоканального входного сигнала; блок вычисления информации сглаживания для определения (задания) информации управления сглаживанием в ответ на анализатор сигнала, причем блок вычисления информации сглаживания выполнен с возможностью определять (задавать) информацию управления сглаживанием так, что в ответ на информацию управления сглаживанием постпроцессор на стороне синтезатора формирует постобработанный параметр восстановления или постобработанный параметр, полученный из параметра восстановления в течение временной части входного сигнала, который должен быть обработан; и формирователь данных для формирования сигнала управления, представляющего информацию управления сглаживанием в качестве сигнала управления многоканальным синтезатором.

В соответствии со вторым аспектом настоящего изобретения эта задача решается многоканальным синтезатором для формирования выходного сигнала из входного сигнала, причем входной сигнал имеет по меньшей мере один входной канал и последовательность квантованных параметров восстановления, при этом квантованные параметры восстановления квантованы в соответствии с правилом квантования и связаны с последующими временными частями входного сигнала, выходной сигнал имеет ряд синтезированных выходных каналов, и количество синтезированных выходных каналов больше одного или больше, чем число входных каналов, при этом входной канал имеет сигнал управления многоканальным синтезатором, представляющий информацию управления сглаживанием, упомянутая информация управления сглаживанием зависит от анализа сигнала на стороне кодера, информация управления сглаживанием определена так, что постпроцессор на стороне синтезатора генерирует в ответ на сигнал управления синтезатором постобработанный параметр восстановления или постобработанный параметр, полученный из этого параметра восстановления, содержащим средство выдачи сигнала управления для обеспечения сигнала управления, имеющего информацию управления сглаживанием; постпроцессор для определения в ответ на сигнал управления постобработанного параметра восстановления или постобработанного параметра, полученного из этого параметра восстановления для временной части входного сигнала, который должен быть обработан, при этом постпроцессор выполнен с возможностью определять постобработанный параметр восстановления или постобработанный параметр так, что значение постобработанного параметра восстановления или постобработанного параметра отличается от значения, получаемого с использованием обратного квантования в соответствии с правилом квантования; и многоканальный блок восстановления (реконструирования) для восстановления временной части ряда синтезированных выходных каналов, используя эту временную часть входного канала и постобработанный параметр восстановления или постобработанное значение.

Дополнительные аспекты настоящего изобретения относятся к способу формирования сигнала управления многоканальным синтезатором, способу формирования выходного сигнала из входного сигнала, соответствующим компьютерным программам или сигналу управления многоканальным синтезатором.

Настоящее изобретение основано на обнаружении того, что управляемое стороной кодера сглаживание параметров восстановления приводит к улучшенному качеству аудио синтезированного многоканального выходного сигнала. Это существенное усовершенствование качества аудио может быть получено дополнительной обработкой на стороне кодера, чтобы определить информацию управления сглаживанием, которая может быть в предпочтительных вариантах осуществления настоящего изобретения передана на декодер, причем передача требует только ограниченного (малого) количества битов.

На стороне декодера информация управления сглаживанием используется, чтобы управлять операцией сглаживания. Это управляемое кодером параметрическое сглаживание на стороне декодера может использоваться вместо параметрического сглаживания на стороне декодера, которое основано на, например, обнаружении тональности/переходного процесса, или может использоваться в комбинации с параметрическим сглаживанием на стороне декодера. Этот способ применяется для некоторой временной части, и некоторый частотный диапазон переданного смешанного с уменьшением сигнала может также быть сообщен, используя информацию управления сглаживанием, как определено анализатором сигнала на стороне кодера.

Подытоживая сказанное, настоящее изобретение выгодно тем, что управляемое со стороны кодера адаптивное сглаживание параметров восстановления выполняется в многоканальном синтезаторе, что приводит к существенному увеличению качества аудио, с одной стороны, и что приводит только к малому количеству дополнительных битов. Ввиду того факта, что присущее ухудшение качества квантования смягчается при использовании дополнительной информации управления сглаживанием, изобретательные концепции могут даже применяться без какого-либо увеличения и даже с уменьшением количества переданных битов, так как биты для информации управления сглаживанием могут быть сохранены, применяя даже более грубое квантование, так чтобы меньшее количество битов требовалось для кодирования квантованных значений. Таким образом, информация управления сглаживанием вместе с закодированными квантованными значениями может даже требовать такой же или меньшей частоты следования битов квантованных значений без информации управления сглаживанием, как отмечено в неопубликованной патентной заявке США, в то же время сохраняя тот же уровень или более высокий уровень субъективного качества аудио