Многоканальное иерархическое аудиокодирование с компактной дополнительной информацией
Иллюстрации
Показать всеИзобретение относится к обработке многоканального звука и, в частности, к генерации и использованию параметрической дополнительной информации для описания пространственных свойств многоканального аудиосигнала. Параметрическое представление многоканального аудиосигнала хорошо описывает пространственные свойства аудиосигнала с помощью компактной дополнительной информации, когда информацию когерентности, описывающую когерентность между первым и вторым каналами, получают в рамках процесса иерархического кодирования только для пар каналов, включающих в себя первый канал, имеющий только информацию с левой стороны относительно местоположения прослушивания, и включающих в себя второй канал, имеющий только информацию с правой стороны относительно местоположения прослушивания. Поскольку в иерархическом процессе многочисленные звуковые каналы аудиосигнала итерационно смешивают в монофонические каналы, на этапе кодирования можно выбирать соответствующие параметры, которые касаются только пар каналов, переносящих информацию, необходимую для описания пространственных свойств многоканального аудиосигнала. Технический результат - уменьшение количества передаваемых с кодера на декодер параметров, используя иерархическую структуру системы пространственного звука. 22 н. и 22 з.п. ф-лы, 17 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящее изобретение относится к обработке многоканального звука и, в частности, к генерации и использованию компактной параметрической дополнительной информации для описания пространственных свойств многоканального аудиосигнала.
ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ
В последнее время методика воспроизведения многоканального звука становится все более важной. Это может быть следствием того, что методики сжатия/кодирования звука, такие как известная методика mp3, сделали возможным распространение аудиозаписей через Интернет или другие каналы передачи информации, имеющие ограниченную полосу пропускания. Методика кодирования mp3 стала настолько известной из-за того факта, что она позволяет распространение всех записей в стереоформате, т.е. в цифровом представлении аудиозаписи, включающем в себя первый, или левый (L), стереоканал и второй, или правый (R), стереоканал.
Однако существуют основные недостатки обычных систем двухканального звука. Поэтому была разработана методика окружающего звука. Рекомендованный формат представления многоканального окружающего звука включает в себя, в дополнение к двум стереоканалам L и R, дополнительный центральный канал C и два канала окружающего звука Ls, Rs. Этот эталонный формат звука также упоминается как формат «три/два стерео», который означает три фронтальных канала и два канала окружающего звука. В среде воспроизведения по меньшей мере пять динамиков в пяти соответствующих местоположениях необходимы для получения оптимальной зоны наилучшего восприятия на определенном расстоянии от пяти правильно расположенных громкоговорителей.
Современные подходы параметрического кодирования многоканальных аудиосигналов (параметрическое стереокодирование (PS), «пространственное аудиокодирование», «бинауральное кодирование признаков» (BCC) и т.д.) представляют многоканальный аудиосигнал посредством сигнала смешения (микширования) (может быть монофоническим или содержать несколько каналов) и параметрической дополнительной информации («пространственных признаков»), которая характеризует воспринимаемую пространственную звуковую сцену. Различные подходы и методики будут кратко рассмотрены в последующих абзацах.
Соотнесенная методика, также известная как параметрическое стереокодирование, описана в J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, «High-Quality Parametric Spatial Audio Coding at Low Bitrates», AES 116th Convention, Berlin, Preprint 6072, май 2004, и E. Schuijers, J. Breebaart, H. Purnhagen, J. Engdegard, «Low Complexity Parametric Stereo Coding», AES 116th Convention, Berlin, Preprint 6073, май 2004.
Из предшествующего уровня техники известно несколько методик уменьшения количества данных, требуемых для передачи многоканального аудиосигнала. С этой целью обратимся к фиг.11, которая показывает комбинированное стереоустройство 60. Это устройство может быть устройством, воплощающим, например, кодирование стереоинтенсивности (IS) или бинауральное кодирование признаков (BCC). Такое устройство в общем случае принимает в качестве входной информации по меньшей мере два канала (CH1, CH2, ..., CHn) и выводит один несущий канал и параметрические данные. Параметрические данные определяются так, чтобы в декодере можно было вычислять приближенное значение исходного канала (CH1, CH2, ..., CHn).
Обычно несущий канал включает в себя отсчеты подполос частот, спектральные коэффициенты, отсчеты во временной области и т.д., которые обеспечивают сравнительно высококачественное представление основного сигнала, в то время как параметрические данные не включают в себя такие отсчеты спектральных коэффициентов, но включают в себя параметры управления для управления определенным алгоритмом реконструкции, таким как взвешивание с помощью умножения, временной сдвиг, смещение частоты, сдвиг фазы и т.д. Поэтому параметрические данные включают в себя только сравнительно грубое представление сигнала или соответствующего канала. Указывая в числах, суммарная скорость передачи данных, требуемая для несущего канала, может находиться в диапазоне 60-70 кбит/с в схеме кодирования стандарта MPEG (стандарт на сжатие и воспроизведение движущихся изображений, разработанный Группой экспертов в области кино), в то время как суммарная скорость передачи данных, требуемая для параметрической дополнительной информации для одного канала, может находиться в диапазоне приблизительно 10 кбит/с для 5.1-канальных сигналов. Примером параметрических данных являются известные коэффициенты масштабирования, информация стереоинтенсивности или параметры бинауральных признаков, которые будут описаны ниже.
Методика BCC, например, описана в документе AES convention paper 5574, «Binaural Cue Coding applied to Stereo and Multi-Channel Audio Compression», C. Faller, F. Baumgarte, май 2002, Munich, в документе IEEE WASPAA Paper «Efficient representation of spatial audio using perceptual parametrization», октябрь 2001, Mohonk, N.Y. и в 2 документах ICASSP Papers «Estimation of auditory spatial cues for binaural cue coding» и «Binaural cue coding: a novel and efficient representation of spatial audio», авторами которых являются C. Faller и F. Baumgarte, Orlando, FL, май 2002.
При кодировании BCC множество входных звуковых каналов преобразуются в спектральное представление, используя основывающееся на DFT (дискретном преобразовании Фурье) преобразование с накладывающимися окнами. Результирующий спектр делят на ненакладывающиеся части. Каждая часть имеет диапазон частот, пропорциональный эквивалентному прямоугольному диапазону частот (ERB). Межканальную разность уровней (ICLD) и межканальную разность во времени (ICTD) оценивают для каждой части. Межканальную разность уровней ICLD и межканальную разность во времени ICTD обычно задают для каждого канала относительно опорного канала и, кроме того, квантуют. Передаваемые параметры окончательно вычисляют в соответствии с предписанными формулами (кодируют), что может зависеть от конкретных частей сигнала, который подлежит обработке.
На стороне декодера декодер принимает монофонический сигнал и битовый поток BCC. Монофонический сигнал преобразуют в частотную область и вводят в блок пространственного синтеза, который также принимает декодированные значения ICLD и ICTD. В блоке пространственного синтеза значения параметров BCC (ICLD и ICTD) используют для выполнения операции взвешивания монофонического сигнала для синтезирования многоканальных сигналов, которые после преобразования частота/время представляют реконструкцию исходного многоканального аудиосигнала.
В случае BCC комбинированный стереомодуль 60 предназначен для вывода дополнительной информации канала так, чтобы параметрические данные канала квантовались и кодировались, формируя параметры ICLD или ICTD, причем один из исходных каналов используют в качестве опорного канала, кодируя дополнительную информацию канала.
Обычно несущий канал формируют из суммы участвующих исходных каналов.
Поэтому указанные выше методики дополнительно обеспечивают соответствующее монофоническое представление для воспроизводящей аппаратуры, которая может обрабатывать только несущий канал и не в состоянии обрабатывать параметрические данные для генерации одного или большего количества приблизительных значений более одного входного канала.
Методика аудиокодирования, известная как бинауральное кодирование признаков (BCC), также хорошо описана в публикациях патентных заявок США 2003/0219130 A1, 2003/0026441 A1 и 2003/0035553 A1. Дополнительная ссылка также сделана на «Binaural Cue Coding. Part II: Schemes and Applications», C. Faller и F. Baumgarte, IEEE Trans. on Audio and Speech Proc., т.11, No. 6, ноябрь 2003 и на «Binaural cue coding applied to audio compression with flexible rendering», C. Faller и F. Baumgarte, AES 113th Convention, Los Angeles, октябрь 2002. Приведенные публикации патентных заявок США и два приведенных технических издания по методике BCC, авторами которых являются Faller и Baumgarte, включены в настоящее описание посредством ссылки в своей полноте.
Хотя параметры ICLD и ICTD представляют самые важные параметры определения местоположения источника звука, пространственное представление с использованием этих параметров ограничивает только максимальное качество, которое может быть достигнуто. Для того чтобы преодолеть это ограничение и, следовательно, для предоставления возможности высококачественного параметрического кодирования параметрическое стереокодирование (как описано в J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers (2005) «Parametric coding of stereo audio», Eurasip J. Applied Signal Proc. 9, 1305-1322) применяет три типа пространственных параметров, названных межканальная разность интенсивности (IID), межканальная разность фаз (IPD) и межканальная когерентность (IC). Расширение набора пространственных параметров с помощью параметров когерентности предоставляет возможность параметризации воспринимаемой пространственной 'распространенности' или пространственной 'компактности' звуковой сцены.
В последующем типичная общая схема BCC многоканального звукового кодирования проработана более подробно со ссылкой на фиг.12-14. Фиг.9 показывает такую общую схему бинаурального кодирования признаков для кодирования/передачи многоканальных аудиосигналов. Многоканальные звуковые входные сигналы на входе 110 кодера 112 BCC микшируются в блоке 114 микширования. В настоящем примере исходный многоканальный сигнал на входе 110 представляет собой 5-канальный сигнал окружающего звука, имеющий фронтальный левый канал, фронтальный правый канал, левый канал окружающего звука, правый канал окружающего звука и центральный канал. В предпочтительном варианте осуществления настоящего изобретения блок 114 микширования генерирует суммарный сигнал с помощью простого суммирования этих пяти каналов в монофонический сигнал. Другие схемы микширования известны из предшествующего уровня техники, например такие, которые при использовании многоканальных входных сигналов могут обеспечивать сигнал микширования, содержащий один канал. Этот один канал выводят на линии 115 суммарного сигнала. Дополнительную информацию, полученную с помощью блока 116 анализа BCC, выводят на линии 117 дополнительной информации. В блоке анализа BCC вычисляют межканальную разность уровней (ICLD) и межканальную разность во времени (ICTD), как было указано выше. Блок 116 анализа BCC предназначен также для вычисления значения межканальной корреляции (значения ICC). Суммарный сигнал и дополнительную информацию передают предпочтительно в квантованной и кодированной форме на декодер 120 BCC. Декодер BCC разбивает переданный суммарный сигнал на множество подполос и применяет масштабирование, задержки и другую обработку для генерации подполос выходных многоканальных аудиосигналов. Эту обработку выполняют так, что параметры ICLD, ICTD и ICC (признаки) восстановленного многоканального сигнала на выходе 121 подобны соответствующим признакам для исходного многоканального сигнала на входе 110 кодера 112 BCC. С этой целью декодер 120 BCC включает в себя блок 122 синтеза BCC и блок 123 обработки дополнительной информации.
В дальнейшем внутренняя конструкция блока 122 синтеза BCC объясняется со ссылкой на фиг.13. Суммарный сигнал на линии 115 вводят в блок преобразования время/частота или блок 125 фильтров БФ. На выходе блока 125 присутствует множество N сигналов подполос или, в предельном случае, блок спектральных коэффициентов, когда звуковой набор фильтров 125 выполняет преобразование 1:1, т.е. преобразование, которое производит N спектральных коэффициентов из N отсчетов во временной области (предельная субдискретизация).
Блок 122 синтеза BCC дополнительно содержит каскад 126 задержки, каскад 127 изменения уровней, каскад 128 обработки корреляции и каскад 129 блока обратных фильтров БОФ. На выходе каскада 129 восстановленный многоканальный аудиосигнал, имеющий, например, пять каналов в случае 5-канальной системы окружающего звука, можно выводить к набору громкоговорителей 124, как показано на фиг.12.
Как показано на фиг.13, входной сигнал s(n) преобразуют в частотную область, или область блока фильтров, посредством элемента 125. Выходной сигнал с помощью элемента 125 умножают так, что получают несколько версий того же самого сигнала, как показано с помощью узла 130 перехода. Количество версий исходного сигнала равно количеству каналов вывода в выходном сигнале, который подлежит восстановлению. Когда в общем случае каждая версия исходного сигнала в узле 130 подвергается определенной задержке d1, d2, ..., di, ..., dN, параметры задержки вычисляют с помощью блока 123 обработки дополнительной информации на фиг.12 и получают из межканальных разностей во времени, которые определяет блок 116 анализа BCC.
То же самое верно для параметров усиления a1, a2, ..., ai, ..., aN, которые также вычисляются блоком 123 обработки дополнительной информации, основываясь на межканальных разностях уровней, которые вычисляет блок 116 анализа BCC.
Параметры ICC, вычисленные с помощью блока 116 анализа BCC, используют для управления функциональными возможностями блока 128 так, чтобы получить определенную корреляцию между задержанными сигналами и сигналами с измененным уровнем на выходах блока 128. Следует отметить, что порядок каскадов 126, 127, 128 может отличаться от случая, показанного на фиг.13.
Следует знать, что при покадровой обработке аудиосигнала анализ BCC также выполняют по кадрам, т.е. изменяющимся во времени образом, и также по частоте. Это означает, что для каждой полосы спектра параметры BCC получают отдельно. Это дополнительно означает, что в случае, когда звуковой блок фильтров 125 разбивает входные сигналы, например, на 32 полосовых сигнала, то блок анализа BCC получает набор параметров BCC для каждой из этих 32 полос. Естественно, блок 122 синтеза BCC на фиг.12, который показан подробно на фиг.13, выполняет реконструкцию, которая также основана на этих 32 полосах в данном примере.
В дальнейшем обращаются к фиг.14, которая показывает схему для определения некоторых параметров BCC. Обычно параметры ICLD, ICTD и ICC можно определять между произвольными парами каналов. Один из способов, который будет представлен, заключается в определении параметров ICLD и ICTD между опорным каналом и каждым другим каналом. Это показано на фиг.14A.
Параметры ICC можно определять по-разному. В наиболее общем случае можно оценивать параметры ICC в кодере между каналами всех возможных пар, как указано на фиг.14B. В этом случае декодер синтезирует ICC так, что он является приблизительно тем же самым, как в исходном многоканальном сигнале между каналами всех возможных пар. Было, однако, предложено оценивать только параметры ICC между двумя самыми сильными каналами в каждый момент времени. Эта схема показана на фиг.14C, где показан пример, в котором в один момент времени параметр ICC оценивают между каналами 1 и 2, а в другой момент времени параметр ICC вычисляют между каналами 1 и 5. Декодер затем синтезирует межканальную корреляцию между самыми сильными каналами в декодере и применяет некоторое эвристическое правило для вычисления и синтезирования межканальной когерентности для оставшихся пар каналов.
Относительно вычисления, например, параметров усиления a1, ..., aN, основываясь на переданных параметрах ICLD, обращаются к приведенному выше документу соглашения AES 5574. Параметры ICLD представляют распределение энергии в исходном многоканальном сигнале. Без потери общности, на фиг.14A показано, что существует четыре параметра ICLD, которые показывают разность энергии между всеми другими каналами и фронтальным левым каналом. В блоке 123 обработки дополнительной информации параметры усиления a1, ..., aN получают из параметров ICLD так, что полная энергия всех восстановленных выходных каналов является такой же, как энергия передаваемого суммарного сигнала (или пропорциональна ей). Простой способ определения этих параметров - 2-этапный процесс, в котором на первом этапе коэффициент усиления для левого фронтального канала устанавливают в единицу, в то время как коэффициенты усиления для других каналов на фиг.14A определяют из переданных значений ICLD. Затем на втором этапе вычисляют энергию всех пяти каналов и сравнивают ее с энергией переданного суммарного сигнала. Затем в отношении всех каналов выполняют понижающее масштабирование, используя коэффициент понижающего масштабирования, который одинаков для всех каналов, причем коэффициент понижающего масштабирования выбирают так, что полная энергия всех восстановленных каналов вывода после масштабирования равна полной энергии переданного суммарного сигнала.
Естественно, существуют также другие способы вычисления коэффициентов усиления, которые не основаны на 2-этапном процессе, а для которых нужен только 1-этапный процесс.
Обращаясь к параметрам задержки, следует отметить, что параметры задержки ICTD, которые передаются от кодера BCC, могут использоваться непосредственно, когда параметр задержки d1 для левого фронтального канала установлен в нуль. Перемасштабирование делать не требуется, так как задержка не изменяет энергию сигнала.
Как было указано выше относительно фиг.14, параметрическая дополнительная информация, т.е. межканальная разность уровней (ICLD), межканальная разность во времени (ICTD) или параметр межканальной когерентности (ICC), может вычисляться и передаваться для каждого из этих пяти каналов. Это означает, что один канал обычно передает четыре набора межканальной разности уровней для пятиканального сигнала. То же самое истинно для межканальной разности во времени. Относительно параметра межканальной когерентности, может также быть достаточно передавать, например, только два набора этих параметров.
Как было указано выше относительно фиг.13, нет ни одного параметра разности уровней, параметра разности во времени или параметра когерентности для одного кадра или временной порции сигнала. Вместо этого эти параметры определяются для нескольких различных полос частот так, чтобы была получена частотно-зависимая параметризация. Так как предпочтительно использовать, например, 32 частотных канала, т.е. блок фильтров, имеющий 32 полосы частот для анализа BCC и синтеза BCC, параметры могут занимать довольно большой объем данных. Хотя по сравнению с другими многоканальными передачами параметрическое представление приводит к весьма низкому расходу данных на отсчет, существует длительно сохраняющаяся потребность в дальнейшем уменьшении необходимого расхода данных на отсчет для представления сигнала, имеющего более двух каналов, такого как многоканальный сигнал окружающего звука.
Кодирование многоканального аудиосигнала можно преимущественно осуществлять, используя несколько существующих модулей, которые выполняют параметрическое кодирование стереосигнала в один моноканал. В публикации международной патентной заявки WO2004008805 A1 объясняется, как параметрические кодеры стереосигнала можно упорядочивать в иерархической структуре так, что заданное количество входных звуковых каналов впоследствии микшируется в один единственный моноканал. Параметрическая дополнительная информация, описывающая пространственные свойства моноканала микширования, окончательно состоит из всей параметрической информации, последовательно создаваемой в течение процесса итерационного микширования. Это означает, что если существуют, например, три процесса микширования от стерео к моно, вовлеченные в формирование окончательного монофонического сигнала, то окончательное множество параметров, создающих параметрическое представление многоканального аудиосигнала, состоит из трех наборов параметров, полученных в течение каждого отдельного процесса микширования от стерео к моно.
Кодер иерархического микширования показан на фиг.15 для более подробного объяснения способа предшествующего уровня техники. Фиг.15 показывает шесть исходных звуковых каналов с 200a по 200f, которые преобразуются в единственный монофонический звуковой канал 202 плюс параметрическую дополнительную информацию. Поэтому шесть исходных звуковых каналов с 200a по 200f необходимо преобразовать из временной области в частотную область, данное преобразование выполняют с помощью блока 204 преобразования, преобразуя звуковые каналы с 200a по 200f в соответствующие каналы с 206a по 206f в частотной области. Придерживаясь иерархического подхода, каналы с 206a по 206f попарно микшируются в три монофонических канала L, R и C (208a, 208b и 208c соответственно). Во время микширования каналов трех пар для каждой пары каналов получают набор параметров, который описывает пространственные свойства исходного стереофонического сигнала, который микшируют в монофонический сигнал. Таким образом, на этом первом этапе микширования генерируют три набора параметров с 210a по 210c для сохранения пространственной информации сигналов с 206a по 206f.
На следующем этапе иерархического микширования каналы 208a и 208b микшируются в канал 212 (LR), генерируя набор параметров 210d (набор параметров 4). Наконец, для получения только одного единственного монофонического канала необходимо микширование каналов 208c и 212, в результате чего получают канал 214 (M). При этом генерируют пятый набор параметров 210e (набор параметров 5). Наконец, микшированный монофонический аудиосигнал 214 обратно преобразуют во временную область для получения аудиосигнала 202, который можно воспроизводить с помощью стандартного оборудования.
Как описано выше, параметрическое представление аудиосигнала 202 микширования согласно предшествующему уровню техники состоит из всех наборов параметров с 210a по 210e, что означает, что если кто-нибудь захочет восстановить исходный многоканальный аудиосигнал (каналы с 200a по 200f) из монофонического аудиосигнала 202, то все наборы параметров с 210a по 210e потребуются в качестве дополнительной информации монофонического сигнала 202 микширования.
Патентная заявка США № 11/032 689 (которая с данного момента упоминается как «объединение признаков согласно предшествующему уровню техники») описывает процесс объединения нескольких значений признаков в один передаваемый признак для сохранения дополнительной информации в схеме неиерархического кодирования. Для того чтобы это сделать, все каналы сначала микшируют, и коды признаков позже объединяются для формирования передаваемых значений признаков (может также быть одно единственное значение), причем объединение зависит от предопределенной математической функции, в которую в качестве переменных вставляют пространственные параметры, которые получают непосредственно из входных сигналов.
Современные методики параметрического кодирования двух («стерео») или большего количества («многоканальный») входных звуковых каналов получают пространственные параметры непосредственно из входных сигналов. Примерами таких параметров являются межканальная разность уровней (ICLD) или межканальная разность интенсивности (IID), межканальное запаздывание (ICTD) или межканальная разность фаз (IPD) и межканальная корреляция/когерентность (ICC), каждый из которых передают частотно-избирательным способом, т.е. для каждой полосы частот. В заявке «объединения признаков согласно предшествующему уровню техники» раскрыто, что несколько значений признаков можно объединять в одно значение, которое передают со стороны кодера на сторону декодера. Процесс декодирования использует одно передаваемое значение вместо первоначально отдельно передаваемых значений признаков для восстановления многоканального выходного сигнала. В предпочтительном варианте осуществления эту схему применяют к параметрам ICC. Было показано, что это приводит к значительному уменьшению размера дополнительной информации признаков при сохранении пространственных свойств огромного большинства сигналов. Однако не ясно, как это можно применять в схеме иерархического кодирования.
Патентная заявка «объединения признаков согласно предшествующему уровню техники» детализирует принцип изобретения с помощью примера для системы, основанной на двух передаваемых каналах микширования. В предложенном способе, в отношении фиг.15, значения ICC пар каналов Lf/Lr и Rf/Rr объединяются в один передаваемый параметр ICC. Два объединяемых значения ICC получают во время микширования фронтального левого канала Lf и тылового левого канала Lr в канал L и во время микширования фронтального правого канала Rf и тылового правого канала Rr в канал R. Поэтому два объединяемых значения ICC, которые окончательно объединяются в один передаваемый параметр ICC, оба переносят информацию о фронтально-тыловой корреляции исходных каналов, и объединение этих двух значений ICC будет в общем случае сохранять большую часть этой информации. Если придется дополнительно микшировать каналы L и R в один единственный монофонический канал, то можно получить третье значение ICC, которое переносит информацию о лево-правой корреляции каналов микширования L и R. Согласно «объединению признаков согласно предшествующему уровню техники» теперь придется объединять три значения ICC, применяя данную функцию, которая преобразовывает три значения ICC в один передаваемый параметр ICC.
Проблемы возникают тогда, когда информацию фронта/тыла смешивают с информацией лева/права, что очевидно невыгодно для воспроизведения исходного многоканального аудиосигнала. В заявке США № 11/032 689 этого избегают с помощью передачи двух каналов микширования, каналов L и R, которые содержат информацию лева/права, и дополнительно передачи одного единственного значения ICC, содержащего информацию фронта/тыла. Это сохраняет пространственные свойства исходных каналов за счет значительно увеличенного расхода данных на отсчет, что является результатом того, что весь дополнительный канал микширования должен передаваться.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Целью настоящего изобретения является обеспечение улучшенной концепции для генерации и использования параметрического представления многоканального аудиосигнала с помощью компактной дополнительной информации в контексте иерархической схемы кодирования.
В соответствии с первым аспектом настоящего изобретения этой цели достигают с помощью кодера для генерации параметрического представления аудиосигнала, имеющего по меньшей мере два исходных левых канала с левой стороны и два исходных правых канала с правой стороны относительно местоположения прослушивания, содержащего средство генерации для генерации параметрической информации, при этом данное средство генерации выполнено с возможностью раздельной обработки нескольких пар каналов для получения информации уровня для обработанных пар каналов и с возможностью получения информации когерентности для пары каналов, включающей в себя первый канал, имеющий только информацию с левой стороны, и второй канал, имеющий только информацию с правой стороны; и средство обеспечения для обеспечения параметрического представления с помощью выбора информации уровня для пар каналов и определения показателя лево-правой когерентности, используя информацию когерентности.
В соответствии со вторым аспектом настоящего изобретения этой цели достигают с помощью декодера для обработки параметрического представления исходного аудиосигнала, причем исходный аудиосигнал имеет по меньшей мере два исходных левых канала с левой стороны и по меньшей мере два исходных правых канала с правой стороны относительно местоположения прослушивания, содержащего блок приема для обеспечения параметрического представления аудиосигнала, при этом данный блок приема выполнен с возможностью обеспечения информации уровня для пар каналов и обеспечения показателя лево-правой когерентности для пары каналов, включающей в себя левый канал и правый канал, причем показатель лево-правой когерентности представляет информацию когерентности по меньшей мере между каналами одной пары, включающей в себя первый канал, имеющий только информацию с левой стороны, и второй канал, имеющий только информацию с правой стороны; и блок обработки для предоставления параметрической информации для пар каналов, причем данный блок обработки выполнен с возможностью выбора информации уровня из параметрического представления и получения информации когерентности по меньшей мере для одной пары каналов, используя показатель лево-правой когерентности, причем упомянутая по меньшей мере одна пара каналов включает в себя первый канал, имеющий только информацию с левой стороны, и второй канал, имеющий только информацию с правой стороны.
В соответствии с третьим аспектом настоящего изобретения этой цели достигают с помощью способа генерации параметрического представления аудиосигнала.
В соответствии с четвертым аспектом настоящего изобретения этой цели достигают с помощью компьютерной программы, которая воплощает указанный выше способ при исполнении на компьютере.
В соответствии с пятым аспектом настоящего изобретения этой цели достигают с помощью способа обработки параметрического представления исходного аудиосигнала.
В соответствии с шестым аспектом настоящего изобретения этой цели достигают с помощью компьютерной программы, которая воплощает указанный выше способ при исполнении на компьютере.
В соответствии с седьмым аспектом настоящего изобретения этой цели достигают с помощью кодированных звуковых данных, сгенерированных с помощью создания параметрического представления аудиосигнала, имеющего по меньшей мере два исходных левых канала с левой стороны и два исходных правых канала с правой стороны относительно местоположения прослушивания, причем параметрическое представление содержит разность уровней для пар каналов и показатель лево-правой когерентности, полученный из информации когерентности для пары каналов, включающей в себя первый канал, имеющий только информацию с левой стороны, и второй канал, имеющий только информацию с правой стороны.
Настоящее изобретение основано на обнаружении того, что параметрическое представление многоканального аудиосигнала хорошо описывает пространственные свойства аудиосигнала, используя компактную дополнительную информацию, когда информацию когерентности, которая описывает когерентность между первым и вторым каналами, получают в процессе иерархического кодирования только для пар каналов, включающих в себя первый канал, имеющий только информацию с левой стороны относительно местоположения прослушивания, и включающих в себя второй канал, имеющий только информацию с правой стороны относительно местоположения прослушивания. Поскольку в иерархическом процессе множество звуковых каналов исходного аудиосигнала итерационно микшируется предпочтительно в монофонический канал, существует возможность выбора соответствующих параметров дополнительной информации во время процесса кодирования для этапа, в котором задействуются только пары каналов, которые имеют требуемую информацию, необходимую для описания пространственных свойств исходного аудиосигнала, настолько хорошо, насколько это возможно. Это позволяет создавать параметрическое представление исходного аудиосигнала на основе этих выбранных параметров или на основе объединения этих параметров, предоставляя возможность существенного уменьшения размера дополнительной информации, которая содержит пространственную информацию сигнала микширования.
Предложенная концепция предоставляет возможность объединения значений признаков для уменьшения доли дополнительной информации в аудиосигнале микширования даже для случая, когда допустим только один (монофонический) канал передачи информации. Соответствующая изобретению концепция даже допускает различные иерархические топологии кодера. Конкретно разъясняется, как можно получать соответствующее единственное значение ICC, которое можно применять в пространственном звуковом декодере, используя иерархический подход кодирования/декодирования для точного воспроизведения исходного звукового образа.
В одном из вариантов осуществления настоящего изобретения воплощают иерархическую структуру кодирования, которая объединяет левый фронтальный и левый тыловой звуковой каналы 5.1-канальных аудиосигналов в главный левый канал и которая одновременно объединяет правый фронтальный и правый тыловой каналы в главный правый канал. Объединяя левые каналы и правые каналы отдельно, важная информация лево-правой когерентности главным образом сохраняется и, согласно изобретению, извлекается на втором этапе кодирования, на котором главный левый и главный правый каналы микшируются в главный стереоканал. Во время этого процесса микширования получают параметр ICC для всей системы, так как этот параметр ICC будет параметром ICC, представляющим с наибольшей точностью лево-правую когерентность. В пределах данного варианта осуществления настоящего изобретения получают параметр ICC, который описывает самую важную лево-правую когерентность шести звуковых каналов с помощью простого упорядочивания этапов иерархического кодирования соответствующим образом, а не применяя некоторую искусственную функцию к набору параметров ICC, которая описывает произвольные пары каналов, как это имеет место в методиках предшествующего уровня техники.
В модификации описанного варианта осуществления настоящего изобретения центральный канал и низкочастотный канал аудиосигнала формата 5.1 микшируются в главный центральный канал, причем данный канал содержит, главным образом, информацию о центральном канале, так как низкочастотный канал содержит только сигналы с такой низкой частотой, что местоположение источника сигналов едва ли может быть определено людьми. Может быть выгодно дополнительно управлять значением ICC, полученным, как описано выше, с помощью параметров, описывающих главный центральный канал. Это можно сделать, например, с помощью взвешивания значения ICC с помощью информации об энергии, причем информация об энергии говорит о том, сколько энергии передается через главный центральный канал относительно главного стереоканала.
В дополнительном варианте осуществления настоящего изобретения процесс иерархического кодирования выполняют так, что на первом этапе левый фронтальный и правый фронтальный каналы аудиосигнала формата 5.1 микшируются в главный фронтальный канал, тогда как левый тыловой и правый тыловой каналы микшируются в главный тыловой канал. Поэтому в каждом из процессов микширования генерируют значение ICC, которое содержит информацию о важной лево-правой когерентности. Объединенный и передаваемый параметр ICC затем получают из объединения двух отдельных значений ICC, причем преимущественный способ получения передаваемого параметра ICC состоит в том, чтобы создавать взвешенную сумму значений ICC, используя параметры уровня каналов как веса.
В модификации изобретения центральный канал и низкочастотный канал микшируются в главный центральный канал, и впоследствии главный центральный канал и главный фронтальный канал микшируются в главный стереоканал. В последнем процессе микширования принимают корреляцию между центральным и стереоканалами, которую используют для управления или изменения передаваемого параметра ICC, таким образом также учитывая вклад центрального канала в фронтальный аудиосигнал. Основное преимущество предварительно описанной системы состоит в том, что можно создавать информацию когерентности так, что каналы, которые вносят самый большой вклад в аудиосигнал, главным образом определяют передаваемое значение ICC. Ими обычно будут фронтальные каналы, но, например, в многоканальном представлении музыкального концерта сигнал аплодирующей аудитории можно акцентировать, используя, главным образом, значение ICC тыловых каналов. Дополнительным преимуществом является то, что распределение веса между фронтальным и тыловым каналами может изменяться динамически, в зависимости от пространственных свойств многоканального аудиосигнала.
В одном из вариантов осуществления настоящего изобретения соответствующий изобретению иерархический декодер выполнен с возможностью приема меньшего количества параметров ICC, чем требуется согласно количеству существующих этапов декодирования. Декодер выполнен с возможностью получения параметров ICC, требуемых для каждого этапа декодирования, из принятых параметров ICC.
Это можно делать, получая дополнительные параметры ICC, используя правило получения, которое основано на принятых параметрах ICC и принятых значениях ICLD, или вместо этого - с помощью использования предопределенных значений.
В предпочтительном варианте о