Устройство и способ для формирования многоканального сигнала или набора параметрических данных
Иллюстрации
Показать всеИзобретение относится к области многоканальной связи, в частности к параметрической многоканальной обработке в кодерах/декодерах для формирования и/или считывания гибкого синтаксиса данных и для связывания параметрических данных с данными понижающего микширования и/или каналами передачи. Технический результат - обеспечение корректной связи между параметрическими данными и декодированными данными канала передачи. Для гибкой сигнализации синхронного режима или асинхронного режима в многоканальном параметрическом восстановлении в поток данных вводится контрольный сигнал конфигурации параметров, который используется средством конфигурирования на стороне многоканального декодера для конфигурирования средства многоканального восстановления. Если контрольный сигнал конфигурации параметров имеет первое значение, то средство конфигурирования осуществляет поиск дополнительной конфигурационной информации в своих входных данных, а если контрольный сигнал конфигурации параметров имеет другое значение, то средство конфигурации выполняет конфигурационную настройку средства многоканального восстановления на основе информации об алгоритме кодирования, с помощью которого кодировались данные канала передачи, эффективным и гибким образом обеспечивается то, что всегда имеет место корректная связь между параметрическими данными и декодированными данными канала передачи. 9 н. и 8 з.п. ф-лы, 8 ил.
Реферат
Настоящее изобретение относится к способам параметрической многоканальной обработки и, в частности к кодерам/декодерам для формирования и/или считывания гибкого синтаксиса данных и для связывания параметрических данных с данными понижающего микширования и/или каналами передачи.
В дополнение к двум стереофоническим каналам рекомендованное многоканальное объемное представление включает в себя центральный канал C и два объемных канала, то есть левый объемный канал Ls и правый объемный канал Rs, а дополнительно, если применим, канал сабвуфера, также упоминаемый как канал LFE (LFE=низкочастотное расширение). Этот эталонный звуковой формат также упоминается как стереофонический 3/2 (плюс LFE), а также, в последнее время, как многоканальный 5.1; указанное обозначение указывает на то, что есть три фронтальных канала и два объемных канала. Вообще, требуется пять или шесть каналов передачи. В среде воспроизведения, по меньшей мере, пять акустических систем требуются в соответствующих пяти разных положениях для получения оптимальной, так называемой зоны наилучшего восприятия на определенном расстоянии от пяти правильно размещенных акустических систем. Однако, что касается этого размещения, сабвуфер является используемым до известной степени относительно свободно.
Есть несколько технологий для уменьшения объема данных, требуемых для передачи многоканального аудиосигнала. Такие технологии также называются технологиями с уплотнением стереоинформации. Для этой цели сделана ссылка на фиг. 5. Фиг. 5 показывает устройство 60 с уплотнением стереоинформации. Это устройство может быть устройством, реализующим, например, технологию кодирования с изменением глубины стереобазы (технологию IS) или технологию кодирования бинауральными контрольными сигналами (технологию BCC). Такое устройство обычно принимает по меньшей мере два канала (CH1, CH2,... CHn) в качестве входного сигнала и выводит по меньшей мере один единственный несущий канал (понижающее микширование) и параметрические данные, то есть один или более наборов параметров. Параметрические данные определены так, что аппроксимация каждого исходного канала (CH1, CH2,... CHn) может вычисляться в декодере.
Обычно, несущий канал будет включать в себя выборки поддиапазонов, спектральные коэффициенты или выборки временной области и т.д., которые обеспечивают сравнительно точное представление лежащего в основе сигнала, тогда как наборы параметрических данных и/или параметров не включают в себя никаких выборок или спектральных коэффициентов. Вместо этого параметрические данные включают в себя параметры управления для управления предопределенным алгоритмом восстановления, таким как взвешивание путем умножения, временной сдвиг, частотный сдвиг. Параметрические данные, поэтому, включают в себя лишь сравнительно грубое представление сигнала или ассоциированного канала. Выраженный количественно объем данных, требуемый несущим каналом (который является сжатым, то есть кодированным, например, посредством AAC) будет находиться в диапазоне от 60 до 70 кбит/с, в то время как объем данных, требуемый дополнительной параметрической информацией, имеет порядок от 1,5 кбит/с для канала. Одним из примеров параметрических данных являются известные масштабные коэффициенты, информация изменения глубины стереобазы или параметры бинауральных контрольных сигналов, как описано ниже.
Технология кодирования с изменением глубины стереобазы описана в препринте 3799 AES, озаглавленном «Intensity Stereo Coding» («Кодирование с изменением глубины стереобазы»), J. Herre, K. H. Brandenburg, D. Lederer, February 1994, Amsterdam. Вообще, концепция изменения глубины стереобазы основана на преобразовании главной оси, которое должно применяться к данным обоих стереофонических аудиоканалов. Если большинство точек на графике размещаются вокруг первой главной оси, выигрыш кодирования может достигаться поворотом обоих сигналов на определенный угол перед кодированием. Однако это не всегда применяется к реальным технологиям стереофонической обработки. Восстановленные сигналы для левого и правого каналов состоят из по-разному взвешенных или масштабированных вариантов одного и того же переданного сигнала. Тем не менее восстановленные сигналы отличаются по амплитуде, но они идентичны по своей фазовой информации. Огибающие энергии по времени обоих исходных аудиоканалов, однако, поддерживаются посредством операции селективного масштабирования, обычно реализуемой частотно-селективным способом. Это соответствует человеческому восприятию звука на высоких частотах, где доминирующие пространственные контрольные сигналы определяются огибающими энергии.
В дополнение, в практических реализациях, передаваемый сигнал, то есть несущий канал, формируется из суммарного сигнала левого канала и правого канала вместо поворота обеих составляющих. Кроме того, эта обработка, то есть формирование параметров изменения глубины стереобазы для выполнения операции масштабирования, выполняется частотно-селективным способом, то есть, независимо друг от друга для каждой полосы масштабного коэффициента, то есть для каждого сегмента частот кодера. Предпочтительно, оба канала объединяются для формирования объединенного или «несущего» канала. В дополнение к объединенному каналу определяется информация изменения глубины стереобазы, которая зависит от энергии первого канала, энергии второго канала или энергии комбинированного, или суммарного канала.
Технология BCC описана в документе 5574 AES, «Binaural cue coding applied to stereo and multichannel audio compression» («Кодирование бинауральными контрольными сигналами применительно к сжатию стереофонического и многоканального звука»), C. Faller, F. Baumgarte, May 2002, Munich. При BCC-кодировании некоторое количество входных аудиоканалов преобразуется в спектральное представление с использованием основанного на ДПФ (дискретном преобразовании Фурье) преобразования с перекрывающимися окнами. Результирующий спектр делится на неперекрывающиеся сегменты. Каждый сегмент обладает шириной полосы, пропорциональной эквивалентной прямоугольной ширине полосы (ERB). Так называемые межканальные разности уровней (ICLD), а также так называемые межканальные временные разности (ICTD) оцениваются для каждого сегмента, то есть для каждой полосы и для каждого кадра k, то есть блока временных выборок. Параметры ICLD и ICTD дискретизируются и кодируются, чтобы получить битовый BCC-поток. Межканальные разности уровней и межканальные временные разности задаются для каждого канала относительно опорного канала. В частности, параметры рассчитываются согласно предопределенным формулам в зависимости от конкретных разбиений сигнала, который должен обрабатываться.
На стороне декодера декодер принимает монофонический сигнал и битовый BCC-поток, то есть первый набор параметров для межканальных временных разностей и второй набор параметров для межканальных разностей уровней за кадр. Монофонический сигнал преобразуется в частотную область и вводится в блок синтеза, также принимающий декодированные значения ICLD и ICTD. В блоке синтеза или блоке восстановления BCC-параметры (ICLD и ICTD) используются для выполнения операции взвешивания монофонического сигнала для восстановления многоканального сигнала, который затем после частотно/временного преобразования представляет восстановление исходного многоканального аудиосигнала.
В случае BCC модуль 60 уплотнения стереоинформации действует для вывода дополнительной канальной информации, так что параметрические данные канала являются дискретизированными и кодированными параметрами ICLD или ICTD, при этом один из исходных каналов может использоваться в качестве опорного канала для кодирования дополнительной канальной информации. Обычно несущий канал формируется из суммы участвующих исходных каналов.
Конечно, вышеприведенные технологии обеспечивают только монофоническое представление для декодера, который способен декодировать только несущий канал, но не может формировать параметрические данные для формирования одного или более приближений более чем одного входного канала.
Технология кодирования аудио, упоминаемая как технология BCC, дополнительно описана в заявках US 2003/0219130 A1, 2003/0026441 A1 и 2003/0035553 A1 на выдачу патентов США. Кроме того, см. «Binaural Cue Coding. Part II: Schemes and Applications» («Кодирование бинауральными контрольными сигналами. Часть II: схемы и применения»), C. Faller and F. Baumgarte, IEEE Transactions On Audio and Speech Proc, Vol. 11, No. 6, November 1993; а также см. C. Faller and F. Baumgarte «Binaural Cue Coding applied to Stereo and Multi-Channel Audio compression» («Кодирование бинауральными контрольными сигналами применительно к сжатию стереофонического и многоканального звука»), Preprint, 112th Convention of the Audio Engineering Society (AES), May 2002, and J. Herre, C. Faller, C. Ertel, J. Hilpert, A. Hoelzer, C. Spenger «MP3 Surround: Efficient and Compatible Coding of Multi-Channel Audio» («Объемное звучание MP3: эффективное и совместимое кодирование многоканального звука»), 116th AES Convention, Berlin, 2004, Preprint 6049. Ниже более подробно представлена типичная общая схема BCC для кодирования многоканального аудио по фиг. с 6 по 8. Фиг. 6 показывает общую схему BCC-кодирования для кодирования/передачи многоканальных аудиосигналов. Многоканальный аудиовходной сигнал подается на вход 110 BCC-кодера 112 и «подвергается понижающему микшированию» в так называемом блоке 114 понижающего микширования, то есть преобразуется в одиночный суммирующий канал. В представленном примере сигналом на входе 110 является 5-канальный объемный сигнал, содержащий левый фронтальный канал и правый фронтальный канал, левый объемный канал и правый объемный канал, а также центральный канал. Обычно блок понижающего микширования формирует суммарный сигнал простым сложением этих пяти каналов в монофонический сигнал. В данной области техники известны и другие схемы понижающего микширования, результатом которых является формирование, с использованием многоканального входного сигнала, сигнала понижающего микширования, содержащего одиночный канал или содержащего некоторое количество каналов понижающего микширования, которое, в любом случае, является меньшим, чем количество исходных входных каналов. В представленном примере операция понижающего микширования могла бы быть реализована, если бы четыре несущих канала формировались из пяти входных каналов. Одиночный входной канал и/или некоторое количество выходных каналов выводятся по линии 115 суммарного сигнала.
Дополнительная информация, полученная блоком 116 BCC-анализа, выводится на линию 117 дополнительной информации. В блоке BCC-анализа могут рассчитываться межканальные разности уровней (ICLD), межканальные временные разности (ICTD) или значения межканальной корреляции (значения ICC). Таким образом, есть три разных набора параметров, а именно, межканальные разности уровней (ICLD), межканальные временные разности (ICTD) и значения межканальной корреляции (ICC), для восстановления в блоке 122 BCC-синтеза.
Суммарный сигнал и дополнительная информация с наборами параметров обычно передаются в BCC-декодер 120 в дискретизированном и кодированном формате. BCC-декодер разделяет переданный (и декодированный, в случае кодированной передачи) суммарный сигнал на некоторое количество поддиапазонов и выполняет масштабирование, задержки и дополнительную обработку, чтобы формировать поддиапазоны нескольких каналов, которые должны быть восстановлены. Обработка выполняется так, что параметры (контрольные сигналы) ICLD, ICTD и ICC восстановленного многоканального сигнала на выходе 121 подобны соответствующим контрольным сигналам для исходного многоканального сигнала на входе 110 в BCC-кодер 112. Для этой цели BCC-декодер 120 включает в себя блок 122 BCC-синтеза и блок 123 обработки дополнительной информации.
Ниже иллюстрируется выполнение блока 122 BCC-синтеза по фиг. 7. Суммарный сигнал на линии 115 вводится в блок время/частотного преобразования, обычно реализуемый в виде гребенки 125 фильтров FB. На выходе блока 125 есть некоторое количество N сигналов поддиапазонов или, в предельном случае, блок спектральных коэффициентов, если гребенка 125 фильтров аудиосигнала выполняет преобразование, формирующее N спектральных коэффициентов из N выборок во временной области.
Блок 122 BCC-синтеза дополнительно включает в себя каскад 126 задержки, каскад 127 изменения уровня, каскад 128 корреляционной обработки и каскад IFB 129, представляющий гребенку обратных фильтров. На выходе каскада 129 восстановленный многоканальный аудиосигнал, содержащий, например, пять каналов в случае 5-канальной системы объемного звучания, может выводиться на множество акустических систем 124, как проиллюстрировано на фиг. 6.
Фиг. 7 дополнительно иллюстрирует, что входной сигнал s(n) преобразуется в частотную область или область гребенки фильтров посредством элемента 125. Сигнал, выдаваемый элементом 125, размножается, так что получаются несколько вариантов одного и того же сигнала, как показано узлом 130. Количество вариантов исходного сигнала равно количеству выходных каналов в выходном сигнале, который должен быть восстановлен. Если каждый вариант исходного сигнала подвергнут определенной задержке d1, d2,..., di,..., dN в узле 130, результатом является состояние на выходах блоков 126, которое включает в себя варианты одного и того же сигнала, но с разными задержками. Параметры задержки рассчитываются блоком 123 обработки дополнительной информации по фиг. 6 и выводятся из межканальных временных разностей, которые были определены блоком 116 BCC-анализа.
То же самое применяется к параметрам a1, a2,..., ai,..., aN умножения, которые также рассчитываются блоком 123 обработки дополнительной информации на основании межканальных разностей уровней, определенных блоком 116 BCC-анализа.
Параметры ICC рассчитываются блоком 116 BCC-анализа и используются для управления выполняемыми функциями блока 128, так что определенные значения корреляции между задержанными и манипулированными по уровню сигналами получаются на выходах блока 128. Следует отметить, что очередность каскадов 126, 127, 128 может отличаться от показанной на фиг. 7.
Дополнительно следует отметить, что при поблочной обработке аудиосигнала BCC-анализ также выполняется поблочно. Более того, BCC-анализ также выполняется почастотно, то есть частотно-селективным способом. Это значит, что для каждой спектральной полосы, есть параметр ICLD, параметр ICTD и параметр ICC для каждого блока. Параметры ICTD для, по меньшей мере, одного блока для, по меньшей мере, одного канала по всем полосам, таким образом, представляют набор параметров ICTD. То же самое применяется к набору параметров ICLD, представляющему все параметры ICLD для, по меньшей мере, одного блока по всем частотным полосам для восстановления, по меньшей мере, одного выходного канала. То же самое, в свою очередь, применяется к набору параметров ICC, который вновь включает в себя несколько отдельных параметров ICC для, по меньшей мере, одного блока по различным полосам для восстановления, по меньшей мере, одного выходного канала на основе входного канала или суммарного канала.
Фиг. 8 показывает состояние, иллюстрирующее определение BCC-параметров. Обычно, параметры ICLD, ICTD и ICC могут определяться между любыми парами каналов. Типично, определение параметров ICLD и ICTD выполняется между опорным каналом и каждым другим входным каналом, так что есть отдельный набор параметров для каждого из входных каналов, кроме опорного канала. Это также проиллюстрировано на фиг. 8А.
Однако параметры ICC могут определяться по-разному. Вообще, параметры ICC могут формироваться в кодере между любыми парами каналов, что также схематично проиллюстрировано на фиг. 8В. В этом случае декодер мог бы выполнять ICC-синтез, с тем, чтобы получался приблизительно такой же результат, как был представлен в исходном сигнале между любыми парами каналов. Однако было предложено рассчитывать параметры только ICC между двумя самыми мощными каналами в любой момент времени, то есть для каждого временного кадра. Эта схема представлена на фиг. 8С, которая показывает пример, в котором в один момент времени, рассчитывается и передается параметр ICC между каналами 1 и 2 и в котором в другой момент времени рассчитывается параметр ICC между каналами 1 и 5. Декодер затем синтезирует межканальную корреляцию между двумя самыми мощными каналами в декодере и примеряет дополнительные, типично эвристические правила для синтеза межканальной когерентности для оставшихся пар каналов.
Что касается расчета, например, параметров a1, … aN умножения на основании переданных параметров ICLD, сделана ссылка на упомянутый документ 5574 AES. Параметры ICLD представляют распределение энергии в исходном многоканальном сигнале. Без потери общности, фиг. 8А показывает, что есть четыре параметра ICLD, представляющих разность энергий между всеми другими каналами и левым фронтальным каналом. В блоке 123 обработки дополнительной информации параметры a1,..., aN умножения выводятся из параметров ICLD, так что полная энергия всех восстановленных выходных каналов является такой же, как представленная для переданного суммарного сигнала, или, по меньшей мере, пропорциональной этой энергии. Одним из путей для определения этих параметров является 2-стадийная последовательность операций, в которой на первой стадии коэффициент усиления для левого фронтального канала устанавливается в 1, тогда как коэффициенты усиления для других каналов по фиг. 8С устанавливаются в переданные значения ICLD. Затем, на второй стадии энергия всех пяти каналов рассчитывается и сравнивается с энергией переданного суммарного сигнала. Затем все каналы масштабируются с понижением с использованием коэффициента масштабирования, который является идентичным для всех каналов, при этом коэффициент масштабирования выбирается так, что полная энергия всех восстановленных выходных каналов после масштабирования с понижением равна полной энергии переданного суммарного сигнала и/или переданных суммарных сигналов.
Что касается ICC измерения межканальной когерентности, передаваемой из BCC-кодера в BCC-декодер в качестве дополнительного набора параметров, следует отметить, что манипуляция когерентности могла бы выполняться посредством изменения коэффициентов усиления, например, посредством умножения весовых коэффициентов всех поддиапазонов на случайные числа, имеющие значения между 20log10-6 и 20log106. Псевдослучайная последовательность типично выбирается так, что дисперсия является приближенно равной для всех критических полос и что среднее значение является нулевым в пределах каждой критической полосы. Такая же последовательность используется для спектральных коэффициентов каждого отличающегося кадра или блока. Таким образом, ширина аудиопанорамы управляется изменениями дисперсий псевдослучайной последовательности. Большая дисперсия порождает большую акустическую ширину. Изменение дисперсии может выполняться в отдельных полосах, имеющих ширину критической полосы. Это дает возможность одновременного существования нескольких объектов в акустической панораме, при этом каждый объект имеет разную акустическую ширину. Подходящим распределением амплитуд для псевдослучайной последовательности является равномерное распределение по логарифмической шкале, такое как описанное в публикации 2002/0219130 A1 патента США.
Для того чтобы передавать пять каналов совместимым образом, например, в формате битового потока, который также пригоден для обычного стереодекодера, может использоваться так называемый метод матрицирования, описанный в «MUSICAM surround: a universal multi-channel coding system compatible with ISO 11172-3» («Объемное звучание MUSICAM: универсальная система многоканального кодирования, совместимая с ISO 11172-3»), G. Theile and G. Stoll, AES preprint 3403, October 1992, San Francisco.
Кроме того, дополнительный метод многоканального кодирования описан в публикации «Improved MPEG2 audio multi-channel encoding» («Усовершенствованное многоканальное MPEG-2-кодирование аудио»), B. Grill, J. Herre, K. H. Brandenburg, E. Eberlein, J. Roller, J. Mueller, AES preprint 3865, February 1994, Amsterdam, в котором матрица совместимости используется для получения каналов понижающего микширования из исходных входных каналов.
Таким образом, метод BCC предоставляет возможность эффективного и к тому же обратно совместимого кодирования многоканального аудиоматериала, как описано, например, в публикации E. Schuijer, J. Breebaart, H. Purnhagen, J. Engdegard, «Low-Complexity Parametric Stereo Coding» («Параметрическое стереофоническое кодирование низкой сложности»), 119th AES Convention, Berlin, 2004, Preprint 6073. В этом контексте также следует сослаться на стандарт MPEG-4 и, особенно, расширение на методы параметрической аудиозаписи, при этом эта часть стандарта также известна под обозначением ISO/IEC 14496-3: 2001/FDAM 2 (параметрическая аудиозапись). В этом отношении, в частности, должен быть упомянут синтаксис в таблице 8.9 стандарта MPEG-4, озаглавленной «syntax of the ps.data()» («синтаксис ps.data()»), в частности, синтаксические элементы «enable_icc» и «enable_ipdopd», которые используются для включения и отключения передачи параметра ICC и фазы, соответствующей межканальным временным разностям. Дополнительно должны быть упомянуты синтаксические элементы «icc_data()» «ipd_data()» и «opd_data()».
Таким образом известные параметрические многоканальные методы используются с применением одного или нескольких передаваемых несущих каналов, при этом M передаваемых каналов формируются из N исходных каналов, чтобы вновь восстановить N выходных каналов или некоторое количество K выходных каналов, при этом K равно или меньше, чем количество исходных каналов N.
Как можно видеть из фиг. 6, BCC-анализ типично является отдельной обработкой для формирования параметрических данных с одной стороны и одного или более каналов передачи (каналов понижающего микширования) с другой стороны из многоканального сигнала, содержащего N исходных каналов. Типично, эти каналы понижающего микширования затем сжимаются, например, посредством типичного стереофонического/монофонического кодера MP3 или AAC, хотя это не показано на фиг. 6, так что на выходной стороне есть битовый поток, представляющий данные канала передачи в сжатом виде, и что, кроме того, есть еще один битовый поток, представляющий параметрические данные. BCC-анализ, таким образом, происходит отдельно от фактического аудиокодирования каналов понижающего микширования и/или суммарного сигнала 115 по фиг. 6.
Сторона декодера выполнена подобным же образом. Декодер с многоканальной возможностью, прежде всего, будет декодировать битовый поток, включающий в себя сжатый сигнал понижающего микширования в зависимости от используемого алгоритма кодирования и вновь выдавать один или более каналов передачи на выходной стороне, то есть типично, в виде временной последовательности данных PCM (PCM=импульсная кодовая модуляция). Затем, будет выполняться BCC-синтез как отдельная обособленная и изолированная постобработка, которая автономно осуществляет передачу сигналов с потоком параметрических данных и снабжается данными для формирования, на выходной стороне, нескольких выходных каналов, предпочтительно равных количеству исходных входных каналов, из аудиодекодированного сигнала понижающего микширования.
Таким образом, преимуществом BCC-анализа является то, что он содержит отдельную гребенку фильтров для целей BCC-анализа и отдельную гребенку фильтров для целей BCC-синтеза, например, так что она является отдельной от гребенки фильтров аудиокодера/декодера, чтобы не приводить ни к никаким компромиссам касательно сжатия аудио с одной стороны и многоканального восстановления с другой стороны. Вообще говоря, сжатие аудио, таким образом, выполняется отдельно от многоканальной параметрической обработки, для оптимального оснащения для обеих областей применения.
Недостатком этой концепции является то, что полная сигнализация должна передаваться как для многоканального восстановления, так и для декодирования аудиосигнала. Это является особенно неблагоприятным, когда, что будет типичным случаем, как средство декодирования аудиосигнала, так и средство многоканального восстановления выполняют одинаковые или подобные этапы и, соответственно, требуют одинаковых и/или взаимозависимых конфигурационных настроек. Из-за концепции полного разделения данные сигнализации, таким образом, передаются дважды, что приводит к искусственному «расширению» объема данных, которое, в конечном счете, обусловлено тем, что выбрана раздельная концепция между аудиокодированием/декодированием и многоканальным анализом/синтезом.
С одной стороны, полное «привязывание» многоканального восстановления к аудиодекодированию могло бы существенно ограничить гибкость, так как в таком случае реально важная цель разделения обоих этапов обработки, чтобы выполнять каждый этап обработки оптимальным образом, была бы потерянной. Таким образом, могут возникнуть значительные потери качества, в частности, в случае нескольких следующих друг за другом стадий кодирования/декодирования, также упоминаемых как «тандемное» кодирование. Если есть полное привязывание BCC-данных к кодированным аудиоданным, многоканальное восстановление должно выполняться при каждом декодировании для выполнения многоканального синтеза вновь при записи. Так как свойством любого параметрического метода является то, что ему свойственны потери, потери будут накапливаться путем повторного анализа синтеза анализа, так что с каждым каскадом кодера/декодера ощутимое качество аудиосигнала дополнительно уменьшается.
В этом случае декодирование/кодирование аудиоданных без одновременной обработки анализа/синтеза параметрических данных было бы возможным, только если каждый аудиокодек в тандемной цепочке работал бы идентично, то есть имел бы одинаковую частоту дискретизации, длину блока, конфигурацию, длительность опережения, кадрирование, преобразование, …, то есть обладал бы в целом одинаковой конфигурацией, и если, в дополнение, также поддерживались границы соответствующих блоков. Такая концепция, однако, значительно ограничивала бы гибкость всей концепции. Особенно с учетом факта, что параметрические многоканальные методы предназначены для дополнения уже существующих стереофонических данных, например, дополнительными параметрическими данными, это ограничение является тем более неприятным. Так как уже существующие стереофонические данные исходят из разных кодеров, которые используют разные длины блоков или которые работают даже не в частотной области, а во временной области, и т.п., такое ограничение с самого начала довело бы концепцию последующего дополнения до абсурда.
Цель настоящего изобретения состоит в создании гибкой и эффективной концепции для формирования многоканального аудиосигнала или набора параметрических данных восстановления.
Эта цель достигается устройством для формирования многоканального сигнала по п. 1, способом для формирования многоканального сигнала по п. 14, устройством для формирования набора параметрических данных по п. 15, способом для формирования выходного сигнала параметрических данных по п. 18, устройством для формирования выходного сигнала параметрических данных по п. 19, способом для формирования выходного сигнала параметрических данных по п. 20, или компьютерной программой по п. 21.
Настоящее изобретение основано на том, что эффективность с одной стороны и гибкость с другой стороны могут быть достигнуты получением потока данных, который может включать в себя данные канала передачи и параметрические данные, содержать контрольный сигнал конфигурации параметров, который был вставлен на стороне кодера и оценивается на стороне декодера. Контрольный сигнал указывает, конфигурируется ли средство многоканального восстановления по входным данным, то есть по данным, передаваемым из кодера в декодер, или конфигурируется ли средство многоканального восстановления контрольным сигналом для алгоритма кодирования, с помощью которого были декодированы кодированные данные канала передачи. Средство многоканального восстановления содержит конфигурационную настройку, идентичную конфигурационной настройке аудиодекодера для декодирования кодированных данных канала передачи или, по меньшей мере, зависимую от этой настройки.
Если декодер обнаруживает первую ситуацию, то есть контрольный сигнал конфигурации параметров имеет первое значение, то декодер будет искать дополнительную конфигурационную информацию в принятых входных данных, чтобы надлежащим образом сконфигурировать средство многоканального восстановления, чтобы затем использовать информацию для осуществления конфигурационной настройки средства многоканального восстановления. Такая конфигурационная настройка может быть, например, длиной блока, опережением, частотой дискретизации, управляющими данными гребенки фильтров, так называемой гранулярной информацией (число BCC-блоков в кадре), конфигурациями каналов (например, выходной сигнал 5.1 формируется всякий раз, когда есть «mp3»), информацией о том, какие параметрические данные обязательны в масштабируемом случае (например, ICLD), а какие нет (ICTD), и т.п.
Если, однако, декодер определяет, что контрольный сигнал конфигурации параметров обладает вторым значением, отличным от первого значения, то средство многоканального восстановления будет выбирать конфигурационные настройки в средстве многоканального восстановления в зависимости от информации об алгоритме кодирования аудиосигнала, на котором основано кодирование/декодирование данных канала передачи, то есть каналов понижающего микширования.
В отличие от раздельной концепции параметрических данных с одной стороны и сжатых данных понижающего микширования с другой стороны заявленное устройство для формирования многоканального аудиосигнала заимствует конфигурацию средства многоканального восстановления в фактически совершенно отдельных и автономных данных и/или в находящемся выше по потоку декодере аудиосигнала, работающем автономно, чтобы конфигурировать самого себя.
Концепция изобретения особенно действенна в предпочтительном варианте осуществления, когда принимаются во внимание разные алгоритмы кодирования аудиосигнала. В этом случае большой объем явной информации сигнализации должен был передаваться для достижения синхронной работы, то есть работы, при которой средство многоканального восстановления работает синхронно с аудиодекодером, а именно, соответствующими продолжительностями опережения и т.п. для каждого отличающегося алгоритма кодирования, чтобы фактически независимый алгоритм многоканального восстановления работал синхронно с алгоритмом декодирования аудиосигнала.
Согласно изобретению контрольный сигнал конфигурации параметров, для которого достаточно одного бита, сигнализирует декодеру, что для цели этой конфигурации он должен посмотреть, какой аудиокодер находится ниже его по потоку. Вслед за этим декодер будет принимать информацию о том, какой аудиокодер в текущий момент находится выше по потоку относительно некоторого количества разных аудиокодеров. После получения этой информации он предпочтительно будет обращаться к конфигурационной таблице в многоканальном декодере с этой идентификацией алгоритма аудиокодирования, чтобы извлечь оттуда конфигурационную информацию, предопределенную для каждого из возможных алгоритмов аудиокодирования, чтобы осуществить, по меньшей мере, одну конфигурационную настройку средства многоканального восстановления. Это обеспечивает значительную экономию в скорости передачи данных по сравнению со случаем, в котором конфигурация сигнализируется в потоке данных явным образом, в котором нет учитываемого фактора между средством многоканального восстановления и декодером аудиосигнала и в котором также нет соответствующего изобретению заимствования данных аудиодекодера средством многоканального восстановления.
С другой стороны, концепция изобретения, по-прежнему обеспечивает высокую гибкость, присущую явной сигнализации конфигурационной информации, так как, вследствие контрольного сигнала конфигурации параметров, для которого достаточно одиночного бита в потоке данных, есть возможность передавать фактически всю конфигурационную информацию в потоке данных, если необходимо, или - в качестве смешанной формы - передавать, по меньшей мере, часть параметрической конфигурационной информации в потоке данных и получать другую часть необходимой информации из набора заложенной информации.
В предпочтительном варианте осуществления настоящего изобретения данные, передаваемые из кодера в декодер, дополнительно включают в себя контрольный сигнал продления, сигнализирующий декодеру, должен ли он вообще изменять конфигурационные настройки в сравнении с уже существующими или ранее просигнализированными конфигурационными настройками, или должен ли он продолжать, как раньше, либо в качестве реакции на определенную настройку контрольного сигнала продления контрольный сигнал конфигурации параметров считывается, чтобы определить, имеет ли место согласованность средства многоканального восстановления относительно аудиодекодера, или в передаваемых данных содержится, по меньшей мере частично, явная информация касательно конфигурации.
Предпочтительные варианты осуществления настоящего изобретения пояснены ниже более подробно со ссылками на чертежи, на которых:
фиг. 1 - принципиальная структурная схема заявленного устройства для формирования набора параметрических данных, используемого на стороне кодера;
фиг. 2 - принципиальная структурная схема устройства для формирования многоканального аудиосигнала, используемого на стороне декодера;
фиг. 3 - основная блок-схема последовательности операций способа работы средства конфигурации по фиг. 2 в предпочтительном варианте осуществления настоящего изобретения;
фиг. 4a - схематичное представление потоков данных для синхронной работы между аудиодекодером и средством многоканального восстановления;
фиг. 4b - схематичное представление потоков данных для асинхронной работы между аудиодекодером и средством многоканального восстановления;
фиг. 4c - предпочтительный вариант осуществления устройства для формирования многоканального аудиосигнала в синтаксической форме;
фиг. 5 - обобщенное представление многоканального кодера;
фиг. 6 - схематичная структурная схема тракта BCC-кодера/BCC-декодера;
фиг. 7 - принципиальная структурная схема блока BCC-синтеза по фиг. 6;
фиг. с 8А по 8С - представление типичных сценариев для расчета наборов параметров ICLD, ICTD и ICC.
Фиг. 1 показывает структурную принципиальную схему заявленного устройства для формирования набора параметрических данных, при этом набор параметрических данных может выводиться на выходе 10 устройства, показанного на фиг. 1. Набор параметрических данных содержит параметрические данные, которые, наряду с данными канала передачи, не проиллюстрированными на фиг. 1, но которые будет обсуждены позже, представляют N исходных каналов, при этом данные канала передачи типично будут включать в себя M каналов передачи, при этом количество M каналов передачи является меньшим, чем количество N исходных каналов, и равным или большим, чем 1.
Устройство, показанное на фиг. 1, которое находится на стороне кодера, включает в себя многоканальное параметрическое средство 11, предназначенное для выполнения, например, BCC-анализа или анализа изменения глубины стереобазы, либо тому подобного. В этом случае, многоканальное параметрическое средство 11 будет принимать N исходных каналов на входе 12. В качестве альтернативы многоканальное параметрическое средство 11 также может быть выполнено в виде средства транскодирования для формирования параметрических данных на выходах средства 11 с использованием существующих необработанных параметрических данных, подаваемых на вход 13 необработанных параметров. Если параметрические данные являются простыми BCC-данными, как они обеспечиваются любым средством BCC-анализа, обработка многоканального параметрического средства 11 будет состоять просто в функции копирования данных со входа 13 на выход средства 11. Однако многоканальное параметрическое средство 11 также может быть предназначено для изменения синтаксиса потока необработанных параметрических данных, например, для добавления данных