Устройство и способ для формирования многоканального выходного сигнала
Иллюстрации
Показать всеИзобретение относится к многоканальному декодированию и, в частности, к многоканальному декодированию, при котором представлены, по меньшей мере, два канала передачи. По существу устройство для формирования многоканального выходного сигнала выполняет компенсацию центрального канала, чтобы получать улучшенные основные каналы для восстановления левосторонних выходных каналов или правосторонних выходных каналов, причем устройство включает в себя вычислитель канала компенсации для расчета канала компенсации с использованием информации, относящейся к исходному центральному каналу, имеющемуся в распоряжении в декодере, объединитель для объединения канала передачи с каналом компенсации, а также восстановитель для формирования многоканального выходного сигнала. Вследствие компенсации центрального канала восстановитель (26) канала не только использует разные основные каналы для восстановления центрального канала, но также использует основные каналы, отличные от каналов передачи, для восстановления левого и правого выходных каналов, которые находятся под уменьшенным или даже полностью нейтрализованным влиянием исходного центрального канала. Технический результат - обеспечение высококачественного многоканального восстановления сигнала, обладающего улучшенным восприятия звука. 3 н. и 17 з.п. ф-лы, 13 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящее изобретение относится к многоканальному декодированию и, в частности, к многоканальному декодированию, при котором представлены по меньшей мере два канала передачи, то есть, которое является стереофонически совместимым.
В последнее время технология многоканального воспроизведения звука становится все более и более важной. Это может быть обусловлено тем фактом, что технологии сжатия/кодирования звука, такие как широко известная технология mp3, дали возможность распространять звуковые записи через сеть Интернет или другие каналы передачи, обладающие ограниченной шириной полосы пропускания. Технология кодирования mp3 стала столь знаменитой, вследствие того обстоятельства, что она дает возможность распространения всех записей в стереофоническом формате, то есть цифровом представлении звуковой записи, включающем в себя первый или левый стереоканал и второй или правый стереоканал.
Тем не менее, есть фундаментальные недостатки традиционных двухканальных аудиосистем. Поэтому была разработана технология объемного (surround) звучания. Рекомендованное многоканальное объемное представление включает в себя, в дополнение к двум стереофоническим каналам L и R, дополнительный центральный канал C и два объемных канала Ls, Rs. Этот эталонный аудиоформат также именуется как три/два-стереофония, что означает три фронтальных канала и два объемных канала. Вообще, требуется пять каналов передачи. В среде воспроизведения необходимы по меньшей мере пять громкоговорителей в соответственных пяти разных местах необходимы для получения оптимальной зоны наилучшего восприятия на определенной дистанции от пяти правильно установленных громкоговорителей.
В данной области техники известно несколько технологий для уменьшения количества данных, требуемых для передачи многоканального звукового сигнала. Такие технологии называются технологиями уплотнения стереоинформации. Для этой цели сделана ссылка на фиг.10, которая показывает устройство 60 уплотнения стереоинформации. Это устройство может быть устройством, реализующим, например, кодирование с изменением глубины стереобазы (IS) или бинауральными контрольными сигналами (BCC). Такое устройство, как правило, принимает - в качестве входного сигнала - по меньшей мере два канала (CH1, CH2,... CHn) и выводит единственный несущий канал и параметрические данные. Параметрические данные определяются из условия, чтобы в декодере могла быть рассчитана аппроксимация исходного канала (CH1, CH2,... CHn).
Обычно, несущий канал будет включать в себя отсчеты поддиапазонов, спектральные коэффициенты, отсчеты временной области и т.д., которые обеспечивают сравнительно точное представление лежащего в основе сигнала, тогда как параметрические данные не включают в себя такие отсчеты спектральных коэффициентов, но включают в себя параметры управления для управления определенным алгоритмом восстановления, таким как взвешивание умножением, временная манипуляция, частотная манипуляция,.... Поэтому параметрические данные включают в себя лишь сравнительно грубое представление сигнала или связанного с ним канала.
Указанное в цифрах количество данных, требуемое несущим каналом, будет находиться в диапазоне 60-70 кбит/с, в то время как количество данных, требуемое дополнительной параметрической информацией для одного канала, будет находится в диапазоне 1,5-2,5 кбит/с. Примером параметрических данных являются хорошо известные масштабные коэффициенты, информация изменения глубины стереобазы или параметры бинауральных контрольных сигналов, которые будут описаны ниже.
Кодирование с изменением глубины стереобазы описано в препринте 3799 AES, «Intensity Stereo Coding» («Кодирование с изменением глубины стереобазы»), J. Herre, K. H. Brandenburg, D. Lederer, February 1994, Amsterdam. Вообще, концепция изменения глубины стереобазы основана на преобразовании главной оси, которое должно применяться к данным обоих стереофонических звуковых каналов. Если большинство точек данных на графике сконцентрированы вокруг первой принципиальной оси, эффективность кодирования может достигаться поворотом обоих сигналов на определенный угол перед кодированием. Это, однако, не всегда справедливо для реальных технологий стереофонической обработки. Поэтому эта технология модифицирована исключением второго ортогонального компонента из передачи в битовом потоке. Таким образом, восстановленные сигналы для левого и правого каналов состоят из по разному взвешенных или масштабированных вариантов одного и того же сигнала передачи. Тем не менее, восстановленные сигналы отличаются по своей амплитуде, но идентичны по их фазовой информации. Времяэнергетические огибающие обоих исходных звуковых каналов, однако, сохраняются посредством операции избирательного масштабирования, которая обычно работает избирательным по частоте образом. Это соответствует человеческому восприятию звука на высоких частотах, где доминирующие пространственные контрольные сигналы определяются энергетическими огибающими.
Кроме того, в практических реализациях сигнал передачи, то есть несущий канал, формируется из суммарного сигнала левого канала и правого канала вместо поворота обоих компонентов. Более того, эта обработка, то есть формирование параметров изменения глубины стереобазы для выполнения операции масштабирования, выполняется избирательно по частоте, то есть независимо для каждой полосы масштабного коэффициента, то есть сегмента частот кодировщика. Предпочтительно, чтобы оба канала были объединены для формирования комбинированного или «несущего» канала и, в дополнение к комбинированному каналу, определяется информация изменения глубины стереобазы, которая зависит от энергии первого канала, энергии второго канала или энергии комбинированного канала.
Технология BCC описана в документе 5574 съезда AES, «Binaural cue coding applied to stereo and multichannel audio compression» («Кодирование бинауральными контрольными сигналами применительно к сжатию стереофонического и многоканального звука»), C. Faller, F. Baumgarte, May 2002, Munich. При BCC-кодировании некоторое количество входных звуковых каналов преобразуется в спектральное представление с использованием основанного на ДПФ (дискретном преобразовании Фурье) преобразования с перекрывающимися окнами. Результирующий однородный спектр делится на неперекрывающиеся сегменты, каждый из которых имеет индекс. Каждый сегмент обладает шириной полосы пропускания, пропорциональной эквивалентной прямоугольной полосе пропускания (ERB). По каждому сегменту для каждого кадра k оцениваются межканальные разности уровней (ICLD) и межканальные временные разницы (ICTD). ICLD и ICTD дискретизируются и кодируются, давая в результате битовый BCC-поток. Межканальные разности уровней и межканальные временные разницы задаются для каждого канала относительно опорного канала. Затем параметры рассчитываются в соответствии с предписанными формулами, которые зависят от определенных разбиений сигнала, который должен обрабатываться.
На стороне декодера, декодер принимает монофонический сигнал и битовый BCC-поток. Монофонический сигнал преобразуется в частотную область и вводится в блок пространственного синтеза, который также принимает декодированные значения ICLD и ICTD. В блоке пространственного синтеза, значения BCC-параметров (ICLD и ICTD) используются для выполнения операции взвешивания монофонического сигнала, для того чтобы синтезировать многоканальные сигналы, которые после частотно/временного преобразования представляют восстановление исходного многоканального звукового сигнала.
В случае BCC модуль 60 уплотнения стереоинформации работает таким образом, что выводит дополнительную канальную информацию с тем, чтобы параметрические данные канала были дискретизированными и кодированными параметрами ICLD или ICTD, при этом один из исходных каналов используется в качестве опорного канала для кодирования дополнительной канальной информации.
Обычно несущий канал формируется из суммы участвующих исходных каналов.
Естественно, вышеприведенные технологии обеспечивают только монофоническое представление для декодера, который может обрабатывать только несущий канал, но не способен обрабатывать параметрические данные для формирования одного или более приближений более чем одного входного канала.
Технология кодирования звука, известная как кодирование бинауральными контрольными сигналами (BCC), также хорошо описана в публикациях US 2003, 0219130 A1, 2003/0026441 A1 и 2003/0035553 A1 заявок на выдачу патентов США. Дополнительная ссылка также делается на «Binaural Cue Coding. Part II: Schemes and Applications» («Кодирование бинауральными контрольными сигналами. Часть II: Схемы и применения»), C. Faller and F. Baumgarte, IEEE Trans. On Audio and Speech Proc, Vol. 11, No. 6, Nov. 2993. Приведенные публикации заявок на выдачу патентов США и две приведенные технические публикации по технологии BCC под авторством Faller и Baumgarte включены в материалы настоящей заявки посредством ссылки во всей их полноте.
В последующем типичная общая схема BCC для многоканального кодирования звука детально разбирается со ссылкой на фиг. с 11 по 13. Фиг.11 показывает такую общую схему кодирования бинауральными контрольными сигналами для кодирования/передачи многоканальных звуковых сигналов. Многоканальный звуковой входной сигнал на входе 110 BCC-кодировщика 112 подвергается понижающему микшированию в блоке 114 понижающего микширования. В представленном примере исходным многоканальным сигналом на входе 110 является 5-канальный объемный сигнал, содержащий левый фронтальный канал, правый фронтальный канал, левый объемный канал, правый объемный канал и центральный канал. Например, блок 114 понижающего микширования создает суммарный сигнал простым сложением этих пяти каналов в монофонический сигнал. В данной области техники известны другие схемы понижающего микширования, такие, что с использованием многоканального входного сигнала, может быть получен сигнал понижающего микширования, содержащий одиночный канал. Этот одиночный канал выводится на линию 115 суммарного сигнала. Дополнительная информация, полученная блоком 116 BCC-анализа, выводится на линию 117 дополнительной информации. В блоке BCC-анализа межканальные разности уровней (ICLD), и межканальные временные разницы (ICTD) рассчитываются, как было очерчено выше. В последнее время блок 116 BCC-анализа был усовершенствован, чтобы также рассчитывать значения межканальной корреляции (значения ICC). Суммарный сигнал и дополнительная информация передаются предпочтительно в дискретизированной и кодированной форме, в BCC-декодер 120. BCC-декодер разлагает переданный суммарный сигнал на некоторое количество поддиапазонов и применяет масштабирование, задержки и другую обработку, чтобы формировать поддиапазоны выходных многоканальных звуковых сигналов. Эта обработка выполняется таким образом, чтобы параметры (контрольные сигналы) ICLD, ICTD и ICC восстановленного многоканального сигнала на выходе 121 были подобны соответствующим контрольным сигналам для исходного многоканального сигнала на входе 110 в BCC-кодировщик 112. Для этой цели BCC-декодер 120 включает в себя блок 122 BCC-синтеза и блок 123 обработки дополнительной информации.
Далее, со ссылкой на фиг.12 разъясняется внутреннее строение блока 122 BCC-синтеза. Суммарный сигнал на линии 115 вводится в модуль время/частотного преобразования или гребенку 125 фильтров, обозначенную как FB. На выходе блока 125 существует некоторое количество N сигналов поддиапазонов, в предельном случае, блок спектральных коэффициентов, когда гребенка 125 звуковых фильтров выполняет преобразование 1:1, то есть преобразование, которое выдает N спектральных коэффициентов из N отсчетов во временной области.
Блок 122 BCC-синтеза дополнительно содержит каскад 126 задержки, каскад 127 изменения уровня, каскад 128 корреляционной обработки и каскад гребенки 129 обратных фильтров, обозначенной как IFB. На выходе каскада 129 восстановленный многоканальный звуковой сигнал, содержащий, например, пять каналов в случае 5-канальной системы объемного звучания, может выводиться на множество громкоговорителей 124, как проиллюстрировано на фиг.11.
Как показано на фиг.12, входной сигнал s(n) преобразуется в частотную область или область гребенок фильтров посредством элемента 125. Сигнал, выдаваемый элементом 125, размножается, таким образом, чтобы были получены несколько вариантов одного и того же сигнала, как проиллюстрировано узлом 130 размножения. Количество вариантов исходного сигнала равно количеству выходных каналов в выходном сигнале, который должен быть восстановлен, когда, в общем, каждый вариант исходного сигнала в узле 130 подвергнут определенной задержке d1, d2,..., di,..., dN. Параметры задержки рассчитываются блоком 123 обработки дополнительной информации по фиг.11 и выводятся из межканальных временных разниц, которые определены блоком 116 BCC-анализа.
То же самое справедливо для параметров a1, a2,..., ai,..., aN, умножения, которые также рассчитываются блоком 123 обработки дополнительной информации на основании межканальных разностей уровней, которые рассчитаны блоком 116 BCC-анализа.
Параметры ICC, рассчитанные блоком 116 BCC-анализа, используются для управления выполняемыми функциями блока 128 таким образом, чтобы на выходах блока 128 были получены определенные корреляции между задержанными и манипулированными по уровню сигналами. Здесь следует отметить, что очередность между каскадами 126, 127, 128 может быть отличной от случая, показанного на фиг.12.
Здесь следует отметить, что при по-кадровой обработке звукового сигнала, BCC-анализ выполняется по-кадровым образом, то есть с временной зависимостью и, к тому же, по-частотным образом. Это означает, что для каждой спектральной полосы получаются BCC-параметры. Это означает, что, в случае, когда гребенки 125 звуковых фильтров разлагают входной сигнал на, например, 32 сигнала полосовых фильтров, блок BCC-анализа получает множество BCC-параметров для каждой из 32 полос. Как и следовало ожидать, блок 122 BCC-синтеза по фиг.11, который показан подробно на фиг.12, выполняет восстановление, которое, в этом примере, также основано на 32 полосах.
Далее, обратимся к фиг.13, показывающей схему расстановки для определения некоторых BCC-параметров. Обычно параметры ICLD, ICTD и ICC могут определяться между парами каналов. Однако предпочтительно определять параметры ICLD и ICTD между опорным каналом и каждым другим каналом. Это проиллюстрировано на фиг.13А.
Параметры ICC могут определяться разными способами. В наиболее общем смысле можно было бы оценивать параметры ICC в кодировщике между всеми возможными парами каналов, как показано на фиг.13В. В этом случае декодер синтезировал бы ICC таким образом, чтобы он был приблизительно таким же, как в исходном многоканальном сигнале между всеми возможными парами каналов. Однако предлагалось оценивать параметры ICC только между самыми интенсивными двумя каналами в каждый момент времени. Эта схема проиллюстрирована на фиг.13С, где показан пример, в котором в один момент времени, параметр ICC оценивается между каналами 1 и 2, а в другой момент времени, параметр ICC рассчитывается между каналами 1 и 5. Декодер, затем, синтезирует межканальную корреляцию между самыми мощными каналами в декодере и примеряет некоторые эвристические правила для расчета и синтеза межканальной когерентности для оставшихся пар каналов.
Что касается расчета, например, параметров a1, aN умножения на основании переданных параметров ICLD, то сделана ссылка на документ 5574 съезда AES, упомянутый выше. Параметры ICLD представляют распределение энергии в исходном многоканальном сигнале. Без потери степени общности, на фиг.13А показано, что есть четыре параметра ICLD, показывающих разность энергий между всеми другими каналами и левым фронтальным каналом. В блоке 123 обработки дополнительной информации, параметры a1,..., aN умножения выводятся из параметров ICLD таким образом, чтобы полная энергия всех восстановленных выходных каналов была такой же, как энергия переданного суммарного сигнала (или пропорциональной этой энергии). Простым способом для определения этих параметров является 2-стадийная последовательность операций, в которой, на первой стадии, коэффициент усиления для левого фронтального канала устанавливается в единицу, в то время как коэффициенты усиления для других каналов по фиг.13А устанавливаются в переданные значения ICLD. Затем, на второй стадии, энергия всех пяти каналов рассчитывается и сравнивается с энергией переданного суммарного сигнала. Затем все каналы масштабируются с понижением с использованием коэффициента масштабирования с понижением, который является идентичным для всех каналов, при этом коэффициент масштабирования с понижением выбирается таким, чтобы полная энергия всех восстановленных выходных каналов, после масштабирования с понижением, была равной полной энергии переданного суммарного сигнала.
Естественно, есть другие способы для расчета коэффициентов усиления, которые не полагаются на 2-стадийную последовательность операций, а которым требуется только 1-стадийная последовательность операций.
Что касается параметров задержки, то следует отметить, что параметры ICTD задержки, которые передаются из BCC-кодировщика, могут использоваться непосредственно, когда параметр d1 задержки для левого фронтального канала установлен в ноль. Здесь не должно делаться никакого изменения масштаба, так как задержка не изменяет энергию сигнала.
Что касается измерения межканальной когерентности ICC, передаваемой из BCC-кодировщика в BCC-декодер, то здесь следует отметить, что манипуляция когерентности может производиться посредством изменения коэффициентов a1,..., an усиления, например, посредством умножения весовых коэффициентов всех поддиапазонов на случайные числа с широтой выборки [20log10(-6) и 20log10(6)]. Псевдослучайная последовательность выбирается предпочтительно такой, чтобы дисперсия была приблизительно постоянной для всех критических полос, а среднее значение было нулевым в пределах каждой критической полосы. Такая же последовательность применяется к спектральным коэффициентам для каждого отличного кадра. Таким образом, ширина акустического образа управляется посредством изменения дисперсии псевдослучайной последовательности. Более высокая дисперсия порождает бòльшую ширину образа. Изменение дисперсии может выполняться в отдельных полосах, которые имеют ширину критических полос. Это дает возможность одновременного существования многочисленных объектов на акустической сцене, каждый объект имеет разную ширину образа. Подходящим распределением амплитуд для псевдослучайной последовательности является равномерное распределение по логарифмической шкале, которое уже описано в публикации 2003/0219130 A1 заявки на выдачу патента США. Тем не менее, вся обработка BCC-синтеза имеет отношение к одиночному входному каналу, передаваемому как суммарный сигнал из BCC-кодировщика в BCC-декодер, как показано на фиг.11.
Чтобы передавать пять каналов совместимым способом, то есть в формате битового потока, который также понятен для обычного стереодекодера, была использована так называемая технология матрицирования, которая описана в «MUSICAM surround: a universal multi-channel coding system compatible with ISO 11172-3» («Объемное звучание MUSICAM: универсальная система многоканального кодирования, совместимая с ISO 11172-3»), G. Theile and G. Stoll, AES preprint 3403, October 1992, San Francisco. Пять входных каналов L, R, C, Ls и Rs подаются в устройство матрицирования, выполняющее операцию матрицирования, чтобы рассчитывать основные или совместимые стереофонические каналы Lo, Ro по пяти входным каналам. В частности, эти базовые стереофонические каналы Lo/Ro рассчитываются как изложено ниже:
Lo = L + xC + yLs
Ro = R + xC + yRs
x и y - константы. Другие три канала C, Ls, Rs передаются, как они есть, на уровне расширения, в дополнение к основному стереофоническому уровню, который включает в себя кодированный вариант основных стереофонических сигналов Lo/Ro. Что касается битового потока, то этот основной стереофонический уровень Lo/Ro включает в себя заголовок, информацию, такую как коэффициенты масштабирования и отсчеты поддиапазонов. Уровень многоканального расширения, то есть центральный канал и два объемных канала, включены в поле многоканального расширения, которое также называется полем служебных данных.
На стороне декодера выполняется операция обратного матрицирования, для того чтобы сформировать восстановления левого и правого каналов в пятиканальном представлении, с использованием основных стереофонических каналов Lo, Ro и трех дополнительных каналов. Дополнительно, три дополнительных канала декодируются из служебной информации, для того чтобы получить декодированное пятиканальное или объемное представление исходного многоканального звукового сигнала.
Еще один подход к многоканальному кодированию описан в публикации «Improved MPEG-2 audio multi-channel encoding» («Усовершенствованное многоканальное MPEG-2-кодирование звука»), B. Grill, J. Herre, K. H. Brandenburg, E. Eberlein, J. Roller, J. Mueller, AES preprint 3865, February 1994, Amsterdam, в котором, для того чтобы получить обратную совместимость, рассматриваются допускающие обратную совместимость режимы. Для этой цели используется матрица совместимости для получения так называемых каналов Lc, Rc понижающего микширования из исходных пяти входных каналов. Более того, возможно динамически выбирать три вспомогательных канала, передаваемых в качестве служебных данных.
Для того чтобы использовать стереофоническую неотносимость, технология уплотнения стереоинформации применяется к группам каналов, например, трем фронтальным каналам, то есть для левого канала, правого канала и центрального канала. Для этой цели эти три канала объединяются, чтобы получить комбинированный канал. Этот комбинированный канал дискретизируется и упаковывается в битовый поток. Затем этот комбинированный канал вместе с соответствующей информацией уплотнения стереоинформации вводится в модуль декодирования с уплотнением стереоинформации, чтобы получить декодированные с уплотнением стереоинформации каналы, то есть декодированный с уплотнением стереоинформации левый канал, декодированный с уплотнением стереоинформации правый канал и декодированный с уплотнением стереоинформации центральный канал. Эти декодированные с уплотнением стереоинформации каналы вместе с левым объемным каналом и правым объемным каналом вводятся в блок матрицы совместимости, чтобы сформировать первый и второй каналы Lc, Rc понижающего микширования. Затем дискретизированные варианты обоих каналов понижающего микширования и дискретизированный вариант комбинированного канала упаковываются в битовый поток вместе с параметрами кодирования с уплотнением стереоинформации.
Поэтому при использовании кодирования с изменением глубины стереобазы группа независимых сигналов исходных канальных сигналов передается в пределах единой порции «несущих» данных. Декодер затем восстанавливает привлеченные сигналы в качестве идентичных данных, которые подвергаются изменению масштаба согласно своим исходным времяэнергетическим огибающим. Следовательно, линейная комбинация переданных каналов будет приводить к результатам, которые совершенно отличны от исходного понижающего микширования. Это относится к любой разновидности кодирования с уплотнением стереоинформации на основании концепции изменения глубины стереобазы. Для системы кодирования, предоставляющей совместимые каналы понижающего микширования, есть прямое следствие. Восстановление посредством дематрицирования, которое описано в предыдущей публикации, страдает от артефактов, вызванных несовершенным восстановлением. Использование так называемой схемы предыскажения уплотнения стереоинформации, в которой кодирование с уплотнением стереоинформации левого, правого и центрального каналов выполняется перед матрицированием в кодировщике, смягчает эту проблему. Таким образом, схема дематрицирования для восстановления привносит меньше артефактов, так как на стороне кодировщика, декодированные уплотненные стереофонические сигналы были использованы для формирования каналов понижающего микширования. Таким образом, несовершенство последовательности операций восстановления смещается на совместимые каналы Lc и Rc понижающего микширования, где оно гораздо более вероятно будут замаскировано самим звуковым сигналом.
Хотя такая система привела к меньшему количеству артефактов из-за дематрицирования на стороне декодера, тем не менее она имеет некоторые недостатки. Недостаток состоит в том, что стереофонически совместимые каналы Lc и Rc понижающего микширования выводятся не из исходных каналов, а из вариантов исходных каналов, кодированных/декодированных с изменением глубины стереобазы. Поэтому потери данных вследствие системы кодирования с изменением глубины стереобазы включаются в состав совместимых каналов понижающего микширования. Исключительно стереофонический декодер, который декодирует только совместимые каналы, а не усовершенствованные каналы, кодированные с изменением глубины стереобазы, следовательно, выдает выходной сигнал, который поражается потерями данных привнесенными изменением глубины стереобазы.
Кроме того, помимо двух каналов понижающего микширования должен передаваться полный дополнительный канал. Этот канал является комбинированным каналом, который сформирован посредством кодирования с уплотнением стереоинформации левого канала, правого канала и центрального канала. Кроме того, информация изменения глубины стереобазы для восстановления исходных каналов L, R, C из комбинированного канала также должна передаваться в декодер. В декодере выполняется обратное матрицирование, то есть операция дематрицирования, чтобы вывести каналы объемного звучания из двух каналов понижающего микширования. Кроме того, исходные левый, правый и центральный каналы аппроксимируются посредством декодирования уплотненной стереоинформации с использованием переданного комбинированного канала и переданных параметров уплотнения стереоинформации. Следует отметить, что исходный левый, правый и центральный каналы выводятся посредством декодирования уплотненной стереоинформации комбинированного канала.
Усовершенствованием схемы BCC, показанной на фиг.11, является схема с, по меньшей мере, двумя каналами передачи звука, так что получается стереофонически совместимая обработка. В кодировщике C входных каналов подвергаются понижающему микшированию в E звуковых каналов передачи. Контрольные сигналы ICTD, ICLD и ICC между определенными парами входных каналов оцениваются как функция частоты и времени. Оцененные контрольные сигналы передаются в декодер в качестве дополнительной информации. Схема BCC с C входными каналами и E каналами передачи обозначается BCC C-в-E.
Вообще говоря, BCC-обработка является избирательной по частоте, зависящей от времени постобработкой передаваемых каналов. Ниже, исходя из подразумеваемого понимания этого, индекс полосы частот вводиться не будет. Вместо этого, переменные, подобные xn, sn, yn, an, предполагаются векторами с размерностью (1,f), при этом, f обозначает количество полос частот.
Так называемая правильная схема BCC описана в C. Faller and F. Baumgarte, «Binaural Cue Coding applied to stereo and multi-channel audio compression» («Кодирование бинауральными контрольными сигналами применительно к стереофоническому и многоканальному кодированию звука»), in Preprint 112 th Conv. Aud. Engl. Soc, May 2002, F. Baumgarte and C. Faller, «Binaural Cue Coding - Part I: Psychoacoustic fundamentals and design principles» («Кодирование бинауральными контрольными сигналами - часть I: психоакустические начала и основы конструирования»), IEEE Trans. On Speech and Audio Proc., vol. 11, no. 6, Nov. 2003, и C. Faller and F. Baumgarte, «Binaural Cue Coding - Part II; Schemes and applications» («Кодирование бинауральными контрольными сигналами - часть II: схемы и применения»), IEEE Trans. On Speech and Audio Proc, vol. 11, no. 6, Nov. 2003. При этом, то, что она содержит одиночный передаваемый звуковой канал, как показано на фиг.11, является обратно совместимым расширением существующих монофонических систем для стереофонического или многоканального воспроизведения звука. Так как переданный одиночный звуковой канал является действующим монофоническим сигналом, он является пригодным для воспроизведения унаследованными приемниками.
Однако большинство установленных инфраструктур широковещательной передачи звука (аналоговое и цифровое радио, телевидение и т. п.) и систем хранения звука (виниловые диски, магнитофонная кассета, компакт-диск, запоминающие устройства VHS-видео, MP3-звука, и т. п.) основаны на двухканальной стереофонии. С другой стороны, все более популярными становятся «системы домашних кинотеатров», соответствующие стандарту 5.1 (Rec. ITU-R BS.775, Multi-Channel Stereophonic Sound System with or without Accompanying Picture (Многоканальная стереофоническая аудиосистема в присутствие или в отсутствие сопутствующего изображения), ITU, 1993, http://www.itu.org) Так, BCC с двумя каналами передачи (BCC C-в-2), как она описана в J. Herre, C. Faller, C. Ertel, J. Hilpert, A. Hoelzer, and C. Spenger, «MP3 Surround: Efficient and compatible coding of multichannel audio» («Объемное звучание MP3: эффективное и совместимое кодирование многоканального звука») in Preprint 116 th Conv. Aud. Eng. Soc, May 2004, представляет особый интерес, для расширения существующих стереофонических систем для многоканального объемного звучания. В этой связи, также дается ссылка на заявку «Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal» («Устройство и способ для построения многоканального выходного сигнала или для формирования сигнала понижающего микширования») на выдачу патента США, под порядковым номером 10/762,100, поданную 20 января 2004 г.
В аналоговой области, в течение многих лет были популярны алгоритмы матрицирования, такие как «Dolby Surround» («Технология объемного звучания Долби»), «Dolby Pro Logic» (технология озвучивания Долби, совмещающая диалоги и звуковые эффекты с сюжетом) и «Dolby Pro Logic II» (J. Hull, «Surround sound past, present, and future» («Прошлое, настоящее и будущее объемного звука»), Techn. Rep., Dolby Laboratories, 1999, www.dolby.com/tech/; R. Dressier, «Dolby Surround Prologic II Decoder - Principles of operation» («Декодер Dolby Surround Prologic II - принципы работы»), Techn Rep., Dolby Laboratories, 2000, www. dolby.com/tech/). Такие алгоритмы применяют «матрицирование» для отображения звуковых каналов 5.1 в стереофонически совместимую пару каналов. Однако алгоритмы матрицирования обеспечивают лишь значительно сниженные гибкость и качество по сравнению с раздельными звуковыми каналами, как они описаны в J. Herre, C. Faller, C. Ertel, J. Hilpert, A. Hoelzer, and C. Spenger, «MP3 Surround: Efficient and compatible coding of multi-channel audio» («Объемное звучание MP3: эффективное и совместимое кодирование многоканального звука»), in Preprint 116 th Conv. Aud. Eng. Soc., May 2004. Если ограничения алгоритмов матрицирования уже учтены при микшировании звуковых сигналов для объемного звучания 5.1, некоторые из влияний этого несовершенства могут быть снижены, как описано в J. Hilson, «Mixing with Dolby Pro Logic II Technology» («Микширование с помощью технологии Dolby Pro Logic II»), Tech. Rep., Dolby Laboratories, 2004, www.dolby.com/tech/PLII.Mixing.JimHilson.html.
Кодирование BCC C-в-2 может рассматриваться в качестве схемы с аналогичными функциональными возможностями, как в алгоритме матрицирования с вспомогательной дополнительной информацией. Однако оно является более общим по своей природе, так как оно поддерживает отображение из любого количества исходных каналов в любое количество передаваемых каналов. Кодирование BCC C-в-E предназначено для цифровой области и его добавочная дополнительная информация низкой битовой скорости обычно может быть включена в существующую передачу данных обратно совместимым способом. Это означает, что унаследованные приемники будут игнорировать добавочную дополнительную информацию и воспроизводить 2 передаваемых канала непосредственно, как это описано в J. Herre, C. Faller, C. Ertel, J. Hilpert, A. Hoelzer, and C. Spenger, «MP3 Surround: Efficient and compatible coding of multi-channel audio» («Объемное звучание MP3: эффективное и совместимое кодирование многоканального звука»), in Preprint 116 th Conv. Aud. Eng. Soc., May 2004. Неизменная цель состоит в том, чтобы достичь качества звука, подобного раздельной передаче исходных звуковых каналов, то есть значительно лучшего качества, чем то, которое может ожидаться от традиционного алгоритма матрицирования.
Ниже, сделана ссылка на фиг.6a, чтобы проиллюстрировать работу традиционного кодировщика понижающего микширования для формирования двух каналов передачи из пяти входных каналов, которыми являются левый канал L или x1, правый канал R или x2, центральный канал C или x3, левый объемный канал sL или x4 и правый объемный канал sR или x5. Ситуация понижающего микширования схематично показана на фиг.6a. Становится ясным, что первый канал y1 передачи формируется с использованием левого канала x1, центрального канала x3 и левого объемного канала x4. Кроме того, фиг.6a проясняет, что правый канал y2 передачи формируется с использованием правого канала x2, центрального канала x3 и правого объемного канала x5.
Предпочтительное в большинстве случаев правило понижающего микширования или матрица понижающего микширования показаны на фиг.6с. Становится ясным, что центральный канал x3 взвешивается весовым коэффициентом 1/√2, что означает, что первая половина энергии центрального канала x3 помещается в левый канал передачи или первый канал Lt передачи, тогда как вторая половина энергии в центральном канала вводится во второй канал передачи или правый канал Rt передачи. Таким образом, понижающее микширование отображает входные каналы в передаваемые каналы. Понижающее микширование традиционно описывается матрицей (m,n), отображающей n входных отсчетов в m выходных отсчетов. Элементами этой матрицы являются веса, применяемые к соответствующим каналам перед суммированием для формирования связанного выходного канала.
Существуют разные способы понижающего микширования, которые могут быть найдены в рекомендациях МСЭ (ITU, международного союза электросвязи) (Rec. ITU-R BS.775, Multi-Channel Stereophonic Sound System with or without Accompanying Picture (Многоканальная стереофоническая аудиосистема в присутствие или в отсутствие сопутствующего изображения), ITU, 1993, http://www.itu.org). Дополнительно, делается ссылка на J. Herre, C. Faller, C. Ertel, J. Hilpert, A. Hoelzer, and C. Spenger, «MP3 Surround: Efficient and compatible coding of multi-channel audio» («Объемное звучание MP3: эффективное и совместимое кодирование многоканального звука») in Preprint 116 th Conv. Aud. Eng. Soc, May 2004, раздел 4.2 касательно разных способов понижающего микширования. Понижающее микширование может выполняться либо во временной, либо в частотной области. Оно может быть переменным во времени адаптирующимся к сигналу способом или зависимым от (полосы) частот. Распределение каналов показано матрицей, справа по фиг.6а, и задано следующим образом:
Так, для важного случая кодирования BCC 5-в-2, один передаваемый канал рассчитывается по правому, заднему правому и центральному, а другой передаваемый канал - по левому, заднему левому и центральному, соответствующим матрице понижающего микширования для примера
который также показан на фиг.6с.
В этой матрице понижающего микширования весовые коэффициенты могут выбираться такими, чтобы суммой квадратов значений в каждом столбце была единица, так чтобы мощность каждого входного сигнала равномерно раскладывалась по подвергнутым понижающему микшированию сигналам. Конечно, равным образом могли бы использоваться и другие схемы понижающего микширования.
В частности, делается ссылка на фиг.6b или 7b, которые показывают конкретную реализацию схемы понижающего микширования кодировщика. Показана обработка для одного поддиапазона. В каждом поддиапазоне масштабные коэффициенты e1 и e2 регулируются, чтобы «выравнивать» громкость сигнальных компонентов в подвергнутом понижающему микшированию сигнале. В этом случае понижающее микширование выполняется в частотной области с переменной n (фиг.7b), обозначающей временной индекс поддиапазона частотной области, и k, являющимся индексом преобразованного сигнального блока временной области. В частности, следует обратить внимание на взвешивающее устройство для взвешивания центрального канала перед тем, как в