Устройство и способ создания многоканального выходного сигнала или формирования низведенного сигнала

Иллюстрации

Показать все

Изобретение относится к устройству и способу для обработки многоканального звукового сигнала, в частности к способу, совместимому со стереофоническим. Предложено устройство с использованием входного сигнала и параметрической дополнительной информации, при этом входной сигнал включает в себя первый входной канал и второй входной канал, выведенные из исходного многоканального сигнала; параметрическая дополнительная информация, описывающая взаимосвязи между каналами многоканального исходного сигнала, использует основные каналы для синтезирования (324) первого и второго выходных каналов по одну сторону от предполагаемого расположения слушателя, которые отличаются друг от друга вследствие критерия когерентности. Когерентность между основными каналами (например, левым и левым восстановленным каналом окружающего звука) снижается посредством расчета (322) основного канала для одного из этих каналов посредством комбинации входных каналов, при этом комбинация определяется посредством критерия когерентности. Технический результат - обеспечение эффективного восстановления многоканального сигнала за счет уменьшения искажений. 5 н. и 20 з.п. ф-лы, 25 ил.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение относится к устройству и способу для обработки многоканального звукового сигнала и, в частности, к устройству и способу для обработки многоканального звукового сигнала способом, совместимым со стереофоническим.

Уровень техники

В последнее время методика многоканального звуковоспроизведения становится более и более важной. Это может быть обусловлено фактом, что методики звукового сжатия/кодирования, например хорошо известная методика mp3, сделали возможным распространять звуковые записи через Интернет или другие каналы передачи, имеющие ограниченную пропускную способность. Методика кодирования mp3 стала такой известной из-за факта, что она позволяет распространение всех записей в стереофоническом формате, т.е. цифровом представлении звуковой записи, включающем в себя первый, или левый, стереофонический канал и второй, или правый, стереофонический канал.

Тем не менее, существуют основные недостатки традиционных двухканальных звуковых систем. Поэтому разработана методика объемного звучания. Рекомендуемое многоканально-объемное представление включает в себя, в дополнение к двум стереофоническим каналам L и R, дополнительный центральный канал С и два канала Ls, Rs окружающего (объемного звука). Этот эталонный звуковой формат также называется стереофонией три/два, которая означает три передних канала и два канала окружающего звука. Обычно требуются пять каналов передачи. В среде звуковоспроизведения необходимо по меньшей мере пять динамиков на соответствующих пяти различных местах, чтобы добиться оптимальной зоны наилучшего восприятия на определенном расстоянии от пяти хорошо размещенных громкоговорителей.

Несколько методик известны в данной области техники, уменьшающие количество данных, необходимых для передачи многоканального звукового сигнала. Такие методики называются методиками квазистереофонии. С этой целью сделана ссылка на Фиг.10, которая показывает устройство 60 квазистереофонии. Это устройство может являться устройством, реализующим, например, мощную стереофонию (IS) или бинауральное кодирование сигнала (BCC). Такое устройство обычно принимает - в качестве входа - по меньшей мере два канала (CH1, CH2, ... CHn) и выводит единый высокочастотный канал и параметрические данные. Параметрические данные определяются из условия, чтобы в декодере могло быть рассчитано приближенное значение исходного канала (CH1, CH2, ... CHn).

Обычно высокочастотный канал будет включать в себя выборки поддиапазона, спектральные коэффициенты, выборки временного интервала и т.д., которые обеспечивают относительно точное представление основного сигнала, в то время как параметрические данные не включают в себя такие выборки спектральных коэффициентов, но включают в себя параметры управления для управления определенным алгоритмом восстановления, например, взвешиванием с помощью умножения, временной манипуляцией, смещением частоты,... Параметрические данные, следовательно, включают в себя только относительно грубое представление сигнала или ассоциативно связанного канала. Выраженный в цифрах объем данных, требуемый высокочастотным каналом, будет находиться в диапазоне 60-70 Кбит/с, тогда как объем данных, требуемый параметрической дополнительной информацией для одного канала, будет находиться в диапазоне 1,5-2,5 Кбит/с. Примером для параметрических данных являются хорошо известные масштабные коэффициенты, информация о мощной стереофонии или параметры бинаурального сигнала, которые будут описаны далее.

Мощная стереофония описывается в препринте AES 3799, «Intensity Stereo Coding» (Мощное стереофоническое кодирование), J. Herre (Дж. Херр), K. H. Brandenburg (К.Х. Бранденбург), D. Lederer (Д. Ледерер), февраль 1994 г., Амстердам. В целом концепция мощной стереофонии основывается на преобразовании основной оси, которое нужно применить к данным обоих стереофонических звуковых каналов. Если большинство точек данных концентрируется вокруг оси первоисточника, цель кодирования может быть достигнута с помощью поворота обоих сигналов на определенный угол до кодирования. Это, однако, не всегда верно для настоящих методик создания стереофонии. Следовательно, эта методика модифицируется посредством исключения второй ортогональной компоненты из передачи в потоке двоичных сигналов. Таким образом, восстановленные сигналы для левых и правых каналов состоят из вариантов того же переданного сигнала, по-разному взвешенных или масштабированных. Тем не менее, восстановленные сигналы отличаются в своей амплитуде, но идентичны относительно своей информации о фазе. Кривые энергии-времени обоих исходных звуковых каналов, однако, сохраняются посредством операции выборочного масштабирования, которая обычно действует способом выборочной частоты. Это соответствует человеческому восприятию звука на высоких частотах, где преобладающие пространственные сигналы определяются с помощью кривых энергии.

Кроме того, в практических реализациях переданный сигнал, т.е. высокочастотный канал, формируется из суммарного сигнала левого канала и правого канала вместо смены обоих компонентов. Более того, эта обработка, т.е. формирование параметров мощной стереофонии для выполнения операции масштабирования, выполняется выборочно по частоте, т.е. независимо для каждого диапазона масштабного коэффициента, т.е. распределения частоты кодера. Предпочтительно, чтобы оба канала объединялись для образования комбинированного или «высокочастотного» канала, и в дополнение к комбинированному каналу определяется информация мощной стереофонии, которая зависит от энергии первого канала, энергии второго канала или энергии комбинированного канала.

Методика BCC описана в конвенционном документе AES 5574 «Binaural cue coding applied to stereo and multi-channel audio compression» (Бинауральное кодирование сигнала, применяемое к стереофонии и сжатию многоканального звука), C. Faller (К.Фоллер), F. Baumgarte (Ф. Баумгарт), май 2002 г., Мюнхен. При кодировании BCC некоторое количество входящих звуковых каналов преобразуется в спектральное представление, используя преобразование на основе DFT (дискретное преобразование Фурье) с перекрывающимися окнами. Результирующий однородный спектр разделяется на неперекрывающиеся части, каждая из которых имеет индекс. Каждая часть имеет пропускную способность, пропорциональную эквивалентной прямоугольной полосе частот (ERB). Межканальная разность уровней (ICLD) и межканальная разность времени (ICTD) оцениваются для каждой части для каждого кадра k. ICLD и ICTD квантуются и кодируются, что приводит к потоку двоичных сигналов BCC. Межканальные разности уровней и межканальные разности времени задаются для каждого канала относительно опорного канала. Затем рассчитываются параметры в соответствии с принятой формулой, которая зависит от определенных частей сигнала, которые необходимо обработать.

На стороне декодера декодер принимает монофонический сигнал и поток двоичных сигналов ВСС. Монофонический сигнал преобразуется в частотную область и вводится в блок пространственного синтеза, который также принимает декодированные значения ICLD и ICTD. В блоке пространственного синтеза значения параметров BCC (ICLD и ICTD) используются для выполнения операции взвешивания монофонического сигнала, для того чтобы синтезировать многоканальные сигналы, которые после частотного/временного преобразования представляют восстановление исходного многоканального звукового сигнала.

В случае BCC, модуль 60 квазистереофонии выполнен с возможностью вывода дополнительной информации канала из условия, чтобы параметрические данные канала являлись квантованными и кодированным параметрами ICLD или ICTD, где один из исходных каналов используется как опорный канал для кодирования дополнительной информации канала.

Обычно высокочастотный канал образуется из суммы составляющих исходных каналов.

Естественно, вышеизложенные методики только обеспечивают монофоническое представление для декодера, который может лишь обрабатывать высокочастотный канал, но не способен обрабатывать параметрические данные для формирования одного или нескольких приближенных значений более чем одного входного канала.

Методика звукового кодирования, известная как бинауральное кодирование сигнала (BCC), также хорошо описывается в публикациях патентных заявок США US 2003/0219130 A1, 2003/0026441 A1 и 2003/0035553 A1. Дополнительная ссылка сделана также на «Binaural Cue Coding. Part II: Schemes and Applications» (Бинауральное кодирование сигнала. Часть II: схемы и применения), C. Faller (K.Фоллер) и F. Baumgarte (Ф. Баумгарт), IEEE Trans. On Audio and Speech Proc., том 11, номер 6, ноябрь 1993. Приведенные публикации патентных заявок США и две приведенные технические публикации по методике BCC под авторством Фоллера и Баумгарте включаются в данный документ полностью с помощью ссылки.

Далее детально разрабатывается типовая общая схема ВСС для многоканального звукового кодирования со ссылкой на Фиг.11-13. Фиг.11 показывает такую общую схему бинаурального кодирования сигнала для кодирования/передачи многоканальных звуковых сигналов. Многоканальный звуковой входной сигнал на входе 110 кодера 112 BCC низводится в блоке 114 низведения (downmix - уменьшение числа каналов, используемое для преобразования цифрового 5.1-канального звукового формата «Dolby Digital» в двухканальный сигнал «Dolby Surround». В настоящем примере исходный многоканальный сигнал на входе 110 является 5-канальным сигналом окружающего звука, имеющим передний левый канал, передний правый канал, левый канал окружающего звука, правый канал окружающего звука и центральный канал. В предпочтительном варианте осуществления настоящего изобретения блок 114 низведения создает суммарный сигнал с помощью простого дополнения этих пяти каналов в монофонический сигнал. В данной области техники известны другие схемы низведения, так что, используя многоканальный входной сигнал, может быть получен низведенный сигнал, имеющий единственный канал. Этот единственный канал выводится на линии 115 суммарного сигнала. Дополнительная информация, полученная с помощью блока 116 анализа ВСС, выводится на линии 117 дополнительной информации. В блоке анализа ВСС межканальные разности уровней (ICLD) и межканальные разности времени (ICTD) рассчитываются, как описано выше. В последнее время блок 116 анализа ВСС улучшен, чтобы рассчитывать также межканальные корреляционные значения (значения ICC). Суммарный сигнал и дополнительная информация передается предпочтительно в квантованной и кодированной форме на декодер 120 ВСС. Декодер ВСС разлагает на составные части переданный суммарный сигнал на некоторое количество поддиапазонов и применяет масштабирование, задержки и другую обработку, чтобы формировать поддиапазоны выходных многоканальных звуковых сигналов. Эта обработка выполняется из условия, чтобы параметры (сигналы) ICLD, ICTD и ICC восстановленного многоканального сигнала на выходе 121 являлись похожими на соответствующие сигналы для исходного многоканального сигнала на входе 110 в кодер 112 ВСС. С этой целью декодер 120 ВСС включает в себя блок 122 синтеза ВСС и блок 123 обработки дополнительной информации.

Далее внутреннее устройство блока 122 синтеза ВСС объясняется со ссылкой на Фиг.12. Суммарный сигнал на линии 115 вводится в блок частотного/временного преобразования или гребенку 115 фильтров FB. На выходе блока 125 существует некоторое количество N сигналов поддиапазона или, в крайнем случае, группа спектральных коэффициентов, когда гребенка 125 звуковых фильтров выполняет преобразование 1:1, т.е. преобразование, которое создает N спектральных коэффициентов из N выборок временной области.

Блок 122 синтеза ВСС дополнительно содержит этап 126 задержки, этап 127 модификации уровня, этап 128 обработки корреляции и этап 129 обратной гребенки фильтров IFB. На выходе этапа 129 восстановленный многоканальный звуковой сигнал, имеющий, например, пять каналов в случае 5-канальной системы окружающего (объемного) звука, может быть выведен на комплект громкоговорителей 124, как проиллюстрировано на Фиг.11.

Как показано на Фиг.12, входной сигнал s(n) преобразуется в частотную область или область гребенки (блока) фильтров посредством элемента 125. Выход сигнала с помощью элемента 125 умножается, так что получаются несколько вариантов одного и того же сигнала, как проиллюстрировано с помощью узла 130 умножения. Количество вариантов исходного сигнала равно количеству выходных каналов в выходном сигнале, который необходимо восстановить. Затем, в общем, каждый вариант выходного сигнала на узле 130 подвергается определенной задержке d1, d2, ..., di, ..., dN. Параметры задержки вычисляются блоком 123 обработки дополнительной информации на Фиг.11 и выводятся из межканальных разностей времени, как определено блоком 116 анализа ВСС.

То же самое является верным для коэффициентов умножения a1, a2, ..., ai, ..., aN, которые также рассчитываются блоком 123 обработки дополнительной информации на основе межканальных разностей уровней, которые рассчитываются блоком 116 анализа ВСС.

Параметры ICC, рассчитанные блоком 116 анализа BCC, используются для управления функциональными возможностями блока 128 из условия, чтобы определенные взаимосвязи между задержанными и регулируемыми по уровню сигналами получались на выходах блока 128. Здесь следует заметить, что порядок этапов 126, 127, 128 может отличаться от случая, показанного на Фиг.12.

Здесь следует заметить, что в покадровой обработке звукового сигнала анализ ВСС выполняется покадрово, т.е. в зависимости от времени, а также частотно. Это означает, что для каждой спектральной полосы получаются параметры ВСС. Это означает, что, если гребенка 125 звуковых фильтров разлагает на составные части входной сигнал, например на 32 сигнала полосы пропускания, блок анализа ВСС получает совокупность параметров ВСС для каждой из 32 полос. Естественно, блок 122 синтеза ВСС из Фиг.11, который показан подробно на Фиг.12, выполняет восстановление, которое также основано на 32 полосах в примере.

В дальнейшем сделана ссылка на Фиг.13, показывающую установку для определения некоторых параметров ВСС. Обычно параметры ICLD, ICTD и ICC могут быть определены между парами каналов. Однако предпочтительно определять параметры ICLD и ICTD между опорным каналом и каждым другим каналом. Это проиллюстрировано на Фиг.13A.

Параметры ICC могут быть определены различными способами. В более общем смысле можно оценить параметры ICC в кодере между всеми возможными парами каналов, как показано на Фиг.13В. В этом случае декодер синтезировал бы ICC так, что он был бы приблизительно тот же, что и исходный многоканальный сигнал между всеми возможными парами каналов. Однако было предложено оценивать только параметры ICC между сильнейшими каналами в каждый момент времени. Эта схема проиллюстрирована на Фиг.13С, где показан пример, в котором в один временной момент параметр ICC оценивается между каналами 1 и 2, и в другой временной момент параметр ICC рассчитывается между каналами 1 и 5. Затем декодер синтезирует межканальное соотношение между сильнейшими каналами в декодере и применяет некоторое эвристическое правило для вычисления и синтезирования межканальной когерентности для оставшихся пар каналов.

Относительно расчета, например, коэффициентов умножения a1, aN, основанных на переданных параметрах ICLD, сделана ссылка на конвенционный документ AES 5574, упомянутый выше. Параметры ICLD представляют собой распределение энергии в исходном многоканальном сигнале. Без потери универсальности на Фиг.13А показано, что существуют четыре параметра ICLD, показывающих разность энергии между всеми другими каналами и передним левым каналом. В блоке 123 обработки дополнительной информации коэффициенты умножения a1, ..., aN выводятся из параметров ICLD из условия, чтобы общая энергия всех восстановленных выходных каналов являлась бы той же (или пропорциональной), что и энергия переданного суммарного сигнала. Простым способом для определения этих параметров является 2-этапный процесс, в котором на первом этапе коэффициент умножения для левого переднего канала устанавливается за единицу, тогда как коэффициенты умножения для других каналов на Фиг.13А устанавливаются по переданным значениям ICLD. Затем на втором этапе энергия всех пяти каналов рассчитывается и сравнивается с энергией переданного суммарного сигнала. Затем все каналы масштабно понижаются, используя коэффициент понижения, который является одинаковым для всех каналов, в которых коэффициент понижения выбирается из условия, чтобы общая энергия всех восстановленных выходных каналов являлась после масштабирования с понижением равной общей энергии переданного суммарного сигнала.

Естественно, существуют другие способы для расчета коэффициентов умножения, которые не полагаются на 2-этапный процесс, но которым необходим лишь 1-этапный процесс.

Относительно параметров задержки следует отметить, что параметры задержки ICTD, которые передаются из кодера ВСС, могут быть использованы сразу, когда параметр задержки d1 для левого переднего канала установлен в ноль. Здесь не нужно делать изменение масштаба, поскольку задержка не изменяет энергию сигнала.

Относительно измерения межканальной когерентности ICC, переданной от кодера ВСС к декодеру ВСС, здесь следует отметить, что управление когерентностью может быть сделано посредством изменения коэффициентов умножения a1, ..., an, например посредством перемножения весовых коэффициентов всех поддиапазонов со случайными числами со значениями между 20log10(-6) и 20log10(6). Псевдослучайная последовательность предпочтительно выбирается так, что дисперсия является приблизительно постоянной для всех критических полос, а среднее является нулем внутри каждой критической полосы. Та же последовательность применяется к спектральным коэффициентам для каждого другого кадра. Таким образом, ширина слухового образа управляется посредством изменения дисперсии псевдослучайной последовательности. Большая дисперсия создает большую ширину образа.

Изменение дисперсии может быть выполнено в индивидуальных полосах, которые являются широкими критическими полосами. Это делает возможным одновременное существование множества объектов в акустической обстановке и каждый объект, имеющий различную ширину образа. Подходящее амплитудное распределение для псевдослучайной последовательности является равномерным распределением на логарифмической шкале, как это обрисовано в публикации патентной заявки США 2003/0219130 A1. Тем не менее, вся обработка синтеза ВСС относится к единственному входному каналу, переданному как суммарный сигнал от кодера ВСС к декодеру ВСС, как показано на Фиг.11.

Для передачи пяти каналов совместимым способом, т.е. в формате битового потока, который также является понятным для обычного стереофонического декодера, так называемая методика матрицирования, использована, как описано в «MUSICAM surround: a universal multi-channel coding system compatible with ISO 11172-3» (Окружение MUSICAM: универсальная многоканальная система кодирования, совместимая с ISO 11172-3), G. Theile (Дж. Тейл) и G. Stoll (Дж. Столл), препринт AES 3403, октябрь 1992 г., Сан-Франциско. Эти пять входных каналов L, R, C, Ls и Rs вводятся в матрицирующее устройство, выполняющее операцию матрицирования, чтобы рассчитать основные или совместимые стереофонические каналы Lo, Ro из пяти входных каналов. В частности, эти основные стереофонические каналы Lo/Ro рассчитываются, как изложено ниже:

Lo = L + xC + yLs

Ro = R + xC + yRs

x и y являются константами. Остальные три канала C, Ls, Rs передаются, будучи в уровне расширения, в дополнение к основному стереофоническому уровню, который включает в себя кодированный вариант основных стереофонических сигналов Lo/Ro. Что касается битового потока, этот основной стереофонический уровень Lo/Ro включает в себя заголовок, информацию, такую как шкала факторов и выборки поддиапазонов. Многоканальный уровень расширения, т.е. центральный канал и два канала окружающего звука включаются в многоканальное поле расширения, которое также называется полем служебных данных.

На стороне декодера выполняется операция обратного матрицирования для того, чтобы создать восстановления левого и правого каналов в пятиканальном представлении, используя основные стереофонические каналы Lo, Ro и три дополнительных канала. Кроме того, три дополнительных канала декодируются из служебных данных для того, чтобы получить декодированное пятиканальное или представление окружающего звука исходного многоканального звукового сигнала.

Другой подход к многоканальному кодированию описывается в публикации «Improved MPEG-2 audio multi-channel encoding» (Улучшенное звуковое многоканальное кодирование MPEG-2) B. Grill (Б. Грилл), J. Herre (Дж. Херр), K. H. Brandenburg (К.Г. Бранденбург), E. Eberlein (Е. Эберлейн), J. Roller (Дж. Роллер), J. Muellera (Дж. Мюллер), препринт AES 3865, февраль 1994 г., Амстердам, в которой для того, чтобы достичь полной совместимости с предыдущими версиями, рассматриваются обратно совместимые режимы. С этой целью используется матрица совместимости, чтобы получить так называемые низведенные каналы Lc, Rc из исходных пяти входных каналов. Более того, возможно динамически выбирать три вспомогательных канала, переданных как служебные данные.

Для того чтобы использовать стереофоническую нерелевантность, методика квазистереофонии применяется к группам каналов, например трем передним каналам, т.е. для левого канала, правого канала и центрального канала. С этой целью эти три канала объединяются, чтобы получить комбинированный канал. Этот комбинированный канал квантуется и упаковывается в битовый поток.

Затем этот комбинированный канал вместе с соответствующей квазистереофонической информацией вводится в модуль декодирования квазистереофонии, чтобы получить декодированные каналы квазистереофонии, т.е. декодированный левый канал квазистереофонии, декодированный правый канал квазистереофонии и декодированный центральный канал квазистереофонии. Эти декодированные каналы квазистереофонии вместе с левым каналом окружающего звука и правым каналом окружающего звука вводятся в блок совместимости матриц для образования первого и второго низведенных каналов Lc, Rc. Затем квантованные варианты обоих низведенных каналов и квантованный вариант комбинированного канала пакуются в битовый поток вместе с параметрами кодирования квазистереофонии.

Используя мощное стереофоническое кодирование, следовательно, группа независимых исходных сигналов канала передается внутри одной части «высокочастотных» данных. Затем декодер восстанавливает включенные сигналы как идентичные данные, которые заново масштабируются согласно их исходных кривых энергии-времени. Следовательно, линейная комбинация переданных каналов приведет к результатам, которые совершенно отличны от исходного низведения. Это применяется к любому виду квазистереофонического кодирования, основанного на концепции мощной стереофонии. Для кодирующей системы, обеспечивающей совместимые низведенные каналы, существует прямое следствие: восстановление с помощью обратного матрицирования, как описано в предыдущей публикации, страдает от искажений, вызванных несовершенным восстановлением. Использование так называемой схемы предыскаженной квазистереофонии, в которой квазистереофоническое кодирование левого, правого и центрального каналов выполняется до матрицирования в кодере, смягчает эту проблему. Таким образом, схема обратного матрицирования для восстановления представляет меньше искажений, поскольку на стороне кодера декодированные квазистереофонические сигналы использованы для формирования низведенных каналов. Таким образом, несовершенный процесс восстановления смещается к совместимым низведенным каналам Lc и Rc, где более вероятно замаскироваться с помощью самого звукового сигнала.

Хотя такая система привела к меньшим искажениям из-за обратного матрицирования на стороне декодера, тем не менее она имеет некоторые недостатки. Недостаток в том, что стереофонически-совместимые низведенные каналы Lc и Rc выводятся не из исходных каналов, а из кодированных/декодированных с мощной стереофонией вариантов исходных каналов. Следовательно, потери данных из-за кодирующей системы с мощной стереофонией включаются в совместимые низведенные каналы. Только стереофонический декодер, который только декодирует совместимые каналы вместо улучшения кодированных каналов с мощной стереофонией, поэтому обеспечивает выходной сигнал, на который подвергается вынужденным потерям данных мощной стереофонии.

Кроме того, полный дополнительный канал должен быть передан помимо двух низведенных каналов. Этот канал является комбинированным каналом, который образуется посредством квазистереофонического кодирования левого канала, правого канала и центрального канала. Кроме того, информация о мощной стереофонии для восстановления исходных каналов L, R, C из комбинированного канала также должна быть передана декодеру. На декодере обратное матрицирование, т.е. операция дематрицирования выполняется для выведения каналов окружающего звука из двух низведенных каналов. Дополнительно, исходный левый, правый и центральный каналы оцениваются с помощью квазистереофонического декодирования, используя переданный комбинированный канал и переданные квазистереофонические параметры. Следует отметить, что исходный левый, правый и центральный каналы выводятся с помощью квазистереофонического декодирования комбинированного канала.

Обнаружено, что в случае методик мощной стереофонии, когда используемые в сочетании с многоканальными сигналами, могут быть созданы только полностью когерентные выходные сигналы, которые основаны на том же самом основном канале.

В методиках ВСС довольно дорого уменьшать межканальную когерентность в восстановленном многоканальном выходном сигнале, поскольку необходим генератор псевдослучайного числа для влияния на взвешивающие участки. Кроме того, показано, что этот вид обработки является проблематичным в тех искажениях, из-за того что могут быть привнесены случайно влияющие коэффициенты умножения или коэффициенты задержки времени, которые могут стать слышимыми при определенных обстоятельствах и, следовательно, ухудшать качество восстановленного многоканального исходного сигнала.

Сущность изобретения

Следовательно, задачей настоящего изобретения является предоставление концепции для обработки, эффективной по битам и с уменьшенными искажениями, или обратной обработки многоканального звукового сигнала.

В соответствии с первым аспектом настоящего изобретения эта задача решается с помощью устройства для создания многоканального выходного сигнала с использованием входного сигнала и параметрической дополнительной информации, при этом входной сигнал включает в себя первый входной канал и второй входной канал, выведенные из исходного многоканального сигнала, причем исходный многоканальный сигнал имеет множество каналов, при этом множество каналов включает в себя по меньшей мере два исходных канала, которые определяются как расположенные по одну сторону от предполагаемого расположения слушателя, причем первый исходный канал является первым из по меньшей мере двух исходных каналов, а второй канал является вторым из по меньшей мере двух исходных каналов, и параметрическая дополнительная информация описывает взаимосвязи между исходными каналами многоканального исходного сигнала, содержащего: исходный многоканальный сигнал; средство для определения первого основного канала путем выбора одного из первого и второго входных каналов или комбинации первого и второго входных каналов и для определения второго основного канала путем выбора оставшегося из первого и второго входных каналов или другой комбинации первого и второго входных каналов, так что второй основной канал отличается от первого основного канала; и средство для синтезирования первого выходного канала с использованием параметрической дополнительной информации и первого основного канала для получения первого синтезированного выходного канала, который является воспроизведенным вариантом первого исходного канала, который располагается по одну сторону от предполагаемого расположения слушателя, и для синтезирования второго выходного канала с использованием параметрической дополнительной информации и второго основного канала, при этом второй исходный канал является воспроизведенным вариантом второго исходного канала, который располагается на той же стороне от предполагаемого расположения слушателя.

В соответствии со вторым аспектом настоящего изобретения эта задача решается с помощью способа создания многоканального выходного сигнала с использованием входного сигнала и параметрической дополнительной информации, при этом входной сигнал включает в себя первый входной канал и второй входной канал, выведенные из исходного многоканального сигнала, причем исходный многоканальный сигнал имеет множество каналов, включающее в себя по меньшей мере два исходных канала, которые определяют как расположенные по одну сторону от предполагаемого расположения слушателя, причем первый исходный канал является первым из по меньшей мере двух исходных каналов, а второй исходный канал является вторым из по меньшей мере двух исходных каналов, и параметрическая дополнительная информация описывает взаимосвязи между исходными каналами многоканального исходного сигнала, заключающегося в том, что определяют первый основной канал путем выбора одного из первого и второго входных каналов или комбинации первого и второго входных каналов, и определяют второй основной канал путем выбора оставшегося из первого и второго входных каналов или другой комбинации первого и второго входных каналов, так что второй основной канал отличается от первого основного канала; и синтезируют первый выходной канал с использованием параметрической дополнительной информации и первого основного канала для получения первого синтезированного выходного канала, который является воспроизведенным вариантом первого исходного канала, который располагается по одну сторону от предполагаемого расположения слушателя, и синтезируют второй выходной канал с использованием параметрической дополнительной информации и второго основного канала, при этом второй выходной канал является воспроизведенным вариантом второго исходного канала, который располагается на той же стороне от предполагаемого расположения слушателя.

В соответствии с третьим аспектом настоящего изобретения эта задача решается с помощью устройства формирования низведенного сигнала из многоканального исходного сигнала, причем низведенный сигнал имеет количество каналов, меньшее чем количество исходных каналов, содержащего средство для расчета первого низведенного канала и второго низведенного канала с использованием правила низведения; средство для расчета параметрической информации уровня, представляющей распределение энергии между каналами в многоканальном исходном сигнале; средство для определения критерия когерентности между двумя исходными каналами, причем два исходных канала располагаются по одну сторону от предполагаемого расположения слушателя; и средство для образования выходного сигнала с использованием первого и второго низведенных каналов, параметрической информации уровня и только по меньшей мере одного критерия когерентности между двумя исходными каналами, расположенными на упомянутой одной стороне, или значения, выведенного из, по меньшей мере, одного критерия когерентности, но без использования какого-либо критерия когерентности между каналами, расположенными на различных сторонах от предполагаемого расположения слушателя.

В соответствии с четвертым аспектом настоящего изобретения эта задача решается с помощью способа формирования низведенного сигнала из многоканального исходного сигнала, причем низведенный сигнал имеет количество каналов, меньшее чем количество исходных каналов, заключающегося в том, что рассчитывают первый низведенный канал и второй низведенный канал, используя правило низведения; рассчитывают параметрическую информацию уровня, представляющей распределение энергии между каналами в многоканальном исходном сигнале; определяют критерий когерентности между двумя исходными каналами, причем два исходных канала располагают по одну сторону от предполагаемого расположения слушателя; и формируют выходной сигнал, используя первый и второй низведенные каналы, параметрическую информацию уровня и только по меньшей мере один критерий когерентности между двумя исходными каналами, расположенными на упомянутой одной стороне, или значение, выведенное, по меньшей мере, из одного критерия когерентности, но не используя какой-либо критерий когерентности между каналами, расположенными на различных сторонах от предполагаемого расположения слушателя.

В соответствии с пятым аспектом и шестым аспектом настоящего изобретения эта задача решается с помощью компьютерной программы, включающей в себя способ создания многоканального выходного сигнала либо способ формирования низведенного сигнала.

Настоящее изобретение основано на открытии, что эффективное и с уменьшенными искажениями восстановление многоканального выходного сигнала достигается, когда существуют два или более каналов, которые могут быть переданы от кодера к декодеру, причем каналы, которые предпочтительно являются левым и правым стереофоническим каналом, показывают определенную степень некогерентности. Это будет обычным случаем, поскольку левый и правый стереофонические каналы или левый и правый стереосовместимые каналы, которые получены путем низведения многоканального сигнала, будут в большинстве случаев показывать определенную степень некогерентности, т.е. не будут полностью когерентными или полностью коррелированными.

В соответствии с настоящим изобретением восстановленные выходные каналы многоканального выходного сигнала декоррелируются друг от друга с помощью определения различных основных каналов для различных выходных каналов, причем различные основные каналы получаются с помощью использования переменных степеней некоррелированных переданных каналов.

Другими словами, восстановленный выходной канал, имеющий, например, левый передаваемый входной канал в качестве основного канала, будет - в области поддиапазона ВСС - полностью коррелированным с другим восстановленным выходным каналом, который имеет тот же, например левый канал, в качестве основного канала, не предполагающего никакого дополнительного «синтеза корреляции». В этом контексте следует отметить, что детерминированная задержка и установки уровня не уменьшают когерентность между этими каналами. В соответствии с настоящим изобретением когерентность между этими каналами, которая составляет 100% в вышеприведенном примере, уменьшается на определенную степень когерентности, или критерий (меру) когерентности, путем использования первого основного канала для создания первого выходного канала и использования второго основного канала для создания второго выходного канала, причем первый и второй основные каналы имеют различные «доли» двух переданных (декоррелированных) каналов. Это означает, что первый основной канал сильнее находится под влиянием первого переданного канала или даже идентичен первому переданному каналу, по сравнению со вторым основным каналом, который меньше находится под влиянием первого канала, т.е. который находится под большим влиянием второго переданного канала.

В соответствии с настоящим изобретением внутренняя декорреляция между переданными каналами используется для предоставления декоррелированных каналов в многоканальном выходном сигнале.

В предпочтительном варианте осуществления критерий когерентности между соответствующими парами каналов, такими как передний левый и левый окружающего звука или передний правый или правый окружающего звука, определяется в кодере зависящим от времени и частотно-зависимым способом и передается как до