2381570 - Стереофонически совместимое кодирование многоканального звука

Стереофонически совместимое кодирование многоканального звука

Иллюстрации

Показать все

Изобретение относится к кодированию многоканального звука, и в частности к генерированию и использованию параметрического представления многоканального звукового сигнала, которое обратно совместимо со средствами воспроизведения сигнала параметрического стерео. Параметрическое представление (12) многоканального звукового сигнала, содержащее параметры, подходящие для использования совместно с монофоническим сигналом, полученным понижающим микшированием для вычисления восстановления многоканального звукового сигнала, может быть эффективно получено обратно совместимым со стереофоническим сигналом образом при использовании блока (18) объединения параметров для генерирования параметрического представления (12) посредством объединения одного или нескольких пространственных параметров (20) и стереофонического параметра (22), дающего параметрическое представление (12), содержащее пригодный для использования декодером стереофонический параметр (24) и информацию об одном или нескольких пространственных параметрах (26), которое представляет совместно с пригодным для использования декодером стереофоническим параметром (24) один или несколько пространственных параметров (20). 17 н. и 14 з.п. ф-лы, 11 ил.

Реферат

Настоящее изобретение относится к кодированию многоканального звука, и в частности к идее генерирования и использования параметрического представления многоканального звукового сигнала, которое полностью обратно совместимо со средствами воспроизведения сигнала параметрического стерео.

Настоящее изобретение относится к кодированию многоканального представления звуковых сигналов, использующего параметры пространственного звука таким образом, который совместим с кодированием двухканальных стереофонических сигналов, использующих параметры параметрического стерео. Настоящее изобретение предоставляет новые способы эффективного кодирования как параметров пространственного звука, так и параметров параметрического стерео и встраивания закодированных параметров в двоичный поток обратно совместимым образом. В частности, изобретение направлено на минимизацию общей скорости передачи для параметров параметрического стерео и пространственного звука в обратно совместимом двоичном потоке без ухудшения качества декодированного стереофонического или многоканального звукового сигнала. В случае если допустимо некоторое ухудшение качества декодированного стереофонического сигнала, общую скорость передачи можно уменьшить еще больше.

С недавнего времени все большее значение приобретают способы воспроизведения многоканального звука. С целью эффективной передачи многоканальных звуковых сигналов, имеющих 5 или более отдельных звуковых каналов, было разработано несколько способов сжатия стереофонического или многоканального сигнала. Недавно разработанные подходы к параметрическому кодированию многоканальных звуковых сигналов (параметрическое стерео (ПС), бинауральное кодирование сигнала (БКС) и т. д.) представляют многоканальный звуковой сигнал посредством сигнала, полученного понижающим микшированием, (может быть монофоническим или содержать несколько каналов) и параметрической дополнительной информацией, называемой также "пространственной ключевой информацией", характеризующей его воспринимаемое пространственное объемное звучание.

Многоканальное устройство кодирования в целом принимает - в качестве входных сигналов - по меньшей мере два канала и выдает на выходе один или несколько каналов несущей частоты и параметрических данных. Параметрические данные получают таким образом, чтобы в декодере можно было вычислить приближенное значение первоначального многоканального сигнала. Обычно канал (каналы) несущей частоты включает отсчеты поддиапазона, спектральные коэффициенты, отсчеты временной области и т.д., которые обеспечивают сравнительно хорошее представление основного сигнала, в то время как параметрические данные не содержат таких отсчетов спектральных коэффициентов, но вместо этого включают в себя управляющие параметры для управления некоторым алгоритмом восстановления. Такое восстановление может содержать умножение на весовой коэффициент, временной сдвиг, частотный сдвиг, фазовый сдвиг и т. д. Таким образом, параметрические данные включают в себя лишь сравнительно грубое представление сигнала или связанного с ним канала.

Способ бинаурального кодирования сигнала (БКС) описан в ряде публикаций, например "Binaural Cue Coding applied to Stereo and Multi-Channel Audio Compression", C. Faller, F. Baumgarte, AES convention paper 5574, May 2002, Munich, в 2 публикациях Международной конференции по акустике, речи и обработке сигнала "Estimation of auditory spatial cues for binaural cue coding" и "Binaural cue coding: a normal and efficient representation of spatial audio", автором обеих являются C. Faller и F. Baumgarte, Orlando, FL, May 2002.

При кодировании способом БКС несколько входных звуковых каналов преобразуются в спектральное представление при помощи ДПФ (дискретного преобразования Фурье) на основе преобразования с перекрывающимися окнами. Затем полученный однородный спектр делится на неперекрывающиеся части. Ширина диапазона каждой части пропорциональна эквивалентной прямоугольной ширине диапазона (ERB). Затем для каждой части оцениваются пространственные параметры, называемые ICLD (межканальная разность уровней) и ICTD (межканальная временная разность). Параметр ICLD описывает разность уровней между двумя каналами, а параметр ICDT описывает временную разность (фазовый сдвиг) между двумя сигналами различных каналов. Разности уровней и временные разности обычно приводятся для каждого канала относительно опорного канала. После получения этих параметров параметры квантуются и, наконец, кодируются для передачи.

Хотя параметры ICLD и ICTD представляют наиболее важные параметры, характеризующие местоположение источника звука, пространственное представление, использующее эти параметры, можно улучшить введением дополнительных параметров.

Родственный способ, названный "параметрическим стерео", представляет собой параметрическое кодирование двухканального стереофонического сигнала на основе переданного монофонического сигнала вместе с дополнительной информацией, содержащей параметры. Вводятся три типа пространственных параметров, называемых межканальной разностью интенсивностей (МРИ), межканальной разностью фаз (МРФ) и межканальной согласованностью (МВК). Расширение набора пространственных параметров посредством введения параметра согласованности (параметра корреляции) обеспечивает параметризацию воспринимаемой пространственной "разбросанности" или пространственной "сжатости" в павильоне звукозаписи. Параметрическое стерео более подробно описано в работах: "Parametric Coding of stereo audio", J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers (2005) Eurasip, J. Applied Signal Proc. 9, pages 1305-1322, "High-Quality Parametric Spatial Audio Coding at Low Bitrates", J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, AES 116<th> Convention, Preprint 6072, Berlin, May 2004, и "Low Complexity Parametric Stereo Coding", E. Schuijers, J. Breebaart, H. Purnhagen, J. Engdegard, AES 116^th Convention, Preprint 6073, Berlin, May 2004.

Как указывалось выше, недавно были разработаны системы кодирования параметрического стерео, а также кодирования пространственного звука. Когда при параметрическом стерео двухканальный стереофонический звуковой сигнал представлен посредством монофонического сигнала, полученного понижающим микшированием, и дополнительной информации, которая несет в себе стереофонические параметры (см. заявку PCT/SE02/01372 "Efficient и scalable Parametric Stereo Coding for Low Bitrate Audio Coding Application"), обычный декодер параметрического стерео восстанавливает двухканальный стереофонический сигнал из монофонического сигнала и дополнительной информации.

В схемах кодирования пространственного звука многоканальный объемный звуковой сигнал представлен посредством монофонического или стереофонического звукового сигнала, полученного понижающим микшированием, и дополнительной информации, которая несет в себе параметры пространственного звука. Широко известным примером является конфигурация каналов 5.1, используемая в бытовых развлекательных системах.

Обычный декодер пространственного звука восстанавливает многоканальный сигнал схемы 5.1 на основе монофонического или стереофонического сигнала и дополнительных пространственных звуковых параметров.

Как правило, сигналы, полученные понижающим микшированием, применяемые в системах кодирования параметрического стерео или пространственного звука, подвергаются дополнительному кодированию способами низкоскоростного перцептуального кодирования звука (типа MPEG AAC) для дальнейшего снижения требуемой ширины полосы пропускания для передачи сигналов разного типа. Кроме того, сигнал, полученный понижающим микшированием, обычно объединяется в двоичном потоке с дополнительной информацией параметрического стерео или пространственного звука таким образом, чтобы обеспечить обратную совместимость с обычными декодерами, то есть с декодерами, которые не способны обрабатывать параметры параметрического стерео или пространственного звука. Таким образом, обычный звуковой декодер лишь восстанавливает монофонический или стереофонический переданный сигнал, полученный понижающим микшированием. Когда же используется декодер, реализующий кодирование параметрического стерео или кодирование пространственного звука, декодер также извлекает дополнительную информацию, встроенную в двоичный поток и восстанавливает двухканальный стереофонический сигнал или объемный сигнал с 5.1 каналами.

В случае использования кодирования пространственного звука на основе монофонического сигнала, полученного понижающим микшированием, желательно дополнительно повысить обратную совместимость, обеспечив такой сигнал, чтобы не только обычный перцептуальный декодер звука мог получить монофонический сигнал, полученный понижающим микшированием, но чтобы дополнительно было возможно декодирование параметрического стерео из такого двоичного потока при помощи декодера параметрического стерео, который не поддерживает декодирование пространственного звука.

Другой известный из уровня техники подход, одновременно включающий в себя и параметры параметрического стерео, и параметры пространственного звука, и дополнительную информацию, требует набора параметров пространственного звука, структура которых такова, что поднабор этих параметров позволяет восстановить двухканальный стереофонический сигнал из монофонического сигнала, полученного понижающим микшированием. Этот поднабор встроен в двоичный поток в качестве параметрической дополнительной информации таким образом, чтобы быть совместимым с двоичными потоками параметрического стерео, тогда как оставшиеся параметры пространственного звука, не входящие в этот набор, встроены в качестве дополнительной информации пространственного звука в двоичный поток, совместимый с кодировщиками пространственного звука. Со стороны декодера декодер, реализующий только параметрическое стерео, восстанавливает двухканальный стереофонический сигнал на основе поднабора параметров, который встроен в дополнительную информацию параметрического стерео. В то же время декодер, реализующий пространственный звук, извлекает поднабор параметрического стерео и остальные параметры пространственного звука. При наличии этого полного набора пространственных параметров можно восстановить многоканальный сигнал.

Однако эти подходы обладают тем недостатком, что они ухудшают качество звука либо при обратно совместимом восстановлении способом параметрического стерео, либо при многоканальном восстановлении. Это очевидно, поскольку в первом случае поднабор параметров, используемый также в качестве параметров пространственного звука, описывает взаимоотношения между двумя каналами сигнала, построенного по схеме 5.1. Естественнее всего было бы выбрать левый передний (l) и правый передний (r) каналы, которые, однако, могут существенно отличаться от верных значений, описывающих соотношение между левым (l0) и правым (r0) каналами стереофонического сигнала, полученного понижающим микшированием. Во втором случае указанный первый поднабор образуют верные значения стереофонического сигнала, полученного понижающим микшированием, а это означает, что они используются для описания соотношения между левым передним и правым передним каналами многоканального объемного сигнала. Однако такой подход ведет к искаженному восстановлению пространственного звука из-за квантования параметров, что необходимо для их встраивания в двоичный поток способом, совместимым с многоканальным сигналом.

Задача настоящего изобретения заключается в том, чтобы предоставить принцип создания и использования параметрического представления многоканального звукового сигнала, который позволяет обеспечить более эффективное представление, почти не влияющее ни на качество восстановления параметрического стерео, ни на качество восстановления пространственного звука.

Эта задача решается посредством декодера многоканального звука в соответствии с п. 1 формулы или кодировщика звука в соответствии с п. 11 формулы.

Настоящее изобретение основано на экспериментально обнаруженном факте, что параметрическое представление многоканального звукового сигнала, параметры которого можно использовать совместно с монофоническим сигналом, полученным понижающим микшированием, можно эффективно получить обратно совместимым образом в случае использования средства объединения параметров для создания параметрического представления посредством объединения набора пространственных параметров и стереофонического параметра, что приводит к параметрическому представлению, имеющему пригодные для использования декодером стереофонический параметр и информацию о наборе пространственных параметров, которая представляет совместно с пригодным для использования декодером стереофоническим параметром набор пространственных параметров.

При помощи соотношения между пространственными параметрами и стереофоническими параметрами, которые описывают стереофоническое понижающее микширование того же многоканального звукового сигнала, описываемого также пространственными параметрами, можно успешно определить поднабор пространственных параметров, основанный на параметрах параметрического стерео.

Поскольку двухканальный стереофонический сигнал, описываемый стереофоническими параметрами, представляет некую форму стереофонического понижающего микширования многоканального сигнала с 5.1 каналами, то, как указано выше, существуют зависимости между стереофоническими параметрами системы параметрического стерео и пространственными параметрами системы кодирования пространственного звука. Настоящее изобретение использует эти стереофонические параметры в сочетании с поднабором параметров пространственного звука для предсказания значений остальных параметров пространственного звука, не входящих в указанный поднабор. Затем необходимо лишь передать разность между предсказанными и фактическими значениями параметров пространственного звука. Энтропия этой разности (то есть ошибка предсказания) обычно меньше энтропии самого фактического параметра. Это обстоятельство можно использовать в системе, применяющей настоящее изобретение и некое последующее статистическое кодирование. Такая система требует меньшей скорости передачи дополнительной информации для параметров параметрического стерео и пространственного звука по сравнению с системой, которая просто независимо встраивает все параметры. Следует заметить, что в то же время такая система, применяющая настоящее изобретение, не ухудшает ни качество восстановления параметрического стерео, ни качество восстановления пространственного звука.

Поскольку целью является получение параметрического представления, которое обратно совместимо с декодерами параметрического стерео, предпочтительно использовать верные параметры, представляющие стереофоническое понижающее микширование, с тем, чтобы не ухудшить качество восстановления двухканального стереофонического сигнала при помощи декодера параметрического стерео. Однако в альтернативном варианте осуществления настоящего изобретения в кодировщике используется небольшое изменение параметров параметрического стерео на основе оцененных пространственных параметров с целью улучшения эффективности предсказания параметров для параметров пространственного звука. Ясно, что это изменение параметров параметрического стерео (ПС) ведет к небольшому снижению качества стереофонического сигнала, восстановленного декодером, который реализует только декодирование параметрического стерео. В этом варианте осуществления настоящего изобретения изменение параметров ПС не влияет на качество восстановленного пространственного звукового сигнала, тогда как полная скорость передачи, требуемая для передачи дополнительной информации ПС и пространственного звука, встроенной в совместимый двоичный поток, становится меньше.

В предпочтительном варианте осуществления настоящего изобретения используется кодировщик, предназначенный для получения параметрического представления многоканального звукового сигнала, который генерирует двоичный поток, в который полностью обратно совместимым способом встроены параметры пространственного звука, а также параметры параметрического стерео, относящиеся к стереофоническому понижающему микшированию многоканального сигнала. Иными словами, декодер параметрического стерео, способный только обрабатывать параметры параметрического стерео, сможет восстановить стереофонический сигнал с высоким качеством, используя параметры параметрического стерео. Кроме того, кодировщик согласно изобретению заменяет некоторые пространственные параметры разностным представлением фактических пространственных параметров и предсказанием пространственного параметра, причем предсказание пространственного параметра основано на стереофонических параметрах и на наборе незамененных параметров пространственного звука. Поскольку и представление параметрами пространственного звука, и представление параметрами параметрического стерео описывают разность и корреляцию уровней между парами каналов, существует взаимозависимость между параметрами пространственного звука и стереофоническими параметрами, поскольку и те, и другие получены на основе одних и тех же данных, а именно, из многоканального сигнала. Поэтому, используя для передачи разность между предсказанием и фактическим значением, можно сэкономить на скорости передачи, поскольку обычно энтропия разности гораздо меньше энтропии исходного параметра пространственного звука. При идеальном предсказании разность предсказания и фактического значения равна, очевидно, нулю, а это значит, что в качестве представления замененных пространственных параметров необходимо передать или сохранить в рамках параметрического представления лишь нулевые значения, что является весьма выгодным, когда в отношении представления выполняются дальнейшие этапы статистического кодирования, как обычно и происходит.

При использовании описанного выше принципа кодировщик или декодер согласно изобретению обладает очевидным преимуществом, заключающимся в том, что, несмотря на обратно совместимую передачу параметров пространственного звука и параметрического стерео без потери в точности, скорость передачи данных можно уменьшить по сравнению с вариантом, в котором параметры пространственного звука и параметры параметрического стерео просто передаются независимо в двоичном потоке.

В еще одном варианте осуществления настоящего изобретения перед предсказанием пространственных параметров и передачей измененных пространственных параметров параметры параметрического стерео подвергаются небольшим изменениям. Этот вариант обладает значительным преимуществом, заключающимся в том, что можно улучшить устойчивость предсказания при помощи небольших изменений параметров параметрического стерео и, следовательно, еще более уменьшить полную скорость передачи данных. Ценою этого является небольшое ухудшение качества стереофонического повышающего микширования, восстановленного при помощи измененных стереофонических параметров, поскольку в процессе кодирования действительно оптимальные параметры параметрического стерео изменяются.

В еще одном варианте осуществления настоящего изобретения кодировщик звука согласно изобретению содержит устройство пространственного понижающего микширования для генерации монофонического сигнала из поступающего в кодировщик многоканального сигнала. Затем монофонический сигнал сжимается кодировщиком звука при помощи, например, перцептуального сжатия звука для дальнейшего уменьшения скорости передачи данных, используемой монофоническим сигналом, полученным понижающим микшированием, во время передачи. Наконец, генератор двоичного потока генерирует двоичный поток, объединяющий монофонический сигнал, параметры пространственного звука и параметры параметрического стерео в единый двоичный поток, совместимый с параметрическим стерео.

В еще одном варианте осуществления настоящего изобретения параметрический кодировщик или декодер содержит блок управления, обеспечивающий дальнейшее уменьшение требуемой скорости передачи данных. Достижение этого обеспечивается посредством сравнения скорости передачи данных, необходимой для разностного представления пространственных параметров, полученных посредством разности фактического пространственного параметра и предсказания того же параметра, со скоростью передачи данных, необходимой для непосредственного кодирования пространственных параметров. Кодирование осуществляется посредством двухэтапной процедуры кодирования, содержащей сначала временное и (или) частотное дифференциальное кодирование отдельно каждого параметра с последующим статистическим кодированием (при помощи, например, кодировщика по алгоритму Хаффмана, арифметического кодировщика или кодировщика длин серий). В этом процессе используется предсказуемость (или избыточность) каждого параметра на основе его собственных прошлых значений (в отличие от описанного выше предсказания по набору параметров). В случае, когда разностное предсказательное кодирование приводит к более высокой скорости передачи данных, дополнительного снижения скорости передачи данных можно достигнуть прямой передачей пространственных параметров в течение данных временных интервалов. Решение о том, какая выбрана стратегия, может либо быть передано в двоичном потоке, подлежащем обработке на стороне декодера, либо декодер без уведомления может принять решение об изначально примененной стратегии посредством использования соответствующего алгоритма определения.

Как уже говорилось, сигнал, сгенерированный согласно настоящему изобретению, обладает большим преимуществом, поскольку он является обратно совместимым с декодером параметрического стерео и, кроме того, содержит информацию, требуемую для воспроизведения полного пространственного (объемного) сигнала, когда его передают на декодер согласно изобретению.

Поэтому декодер по изобретению, принимающий параметры параметрического стерео и параметры пространственного звука, может восстановить полный набор пространственных параметров, используя то же самое предсказание и обратное преобразование переданных разностным образом параметров пространственного звука для извлечения из двоичного потока по изобретению полного набора параметров пространственного звука, представляющих пространственное свойство многоканального сигнала.

Иными словами, правило объединения, используемое для объединения параметров параметрического стерео и принятых параметров пространственного звука для восстановления полного набора пространственных параметров, является обратным правилу, используемому на стороне кодировщика. В случае указанного выше дифференциального кодирования это означает, что сначала вычисляется предсказание требуемого параметра при помощи одного или нескольких параметров параметрического стерео и одного или нескольких принятых параметров пространственного звука. Затем вычисляется сумма предсказанного значения и переданного значения, причем эта сумма является требуемым параметром полного набора пространственных параметров.

В еще одном варианте осуществления настоящего изобретения декодер по изобретению может также восстановить стереофоническое представление многоканального сигнала при помощи параметров высококачественного параметрического стерео. Большое преимущество заключается в том, что декодер по изобретению можно сконфигурировать согласно потребностям, то есть в случае, если доступно только средство стереофонического воспроизведения, декодер по изобретению может воспроизводить высококачественный стереофонический сигнал, в то же время, если имеется в наличии средство многоканального воспроизведения, можно воспроизвести многоканальное представление сигнала и наслаждаться прослушиванием объемного звука.

В еще одном варианте осуществления настоящего изобретения кодировщик по изобретению включен в состав устройства передачи или звукозаписи, обеспечивая экономию на скорости передачи данных при хранении и передаче звукового сигнала, который можно воспроизвести с отличным качеством в виде стереофонического сигнала либо в виде полноценного объемного сигнала.

В еще одном варианте осуществления настоящего изобретения декодер по изобретению включен в состав устройства приема или звуковоспроизведения, обеспечивая прием или воспроизведение сигналов при помощи акустических систем с различной конфигурацией, причем звуковой сигнал можно воспроизводить в представлении, наилучшим образом подходящем для существующих средств воспроизведения.

Резюмируя, можно сказать, что настоящее изобретение обладает следующими преимуществами:

- совместимое кодирование многоканальных звуковых сигналов, в том числе,

на стороне кодировщика - понижающее микширование многоканального сигнала до одноканального представления,

на стороне кодировщика - на основе указанного многоканального сигнала определение параметров, представляющих многоканальный сигнал,

на стороне кодировщика - на основе указанного многоканального сигнала определение параметров, представляющих стереофоническое понижающее микширование многоканального сигнала,

на стороне кодировщика - встраивание обоих наборов параметров в двоичный поток обратно совместимым и экономичным с точки зрения скорости передачи данных образом,

на стороне декодера - извлечение встроенных параметров из двоичного потока,

на стороне декодера - восстановление параметров, представляющих многоканальный сигнал, из параметров, извлеченных из двоичного потока,

на стороне декодера - восстановление многоканальных выходных сигналов на основе параметров, восстановленных из данных двоичного потока, и указанного сигнала, полученного понижающим микшированием;

- встраивание в двоичный поток параметров, представляющих стереофоническое понижающее микширование, так чтобы их можно было декодировать (обычным) способом декодирования, который поддерживает лишь декодирование параметрического стерео;

- разделение набора параметров, представляющих многоканальный сигнал, на первый поднабор и второй поднабор;

- предсказание значений в указанном первом поднаборе параметров на основе указанного второго поднабора параметров и на основе параметров, которые представляют стереофоническое понижающее микширование многоканального сигнала;

- механизм управления, который автоматически определяет, закодирован ли непосредственно первый поднабор параметров или закодированы разности относительно предсказанных значений параметров;

- изменение параметров, которые представляют стереофоническое понижающее микширование, когда и первоначальные параметры, представляющие многоканальный сигнал, и первоначальные параметры, представляющие стереофоническое понижающее микширование, используются в качестве основы для получения измененных параметров;

- просмотровая таблица, используемая для поиска указанных предсказанных значений параметров;

- полиномиальная функция, используемая для поиска указанных предсказанных значений параметров;

- математическая функция, выведенная из способа, применяемого для генерации стереофонического понижающего микширования, используемая для поиска указанных предсказанных значений параметров.

Предпочтительные варианты осуществления настоящего изобретения описаны ниже со ссылкой на прилагаемые чертежи, среди которых:

фиг. 1 - блок-схема кодировщика согласно изобретению;

фиг. 2 - сгенерированный двоичный поток согласно настоящему изобретению;

фиг. 3 - еще один вариант осуществления кодировщика согласно изобретению;

фиг. 4 - подробная схема кодировщика согласно изобретению, приведенного на фиг. 3;

фиг. 5 - декодер по изобретению;

фиг. 6 - предпочтительный вариант многоканального декодера по изобретению;

фиг. 7 - подробная схема многоканального декодера по изобретению, изображенного на фиг. 6;

фиг. 8 иллюстрирует обратную совместимость сигнала согласно изобретению;

фиг. 9 - передатчик или устройство звукозаписи, содержащее кодировщик по изобретению;

фиг. 10 - приемник или устройство звуковоспроизведения, содержащее многоканальный декодер согласно изобретению; и

фиг. 11 - система передачи.

Описываемые ниже варианты осуществления являются просто иллюстрациями принципов настоящего изобретения для кодирования пространственного звука с улучшенной совместимостью с параметрическим стерео. Предполагается, что видоизменения и вариации взаимного размещения и частностей, описанных в настоящей заявке, являются очевидными для специалистов в данной области техники. Поэтому замысел изобретения ограничен только объемом приведенной ниже патентной формулы, а не частными подробностями, представленными с целью описания и объяснения вариантов осуществления, представленных в настоящей заявке.

На фиг. 1 приведен кодировщик 10 согласно изобретению для получения параметрического представления 12 из многоканального звукового сигнала. Кодировщик 10 содержит блок 14 вычисления пространственных параметров, блок 16 вычисления стереофонических параметров и блок 18 объединения параметров.

Блок 14 вычисления пространственных параметров вычисляет набор 20 пространственных параметров, описывающий пространственные свойства многоканального сигнала. Блок 16 вычисления стереофонических параметров вычисляет стереофонические параметры 22, описывающие пространственные свойства стереофонического понижающего микширования многоканального сигнала. Набор 20 пространственных параметров и стереофонические параметры 22 передаются блоку 18 объединения параметров, который выводит параметрическое представление 12, содержащее пригодный для использования декодером стереофонический параметр 24 и информацию о наборе пространственных параметров 26.

На фиг. 2 приведен пример для обратно совместимого двоичного потока, являющегося параметрическим представлением многоканального звукового сигнала, созданного кодировщиком по изобретению, изображенным на фиг. 1. Двоичный поток содержит участок 30 стереофонических параметров и участок 32 пространственных параметров. Участок 30 стереофонических параметров содержит стереофонический заголовок 34, находящийся в начале участка 30 стереофонических параметров, за которым следуют два пригодных для использования декодером стереофонических параметра 36a и 36b, которые могут использоваться декодером параметрического стерео для восстановления стереофонического сигнала. Декодер, способный обрабатывать только параметры параметрического стерео, определяет параметры 36a и 36b параметрического стерео по информации, содержащейся в стереофоническом заголовке 34.

Участок 32 пространственного звука начинается с пространственного заголовка 38 и содержит четыре параметра 40a-40d пространственного звука. Многоканальный декодер согласно настоящему изобретению может использовать пространственные параметры 40a-40d, определяя их при помощи пространственного заголовка 38, а также стереофонические параметры 36a и 36b, определяемые по стереофоническому заголовку 34. Как показано на фиг. 2, пространственный параметр 40a требует меньшей скорости передачи данных, чем пространственные параметры 40b-40d. В примере, приведенном на фиг. 2, пространственный параметр 40a представлен разностью исходного первоначального пространственного параметра и предсказанного пространственного параметра, полученного при помощи одного или нескольких стереофонических параметров 36a или 36b и одного или нескольких параметров 40b-40d пространственного звука. Поэтому многоканальный декодер согласно изобретению требует использования обоих стереофонических параметров 36a и 36b и пространственных параметров 40b-40d для восстановления пространственного параметра, лежащего в основе информации о пространственном параметре 40a, которая передается в двоичном потоке.

На фиг. 3 приведен предпочтительный вариант осуществления кодировщика 52 для получения параметрического представления многоканального звукового сигнала 50, который имеет три канала: левый канал l, правый канал r и центральный канал c.

Кодировщик 52 согласно изобретению содержит блок 54 пространственного понижающего микширования, блок 56 оценки пространственных параметров, блок 58 стереофонического понижающего микширования, блок 60 оценки параметров параметрического стерео, кодировщик 62 звука, блок 64 объединения параметров (блок совместного кодирования) и блок 66 вычисления скорости потока (мультиплексор).

Блок 54 пространственного понижающего микширования, блок 56 оценки пространственных параметров и блок 58 стереофонического понижающего микширования принимают в качестве входного сигнала многоканальный сигнал 50. Блок 54 пространственного понижающего микширования создает монофонический сигнал 68, полученный понижающим микшированием из многоканального сигнала 50, блок 56 оценки пространственных параметров получает пространственные параметры 70, описывающие пространственные свойства многоканального сигнала, а блок 58 стереофонического понижающего микширования создает стереофонический сигнал 72, полученный понижающим микшированием из многоканального сигнала 50.

Стереофонический сигнал 72, полученный понижающим микшированием, является входным сигналом блока 60 оценки параметров параметрического стерео, который выводит стереофонические параметры 74 из стереофонического сигнала, полученного понижающим микшированием, описывающие свойства стереофонического сигнала 72, полученного понижающим микшированием. Монофонический сигнал 68, полученный понижающим микшированием, является входным сигналом кодировщика 62 звука, который выводит звуковой двоичный поток 76, представляющий монофонический сигнал 68, полученный понижающим микшированием, посредством кодирования с использованием, например, способов перцептуального кодирования звука. Блок 64 объединения параметров принимает в качестве входных сигналов пространственные параметры 70, а также параметры 74 параметрического стерео, и выводит в качестве выходных сигналов пригодные для использования декодером стереофонические параметры 78 (дополнительную информацию параметрического стерео) и информацию 80 о пространственных параметрах (пространственную дополнительную информацию) посредством замены наборов пространственных параметров разностью предсказания пространственных параметров и самих пространственных параметров. Более подробно это описано на следующем чертеже.

Блок 66 вычисления двоичного потока принимает в качестве входных сигналов звуковой двоичный поток 76, информацию о наборе пространственных параметров 80 и пригодные для использования декодером стереофонические параметры 78 и объединяет указанные входные сигналы в двоичный поток 82, совместимый с параметрическим стерео, который может, например, содержать участки с параметрами, что подробно изображено на фиг. 2.

Блок 66 вычисления двоичного потока может представлять собой обычный мультиплексор. Однако для получения двоичного потока в соответствии с настоящим изобретением можно использовать и другие средства для объединения трех входных сигналов в совместимый двоичный поток.

Иными словами, на фиг. 3 приведен кодировщик, который берет в качестве входного сигнала многоканальный звуковой сигнал, содержащий каналы 1, r и c, и генерирует совместимый двоичный поток, который допускает декодирование пространственным декодером, а также обратно совместимое декодирование декодером ПС. Пространственное понижающее микширование заключается в том, что берется многоканальный сигнал 1, r, c и генерируется монофонический сигнал m, полученный понижающим микшированием. Затем этот сигнал можно закодировать дополнительным перцептуальным кодировщиком звука для получения компактного звукового двоичного потока, представляющего монофонический сигнал. Оценка пространственных параметров заключается в том, что берется многоканальный сигнал 1, r, c в качестве входного сигнала и генерируется набор квантованных пространственных пара

Стереофонически совместимое кодирование многоканального звука

Патент 2381570