Компактная дополнительная информация для параметрического кодирования пространственного звука

Иллюстрации

Показать все

Изобретение относится к кодированию звуковых сигналов и последующему синтезу слуховых пространств из закодированных звуковых данных. В звуковом кодере коды характеристик формируются для одного или более звуковых каналов, при этом комбинированный код характеристик (например, комбинированный код межканальной корреляции (ICC)) формируется посредством объединения двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценивается из группы из двух или более каналов. В звуковом декодере Е передаваемые звуковые каналы декодируются для формирования С воспроизводимых звуковых каналов. Принятые коды характеристик включают в себя комбинированный код характеристик (например, комбинированный код ICC). Один или более передаваемых каналов разводятся для формирования одного или более разведенных каналов. Один или более воспроизводимых каналов синтезируются посредством применения кодов характеристик к одному или более разведенным каналов, при этом два или более получаемых кодов характеристик получаются из комбинированного кода характеристик, и каждый получаемый код характеристик используется для формирования двух или более синтезированных каналов. 8 н. и 20 з.п. ф-лы, 12 ил.

Реферат

Перекрестная ссылка на родственные заявки

Сущность изобретения по настоящей заявке соответствует сущности изобретения по нижеследующим заявкам на патент США, все идеи которых включены в настоящую заявку посредством ссылки:

- Заявка на патент США под порядковым номером 09/848877, поданная 4 мая 2001 года, с кодом реестра поверенного №Faller 5;

- Заявка на патент США под порядковым номером 10/045458, поданная 7 ноября 2001 года, с кодом реестра поверенного № Baumgarte 1-6-8, по которой испрашивается приоритет по дате подачи предварительной заявки на патент США №60/311565, поданной 10 августа 2001 года;

- Заявка на патент США под порядковым номером 10/155437, поданная 24 мая 2002 года, с кодом реестра поверенного № Baumgarte 2-10;

- Заявка на патент США под порядковым номером 10/246570, поданная 18 сентября 2002 года, с кодом в реестре поверенного № Baumgarte 3-11;

- Заявка на патент США под порядковым номером 10/815591, поданная 1 апреля 2004 года, с кодом в реестре поверенного № Baumgarte 7-12;

- Заявка на патент США под порядковым номером 10/936464, поданная 8 сентября 2004 года, с кодом в реестре поверенного № Baumgarte 8-7-15;

- Заявка на патент США под порядковым номером 10/762100, поданная 20 января 2004 года (Faller 13-1);

- Заявка на патент США под порядковым номером 11/006492, поданная 7 декабря 2004 года, с кодом в реестре поверенного № Allamanche 1-2-17-3; и

- Заявка на патент США под порядковым номером 11/006,,______, поданная 7 декабря 2004 года, с кодом в реестре поверенного № Allamanche 2-3-18-4.

Сущность изобретения по настоящей заявке соответствует существу изложения нижеследующих статей, все идеи которых включены в данную заявку посредством ссылки:

- F.Baumgarte and C.Faller, “Binaural Cue Coding - Part I: Psychoacoustic fundamentals and design principles”, IEEE Trans. on Speech and Audio Proc., т.11, N.6, ноябрь 2003;

- C. Faller and F.Baumgarte, “Binaural Cue Coding - Part II: Schemes and applications”, IEEE Trans. on Sheech and Audio Proc., т.11, N.6, ноябрь 2003; и

- C.Faller, “Coding of spatial audio compatible with different playback formats”, Preprint 117th Conv. Aud. Eng. Soc., октябрь 2004 г.

Область техники, к которой относится изобретение

Настоящее изобретение относится к кодированию звуковых сигналов и последующему синтезу слуховых пространств из закодированных звуковых данных.

Описание предшествующего уровня техники

Когда человек слышит звуковой сигнал (т.е. звуки), формируемые конкретным источником звука, звуковой сигнал будет в типичном случае достигать левого и правого уха человека в два различных промежутка времени и с двумя различными уровнями звука (например, в децибелах), где эти различные промежутки времени и уровни являются функциями разниц в траекториях, по которым звуковой сигнал перемещается для достижения левого и правого уха соответственно. Мозг человека интерпретирует эти разницы во времени и уровне, чтобы дать человеку ощущение, что принятый звуковой сигнал формируется звуковым источником, расположенным в конкретном месте (например, направление и расстояние) относительно человека. Слуховое пространство является суммарным воздействием на человека одновременного прослушивания звуковых сигналов, формируемых одним или более различными звуковыми источниками, расположенными в одном или более различных местах относительно человека.

Существование этой обработки мозгом может использоваться для синтеза слуховых пространств, где звуковые сигналы от одного или более различных источников звука целенаправленно модифицируются для формирования левого и правого звуковых сигналов, которые дают ощущение, что различные источники звука располагаются в различных местах относительно слушателя.

Фиг.1 показывает высокоуровневую блок-схему традиционного синтезатора 100 стереосигнала, который конвертирует единственный сигнал источника звука (например, моносигнал) в левый и правый сигналы стереосигнала, где стереосигнал определяется как два сигнала, принятые барабанными перепонками слушателя. В дополнение к сигналу источника звука, синтезатор 100 принимает набор пространственных характеристик, соответствующих желаемому месту источника звука относительно слушателя. В типичных вариантах реализации, набор пространственных характеристик содержит величину межканальной разницы уровней (ICLD) (которая определяет разницу уровней звука между левым и правым звуковыми сигналами, принятыми в левом ухе и правом ухе, соответственно) и величину межканальной разницы во времени (ICTD) (которая определяет разницу во времени прибытия между левым и правым звуковыми сигналами, как принятому в левом ухе и правом ухе соответственно). В дополнение или как альтернатива, некоторые методики синтеза включают в себя моделирование зависящей от направления передаточной функции для звука от источника сигнала к барабанным перепонкам, также упоминаемой как передаточная функция, зависящая от головы человека (HRTF). См., например, J. Blauert, “The Psychophysics of Human Sound Localization”, MIT Press, 1983, идеи которой включены в данную заявку посредством ссылки.

Использование синтезатора 100 бинаурального сигнала по фиг.1, монозвуковой сигнал, формируемый единственным источником звука, может быть обработан так, чтобы, когда идет прослушивание по наушникам, источник звука пространственно располагался посредством использования соответствующего набора пространственных характеристик (например, ICLD, ICTD и/или HRTF) для формирования звукового сигнала для каждого уха. См., например, D.R.Begault, “3-D Sound for Virtual Reality and Multimedia”, Academic Press, Кембридж, Массачусетс, 1994 г.

Синтезатор 100 бинаурального сигнала по фиг.1 формирует самый простейший тип слуховых пространств: они имеют единственный источник звука, расположенный относительно слушателя. Более сложные слуховые пространства, содержащие два или более источников звука, расположенные в различных местах относительно слушателя, могут быть сформированы, используя синтезатор слуховых пространств, который главным образом реализуется, используя множественные копии синтезатора бинаурального сигнала, где каждая копия синтезатора бинаурального сигнала формирует бинауральный сигнал, соответствующий отличающемуся от других источнику звука. Так как каждый отличающийся источник звука имеет отличающееся положение относительно слушателя, отличающийся от других набор пространственных характеристик используется для формирования бинаурального звукового сигнала для каждого отличающегося источника звука.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Согласно одному варианту осуществления настоящее изобретение является способом, устройством и машиночитаемым носителем для кодирования звуковых каналов. Один или более кодов характеристик формируются для двух или более звуковых каналов, при этом по меньшей мере один код характеристик является объединенным кодом характеристик, формируемым объединением двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценивается из группы из двух или более звуковых каналов.

Согласно другому варианту осуществления настоящее изобретение является устройством для кодирования C входных звуковых каналов для формирования E передаваемых звуковых каналов. Устройство содержит блок оценки кода и блок сведения. Блок оценки кода формирует один или более кодов характеристик для двух или более звуковых каналов, при этом по меньшей мере один код характеристик является объединенным кодом характеристик, формируемым объединением двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценивается из группы из двух или более звуковых каналов. Блок сведения сводит С входных каналов для формирования E передаваемых каналов, где C>E≥1, при этом устройство выполнено с возможностью передачи информации о кодах характеристик, чтобы дать возможность декодеру выполнить обработку по синтезу во время декодирования E переданных каналов.

Согласно другому варианту осуществления настоящее изобретение является кодированным звуковым битовым потоком, сформированным кодированием звуковых каналов, при этом один или более кодов характеристик сформированы для двух или более звуковых каналов, причем по меньшей мере один код характеристик является объединенным кодом характеристик, сформированным объединением двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценивается из группы из двух или более звуковых каналов. Упомянутые один или более кодов характеристик и E передаваемых звуковых каналов, соответствующих упомянутым двум или более звуковым каналам, где E≥1, закодированы в упомянутый кодированный звуковой битовый поток.

Согласно другому варианту осуществления настоящее изобретение является кодированным звуковым битовым потоком, содержащим один или более кодов характеристик и E передаваемых звуковых каналов. Упомянутые один или более кодов характеристик сформированы для двух или более звуковых каналов, при этом по меньшей мере один код характеристик является объединенным кодом характеристик, сформированным объединением двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценивается из группы из двух или более звуковых каналов. E передаваемых звуковых каналов соответствуют упомянутым двум или более звуковым каналам.

Согласно другому варианту осуществления настоящее изобретение является способом, устройством и машиночитаемым носителем для декодирования E переданных звуковых каналов для формирования C воспроизводимых звуковых каналов, где C>E≥1. Коды сигнала, соответствующие E переданным каналам принимаются, при этом по меньшей мере один код характеристик является объединенным кодом характеристик, сформированным объединением двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценен из совокупности двух или более звуковых каналов, соответствующих E переданным каналам. Один или более из E переданных каналов разводятся для формирования одного или более разведенных каналов. Один или более из C воспроизводимых каналов синтезируются посредством применения кодов характеристик к упомянутым одному или более разведенным каналам, при этом два или более получаемых кодов характеристик получаются из объединенного кода характеристик, и каждый получаемый код характеристик применяется для формирования двух или более синтезированных каналов.

ПЕРЕЧЕНЬ ФИГУР ЧЕРТЕЖЕЙ

Другие аспекты, характеристики и преимущества настоящего изобретения станут более полно очевидными из последующего подробного описания, прилагаемой формулы изобретения и сопроводительных чертежей, в которых одинаковые ссылочные номера определяют похожие или идентичные элементы.

Фиг.1 показывает высокоуровневую блок-схему традиционного синтезатора бинаурального сигнала.

Фиг.2 является блок-схемой типичной системы звуковой обработки на основе кодирования бинауральных характеристик (BCC).

Фиг.3 показывает блок-схему блока сведения, который может быть использован в качестве блока сведения по фиг.2.

Фиг.4 показывает блок схему синтезатора ВСС, который может использоваться в качестве декодера по фиг.2.

Фиг.5 показывает блок-схему блока оценки ВСС по фиг.2 согласно одному варианту осуществления настоящего изобретения.

Фиг.6 иллюстрирует формирование данных ICTD и ICLD для пятиканального звука.

Фиг.7 иллюстрирует формирование данных ICC для пятиканального звука.

Фиг.8 показывает блок-схему реализации синтезатора ВСС по фиг.4, который может использоваться в декодере ВСС для формирования стерео или многоканального звукового сигнала, при наличии одного переданного суммарного сигнала s(n) и пространственных характеристик.

Фиг.9 иллюстрирует, как ICTD и ICLD варьируются в пределах поддиапазона как функция частоты.

Фиг.10 показывает блок-схему синтезатора BCC, который может использоваться в качестве декодера по фиг.2 для схемы ВСС 5-в-2.

Фиг.11 показывает блок-схему последовательности операций обработки системы BCC, например такой, которая показана на фиг.2, связанной с одним вариантом осуществления настоящего изобретения.

ПОДРОБНОЕ ОПИСАНИЕ

В кодировании бинауральных характеристик (ВСС) кодер кодирует С входных звуковых каналов для формирования E передаваемых звуковых каналов, где C>E≥1. В частности, два или более из С входных каналов предусмотрены в частотной области и один или более кодов характеристик формируются для каждого из одного или более отличающихся частотных диапазонов в упомянутых двух или более входных каналах в частотной области. Кроме того, С входных каналов сводятся для формирования Е передаваемых каналов. В некоторых вариантах реализации сведения, по меньшей мере, один из Е передаваемых каналов основан на двух или более из С входных каналов, и по меньшей мере один из Е передаваемых каналов основан лишь на единственном из С входных каналов.

В одном варианте осуществления кодер ВСС имеет две или более групп фильтров, блок оценки кода и блок сведения. Эти две или более групп фильтров конвертируют два или более из С входных канала из временной области в частотную область. Блок оценки кода формирует один или более кодов характеристик для каждого из одного или более отличающихся частотных диапазонов в упомянутых двух или более конвертируемых входных каналах. Блок сведения сводит С входных каналов для формирования Е передаваемых каналов, где C>E≥1.

При декодировании ВСС Е передаваемых звуковых каналов декодируются для формирования С воспроизводимых звуковых каналов. В частности, для каждого из одного или более отличающихся частотных диапазонов один или более из Е передаваемых каналов разводятся в частотной области для формирования двух или более из С воспроизводимых каналов в частотной области, где C>E≥1. Один или более кодов характеристик применяются к каждому из упомянутых одного или более отличающихся частотных диапазонов в упомянутых двух или более воспроизводимых каналах в частотной области для формирования двух или более модифицированных каналов, и эти два или более модифицированных каналов конвертируются из частотной области во временную область. В некоторых вариантах осуществления разведения по меньшей мере один из С воспроизводимых каналов основан на по меньшей мере одном из Е передаваемых каналов и по меньшей мере одном коде сигнала, и по меньшей мере один из С воспроизводимых каналов основан лишь на одном из Е передаваемых каналов и независим от каких-либо кодов характеристик.

В одном варианте осуществления декодер ВСС имеет блок разведения, синтезатор и одну или более групп обратных фильтров. Для каждого одного или более отличающихся частотных диапазонов блок разведения разводит один или более из Е передаваемых каналов в частотной области для формирования двух или более из С воспроизводимых каналов в частотной области, где C>E≥1. Синтезатор использует один или более кодов характеристик для каждого из упомянутых одного или более отличающихся частотных диапазонов в упомянутых двух или более воспроизводимых каналах в частотной области для формирования двух или более модифицированных каналов. Одна или более групп обратных фильтров конвертируют эти два или более модифицированных каналов из частотной области во временную область.

В зависимости от конкретного варианта осуществления заданный воспроизводимый канал может быть основан скорее на единственном передаваемом канале, чем на объединении двух или более передаваемых каналов. Например, когда существует лишь один передаваемый канал, каждый из С воспроизводимых каналов основан на этом одном передаваемом канале. В этих ситуациях разведение соответствует копированию соответствующего передаваемого канала.

Как таковой, для вариантов применения, в которых имеется только один передаваемый канал, блок разведения может быть реализован с использованием репликатора, который копирует передаваемый канал для каждого воспроизводимого канала.

Кодеры и/или декодеры ВСС могут быть включены в число систем или приложений, которые включают в себя, например, цифровые видеомагнитофоны/проигрыватели, цифровые магнитофоны/плееры, компьютеры, спутниковые передатчики/приемники, кабельные передатчики/приемники, передатчики/приемники наземного широковещания, системы домашних развлечений и системы домашнего кинотеатра.

Типичная обработка ВСС

Фиг.2 является блок-схемой типичной системы 200 звуковой обработки на основе кодирования бинауральных характеристик (ВСС), которая содержит кодер 202 и декодер 204. Кодер 202 включает в себя блок сведения 206 и блок 208 оценки ВСС.

Блок 206 сведения конвертирует с входных звуковых каналов xi(n) в Е передаваемых звуковых каналов yi(n), где C>E≥1. В этом описании сигналы, выраженные с использованием переменной n, являются сигналами временной области, в то время как сигналы, выраженные с использованием переменной k, являются сигналами частотной области. В зависимости от конкретного варианта осуществления сведение может быть осуществлено либо во временной области, либо в частотной области. Блок 208 оценки ВСС формирует коды ВСС из С входных звуковых каналов и передает эти коды ВСС либо как внутриполосную, либо как внеполосную дополнительную информацию относительно Е передаваемых звуковых каналов. Типичные коды ВСС включают в себя одно или более из данных межканальной разницы во времени (ICTD), данных межканальной разницы уровней (ICLD) и данных межканальной корреляции (ICC), оцениваемые между определенными парами входных каналов как функция частоты и времени. Конкретное осуществление будет диктовать, между какими конкретными парами входных каналов оцениваются коды ВСС.

Данные ICC соответствуют когерентности бинаурального сигнала, которая связана с воспринимаемой шириной источника звука. Чем шире источник звука, тем ниже когерентность между левым и правым каналами результирующего бинаурального сигнала. Например, когерентность бинаурального сигнала, соответствующая оркестру, рассредоточенному по концертному залу, в типичном случае ниже, чем когерентность стереосигнала, соответствующего единственной скрипке, играющей соло. В общем, звуковой сигнал с меньшей когерентностью обычно воспринимается как более разнесенный по пространству. Как таковые, данные ICC в типичном случае связаны с видимой шириной источника и степенью охвата слушателя. См., например, J.Blauert, “The Psychophysics of Human Sound Localization”, MIT Press, 1983.

В зависимости от конкретного варианта применения Е передаваемых звуковых каналов и соответствующие коды ВСС могут передаваться непосредственно к декодеру 204 или сохраняться в некотором подходящем типе запоминающего устройства для последующего доступа со стороны декодера 204. В зависимости от ситуации, термин "передача" может относиться либо к непосредственной передаче в декодер, либо к сохранению для последующего предоставления декодеру. В любом случае декодер 204 принимает передаваемые звуковые каналы и дополнительную информацию и выполняет разведение и синтез ВСС, используя коды ВСС для конвертации Е передаваемых звуковых каналов в более, чем Е (типично, но не обязательно С) звуковых каналов воспроизведения для звукового воспроизведения. В зависимости от конкретного осуществления разведение может выполняться либо во временной области, либо в частотной области.

В дополнение к обработке ВСС, показанной на фиг.2, типичная система звуковой обработки на основе ВСС может включать в себя дополнительные секции кодирования и декодирования для дополнительного уплотнения звуковых сигналов в кодере и затем, соответственно, разуплотнения звуковых сигналов в декодере. Эти звуковые кодеки могут быть основаны на традиционных методиках звукового уплотнения/разуплотнения, как например те, которые основаны на импульсно-кодовой модуляции (PCM), дифференциальной PCM (DPCM) или адаптивной DPCM (ADPCM).

Когда блок 206 сведения формирует единственный суммарный сигнал (т.е. Е=1), то кодирование ВСС обеспечивает возможность представлять многоканальные звуковые сигналы с расходом битов (битрейтом) лишь слегка большим, чем тот, что требуется для представления звукового моносигнала. Это так, потому что оцениваемые данные ICTD, ICLD и ICC между парой каналов содержат примерно на два порядка величины меньше информации, чем звуковая форма сигнала.

Не только низкий расход битов кодирования ВСС, но также его аспект обратной совместимости также представляет интерес. Один передаваемый суммарный сигнал соответствует сведению исходного стерео или многоканального сигнала в моносигнал. Для приемников, которые не поддерживают стерео или многоканальное воспроизведение звука, прослушивание передаваемого суммарного сигнала является действующим способом представления звукового материала на слабооснащенном оборудовании для моновоспроизведения. Кодирование ВСС может, следовательно, также использоваться для улучшения существующих услуг, включая приведение монофонического звукового материала к многоканальному звуку. Например, существующие системы монофонического радиовещания могут быть улучшены для стерео или многоканального воспроизведения, если дополнительная информация ВСС может быть введена в существующий канал передачи. Аналогичные возможности существуют при сведении многоканального звука к двум суммарным сигналам, которые соответствуют стереозвуку.

ВСС обрабатывает звуковые сигналы с определенным временным и частотным разрешением. Используемое частотное разрешение в основном обусловлено частотным разрешением слуховой системы человека. Психоакустика предполагает, что пространственное восприятие наиболее вероятно основано на представлении критического диапазона акустического входного сигнала. Это частотное разрешение рассматривается посредством использования группы обратимых фильтров (например, основанных на быстром преобразовании Фурье, FFT) или квадратурном зеркальном фильтре (QMF)) с поддиапазонами с ширинами, равными или пропорциональными критической ширине диапазона слуховой системы человека.

Традиционное сведение

В предпочтительных вариантах осуществления передаваемый суммарный сигнал(ы) содержит все необходимые сигнальные компоненты входного звукового сигнала. Цель состоит в том, чтобы полностью сохранить каждый компонент сигнала. Простое суммирование звуковых входных каналов часто приводит к усилению или ослаблению компонентов сигнала. Иначе говоря, мощность компонентов сигнала в "простой" сумме часто больше или меньше, чем сумма мощности соответствующего компонента сигнала каждого канала. Может использоваться методика сведения, которая корректирует суммарный сигнал из условия, чтобы мощность компонентов сигнала в этом суммарном сигнале была приблизительно той же самой, что и соответствующая мощность во всех входных каналах.

Фиг.3 показывает блок-схему блока 300 сведения, который может использоваться в качестве блока 206 сведения по фиг.2, согласно определенным вариантам осуществления системы 200 ВСС. Блок 300 сведения имеет группу 302 фильтров (FB) для каждого входного канала xi(n), блок 304 сведения, необязательный блок 306 масштабирования/задержки и обратную FB 308 (IFB) для каждого кодируемого канала yi (n).

Каждая группа 302 фильтров конвертирует каждый кадр (например, 20 мсек) соответствующего цифрового входного канала xi(n) во временной области в набор входных коэффициентов в частотной области. Блок 304 сведения сводит каждый поддиапазон С соответствующих входных коэффициентов в соответствующий поддиапазон Е сведенных коэффициентов частотной области. Уравнение (1) представляет сведение k-го поддиапазона входных коэффициентов , ,...) для формирования k-го поддиапазона сведенных коэффициентов (, ,...,) следующим образом:

где DCE является вещественнозначной матрицей сведения C-в-Е.

Необязательный блок 306 масштабирования/задержки содержит набор перемножителей 310, каждый из которых умножает соответствующий сведенный коэффициент на коэффициент масштабирования ei(k) для формирования соответствующего масштабированного коэффициента . Обоснование для операции масштабирования эквивалентно коррекции, обобщенной для сведения с произвольными весовыми множителями для каждого канала. Если входные каналы независимы, то мощность сведенного сигнала в каждом поддиапазоне задается уравнением (2) следующим образом:

где получается посредством возведения в квадрат каждого элемента матрицы в матрице DCE сведения С-в-Е и является мощностью поддиапазона входного канала i.

Если поддиапазоны не являются независимыми, то значения мощности сведенного сигнала будут больше или меньше, чем та, которая вычислена, используя уравнение (2), из-за усилений или подавлений сигнала, когда компоненты сигнала находятся, синфазны или противофазны соответственно. Для того чтобы это предотвратить, операция сведения по уравнению (1) применяется в поддиапазонах, за которой следует операция масштабирования, выполняемая перемножителями 310. Коэффициенты ei(k) масштабирования (l≤i≤E) могут быть получены, используя уравнение (3) следующим образом:

где является мощностью поддипазона, вычисленной посредством уравнения (2), и , является мощностью соответствующего сведенного сигнала поддиапазона.

В дополнение к или вместо предоставления необязательного масштабирования блок 306 масштабирования/задержки может в необязательном порядке применять задержки к сигналам.

Каждая группа 308 обратных фильтров конвертирует набор соответствующих масштабированных коэффициентов в частотной области в кадр соответствующего цифрового передаваемого канала yi(n).

Хотя фиг.3 показывает все С из входных каналов как сконвертированные в частотную область для последующего сведения, в альтернативных вариантах осуществления один или более (но меньше, чем С-1) из С входных каналов могут обходить некоторую часть или всю обработку, показанную на фиг.3, и передаваться как эквивалентное число немодифицированных звуковых каналов. В зависимости от конкретных вариантов осуществления эти немодифицированные звуковые каналы могут использоваться или могут не использоваться блоком 208 оценки ВСС по фиг.2 при формировании передаваемых кодов ВСС.

В варианте реализации блока 300 сведения, который формирует один суммарный сигнал y(n), E=l и сигналы каждого поддиапазона каждого входного канала с добавляются и затем умножаются на коэффициент e(k) согласно уравнению (4) следующим образом:

причем коэффициент e(k) задается уравнением (5) следующим образом:

где является кратковременной оценкой мощности во временной индекс k и является кратковременной оценкой мощности Скорректированные поддиапазоны передаются обратно во временную область, что имеет результатом суммарный сигнал y(n), который передается в декодер ВСС.

Типичный синтез ВСС

Фиг.4 показывает блок-схему блока 400 синтеза ВСС, который может использоваться для декодера 204 по фиг.2, согласно определенным вариантам осуществления системы 200 ВСС. Синтезатор 400 ВСС имеет группу 402 фильтров для каждого передаваемого канала yi(n), блок 404 разведения, задержки 406, перемножители 408, блок 410 корреляции и группу 412 обратных фильтров для каждого канала воспроизведения .

Каждая группа 402 фильтров конвертирует каждый кадр соответствующего цифрового передаваемого канала во временной области в набор входных коэффициентов в частотной области. Блок 404 разведения разводит каждый поддиапазон Е соответствующих коэффициентов передаваемых каналов в соответствующий поддиапазон С разведенных коэффициентов частотной области. Уравнение (4) представляет разведение k-го поддиапазона коэффициентов передаваемых каналов (,,...,) для формирования k-го поддиапазона разведенных коэффициентов ((,,...,) следующим образом:

где UEC является вещественнозначной матрицей разведения Е-на-С. Выполнение разведения в частотной области обеспечивает возможность применения разведения на индивидуальной основе в каждом отличающемся поддиапазоне.

Каждая задержка 406 применяет величину задержки di(k) на основе соответствующего кода ВСС для данных ICTD, чтобы гарантировать, что желаемые значения ICTD появятся между определенными парами воспроизводимых каналов. Каждый перемножитель 408 применяет коэффициент ai(k) масштабирования на основе соответствующего кода ВСС для данных ICLD, чтобы гарантировать, что желаемые значения ICLD появятся между определенными парами проигрываемых каналов. Блок 410 корреляции выполняет операцию А декорреляции на основе соответствующих кодов ВСС для данных ICC, чтобы гарантировать, что желаемые значения ICC появятся между определенными парами воспроизводимых каналов. Дополнительное описание операций блока 410 корреляции может быть найдено в заявке на патент США №10/155437, поданной 24 мая 2002 года (Baumgarte 2-10).

Синтез значений ICLD может быть менее проблематичным, чем синтез значений ICTD или ICC, так как синтез ICLD включает в себя просто масштабирование сигналов поддиапазона. Так как характеристики ICLD являются наиболее часто используемыми характеристиками направленности сигналами, обычно более важным является то, что значения ICLD аппроксимируют таковые исходного звукового сигнала. Как таковые, данные ICLD могут быть оценены между всеми парами каналов. Коэффициенты ai(k) масштабирования (l≤i≤C) для каждого поддиапазона предпочтительно выбираются так, чтобы мощность поддиапазона каждого канала воспроизведения аппроксимировала соответствующую мощность исходного входного звукового канала.

Одной целью может являться использование относительно небольшого количества модификаций сигнала для синтезирования значений ICTD и ICC. Как таковые, данные ВСС могут не включать в себя значения ICTD и ICC для всех пар каналов. В этом случае синтезатор 400 ВСС синтезировал бы значения ICTD и ICC лишь между определенными парами каналов.

Каждая группа 412 обратных фильтров конвертирует набор соответствующих синтезированных коэффициентов в частотной области в кадр соответствующего цифрового канала воспроизведения .

Хотя фиг.4 показывает, что все Е передаваемых каналов преобразованы в частотную область для последовательного разведения и обработки ВСС, в альтернативных вариантах реализации один или более (но не все) Е передаваемых каналов могут обойти некоторую часть или всю обработку, показанную на фиг.4. Например, один или более из передаваемых каналов могут являться немодифированными каналами, которые не подвергнуты какому-либо разведению. Кроме того, являясь одним или более из С воспроизводимых каналов, эти немодифицированные каналы, в свою очередь, могут, но необязательно, использоваться как опорные каналы, к которым применяется обработка ВСС для синтезирования одного или более из других воспроизводимых каналов. В любом случае, такие немодифицированные каналы могут быть подвергнуты задержкам, чтобы ввести поправку на время обработки, задействуемое при разведении и/или обработке ВСС, используемой для формирования оставшихся воспроизводимых каналов.

Следует заметить, что хотя фиг.4 показывает, что С воспроизводимых каналов синтезированы из Е передаваемых каналов, где С являлось также количеством исходных входных каналов, синтез ВСС не ограничивается этим количеством воспроизводимых каналов. В общем, количество воспроизводимых каналов может являться любым количеством каналов, включая количества, большие или меньшие чем С и, возможно, даже ситуации, где количество воспроизводимых каналов равно или меньше чем количество передаваемых каналов.

"Значимые разницы для восприятия" между звуковыми каналами

Предполагая единственный суммарный сигнал ВСС синтезирует стерео или многоканальный звуковой сигнал так, что ICTD, ICLD, и ICC аппроксимируют соответствующие характеристики исходного звукового сигнала. В последующем обсуждается роль ICTD, ICLD, and ICC в связи с характеристиками слухового пространственного образа.

Знание о слышимости в пространстве подразумевает, что для одного слухового события ICTD и ICLD относятся к воспринимаемому направлению. При рассмотрении бинауральных импульсных характеристик помещения (BRIR), соответствующих одному источнику, существует взаимосвязь между шириной слухового события и степенью охвата слушателя и данными ICC, оцениваемыми для ранних и поздних частей BRIR. Тем не менее, взаимосвязь между ICC и этими свойствами для общих сигналов (а не только для BRIR) не является прямой.

Стерео и многоканальные звуковые сигналы обычно содержат сложное сочетание параллельных сигналов активных источников, на которые наложены отраженные компоненты сигнала, которые получаются в результате записи в закрытых пространствах или добавляются звукорежиссером для искусственного создания пространственного впечатления. Сигналы различных источников и их отражения занимают различные области в плоскости время-частота. Это выражается с помощью ICTD, ICLD и ICC, которые варьируются как функции времени и частоты. В этом случае связь между мгновенными значениями ICTD, ICLD и ICC и направлениями слухового события и пространственного впечатления не очевидна. Стратегией определенных вариантов осуществления ВСС является машинальный синтез этих характеристик из условия, чтобы они аппроксимировали соответствующие характеристики исходного звукового сигнала.

Используются группы фильтров с поддиапазонами с шириной, равной удвоенной ширине эквивалентной прямоугольной полосы частот (ERB). Обычное прослушивание показывает, что звуковое качество ВСС не заметно улучшается при выборе более высокого частотного разрешения. Более низкое частотное разрешение может оказаться желательным, так как оно приводит к меньшим значениям ICTD, ICLD и ICC, которые необходимо передать в декодер, и таким образом, к меньшему расходу битов.

Принимая во внимание временное разрешение ICTD, ICLD и ICC в типичном случае рассматриваются через регулярные интервалы времени. Высокая эффективность достигается, когда ICTD, ICLD и ICC рассматриваются примерно через каждые от 4 до 16 мсек. Следует заметить, что если характеристики не рассматриваются через очень короткие временные интервалы, эффект предшествования не рассматривается непосредственно. Предполагая классическую пару опережение/задер