Индивидуальное формирование каналов для схем всс и т.п.

Иллюстрации

Показать все

Изобретение касается кодирования аудиосигналов и последующего синтеза звуковых сцен из кодированных аудиоданных. В аудиокодере создают коды ключевой информации для одного или нескольких аудиоканалов, где код ключевой информации огибающей создают путем характеризации временной огибающей в аудиоканале. В аудиодекодере Е переданных аудиоканалов (аудиоканал) декодируют для создания С аудиоканалов воспроизведения, где С>Е≥1. Полученные коды ключевой информации включают в себя код ключевой информации огибающей, соответствующий охарактеризованной временной огибающей аудиоканала, соответствующего переданному каналу (каналам). Один или несколько переданных каналов смешивают с увеличением числа каналов для создания одного или нескольких каналов, смешанных с увеличением числа каналов. Синтезируют один или несколько каналов воспроизведения путем применения кодов ключевой информации к одному или нескольким каналам, смешанным с увеличением числа каналов, где код ключевой информации огибающей применяют к каналу, смешанному с увеличением числа каналов, или синтезированному сигналу для настройки временной огибающей синтезированного сигнала на основе охарактеризованной временной огибающей, так что настроенная временная огибающая по существу совпадает с охарактеризованной временной огибающей. Технический результат - расширение арсенала средств для кодирования аудиоданных. 10 н. и 32 з.п. ф-лы, 18 ил.

Реферат

Перекрестные ссылки на родственные заявки

Данная заявка претендует на преимущество даты подачи предварительной патентной заявки США №60/620480, поданной 20.10.04 (Дело поверенного № Allamanche 2-3-18-4), основные положения которой включены сюда по ссылке.

Вдобавок, предмет этой заявки относится к предмету следующих патентных заявок США, основные положения которых включены сюда по ссылке:

Патентная заявка США №09/848877, поданная 04.05.2001 (Дело поверенного № Faller 5);

Патентная заявка США №10/045458, поданная 07.11.2001 (Дело поверенного № Baumgarte 1-6-8), которая, в свою очередь, претендовала на преимущество даты подачи предварительной патентной заявки США №60/311565, поданной 10.08.2001;

Патентная заявка США №10/155437, поданная 24.05.2002 (Дело поверенного № Baumgarte 2-10);

Патентная заявка США №10/246570, поданная 18.09.2002 (Дело поверенного № Baumgarte 3-11);

Патентная заявка США №10/815591, поданная 01.04.2004 (Дело поверенного № Baumgarte 7-12);

Патентная заявка США №10/936464, поданная 08.09.2004 (Дело поверенного № Baumgarte 8-7-15);

Патентная заявка США №10/762100, поданная 20.01.2004 (Faller 13-1); и

Патентная заявка США №10/хххххх, поданная с той же датой, что и данная заявка (Дело поверенного № Allamanche 1-2-17-3).

Предмет данной заявки также касается вопросов, описанных в следующих статьях, основные положения которых включены сюда по ссылке:

F. Baumgarte and C. Faller, "Binaural Cue Coding-Part I: Psychoacoustic fundamentals and design principles", IEEE Trans. on Speech and Audio Proc., vol.11, no.6, Nov.2003;

C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications", IEEE Trans on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003; and

C. Faller, "Coding of spatial audio compatible with different playback formats", Preprint 117th Conv. Aud. Eng. Soc., October 2004.

Область техники, к которой относится изобретение

Настоящее изобретение относится к кодированию аудиосигналов и последующему синтезу звуковых сцен из кодированных аудиоданных.

Уровень техники

Когда человек слышит аудиосигнал (то есть, звуки), созданный конкретным источником звука, этот аудиосигнал поступает в его левое и правое ухо, как правило, в разные моменты времени и с двумя разными уровнями звука (например, в децибелах), причем эти разные моменты времени и уровни зависят от различий в траекториях, по которым распространяется каждый аудиосигнал, достигая левого и правого уха соответственно. Человеческий мозг интерпретирует эти различия во времени и уровне, обеспечивая ощущение того, что принимаемый аудиосигнал создается источником звука, находящимся в конкретном месте (например, по конкретному направлению и на конкретном расстоянии) по отношению к этому человеку. Звуковая сцена представляет собой совокупное воздействие аудиосигналов, одновременно слышимых человеком, которые создаются одним или несколькими разными источниками звука, находящимися в одном или нескольких различных местах по отношению к этому человеку.

Указанную обработку, осуществляемую мозгом, можно использовать для синтеза звуковых сцен, где аудиосигналы от одного или нескольких разных источников звука целенаправленно модифицируются для создания левого и правого аудиосигналов, которые обеспечивают ощущение того, что разные источники звука находятся в разных местах по отношению к слушателю.

На фиг.1 показана обобщенная блок-схема стандартного синтезатора 100 бинаурального сигнала, который преобразует сигнал от одного источника звука (например, монофонический сигнал) в левый и правый аудиосигналы бинаурального сигнала, где бинауральный сигнал определяется как два сигнала, принимаемые на барабанных перепонках слушателя. Вдобавок к сигналу источника звука синтезатор 100 получает набор пространственной ключевой информации, соответствующей желаемому положению источника звука по отношению к слушателю. В типовых реализациях набор пространственной ключевой информации содержит значение разницы уровней сигнала между каналами (ICLD) (которое идентифицирует разницу в уровне между левым и правым аудиосигналами, принимаемыми в левом и правом ухе соответственно) и значение временного сдвига между каналами (ICTD) (которое идентифицирует разницу во времени поступления левого и правого аудиосигналов, принимаемых в левом и правом ухе соответственно). Вдобавок, или как альтернативный вариант, некоторые технологии синтеза включают в себя моделирование передаточной функции, зависящей от направления, для звука от источника звука к барабанным перепонкам, которую также называют передаточной функцией, моделирующей восприятие звука человеком (HRTF). Смотри, например, работу J.Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983, основные положения которой включены сюда по ссылке.

Используя синтезатор 100 бинаурального сигнала по фиг.1, можно обрабатывать монофонический аудиосигнал, создаваемый одним источником звука, так чтобы при прослушивании через наушники создавалось ощущение пространственного расположения источника звука, путем использования подходящего набора пространственной ключевой информации (например, ICLD, ICTD и/или HRTF) для создания аудиосигнала для каждого уха. Смотри, например, работу D.R. Begaut, 3-D Sound for Virtual Reality and Multimedia, Academic Press, Cambridge, MA, 1994.

Синтезатор 100 бинаурального сигнала по фиг.1 создает звуковые сцены простейшего типа, имеющие один источник звука, позиционированный относительно слушателя. Можно создавать более сложные звуковые сцены, содержащие два или более источников звука, находящихся в разных местах по отношению к слушателю, путем использования синтезатора звуковой сцены, который фактически реализуется с использованием множества экземпляров синтезатора бинаурального сигнала, где каждый экземпляр синтезатора бинаурального сигнала создает бинауральный сигнал, соответствующий тому или иному источнику звука. Поскольку каждый из разных источников звука имеет свое собственное местоположение по отношению к слушателю, для создания бинаурального аудиосигнала для каждого из различных источников звука используют свой собственный набор пространственной ключевой информации.

Сущность изобретения

Согласно одному варианту настоящее изобретение представляет собой способ, устройство и считываемый машиной носитель для кодирования аудиоканалов. Создают и передают один или несколько кодов ключевой информации для одного или нескольких аудиоканалов, где по меньшей мере один код ключевой информации является кодом ключевой информации огибающей, созданным путем характеризации временной огибающей в одном из упомянутых одного или нескольких аудиоканалов.

Согласно другому варианту настоящее изобретение представляет собой устройство для кодирования С входных аудиоканалов с целью создания Е передаваемых аудиоканалов (аудиоканала). Устройство содержит анализатор огибающей, блок оценки кода и смеситель, сокращающий число каналов. Анализатор огибающей характеризует входную временную огибающую по меньшей мере одного из С входных каналов. Блок оценки кода создает коды ключевой информации для двух или более из С входных каналов. Смеситель, сокращающий число каналов, смешивает С входных каналов с сокращением числа каналов для создания Е передаваемых каналов (канала), где С>E≥1, причем устройство передает информацию о кодах ключевой информации и охарактеризованную входную временную огибающую, чтобы позволить декодеру выполнить синтез и формирование огибающей во время декодирования Е передаваемых каналов (канала).

Согласно еще одному варианту настоящее изобретение представляет собой поток кодированных аудиобитов, созданный путем кодирования аудиоканалов, в котором для одного или нескольких аудиоканалов создают один или несколько кодов ключевой информации, где по меньшей мере один код ключевой информации является кодом ключевой информации огибающей, созданным путем характеризации временной огибающей в одном из одного или нескольких аудиоканалов. Один или несколько кодов ключевой информации и Е переданных аудиоканалов (аудиоканала), соответствующих одному или нескольким аудиоканалам, где Е≥1, кодируют в поток кодированных аудиобитов.

Согласно следующему варианту настоящее изобретение представляет собой поток кодированных аудиобитов, содержащий один или несколько кодов ключевой информации и Е переданных аудиоканалов (аудиоканал). Один или несколько кодов ключевой информации создают для одного или нескольких аудиоканалов, где по меньшей мере один код ключевой информации является кодом ключевой информации огибающей, созданным путем характеризации временной огибающей в одном из одного или нескольких аудиоканалов. Е переданных аудиоканалов (аудиоканал) соответствуют упомянутым одному или нескольким аудиоканалам.

Согласно еще одному варианту настоящее изобретение представляет собой способ, устройство и считываемый машиной носитель для декодирования Е переданных аудиоканалов (аудиоканала) для создания С аудиоканалов воспроизведения, где С>E≥1. Принимают коды ключевой информации, соответствующие Е переданным каналам (каналу), где коды ключевой информации содержат код ключевой информации огибающей, соответствующий охарактеризованной временной огибающей аудиоканала, соответствующего Е переданным каналам (каналу). Один или несколько из Е переданных каналов (канал) смешивают с увеличением числа каналов для создания одного или нескольких каналов, смешанных с увеличением числа каналов. Синтезируют один или несколько из С каналов воспроизведения путем применения кодов ключевой информации к одному или нескольким каналам, смешанным с увеличением числа каналов, где код ключевой информации огибающей применяют к каналу, смешанному с увеличением числа каналов, или синтезированному сигналу для настройки временной огибающей синтезированного сигнала на основе охарактеризованной временной огибающей, так что настроенная временная огибающая по существу совпадает с охарактеризованной временной огибающей.

Краткое описание чертежей

Другие аспекты, признаки и преимущества настоящего изобретения станут более очевидными из последующего подробного описания, прилагаемой формулы изобретения и сопроводительных чертежей, на которых одинаковые ссылочные позиции идентифицируют подобные или идентичные элементы.

Фиг.1 - обобщенная блок-схема стандартного синтезатора бинаурального сигнала;

фиг.2 - блок-схема системы базовой обработки аудиосигнала на основе бинаурального кодирования с использованием ключевой информации (BCC);

фиг.3 - блок-схема смесителя, сокращающего число каналов, который можно использовать в качестве смесителя, сокращающего число каналов, по фиг.2;

фиг.4 - блок-схема синтезатора BCC, который можно использовать в качестве декодера по фиг.2;

фиг.5 - блок-схема блока оценки BCC по фиг.2 согласно одному варианту настоящего изобретения;

фиг.6 - схема создания данных о временном сдвиге между каналами (ICTD) и данных о разнице уровней между каналами (ICLD) для пятиканальной аудиосистемы;

фиг.7А и 7В - схема создания данных о межканальной корреляции (ICC) для пятиканальной аудиосистемы;

фиг.8 - блок-схема реализации синтезатора BCC по фиг.4, который можно использовать в декодере BCC для создания стерео- или многоканального аудиосигнала, заданного одним переданным суммарным сигналом s(n) плюс пространственной ключевой информации;

фиг.9 - иллюстрация изменений ICTD и ICLD в субполосе в зависимости от частоты;

фиг.10А и 10В - блок-схема обработки во временной области, которая добавляется к кодеру ВСС, например кодеру по фиг.2 согласно одному варианту настоящего изобретения;

фиг.11А и 11В - пример применения обработки TP во временной области в контексте синтезатора BCC по фиг.4;

фиг.12А и 12В - возможные варианты реализации TPA по фиг.10 и TP по фиг.11 соответственно, где формирование огибающей применяется только на частотах, превышающих частоту fTP среза;

фиг.13А и 13В - блок-схема обработки во временной области, которая добавляется к кодеру ВСС, например кодеру по фиг.2 согласно альтернативному варианту настоящего изобретения;

фиг.14А и 14В - пример применения обработки TP в частотной области в контексте синтезатора BCC по фиг.4;

фиг.15 - блок-схема обработки во временной области, которая добавляется к кодеру ВСС, например кодеру по фиг.2 согласно еще одному альтернативному варианту настоящего изобретения;

фиг.16 - еще один пример применения обработки TP в частотной области в контексте синтезатора BCC по фиг.4;

фиг.17А-17С - блок-схемы возможных вариантов реализации TPA по фиг.15 и 16 и ITP и TP по фиг.16; и

фиг.18А и 18В - два примерных режима функционирования блока управления по фиг.16.

Подробное описание изобретения

При бинауральном кодировании с использованием ключевой информации (BCC) кодер кодирует С входных аудиоканалов для создания Е передаваемых аудиоканалов, где С>E≥1. В частности, два или более из С входных каналов обеспечивают в частотной области, а для каждой из одной или нескольких различных частотных полос в двух или более входных каналах в частотной области создают один или несколько кодов ключевой информации. Вдобавок, для создания Е передаваемых каналов выполняют смешение С входных каналов с сокращением числа каналов. В некоторых вариантах реализации смешения с сокращением числа каналов по меньшей мере один из Е переданных каналов базируется на двух или более из С входных каналов, а по меньшей мере один из Е переданных каналов базируется только на одном из С входных каналов.

В одном варианте кодер BCC имеет два или более блоков фильтров, блок оценки кодов и смеситель, сокращающий число каналов. Два или более блоков фильтров преобразуют два или более из С входных каналов из временной области в частотную область. Блок оценки кодов создает один или несколько кодов ключевой информации для каждой из одной или нескольких различных частотных полос в двух или более преобразованных входных каналах. Смеситель, сокращающий число каналов, выполняет смешение С входных каналов с сокращением числа каналов для создания Е передаваемых каналов, где С>E≥1.

При декодировании BCC декодируют Е передаваемых аудиоканалов для создания С аудиоканалов воспроизведения. В частности, для каждой из одной или нескольких различных частотных полос выполняют в частотной области смешение одного или более из Е переданных каналов с увеличением числа каналов для создания двух или более из С каналов воспроизведения в частотной области, где С>E≥1. Для каждой из одной или нескольких различных частотных полос в двух или более каналах воспроизведения в частотной области используют один или несколько кодов ключевой информации для создания двух или более модифицированных каналов, и эти два или более модифицированных каналов преобразуют из частотной области во временную область. В некоторых вариантах реализации смешения с увеличением числа каналов по меньшей мере один из С каналов воспроизведения базируется по меньшей мере на одном из Е переданных каналов и по меньшей мере на одном коде ключевой информации, а по меньшей мере один из С каналов воспроизведения базируется только на одном из Е переданных каналов и не зависит от какого-либо из кодов ключевой информации.

В одном варианте декодер BCC содержит смеситель, увеличивающий число каналов, синтезатор и один или несколько блоков обратных фильтров. Для каждой из одной или нескольких различных частотных полос смеситель, увеличивающий число каналов, выполняет в частотной области смешение одного или нескольких из Е переданных каналов с увеличением числа каналов для создания двух или более из С каналов воспроизведения в частотной области, где С>E≥1. Синтезатор использует один или несколько кодов ключевой информации для каждой из одной или нескольких различных частотных полос в двух или более каналах воспроизведения в частотной области для создания двух или более модифицированных каналов. Один или более блоков обратных фильтров преобразует два или более модифицированных каналов из частотной области во временную область.

В зависимости от конкретной реализации данный канал воспроизведения может базироваться на одном переданном канале, а не на комбинации из двух или более переданных каналов. Например, при наличии только одного переданного канала каждый из С каналов воспроизведения базируется на этом одном переданном канале. В таких ситуациях смешение с увеличением числа каналов соответствует копированию соответствующего переданного канала. По существу, для приложений, в которых имеется только один передаваемый канал, смеситель, увеличивающий число каналов, можно реализовать с использованием репликатора, который копирует этот передаваемый канал для каждого канала воспроизведения.

Кодеры и/или декодеры BCC можно включить в ряд систем или приложений, в том числе, например, в цифровые видеомагнитофоны/плееры, цифровые аудиомагнитофоны/плееры, компьютеры, спутниковые передатчики/приемники, кабельные передатчики/приемники, наземные вещательные передатчики/приемники, системы домашних развлечений и системы домашнего кинотеатра.

Базовая обработка на основе BCC

На фиг.2 представлена блок-схема системы 200 базовой обработки аудиосигнала на основе бинаурального кодирования с использованием ключевой информации (BCC), содержащая кодер 202 и декодер 204. Кодер 202 включает в себя смеситель 206, сокращающий число каналов, и блок 208 оценки BCC.

Смеситель 206, сокращающий число каналов, преобразует C входных аудиоканалов xi(n) в Е передаваемых аудиоканалов yi(n), где С>E≥1. В этом описании сигналы, выраженные с использованием переменной n, являются сигналами временной области, в то время как сигналы, выраженные с использованием переменной k, являются сигналами частотной области. В зависимости от конкретной реализации смешение с сокращением числа каналов можно реализовать либо во временной, либо в частотной области. Блок 208 оценки BCC создает коды BCC из С входных аудиоканалов и передает эти коды BCC в виде либо внутриполосной, либо внеполосной дополнительной информации по отношению к Е передаваемым аудиоканалам. Типовые коды BCC включают в себя одно или несколько из: временной сдвиг между каналами (ICTD), разница уровней между каналами (ICLD) и данные о межканальной корреляции (ICC), оцененные между определенными парами входных каналов в функции частоты и времени. Конкретный вариант реализации определяет, между какими конкретными парами входных каналов выполняется оценка кодов BCC.

Данные ICC соответствуют когерентности бинаурального сигнала, которая относится к воспринимаемому размеру источника звука по горизонтали. Чем больше размер источника звука по горизонтали, тем ниже когерентность между левым и правым каналами результирующего бинаурального сигнала. Например, когерентность бинаурального сигнала, соответствующего оркестру, разбросанному по сцене зала, обычно ниже, чем когерентность бинаурального сигнала, соответствующего одной скрипке, исполняющей сольную партию. В общем случае аудиосигнал с низкой когерентностью обычно воспринимается как развернутый в звуковом пространстве. Данные ICC, как таковые, обычно относятся к кажущемуся размеру источника по горизонтали и степени охвата слушателя. Смотри, например, J.Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983.

В зависимости от конкретного применения Е переданных аудиоканалов и соответствующие коды BCC можно передавать непосредственно в декодер 204 или запоминать в запоминающем устройстве подходящего типа для последующего обращения к ним со стороны декодера 204. В зависимости от ситуации термин «передача» может относиться либо к непосредственной передаче в декодер, либо к запоминанию соответствующих данных для последующего предоставления их декодеру. В любом случае декодер 204 принимает переданные аудиоканалы и дополнительную информацию и выполняет смешение с увеличением числа каналов, а также синтез BCC, используя коды BCC для преобразования Е переданных аудиоканалов в аудиоканалы воспроизведения , число которых превышает Е (как правило, но не обязательно, равно С), для воспроизведения звука. В зависимости от конкретной реализации смешение с увеличением числа каналов можно выполнять либо во временной области, либо в частотной области.

Вдобавок к обработке BCC, показанной на фиг.2, система базовой обработки аудиосигнала на основе BCC может включать в себя дополнительные этапы кодирования и декодирования для дальнейшего сжатия аудиосигналов в кодере с последующей распаковкой аудиосигналов в декодере. Такие аудиокодеки могут базироваться на стандартных технологиях сжатия/распаковки аудиосигналов, например на технологиях, основанных на импульсно-кодовой модуляции (PCM), дифференциальной PCM (DPCM) или адаптивной DPCM (ADPCM).

Когда смеситель 206, сокращающий число каналов, создает один единственный суммарный сигнал (то есть Е=1), кодирование BCC позволяет представить многоканальные аудиосигналы со скоростью передачи битов, лишь слегка превышающей скорость, необходимую для представления монофонического аудиосигнала. Причина этого заключается в том, что оцененные данные ICTD, ICLD и ICC между каналами в паре имеют примерно на два порядка меньший объем информации, чем сам аудиосигнал.

Представляет интерес не только низкая скорость передачи битов при кодировании BCC, но также его свойство обратной совместимости. Один переданный суммарный сигнал соответствует монофоническому смешению с сокращением числа каналов исходного стерео- или многоканального сигнала. Для приемников, которые не поддерживают стерео- или многоканальное воспроизведение звука, прослушивание переданного суммарного сигнала является эффективным способом представления аудиоматериала на низкопрофильном оборудовании для монофонического воспроизведения. Следовательно, кодирование BCC можно также использовать для расширения существующих услуг, включая предоставление монофонического аудиоматериала многоканальной аудиосистеме. Например, существующие монофонические системы радиовещания могут быть модифицированы для стерео- или многоканального воспроизведения, если в существующий канал передачи можно будет встроить дополнительную информацию BCC. Аналогичные возможности существуют при смешении многоканального аудиосигнала с сокращением количества каналов до двух суммарных сигналов, которые соответствуют стереофоническим аудиосистемам.

При использовании BCC аудиосигналы обрабатывают с определенным временным и частотным разрешением. Используемое частотное разрешение в значительной степени определяется частотным разрешением слуховой системы человека. Психоакустика предполагает, что пространственное восприятие основано, скорее всего, на представлении критической полосы слышимых частот в акустическом входном сигнале. Это частотное разрешение учитывается посредством использования блока обратимых фильтров, например, на основе быстрого преобразования Фурье (FFT) или квадратурного зеркального фильтра (QMF), с субполосами, равными или пропорциональными ширине критической полосы слуховой системы человека.

Базовое смешение с сокращением числа каналов

В предпочтительных вариантах реализации переданный суммарный сигнал (сигналы) содержит все сигнальные компоненты входного аудиосигнала. Целью является полное сохранение каждой сигнальной компоненты. Простое суммирование входных аудиоканалов часто приводит к усилению или ослаблению сигнальных компонент. Другими словами, мощность сигнальных компонент в «простой» сумме часто оказывается больше или меньше суммы мощностей соответствующих сигнальных компонент каждого канала. Можно использовать технологию смешения с сокращением числа каналов, которая выравнивает суммарный сигнал, так что мощность сигнальных компонент в суммарном сигнале будет примерно такой же, как соответствующая мощность во всех входных каналах.

На фиг.3 показана блок-схема смесителя 300, сокращающего число каналов, который можно использовать в качестве смесителя 206 по фиг.2, сокращающего число каналов, в соответствии с конкретными вариантами реализации системы BCC 200. Смеситель 300, сокращающий число каналов, содержит блок (302) фильтров (FB) для каждого входного канала xi(n), блок 304 смешения с сокращением числа каналов, необязательный блок 306 масштабирования/задержки и блок 308 обратных фильтров (IFB) для каждого кодированного канала yi(n).

Каждый блок 302 фильтров преобразует каждый кадр (например, 20 мс) соответствующего цифрового входного канала xi(n) во временной области в набор входных коэффициентов в частотной области. Блок 304 смешения с сокращением числа каналов выполняет указанные смешения каждой субполосы из С соответствующих входных коэффициентов в соответствующую субполосу из Е коэффициентов в частотной области, подвергшихся смешению с сокращением числа каналов. Уравнение (1) представляет смешение с сокращением числа каналов для k-й субполосы входных коэффициентов (,...,) для создания k-й субполосы коэффициентов (), подвергшихся смешению с сокращением числа каналов, следующим образом:

где DCE - вещественно-значная матрица смешения с сокращением числа каналов с С до Е.

Необязательный блок 306 масштабирования/задержки содержит набор умножителей 310, каждый из которых умножает соответствующий коэффициент , подвергнутый смешению с сокращением числа каналов, на масштабный коэффициент для создания соответствующего масштабированного коэффициента . Мотивировка выполнения операции масштабирования такая же, как для операции выравнивания, общей для смешения (с сокращением числа каналов) с помощью произвольных весовых коэффициентов для каждого канала. Если входные каналы являются независимыми, то тогда мощность сигнала (после смешения с сокращением числа каналов) в каждой субполосе задается уравнением (2) следующим образом:

где получают путем возведения в квадрат каждого элемента в матрице смешения с сокращением числа каналов с С до Е, а - мощность субполосы k входного канала i.

Если субполосы не являются независимыми, то тогда значения мощности сигнала после смешения с сокращением числа каналов будут больше или меньше значений, вычисленных с использованием уравнения (2), из-за усиления или ослабления сигналов, когда сигнальные компоненты находятся в фазе или не в фазе соответственно. Во избежание этого операция смешения с сокращением числа каналов по уравнению (1) применяется в субполосах, после чего следует операция масштабирования, выполняемая умножителями 310. Масштабные коэффициенты (1·i·E) можно получить, используя уравнение (3) следующим образом:

где - мощность субполосы, вычисленная по уравнению (2), а - мощность соответствующего сигнала субполосы после смешения с сокращением числа каналов.

Вдобавок, или вместо необязательного масштабирования, блок 306 масштабирования/задержки может выполнять задержку этих сигналов.

Каждый блок 308 обратных фильтров преобразует набор соответствующих масштабированных коэффициентов в частотной области в кадр соответствующего переданного цифрового канала .

Хотя на фиг.3 показаны все С входных каналов, преобразуемых в частотную область для последующего смешения с сокращением числа каналов, в альтернативных вариантах реализации для одного или нескольких (но меньше чем С-1) из С входных каналов может не выполняться часть или вся обработка, показанная на фиг.3, и тогда они будут передаваться в виде эквивалентного количества не модифицированных аудиоканалов. В зависимости от конкретной реализации эти не модифицированные аудиоканалы могут быть или не быть использованы блоком 208 оценки BCC по фиг.2 при создании передаваемых кодов BCC.

В варианте реализации смесителя 300, сокращающего число каналов, который создает один суммарный сигнал , число E=1, а сигналы каждой субполосы каждого входного канала с суммируются, а затем умножаются на коэффициент согласно уравнению (4) следующим образом:

где коэффициент задается уравнением (5) следующим образом:

где - кратковременная оценка мощности на временной отметке k, а - кратковременная оценка мощности . Выровненные субполосы преобразуют обратно во временную область, в результате чего получают суммарный сигнал y(n), который передается в декодер BCC.

Базовый синтез BCC

На фиг.4 показана блок-схема синтезатора 400 BCC, который можно использовать для декодера 204 по фиг.2, согласно конкретным вариантам реализации системы 200 BCC. Синтезатор 400 BCC содержит блок 402 фильтров для каждого переданного канала yi(n), блок 404 смешения с увеличением числа каналов, задержки 406, умножители 408, блок 410 корреляции и блок 412 обратных фильтров для каждого канала воспроизведения.

Каждый блок 402 фильтров преобразует каждый кадр соответствующего переданного цифрового канала yi(n) во временной области в набор входных коэффициентов в частотной области. Блок 404 смешения с увеличением числа каналов смешивает каждую субполосу из Е соответствующих переданных канальных коэффициентов в соответствующую субполосу из С коэффициентов частотной области, прошедших операцию смешения с увеличением числа каналов. Уравнение (4) представляет смешение с увеличением числа каналов k-й субполосы переданных канальных коэффициентов () для создания k-й субполосы коэффициентов () после смешения с увеличением числа каналов следующим образом:

где UEC вещественнозначная матрица смешения с увеличением числа каналов с Е до С. Выполнение смешения с увеличением числа каналов в частотной области позволяет использовать такое смешение отдельно в каждой субполосе.

Каждая задержка 406 использует значение di(k) задержки на основе соответствующего кода BCC для данных ICTD, чтобы обеспечить появление желаемых значений ICTD между определенными парами каналов воспроизведения. Каждый умножитель 408 использует масштабный коэффициент ai(k) на основе соответствующего кода BCC для данных ICLD, чтобы обеспечить желаемые значения ICLD между определенными парами каналов воспроизведения. Блок 410 корреляции выполняет операцию A декорреляции на основе соответствующих кодов BCC для данных ICC, чтобы обеспечить желаемые значения ICC между определенными парами каналов воспроизведения. Дополнительное описание операций, выполняемых блоком 410 корреляции, можно найти в патентной заявке США №10/155437, поданной 24.05.2002 (Baumgarte 2-10).

Синтез значений ICLD может оказаться менее проблемным, чем синтез значений ICTD и ICC, поскольку синтез ICLD включает простое масштабирование сигналов субполосы. Поскольку ключевая информация ICLD является наиболее широко используемой ключевой информацией направленности, обычно важнее, чтобы значения ICLD аппроксимировали соответствующие значения исходного аудиосигнала. Данные ICLD, как таковые, могут быть оценены между всеми канальными парами. Масштабные коэффициенты ai(k)(1·i·C) для каждой субполосы предпочтительно выбирать таким образом, чтобы мощность субполосы каждого канала воспроизведения аппроксимировала соответствующую мощность исходного входного аудиоканала.

Одной из целей может быть использование для синтеза значений ICTD и ICC относительно небольших модификаций сигналов. Данные BCC, как таковые, могут не включать значения ICTD и ICC для всех канальных пар. В этом случае синтезатор 400 BCC будет синтезировать значения ICTD и ICC только между некоторыми канальными парами.

Каждый блок 412 обратных фильтров преобразует набор соответствующих синтезированных коэффициентов в частотной области в кадр соответствующего цифрового канала воспроизведения.

Хотя на фиг.4 показаны все Е передаваемых каналов, преобразуемых в частотную область для последующего повышающего микширования и обработки BCC, в альтернативных вариантах реализации для одного или нескольких (но не всех) из Е переданных каналов может не выполняться вся обработка, показанная на фиг.4. Например, один или несколько передаваемых каналов могут представлять собой не модифицированные каналы, которые не подвергаются смешению с увеличением числа каналов. Вдобавок, один или несколько из С каналов воспроизведения могут быть, в свою очередь, не модифицированными каналами, которые можно, но не обязательно использовать в качестве опорных каналов, к которым применяется обработка BCC для синтеза одного или нескольких других каналов воспроизведения. В любом случае указанные не модифицированные каналы могут подвергаться задержкам для компенсации времени обработки, затрачиваемого на смешение с увеличением числа каналов, и/или обработку BCC, используемую для создания остальных каналов воспроизведения.

Заметим, что, хотя на фиг.4 показано С каналов воспроизведения, синтезируемых из Е переданных каналов, где С также является количеством исходных входных каналов, синтез BCC не ограничивается этим количеством каналов воспроизведения. В общем случае количество каналов воспроизведения может быть любым, включая число, большее или меньшее С, и даже возможны ситуации, когда количество каналов воспроизведения меньше или равно количеству переданных каналов.

«Значимые для восприятия различия» между аудиоканалами

Если предположить наличие одного суммарного сигнала, то при выполнении BCC синтезируется стерео- или многоканальный аудиосигнал, так что параметры ICTD, ICLD и ICC аппроксимируют соответствующую ключевую информацию исходного аудиосигнала. Далее обсуждается роль ICTD, ICLD и ICC в отношении атрибутов звуковых пространственных образов.

Знания о пространственной слышимости предполагают, что для одного звукового события параметры ICTD и ICLD относятся к воспринимаемому направлению. При учете бинауральных импульсных характеристик (BRIR) в условиях помещения для одного источника имеет место взаимосвязь между размером звукового события по горизонтали и охватом слушателя и данными ICC, оцененными для начальной и конечной частей характеристик BRIR. Однако взаимосвязь между ICC и этими свойствами для обычных сигналов (а не только для BRIR) не является прямой.

Стерео- и многоканальные аудиосигналы обычно содержат сложную смесь сигналов от одновременно действующих источников, на которые накладываются компоненты отраженного сигнала в результате записи в замкнутых пространствах или добавления со стороны инженера по звукозаписи для искусственного создания пространственного впечатления. Сигналы от разных источников и их отражения занимают различные области на