Способы и устройства для эффективного использования поэтапно передаваемой информации в кодировании и декодировании звука

Иллюстрации

Показать все

Заявленное изобретение имеет отношение к кодированию звука и декодированию звука, в частности к схеме кодирования и декодирования, селективно извлекаемой и/или передаваемой фазовой информации, когда восстановление такой информации перцепционно релевантно. Технический результат - эффективно кодированное представление первого и второго входного звукового сигнала. Для этого оно может быть получено посредством использования корреляционной информации, показывающей корреляцию между первым и вторым входными звуковыми сигналами, когда дополнительно учитывается характеристическая информация сигнала, показывающая, по крайней мере, первую или вторую, отличную характеристику входного звукового сигнала. Фазовая информация, показывающая фазовое соотношение между первым и вторым входными звуковыми сигналами, получается, когда входные звуковые сигналы имеют первую характеристику. Фазовая информация и показатель корреляции включаются в кодированное представление, когда входные звуковые сигналы имеют первую характеристику, и только корреляционная информация включается в кодированное представление, когда входные звуковые сигналы имеют вторую характеристику, 9 н. и 17 з.п. ф-лы, 14 ил.

Реферат

Описание

Данное изобретение имеет отношение к кодированию звука и декодированию звука, в частности, к схеме кодирования и декодирования, селективно извлекаемой и/или передаваемой фазовой информации, когда восстановление такой информации перцепционно релевантно.

Современные параметрические многоканальные кодирующие схемы, такие как бинауральное кодирование реплики (ВСС), параметрическое стерео (PS) или MPEG объемное (MPS), используют компактное параметрическое представление реплик слуховой системы человека для пространственного восприятия. При этом учитывается скорость эффективного представления звукового сигнала, имеющего два или более звуковых каналов. В завершение, кодирующее устройство выполняет понижающее микширование от М-входных каналов до N-выходных каналов и передает извлеченные реплики вместе с сигналом понижающего микширования. Реплики, кроме того, квантуются согласно принципам человеческого восприятия, то есть, информация, которая не слышима или не различима слуховой системой человека, может удаляться или грубо квантоваться.

Поскольку сигнал понижающего микширования является «родовым» звуковым сигналом, полоса пропускания, потребляемая таким кодированным представлением оригинального звукового сигнала, может быть далее уменьшена посредством уплотнения сигнала понижающего микширования или каналов сигнала понижающего микширования посредством использования одноканальных звуковых компрессоров. Различные типы этих одноканальных звуковых компрессоров будут рассмотрены как базовые кодирующие устройства в следующих параграфах.

Типичные реплики, используемые для описания пространственной взаимосвязи между двумя или более звуковыми каналами, являются межканальными разностями уровней (ILD) параметризирующими соотношения уровней между входными каналами, межканальными взаимными корреляциями/когерентностями (ICC), параметризирующими статистическую взаимозависимость между входными каналами, и межканальными разностями времени/фазы (ITD или IPD), параметризирующими разность времени или фазы между подобными сегментами сигнала входных каналов.

Чтобы поддержать высокое перцепционное качество сигналов, представленных понижающим микшированием и ранее описанными репликами, индивидуальные реплики обычно вычисляются для различных частотных диапазонов. Таким образом, для данного временного сегмента сигнала передаются множественные реплики, параметризующие то же самое свойство, и каждый параметр реплики, представляющий предопределенный частотный диапазон сигнала. Реплики могут быть вычислены в зависимости от времени и частоты в масштабе, близком к частотному решению человека. Всякий раз, когда представлены многоканальные звуковые сигналы, соответствующий декодер выполняет повышающее микширование от M до N каналов, основанное на переданных пространственных репликах и переданных сигналах понижающего микширования (переданный сигнал понижающего микширования, поэтому, часто назвается сигналом-переносчиком). Обычно, получающийся канал повышающего микширования может быть описан как уровневая - и фазовая взвешенная версия переданного понижающего микширования. Декорреляция, произошедшая во время кодирования сигналов, может быть синтезирована посредством микширования и взвешивания переданного сигнала понижающего микширования («сухой» сигнал) с декоррелированным сигналом («влажный» сигнал), полученным из сигнала понижающего микширования как обозначено переданными параметрами корреляции (ICC). Тогда микшированные с повышением каналы имеют более сходную корреляцию относительно друг друга, чем имели оригинальные каналы. Декоррелированный сигнал (то есть сигнал, имеющий коэффициент взаимной корреляции близкий к нулю при взаимной корреляции с переданным сигналом) может быть произведен посредством подачи сигнала понижающего микширования на цепочку фильтров, таких как, например, всечастотные фильтры и линии задержки. Однако могут использоваться и дополнительные способы получения декоррелированного сигнала.

Очевидно, что в конкретном выполнении вышеупомянутой схемы кодирования/декодирования должен быть достигнут компромисс между проходящей скоростью передачи битов (в идеале являющейся насколько возможно низкой) и достижимым качеством (в идеале являющимся насколько возможно высоким) кодируемого сигнала. Поэтому может быть принято решение не передавать полный набор пространственных реплик, а опустить передачу одного конкретного параметра. На это решение может дополнительно повлиять выбор соответствующего повышающего микширования. Соответствующее повышающее микширование может, например, воспроизводить пространственную реплику, обычно не передаваемую. Таким образом, по крайней мере, для долговременного сегмента сигнала с полной полосой пропускания сохраняется среднее пространственное свойство. В частности, не все параметрические многоканальные схемы используют межканальную временную или межканальную фазовую разности, таким образом, избегая соответствующего вычисления и синтеза. Схемы, такие как MPEG объемная, рассчитаны только на синтез ILDs и ICCs. Межканальные разности фаз неявно аппроксимируются посредством синтеза декорреляции, который смешивает два представления декоррелированного сигнала с переданным сигналом понижающего микширования, где эти два представления имеют относительный фазовый сдвиг, равный 180°. Передача IPDs опускается, таким образом, уменьшается необходимое количество параметрической информации, в то же самое время, допускается деградация качества воспроизведения. Поэтому, существует потребность обеспечить лучшее качество восстановления сигнала без значительного увеличения необходимой скорости передачи битов. Одно осуществление данного изобретения достигает этой цели посредством использования фазового компаратора, который получает фазовую информацию, показывающую фазовое соотношение между первым и вторым входным звуковым сигналом, когда фазовый сдвиг между входными звуковыми сигналами превышает предварительно определенный порог. Связанный выходной интерфейс, который включает пространственные параметры и сигнал понижающего микширования в кодированное представление входных звуковых сигналов, действительно включает только полученную фазовую информацию, когда передача фазовой информации является необходимой, с перцепционной точки зрения. Чтобы сделать это, может непрерывно выполняться определение фазовой информации и только решение о том, должна ли фазовая информация быть включена или нет, может быть принято, основываясь на пороге. Порог может, например, описывать максимально допустимый фазовый сдвиг, для которого для достижения приемлемого качества восстановленного сигнала не нужна дополнительная обработка фазовой информации. Альтернативно, фазовый сдвиг между входными звуковыми сигналами может быть независимо получен из фактического генерирования фазовой информации таким образом, чтобы фазовый анализ, подходящий для получения фазовой информации, имел место только тогда, когда превышается фазовый порог. Альтернативно, может быть выполнен пространственный блок выбора выходного режима, который получает непрерывно производимую фазовую информацию, и который регулирует выходной интерфейс таким образом, чтобы включать фазовую информацию только тогда, когда соблюдается условие фазовой информации, то есть, например, когда разность фаз между входными сигналами превышает предварительно определенный порог. То есть, выходной интерфейс преимущественно включает параметры ICC и ILD, а так же сигнал понижающего микширования, только в кодированное представление входного звукового сигнала. При наличии сигнала, имеющего специфические характеристики (динамические особенности) сигнала, установленная фазовая информация дополнительно включается таким образом, что сигнал, восстанавливаемый при использовании кодированного представления, может быть восстановлен с более высоким качеством. Однако это может быть достигнуто только при минимальном количестве дополнительной переданной информации, так как фазовая информация действительно передается только для тех частей сигнала, которые важны. Это обеспечивает, с одной стороны, высокое качество восстановления и, с другой стороны, реализацию низкой скорости передачи битов.

Дальнейшее осуществление изобретения анализирует сигнал, чтобы получить характеристическую информацию о сигнале; характеристическая информация о сигнале, различает входные звуковые сигналы, имеющие различные типы или характеристики сигнала. Это могут, например, быть различные характеристики речевых и музыкальных сигналов. Фазовый компаратор может потребоваться только тогда, когда входные звуковые сигналы имеют первую характеристику, тогда как, когда входные звуковые сигналы имеют вторую характеристику, оценка фазы может быть устаревшей. Выходной интерфейс, поэтому, включает только фазовую информацию, когда кодируется сигнал, который требует синтеза фазы, чтобы обеспечить приемлемое качество восстановленного сигнала.

Другие пространственные реплики, такие как, например, корреляционная информация (например, параметры ICC), постоянно включены в кодированное представление, так как их присутствие может быть важным для обоих типов сигнала или характеристик сигнала. Это может, например, также быть верно для межканальной разности уровней, которая, по существу, описывает энергетическое соотношение между двумя восстановленными каналами. В дальнейшем осуществлении оценка фазы может быть выполнена, основываясь на других пространственных репликах, таких, как корреляция ICC между первым и вторым входным звуковым сигналом. Это может стать возможным, когда присутствует характеристическая информация, которая включает некоторые дополнительные ограничения на характеристики сигнала. Тогда, параметр ICC может использоваться, чтобы извлечь, кроме статистической информации, также фазовую информацию.

Согласно дальнейшему осуществлению, фазовая информация может быть включена чрезвычайно эффективно относительно битов только в том случае, когда выполняется единственное переключение фазы, сигнализирующее о применении фазового сдвига предварительно определенного размера. Тем не менее, грубое восстановление фазового соотношения при воспроизведении может быть достаточным для определенных типов сигнала, что более подробно будет рассмотрено ниже. В дальнейших осуществлениях фазовая информация может быть подана в значительно более высоком разрешении (например, 10 или 20 различных фазовых сдвигов) или даже как непрерывный параметр, дающий возможные относительные углы фазового сдвига между -180° и +180°.

Когда известна характеристика сигнала, фазовая информация может быть передана только для небольшого количества частотных диапазонов, которое может быть намного меньше, чем число частотных диапазонов, используемых для получения ICC и/или ILD параметров. Когда, например, известно, что входные звуковые сигналы имеют речевую характеристику, только одна единственная фазовая информация может быть необходимой для целой полосы пропускания. В дальнейшем осуществлении единственная фазовая информация может быть получена для частотного диапазона между, скажем, 100 гц и 5 кГц, так как предполагается, что мощность сигнала громкоговорителя, главным образом, распределяется в этом частотном диапазоне. Общий параметр фазовой информации для полной полосы пропускания может, например, быть допустимым, когда фазовый сдвиг превышает 90 градусов или 60 градусов. Когда известна характеристика сигнала, фазовая информация может, кроме того, быть получена непосредственно из уже существующих параметров ICC или параметров корреляции посредством применения порогового критерия к указанным параметрам. Например, когда параметр ICC меньше - 0.1, можно прийти к заключению, что этот параметр корреляции соответствует фиксированному фазовому сдвигу, поскольку речевая характеристика входных звуковых сигналов ограничивает другие параметры, что ниже будет описано более подробно. В дальнейшем осуществлении данного изобретения параметр ICC (параметр корреляции), полученный из сигнала, кроме того, изменяется или подвергается постобработке, когда фазовая информация включается в битовый поток. При этом используется тот факт, что ICC параметр (корреляции) может фактически включать информацию о двух характеристиках, а именно, о статистической зависимости между входными звуковыми сигналами и о фазовом сдвиге между этими сигналами. Когда передается дополнительная фазовая информация, параметр корреляции может, поэтому, быть изменен таким образом, что фаза и корреляция, отдельно, учитываются настолько, насколько возможно, во время восстановления сигнала. В обратном полностью совместимом сценарии такое изменение корреляции может также выполняться посредством осуществления изобретательного декодера. Он может активизироваться, когда декодер получает дополнительную фазовую информацию.

Чтобы обеспечить такое перцепционно высококачественное восстановление, осуществления изобретательных звуковых декодеров могут включать дополнительный процессор сигнала, работающий на промежуточных сигналах, произведенных внутренним микшером повышающего микширования звукового декодера. Микшер повышающего микширования получает, например, сигнал понижающего микширования и все пространственные реплики, кроме фазовой информации (ICC и ILD). Микшер повышающего микширования получает первый и второй промежуточный звуковой сигнал, имеющий такие свойства сигнала, как описано пространственными репликами. В заключение, может быть спрогнозировано генерирование дополнительного сигнала реверберации (декоррелированного), чтобы микшировать части декоррелированного сигнала (влажные сигналы) и переданный канал понижающего микширования (сухой сигнал). Однако, промежуточный постпроцессор сигналов применяет дополнительный фазовый сдвиг, по крайней мере, к одному из промежуточных сигналов, когда фазовая информация принимается звуковым декодером. Таким образом, промежуточный постпроцессор сигналов эффективен только тогда, когда передается дополнительная фазовая информация. Таким образом, осуществления изобретательных звуковых декодеров полностью совместимы с обычным звуковым декодером. Обработка в некоторых осуществлениях декодеров, так же как на стороне кодирующего устройства, может быть выполнена способом временной и частотной селекции. Таким образом, может быть обработан последовательный ряд соседних интервалов времени, имеющих множественные частотные диапазоны. Поэтому, некоторые осуществления звуковых кодирующих устройств включают блок объединения сигнала, чтобы объединить генерированные промежуточные звуковые сигналы и обработать в постпроцессоре промежуточные звуковые сигналы таким образом, чтобы кодирующее устройство производило непрерывный во времени звуковой сигнал. Таким образом, для первой структуры (временной сегмент) блок объединения сигнала может использовать промежуточные звуковые сигналы, полученные микшером повышающего микширования, и для второй структуры блок объединения сигнала может использовать обработанный в постпроцессоре промежуточный сигнал, поскольку он получается промежуточным постпроцессором сигнала. В дополнение к введению фазового сдвига, конечно, можно выполнить также более сложную обработку сигнала в промежуточном пост процессоре сигнала.

Альтернативно или дополнительно, осуществления звуковых декодеров могут включать процессор корреляционной информации, например такой, чтобы обработать в постпроцессоре полученную корреляционную информацию ICC, когда дополнительно получена фазовая информация. Обработанная в постпроцессоре корреляционная информация может затем использоваться обычным микшером повышающего микширования, чтобы генерировать промежуточные звуковые сигналы таким образом, что в комбинации с фазовым сдвигом, введенным постпроцессором сигналов, может быть достигнуто естественно звучащее воспроизведение звуковых сигналов.

Несколько осуществлений данного изобретения будут описаны в дальнейшем со ссылкой на приложенные рисунки, где:

фиг.1 показывает микшер повышающего микширования, генерирующий два выходных сигнала из сигнала понижающего микширования;

фиг.2 показывает пример использования параметров ICC микшером повышающего микширования фиг.1;

фиг.3 показывает примеры характеристик (динамических особенностей) входных звуковых сигналов, подлежащих кодированию;

фиг.4 показывает осуществление звукового кодирующего устройства;

фиг.5 показывает дальнейшее осуществление звукового кодирующего устройства;

фиг.6 показывает пример кодированного представления звукового сигнала, генерированного одним из кодирующих устройств фиг.4 и 5;

фиг.7 показывает дальнейшее осуществление кодирующего устройства;

фиг.8 показывает дальнейшее осуществление кодирующего устройства для кодирования речи/музыки;

фиг.9 показывает осуществление декодера;

фиг.10 показывает дальнейшее осуществление декодера;

фиг.11 показывает дальнейшее осуществление декодера;

фиг.12 показывает осуществление декодера речи/музыки;

фиг.13 показывает осуществление способа кодирования; и фиг.14 показывает осуществление способа декодирования. Фиг.1 показывает микшер повышающего микширования, поскольку он может использоваться в рамках осуществления декодера для генерирования первого промежуточного звукового сигнала 2 и второго промежуточного звукового сигнала 4 посредством использования сигнала понижающего микширования 6. Кроме того, дополнительная межканальная корреляционная информация и межканальная информация о разности уровней используется в качестве параметров регулирования усилителей, чтобы контролировать повышающее микширование.

Микшер повышающего микширования включает декоррелятор 10, три зависящих от корреляции усилителя 12а-12с, первый узел микширования 14а, второй узел микширования 14b, а так же первый и второй, зависящие от уровня, усилители 16а и 16b. Звуковой сигнал понижающего микширования 6 является моно сигналом, который распределяется на декоррелятор 10, а так же на вход зависящих от декорреляции усилителей 12a и 12b. Декоррелятор 10 создает, посредством использования звукового сигнала понижающего микширования 6, декоррелированную версию того же самого посредством использования алгоритма декорреляции. Декоррелированный звуковой канал (декоррелированный сигнал) вводится в третий из зависящих от корреляции усилитель 12c. Можно отметить, что компоненты сигнала микшера повышающего микширования, которые включают только образцы звуковых сигналов понижающего микширования, часто также называются «сухими» сигналами, тогда как компоненты сигнала, включающие только образцы декоррелированного сигнала, часто называются «влажными» сигналами. Зависящие от ICC усилители 12а-12c масштабируют влажные и сухие компоненты сигнала, согласно правилу масштабирования в зависимости от переданного параметра ICC. По существу, энергия этих сигналов регулируется до суммирования сухих и влажных компонентов сигнала узлами суммирования 14a и 14b. В заключение, выход зависящего от корреляции усилителя 12a предоставляется первому входу первого узла суммирования 14a, а выход зависящего от корреляции усилителя 12b предоставляется первому входу узла суммирования 14b. Выход зависящего от корреляции усилителя 12c, связанный с влажным сигналом, предоставляется второму входу первого узла суммирования 14a, а так же второму входу второго узла суммирования 14b. Однако, как показано на рис.1, знак влажного сигнала на узлах суммирования отличается тем, что это вход в первый узел суммирования 14a с отрицательным знаком, тогда как влажный сигнал с его оригинальным знаком вводится во второй узел суммирования 14b. Таким образом, декоррелированный сигнал микшируется с первым сухим компонентом сигнала с оригинальной фазой, принимая во внимание то, что он микшируется со вторым сухим компонентом сигнала с перевернутой фазой, то есть, с фазовым сдвигом, равным 180°. Соотношение энергии, как уже было объяснено, предварительно регулировалось в зависимости параметра корреляции таким образом, что сигналы, произведенные узлами суммирования 14a и 14b, имеют корреляцию, подобную корреляции первоначально кодированных сигналов (которая параметризована переданным параметром ICC). Наконец, соотношение энергии между первым каналом 2 и вторым каналом 4 регулируется посредством использования зависящих от энергии усилителей 16a и 16b. Соотношение энергии параметризуется параметром ILD таким образом, что оба усилителя регулируются функцией, зависящей от параметра ILD. Таким образом генерированные левый и правый каналы 2 и 4 имеют статистическую зависимость, подобную статистической зависимости первоначально кодированных сигналов. Однако, добавления в генерированный первый (левый) и второй (правый) выходные сигналы 2 и 4, происходящие непосредственно от переданного звукового сигнала понижающего микширования 6, имеют идентичные фазы. Хотя фиг.1 предполагает широкополосное выполнение повышающего микширования, дальнейшие выполнения могут осуществлять повышающее микширование индивидуально для множества параллельных частотных диапазонов таким образом, что микшер повышающего микширования рис.4 может работать на представлении с ограниченной полосой пропускания оригинального сигнала. Восстановленный сигнал с полным диапазоном затем может быть усилен посредством добавления всех выходных сигналов с ограниченной полосой пропускания к заключительной синтезирующей смеси. Фиг.2 показывает пример зависящей от параметра ICC функции, используемой для регулирования зависящих от корреляции усилителей 12a-12C. Используя эту функцию и соответствующим образом получая параметр ICC из оригинальных каналов, подлежащих кодированию, можно грубо воспроизвести (в среднем) фазовый сдвиг между первоначально кодированными сигналами. Для этого обсуждения важно понимание генерирования переданного параметра ICC. Основой для этого обсуждения может быть комплексный межканальный параметр когерентности, дифференцированный между двумя соответствующими сегментами сигнала двух входных звуковых сигналов, подлежащих кодированию, который определяется следующим образом:

I C C c o m p l e x = ∑ k ∑ l X 1 ( k , l ) X 2 * ( k , l ) ∑ k ∑ l | X 1 ( k , l ) | 2 ∑ k ∑ l | X 2 ( k , l ) | 2 .

В предыдущем уравнении 1 показывает число образцов в пределах обработанного сегмента сигнала, тогда как дополнительный индекс k обозначает один из нескольких поддиапазонов, который, согласно некоторым определенным осуществлениям, может быть представлен одним единственным параметром ICC. Другими словами, X1 и Х2 - комплекснозначные образцы поддиапазона этих двух каналов, k - индекс поддиапазона, и l - индекс времени. Комплекснозначные образцы поддиапазона могут быть получены посредством подачи первоначально отобранных входных сигналов в QMF (квадратурный зеркальный фильтр) -гребенку фильтров, получая, например, 64 поддиапазона, где образцы в пределах каждого из поддиапазонов представлены комплекснозначным числом. При вычислении комплексной взаимной корреляции посредством предыдущей формулы два соответствующих сегмента сигнала характеризуются одним комплекснозначным параметром, параметром ICCcomplex, имеющим следующие свойства:

Его длина |ICCcomplex| представляет когерентность двух сигналов. Чем длиннее вектор, тем больше статистическая зависимость между двумя сигналами.

Таким образом, всякий раз, когда длина или абсолютная величина ICCcomplex равняется 1, оба сигнала, кроме одного глобального масштабного коэффициента, идентичны. Однако, они могут иметь относительную разность фаз, которая тогда задается фазовым углом ICCcomplex. В этом случае, угол ICCcomplex, относительно действительной оси, представляет фазовый угол между двумя сигналами. Однако, когда выполняется дифференцирование ICCcomplex с использованием более одного поддиапазона (то есть, k>=2), фазовый угол, следовательно, является средним углом для всех обработанных параметрических диапазонов.

Другими словами, когда два сигнала статистически сильно зависимы (|ICCcomplex|≈1), действительная часть Re {ICCcomplex} является приблизительно косинусом фазового угла, и, таким образом, косинусом разности фаз между сигналами.

Когда абсолютная величина ICCcomplex значительно ниже 1, угол Θ между вектором ICCcomplex и действительной осью больше не может интерпретироваться как фазовый угол между идентичными сигналами. Тогда это, скорее, - лучшая фаза согласования между статистически довольно независимыми сигналами.

Фиг.3 дает три примера 20а, 20b и 20 с возможных векторов ICCcomplex - Абсолютная величина (длина) вектора 20a близка к единице, что означает, что два сигнала, представленные вектором 20a, являются почти одинаковыми, но сдвинуты по фазе относительно друг друга. Другими словами, оба сигнала высоко когерентны. В этом случае, фазовый угол 30 (Θ) прямо соответствует фазовому сдвигу между почти идентичными сигналами. Однако, если в результате оценки ICCcomplex получается вектор 20b, значение фазового угла Θ уже больше не является вполне определенным. Так как комплексный вектор 20b имеет абсолютную величину значительно ниже 1, обе проанализированные части сигнала или сигналы статистически довольно независимы. Таким образом, сигнал в пределах наблюдаемых временных сегментов не имеет общей формы. Однако, фазовый угол 30 представляет своего рода фазовый сдвиг, соответствующий лучшему согласованию обоих сигналов. Однако, когда сигналы некогерентны, общий фазовый сдвиг между двумя сигналами едва ли имеет значение. Вектор 20 с, снова, имеет абсолютную величину близкую к единице, так что его фазовый угол 32 (Ф) может снова быть однозначно идентифицирован как разность фаз между двумя подобными сигналами. Кроме того, очевидно, что фазовый сдвиг, больше 90°, соответствует действительной части вектора ICCcomplex, которая меньше 0.

В схемах звукового кодирования, сосредотачивающихся на правильном построении статистической зависимости двух или более кодированных сигналов, возможная процедура повышающего микширования для создания первого и второго выходного канала из переданного канала понижающего микширования, проиллюстрирована на фиг.1.

Поскольку зависящая от ICC функция для управления зависящими от корреляции усилителями 20a-20c, часто используется функция, проиллюстрированная на фиг.2, чтобы обеспечивать гладкий переход от полностью коррелированных к полностью декоррелированным сигналам, без введения каких-либо неоднородностей. Фиг.2 показывает, как энергии сигнала распределяются между сухими компонентами сигнала (посредством управляющих усилителей 12a и 12b) и влажным компонентом сигнала (посредством управляющего усилителя 12c). Чтобы достигнуть этого, действительная часть комплекса ICC передается как мера длины ICCcomplex и, таким образом, подобия между сигналами.

На фиг.2 ось-х показывает величину переданного параметра ICC, а ось-y показывает количество энергии сухого сигнала (сплошная линия 30a) и влажного сигнала (пунктирная линия 30b), смешанных узлами суммирования 14a и 14b микшера повышающего микширования. Таким образом, когда сигналы полностью коррелированы (та же самая форма сигнала, та же самая фаза), переданный параметр ICC будет равен единице. Поэтому, микшер повышающего микширования распределяет полученный звуковой сигнал понижающего микширования 6 на выходы, не добавляя влажных частей сигнала. Поскольку звуковой сигнал понижающего микширования, по существу, - сумма кодированных оригинальных каналов, воспроизведение является соответствующим в отношении фазы и корреляции.

Однако, если сигналы анти коррелированы (фаза=180°, та же самая форма сигнала), переданный параметр ICC равен -1. Поэтому, восстановленный сигнал не будет включать части сухого сигнала, а только компоненты влажного сигнала. Поскольку влажная часть сигнала добавляется к первому звуковому каналу и вычитается из генерированного второго звукового канала, фазовый сдвиг между сигналами восстановливается должным образом, чтобы быть равным 180°. Однако, сигнал вообще не включает сухие части сигнала. Это не очень хорошо, так как сухой сигнал фактически включает полную прямую информацию, переданную декодеру. Поэтому, качество восстановленного сигнала может ухудшиться. Однако, ухудшение может зависеть от типа кодированного сигнала, то есть, от храктеристики (динамических особенностей) базового сигнала. В общих чертах, коррелированые сигналы, произведенные декоррелятором 10, имеют подобную реверберации звуковую характеристику. Таким образом, например, слышимое искажение от использования только декоррелированного сигнала довольно низкое для музыкальных сигналов по сравнению с речевыми сигналами, где восстановление от реверберированного звукового сигнала приводит к неестественному звучанию. Итак, ранее описанная схема декодирования только грубо приближает свойства фазы, так как они, в лучшем случае, восстанавливаются в среднем. Это - чрезвычайно грубое приближение, так как достигается только посредством изменения энергии добавленного сигнала, где добавленные части сигнала имеют относительную разность фаз. равную 180°. Для сигналов, которые являются ясно декоррелированными или даже антикоррелированными (ICC≤0), необходимо значительное количество декоррелированного сигнала, чтобы восстановить эту декорреляцию, то есть, статистическую независимость между сигналами. Поскольку, как правило, декоррелированный сигнал, как выход всечастотных фильтров, имеет «подобный реверберации» звук, достижимое качество в целом значительно ухудшается. Как уже было упомянуто, для некоторых типов сигнала восстановление фазового соотношения может быть менее важным, а для других типов сигнала правильное восстановление может быть перцепционно релевантным. В частности, может потребоваться восстановление оригинального фазового соотношения, когда фазовая информация, полученная из сигналов, удовлетворяет определенным перцепционно мотивированным критериям фазового восстановления. Некоторые осуществления данного изобретения, поэтому, включают фазовую информацию в кодированное представление звуковых сигналов, когда реализуются определенные свойства фазы. Таким образом, фазовая информация передается только эпизодически, когда выгода (при оценке искажения в зависимости от скорости передачи) является существенной. Кроме того, переданная фазовая информация может грубо квантоваться таким образом, что требуется только незначительное количество дополнительной скорости передачи битов.

Учитывая переданную фазовую информацию, можно восстановить сигнал с правильным фазовым соотношением между сухими компонентами сигнала, то есть, между компонентами сигнала, полученными непосредственно из оригинальных сигналов, которые, поэтому, перцепционно высоко релевантны.

Если, например, сигналы кодируются с ICCcomplex-вектором 20c, переданный параметр ICC (действительная часть ICCcomplex) равна приблизительно - 0.4. Таким образом, при повышающем микшировании более 50% энергии будут получены из декоррелированного сигнала. Однако, поскольку значительное количество энергии все еще происходит из звукового канала понижающего микширования, фазовое соотношение между компонентами сигнала, происходящими из звукового канала понижающего микширования, все еще важно, поскольку слышимо. Таким образом, может возникнуть необходимость более близко аппроксимировать фазовое соотношение между сухими частями восстановленного сигнала. Поэтому, дополнительная фазовая информация передается, как только определяется, что фазовый сдвиг между оригинальными звуковыми каналами больше предварительно определенного порога. Примеры для такого порога могут быть 60°, 90° или 120°, в зависимости от определенного выполнения. В зависимости от порога фазовое соотношение может передаваться с высоким разрешением, то есть, сообщается один из множества предопределенных фазовых сдвигов, или передается непрерывно меняющийся фазовый угол. В некоторых осуществлениях данного изобретения передается только одиночный индикатор фазового сдвига или фазовая информация, указывающая на то, что фаза восстановленных сигналов будет сдвинута на предварительно определенный фазовый угол. Согласно одному осуществлению, этот фазовый сдвиг применяется только, когда параметр ICC находится в пределах предварительно определенного отрицательного диапазона. Этот диапазон может, например, быть диапазоном от - 1 до - 0.3 или от - 0.8 до - 0.3 в зависимости от критерия фазового порога. Таким образом, может потребоваться один единственный бит фазовой информации.

Когда действительная часть ICCcomplex положительна, фазовое соотношение между восстановленными сигналами, в среднем, соответствующим образом аппроксимируется микшером повышающего микширования фиг.1 благодаря идентичной - фазе обработки сухих компонентов сигнала. Если, однако, переданный параметр ICC ниже 0, фазовый сдвиг оригинальных сигналов, в среднем, больше 90°. В то же самое время, все еще слышимые части сухого сигнала используются микшером повышающего микширования. Поэтому, в области, начинающейся с ICC=0 до, скажем, ICC приблизижающегося к - 0.6, фиксированный фазовый сдвиг (соответствующий, например, фазовому сдвигу, соответствующему середине ранее введенного интервала), может предусмотреть значительно увеличенное перцепционное качество восстановленного сигнала, за счет только одного единственного переданного бита. Когда параметр ICC двигается к еще меньшим величинам, например, ниже - 0.6, только небольшое количество энергии сигнала в первом и втором выходных каналах 2 и 4 происходит из сухого компонента сигнала. Поэтому, восстановление соответствующих свойств фазы между этими перцепционно менее релевантными частями сигнала снова может быть пропущено, так как сухие части сигнала едва ли вообще слышимы. Фиг.4 показывает одно осуществление изобретательного кодирующего устройства для генерирования кодированного представления первого входного звукового сигнала 40а и второго входного звукового сигнала 40b. Звуковое кодирующее устройство 42 включает блок оценки пространственных параметров 44, фазовый компаратор 46, выходной блок выбора рабочего режима 48 и выходной интерфейс 50. Первый и второй входные звуковые сигналы 40a и 40b распределяются блоку оценки пространственных параметров 44, а так же фазовому компаратору 46. Блок оценки пространственных параметров приспособлен для получения пространственных параметров, показывающих характеристику сигнала (динамическую особенность) двух сигналов относительно друг друга, такую как, например, параметр ICC и параметр ILD. Предполагаемые параметры предоставляются выходному интерфейсу 50. Фазовый компаратор 46 приспособлен для получения фазовой информации двух входных звуковых сигналов 40a и 40b. Такая фазовая информация может, например, быть фазовым сдвигом между двумя сигналами. Фазовый сдвиг может, например, быть оценен непосредственно посредством выполнения фазового анализа непосредственно двух входных звуковых сигналов 40a и 40b. В дальнейшем альтернативном осуществлении параметры ICC, полученные блоком оценки п