Аппаратный блок, способ и компьютерная программа для расширения сжатого аудио сигнала

Иллюстрации

Показать все

Аппаратный блок для расширения сжатого аудио сигнала в расширенный аудио сигнал, содержащий один или более расширенный аудио канал, включающий в себя модуль обработки параметров, настроенный на применение параметров расширения для расширения сжатого аудио сигнала и получения расширенного аудио сигнала. Модуль обработки параметров настроен на применение сдвига фаз к сжатому аудио сигналу и получение сдвинутой по фазе версии сжатого аудио сигнала при сохранении декоррелированного сигнала неизменным по фазе. Модуль обработки параметров, кроме того, настроен на суммирование сдвинутой по фазе версии сжатого аудио сигнала с декоррелированным сигналом и получение расширенного звукового сигнала. 6 н. и 10 з.п. ф-лы, 4 ил.

Реферат

Предпосылки создания изобретения

Воплощения в соответствии с изобретением связаны с аппаратной частью, способом и компьютерной программой для расширения сжатого звукового сигнала в расширенный звуковой сигнал, представленный одним или более расширенными аудио каналами. Некоторые воплощения в соответствии с изобретением связаны со способом и компьютерной программой для расширения сжатого аудио сигнала.

Некоторые воплощения изобретения относятся к улучшенной обработке фазы при параметрическом многоканальном аудио кодировании.

Далее будут предоставлены краткий обзор и содержание изобретения. Последние открытия в области параметрического аудио кодирования обеспечивают способы совместного кодирования многоканального (например, 5.1) аудио сигнала в один (или более) сжатый канал плюс поток битов дополнительной информации. Эти способы известны как Binaural Cue Coding (Бинауральное Трековое Кодирование), Parametric Stereo (Параметрическое Стерео Кодирование), MPEG Surround и т.д.

Ряд публикаций описывают так называемое «Бинауральное Трековое Кодирование», использующее подход параметрического многоканального кодирования, см., например, ссылки [1] [2] [3] [4] [5].

«Parametric Stereo» связано со способом параметрического кодирования двухканального стерео сигнала на основе передаваемого моно сигнала плюс параметры дополнительной информации [6] [7]. «MPEG Surround» является стандартом ISO для параметрического многоканального кодирования. Для получения дополнительной информации см. ссылку [8].

Указанные способы основаны на передаче в компактной форме в приемник аудио сигналов в виде соответствующих сжатых моно или стерео сигналов, воспринимаемых пространственным слухом человека. Типичные сигналы могут быть разностными сигналами между каналами (ILD), сигналами корреляции или когерентности между каналами (ICC), а также разностными во времени сигналами между каналами (ITD) и разностными по фазе сигналами между каналами (IPD).

Эти параметры в некоторых случаях передаются с частотным и временным разрешением, адаптированным к слуховому разрешению человека. Чтобы воссоздать свойства исходного сигнала, декодировщик может произвести одну или несколько декоррелированных версий передаваемого сжатого сигнала. Кроме того, в декодировщике может быть осуществлено изменение фазы выходного сигнала для восстановления исходных межканальных фазовых соотношений.

Пример бинаурального кодирования сигнала по фиг.4

Далее со ссылкой на фиг.4 будет описана общая схема кодирования бинаурального сигнала. На фиг.4 показана блок-схема схема передающей системы 400 бинаурального кодирования сигнала, которая включает кодировщик 410 бинаурального кодирования сигнала и декодировщик 420 бинаурального кодирования сигнала. Например, кодировщик 410 бинаурального кодирования сигнала может получить множество звуковых сигналов 412а, 412b и 412с. Кроме того, кодировщик 410 бинаурального кодирования сигнала настроен на сжатие входных аудио сигналов 412а-412с с использованием блока сжатия 414 для получения сжатого сигнала 416, который может быть, например, суммарным сигналом. Кроме того, кодировщик 410 бинаурального кодирования сигнала может быть сконфигурирован для анализа входных аудио сигналов 412а-412с с использованием блока анализа 418 для получения сигнала дополнительной информации 419. Суммарный сигнал 416 и сигнал дополнительной информации 419 передаются от кодировщика 410 бинаурального кодирования сигнала на декодировщик 420 бинаурального кодирования сигнала. Декодировщик 420 бинаурального кодирования сигнала может быть сконфигурирован для синтеза многоканального выходного аудио сигнала, включающего, например, аудио каналы y1, y2,…, yN, с использованием суммарного сигнала 416 и сигналов между каналами 424. Для этой цели декодировщик 420 бинаурального кодирования сигнала может включать в себя синтезатор бинаурального кодирования сигнала 422, который получает суммарный сигнал 416 и межканальные сигналы 424, и формирует звуковые сигналы y1, y2,…, yN. Кроме того, декодировщик 420 бинаурального кодирования сигнала включает процессор дополнительной информации 426, который настроен на получение дополнительной информации 419 и, кроме того, входных данных пользователя 427. Процессор дополнительной информации 426 настроен на получение межканальных сигналов 424 на основе дополнительной информации 419 и входных данных пользователя 427.

Подводя итог, входные аудио сигналы анализируются и сжимаются в ВСС кодировщике 410 бинаурального кодирования сигнала. Суммарный сигнал вместе с дополнительной информацией передаются на ВСС декодировщик 420. Межканальные сигналы генерируются на основе дополнительной информации и входных данных локального пользователя. Бинауральное кодирование сигнала синтеза генерирует многоканальный аудио сигнал на выходе.

Для получения дополнительной информации приводится ссылка на статью «Binaural Cue Coding Part II: Schemes and applications», by C.Faller and F.Baumgarte (опубликована: IEEE Transactions on Speech and Audio Processing, vol. 11, no. 6, Nov. 2003).

Обсуждение традиционных подходов

В описанных выше подходах трудно надлежащим образом управлять соотношениями между каналами.

Следовательно, желательно создать концепцию расширения сжатого сигнала, которая обеспечивает хорошую точность по отношению к корреляции между каналами.

Краткое содержание изобретения

Воплощения в соответствии с изобретением позволяют создать аппаратный блок для расширения сжатого аудио сигнала в расширенный аудио сигнал, представленный одним или более расширенными аудио каналами. Аппаратный блок для расширения включает в себя модуль обработки параметров, настроенный на применение параметров расширения для расширения сжатого аудио сигнала с целью получения расширенного звукового сигнала. Модуль обработки параметров настроен на использование фазового сдвига сжатого аудио сигнала для получения сдвинутой по фазе версии сжатого звукового сигнала при сохранении неизменным по фазе декоррелированного сигнала. Модуль обработки параметров также настроен на суммирование сдвинутой по фазе версии сжатого звукового сигнала с декоррелированным сигналом для получения расширенного сигнала.

Некоторые варианты изобретения основаны на выводе, что соотношения между различными расширенными аудио сигналами каналов ухудшаются при использовании фазового сдвига декоррелированного сигнала (например, при использовании изменяющегося во времени фазового сдвига, который зависит от пространственного восприятия). Соответственно, было обнаружено, что желательно сохранить декоррелированный сигнал неизменным по отношению к фазовым сдвигам, которые применяются к сжатому сигналу, для получения соответствующих межканальных сдвигов фаз между различными расширенными аудио каналами.

Соответственно, улучшение обработки фазы в соответствии с изобретением способствует предотвращению неправильной межканальной корреляции (для расширенных аудиоканалов) на выходе, которая вызвана сдвигом фазы части декоррелированного сигнала.

В предпочтительном варианте аппаратный блок для расширения настроен на получение декоррелированного сигнала таким образом, что декоррелированный сигнал является декоррелированной версией сжатого аудио сигнала. Таким образом, декоррелированный сигнал может быть легко получен из сжатого сигнала. Однако в некоторых других вариантах могут быть использованы различные концепции для получения декоррелированного сигнала. В самом простом решении в качестве декоррелированного сигнала может быть использован шумовой сигнал.

В предпочтительном варианте аппаратный блок для расширения настроен для расширения сжатого аудио сигнала в расширенный аудио сигнал, содержащий множество расширенных аудио каналов. В этом случае модуль обработки параметров настроен на применение параметров расширения для расширения сжатого звукового сигнала с помощью декоррелированного сигнала с целью получения первого расширенного сигнала аудио канала и второго расширенного сигнала аудио канала. Модуль обработки параметров настроен на использование переменного во времени фазового сдвига для сжатого аудио сигнала и получения по крайней мере двух версий сжатого звукового сигнала, имеющих по отношению друг к другу изменяющийся во времени фазовый сдвиг. Модуль обработки параметров также настроен на суммирование по крайней мере двух версий сжатого звукового сигнала с декоррелированным сигналом для получения по меньшей мере двух расширенных звуковых сигналов каналов, так, что декоррелированный сигнал не зависит от изменяющегося во времени фазового сдвига. Соответственно, могут быть получены сигналы многих каналов расширенного звукового сигнала, в которых декоррелированные части сигнала в пределах нескольких расширенных каналов (расширенного аудио сигнала) не зависят от относительных фазовых сдвигов, введенных между коррелированными частями сигнала. Следовательно, межканальными соотношениями между расширенными аудио каналами можно управлять с хорошей точностью.

В варианте изобретения модуль обработки параметров настроен на суммирование по крайней мере двух версий сжатого звукового сигнала с декоррелированным сигналом так, что часть сигнала первого расширенного аудио канала, представляющая собой декоррелированный сигнал, и часть сигнала второго расширенного аудио канала, представляющая собой декоррелированный сигнал, находятся в постоянном во времени соотношении фаз, например, в одной фазе или 180° разностью по фазе по отношению друг к другу. Следовательно, части сигнала, представляющие декоррелированный сигнал, могут эффективно использоваться для настройки соотношений расширенных сигналов аудио каналов. И наоборот, если части сигнала, представляющие декоррелированный сигнал, будут произвольно или с изменениями во времени сдвинуты по фазе относительно друг друга в различных расширенных сигналах аудио каналов, будет уменьшаться или даже исключаться возможность регулировки необходимой межканальной корреляции.

В одном из вариантов изобретения, модуль обработки параметров настроен на получение по крайней мере двух версий сжатого звукового сигнала, имеющих по отношению друг к другу изменяющийся во времени сдвиг фаз перед суммированием по крайней мере двух версий сжатого звукового сигнала (имеющих по отношению друг к другу изменяющийся во времени фазовый сдвиг), с декоррелированным сигналом, который не зависит от изменяющегося во времени фазового сдвига. При использовании изменяющегося во времени фазового сдвига перед суммированием этого декоррелированного сигнала, декоррелированный сигнал не зависит от изменяющегося во времени фазового сдвига. Следовательно, можно точно подстроить корреляционные характеристики результирующих расширенных звуковых сигналов каналов.

В одном из вариантов изобретения, аппаратный блок для расширения включает определитель параметров, настроенный на определение фазового сдвига используемых сжатых аудио сигналов на основе параметра разности фаз между каналами. Таким образом, сдвиг фаз адаптирован, чтобы соответствовать желаемому для человека впечатлению при прослушивании.

В одном из вариантов изобретения, модуль обработки параметров включает в себя умножитель матрицы на вектор, настроенный на умножение элементного вектора, представляющего одну или несколько выборок сжатого сигнала, и одной или более выборок декоррелированного сигнала с матрицей, элементы матрицы которой представляют собой параметры расширения. Умножение выполняется для получения, в результате, выходного вектора, представляющего собой одну или более выборок первого расширенного звукового сигнала канала и одну или более выборок второго расширенного звукового сигнала канала. Аппаратный блок для расширения включает в себя определитель параметров, настроенный на получение элементов матрицы на основе пространственных сигналов, связанных со сжатым аудио сигналом. Определитель параметров настроен на применение изменяющихся во времени сдвигов фазы только для элементов матрицы, которые соответствуют одной или более выборкам сжатого сигнала, оставляя без изменения фазы элементов матрицы, которые соответствуют одной или более выборкам декоррелированного сигнала с неизменяющимися во времени сдвигами фазы. Оставляя некоторые элементы матрицы, а именно те, которые соответствуют декоррелированному сигналу, не зависящими от изменяющихся во времени сдвигов фазы, может быть получена эффективная реализация идеи изобретения. Необходимые вычислительные затраты могут быть уменьшены при наличии некоторых элементов матрицы, которые представляют собой фиксированное значение фазы (или которые, например, могут быть действительными и независящими от пространственных сигналов). Кроме того, определение элементов матрицы является относительно простым, если значения фазы постоянны.

В варианте изобретения умножитель матрицы на вектор настроен на получение выборок сжатого аудио сигнала и выборок декоррелированного сигнала в комплекснозначном представлении. Кроме того, умножитель матрицы на вектор настроен на использование комплекснозначных элементов матрицы элементного вектора для выполнения фазового сдвига и получения выборок каналов расширенного аудио сигнала в комплекснозначном представлении. В этом случае определитель параметров настроен на вычисление действительных значений или значений магнитуды элементов матрицы на основе параметров разности межканальных уровней и/или параметров корреляции между каналами и/или параметров согласования между каналами (или межканальной корреляции или параметров согласованности), связанных со сжатым звуковым сигналом. Кроме того, определитель параметров настроен для вычисления значения фаз элементов матрицы, которые должны применяться к одной или более выборкам сжатого сигнала на основе параметров межканальной разности фаз, связанных со сжатым аудио сигналом. Кроме того, определитель параметров настроен на применение комплексного вращения значений магнитуды элементов матрицы, применяемого к одной или более выборкам сжатого сигнала, в зависимости от соответствующих значений фазы для получения элементов матрицы, которые соответствуют одному или нескольким выборкам сжатого сигнала. Следовательно, может быть реализовано эффективное многоступенчатое определение элементов матрицы. Действительные значения или значения магнитуды элементов матрицы могут быть вычислены без учета межканальной разности фаз. Аналогично, значения фазы элементов матрицы могут быть получены без учета параметров межканальной разности уровней или корреляции параметров согласованности между каналами, что, кроме того, позволяет проводить вычисления параллельно. Также элементы матрицы могут быть эффективно адаптированы таким образом, что соотношение между каналами для расширенных звуковых сигналов может быть скорректировано с хорошей точностью.

Воплощение в соответствии с изобретением создает способ расширения сжатого аудио сигнала в расширенный звуковой сигнал. Другой вариант изобретения включает в себя компьютерную программу для выполнения функциональных возможностей предлагаемого способа.

Краткое описание фигур.

Далее будут описаны воплощения изобретения с ссылкой на приложенные фигуры, на которых:

на фиг.1 показана блок-схема аппаратного блока для расширения сжатого аудио сигнала в расширенный звуковой сигнал, в соответствии с вариантом осуществления изобретения,

на фиг.2 показана подробная схема аппаратного блока для расширения сжатого аудио сигнала в расширенный звуковой сигнал, по другому варианту изобретения;

на фиг.3А приведена блок-схема способа расширения сжатого аудио сигнала в расширенный звуковой сигнал, в соответствии с вариантом осуществления изобретения,

на фиг.3В показана блок-схема способа получения набора параметров расширения, в соответствии с вариантом осуществления изобретения, а также

на фиг.4 показана блок-схема - общая схема кодирования бинаурального сигнала.

Подробное описание воплощений изобретения

Воплощение согласно фиг.1

На фиг.1 показана блок-схема аппаратного блока 100 для расширения в соответствии с вариантом осуществления изобретения. На фиг.1 для простоты изложения показано расширение одного канала. Естественно, концепция, описанная здесь, может быть применена в многоканальных системах так же успешно, как, например, будет описано со ссылкой на фиг.2.

Аппаратный блок 100 для расширения настроен на прием сжатого аудио сигнала 110 и расширение сжатого аудио сигнала 110 в расширенный аудио сигнал 120, содержащий один или более расширенных аудио каналов.

Аппаратный блок для расширения включает модуль обработки параметров 130, который настроен на применение параметров расширения для расширения сжатого аудио сигнала 110 и получение расширенного аудио сигнала 120. Модуль обработки параметров 130 настроен на выполнение фазового сдвига (показанного цифрой 140) сжатого аудио сигнала 110 и получение сдвинутой по фазе версии 142 сжатого аудио сигнала 110, в то время как декоррелированный сигнал 150 сохраняет фазу неизменной. Модуль обработки параметров 130, кроме того, настроен на суммирование (показанное цифрой 160) сдвинутой по фазе версии 142 сжатого аудио сигнала 110 с декоррелированным сигналом 150 для получения расширенного аудио сигнала 120.

При применении фазового сдвига только к сжатому аудио сигналу 110, но не к некоррелированному сигналу 150 (который, например, может быть декоррелированной версией сжатого аудио сигнала 110), расширенный аудио сигнал 120 включает в себя декоррелированную часть, причем декоррелированная часть расширенного аудио сигнала 120 основана на декоррелированном сигнале 150, и фаза декоррелированной части не зависит от фазового сдвига, использованного для сжатого аудио сигнала 110. Соответственно, часть расширенного аудио сигнала 120, которая коррелирует со сжатым аудио сигналом 110, сдвинута по фазе (например, с изменением во времени) в зависимости от приложенного фазового сдвига, в то время как часть расширенного аудио сигнала 120, которая декоррелирована со сжатым аудио сигналом 110, не зависит от фазового сдвига. Таким образом, подстройка межканальных корреляционных характеристик расширенного аудио сигнала (по отношению к последующим расширенным звуковым сигналам) может быть выполнена с высокой точностью, без использования изменяющихся во времени фазовых сдвигов, примененных к сжатому аудио сигналу.

Воплощение согласно фиг.2А и 2В

На фиг.2А и 2В показана подробная схема аппаратного блока 200 в соответствии с другим вариантом осуществления изобретения. Аппаратный блок 200 настроен на прием сжатого аудио сигнала 210 и расширение сжатого аудио сигнала 210 в расширенный аудио сигнал 220. Расширенный аудио сигнал 220 может, например, содержать первый расширенный аудио канал 222а и второй расширенный аудио канал 222в.

Сжатый аудио сигнал 210 может быть, например, суммарным сигналом, полученным с помощью пространственного аудио кодировщика (например, суммарный сигнал 416, предоставленный кодировщиком 410 бинаурального кодирования сигнала). Сжатый аудио сигнал 210 может быть, например, представлен в виде разложения по комплексным частотам. Например, сжатый аудио сигнал может состоять из одной выборки в каждом диапазоне частот (из множества частотных диапазонов) для каждого интервала обновления аудио выборки (указанного текущим индексом k).

Далее будет описана обработка выборок в одном диапазоне частот. Тем не менее аудио выборки в других диапазонах частот могут быть обработаны аналогичным образом. Другими словами, в некоторых вариантах в соответствии с изобретением, различные частотные диапазоны могут обрабатываться независимо. Кроме того, предполагается, что первый расширенный аудио сигнал канала 222а представляет собой аудио контент [содержание] в виде комплекснозначных выборок в определенном диапазоне частот расширенного аудио сигнала 220. Кроме того, предполагается, что второй расширенный аудио сигнал канала 222в представляет собой аудио контент в виде комплекснозначных выборок в определенном рассматриваемом диапазоне частот. Однако расширенные звуковые сигналы канала для различных частотных диапазонов также могут быть получены согласно концепции, описанной в настоящем документе.

Поэтому обработка диапазона частот (то есть генерация расширенного сигнала для одного диапазона частот) в аппаратном блоке 200 настроена на получение потока x(k), представленного последовательностью последовательных комплекснозначных выборок аудио контента в рассматриваемом диапазоне частот. В этих обозначениях, k является индексом времени. Далее x(k) будет кратко называться «сжатым аудио сигналом», имея в виду, что x(k) просто описывает аудио содержание одного рассматриваемого диапазона частот из целого (мультичастотного) сжатого аудио сигнала.

Обработка диапазона частот включает в себя модуль декорелляции 230, который настроен на прием сжатого аудио сигнала x(k) и формирование на его основе декоррелированной версии q(k) сжатого аудио сигнала x(k). Декоррелированная версия q(k) может быть представлена последовательностью комплекснозначных выборок. Обработка диапазона частот также включает модуль обработки параметров 240, который настроен на прием сжатого аудио сигнала x(k) и декоррелированной версии сжатого аудио сигнала q(k) и представление на его основе первого расширенного аудио сигнала канала 222а и второго расширенного аудио сигнала канала 222в.

В варианте на фиг.2, модуль обработки параметров 240 включает в себя умножитель матрицы на вектор 242 (или любые другие подходящие средства), который настроен на выполнение взвешенной линейной комбинации сжатого аудио сигнала x(k) и декоррелированной версии сжатого аудио сигнала q(k) и получение расширенных звуковых сигналов канала 222а, 222в. Взвешивание x(k) и q(k) определяется элементами весовой матрицы H(k), причем элементы весовой матрицы могут быть зависящими от времени (то есть зависящими от индекса времени k). В общем случае, некоторые элементы весовой матрицы H(k) могут быть комплекснозначными, как будет подробно рассмотрено далее.

В варианте на фиг.2, выборка y1(k) первого расширенного аудио сигнала канала 222а может быть получена путем добавления выборки x(k) сжатого аудио сигнала, взвешенной в соответствии с комплекснозначным элементом Н11 матрицы, и зависящей от времени соответствующей выборки q(k) декоррелированного сигнала, взвешенной с элементом матрицы H12 (не обязательно, но, как правило, действительным). Кроме того, выборка y2(k) второго расширенного аудио сигнала канала 222в получается путем добавления выборки x(k) сжатого аудио сигнала, взвешенной в соответствии комплекснозначным элементом матрицы Н21, и зависящей от времени соответствующей выборки q(k) декоррелированного сигнала, взвешенной с элементом матрицы Н22 (как правило, действительным).

Соответственно, сдвиг или вращение фазы применяется для выборок x(k) (коррелированных) сжатого аудио сигнала при получении выборок y1(k), y2(k) из расширенных звуковых сигналов канала 222а, 222в. В противоположность этому, можно избежать использование сдвига или вращения фазы с помощью вычисления вклада выборок q(k) декоррелированного сигнала в выборки расширенных звуковых сигналов канала 222а, 222в.

Далее будет описано, как могут быть получены элементы матрицы Н11, Н12, Н21, Н22 матрицы Н.

Для этого аппаратный блок 200 включает в себя блок дополнительной обработки информации 260, который настроен на получение дополнительной информации 262, представляющей собой параметры расширения. Дополнительная информация 262 может содержать пространственные сигналы, такие как, например, параметры разности уровней между каналами, параметры межканальной корреляции или согласованности, параметры межканальной разности во времени или параметры разности фаз между каналами. Названные параметры ILD, ICC, ITD, IPD хорошо известны в области пространственного кодирования и здесь не будут подробно описываться.

Блок обработки дополнительной информации 260 настроен на формирование (завершенных) элементов матрицы Н11, H12, H21, H22 (которые показаны соответствующей цифрой 264) для умножителя матрицы на вектор 242. Блок обработки дополнительной информации 260 поэтому может также рассматриваться как «определитель параметров». Блок обработки дополнительной информации 260 включает в себя определитель действительных параметров расширения 270, который настроен на прием пространственных сигналов, описываемых отношением амплитуд или отношением мощности между различными компонентами сигнала в расширенных звуковых сигналах канала 222а, 222в. Например, определитель действительных параметров расширения 270 настроен на прием параметров межканальной разности уровней и/или параметров корреляции или согласованности между каналами. Определитель действительных параметров расширения 270 настроен на формирование с использованием вышеназванных пространственных сигналов (например, ILD, ICC) действительных элементов матрицы. Определитель действительных параметров расширения 270 настроен на формирование действительных элементов матрицы , , , на основе полученных пространственных сигналов (например, ILD, ICC). Вещественные элементы матрицы обозначены цифрой 272. Так как вычисление действительных элементов матрицы 272 хорошо известно в данной области пространственного декодирования, здесь будет опущено подробное описание. Для простоты сделаем ссылку на документы, приведенные в разделе под названием «Литература», и к любой другой публикации, хорошо известной специалистам в данной области.

Блок обработки дополнительной информации 260 дополнительно включает определитель сдвига фазы параметров расширения 280, который настроен на прием пространственных сигналов, представляющих собой сдвиг фаз между различными компонентами расширенных звуковых сигналов канала 222а, 222в. Например, определитель сдвига фазы параметров расширения 280 настроен на прием параметров межканальной разности фаз 282. Определитель сдвига фазы параметров расширения 280 также настроен на использование значений сдвига фаз α1, α2, связанных со сжатым аудио сигналом, которые также обозначаются номером 284. Вычисление значений сдвига фазы на основе параметров межканальной разности фаз 282 хорошо известно в данной области, поэтому здесь опускается подробное описание. Сделаем ссылку на документы, приведенные в разделе под названием «Ссылки», а также любые другие издания, хорошо известные специалистам в данной области.

Блок обработки дополнительной информации 260 дополнительно включает фазовращатель элементов матрицы 290, который настроен на получение действительных элементов матрицы 272 и значений сдвига фаз 284 и вычисление, на этой основе, (завершенных) элементов матрицы Н (также обозначаемых H(k) для указания временных зависимостей). Для этого фазовращатель элементов матрицы 290 может быть настроен на использование значений сдвига фазы α1, α2 тех (и, желательно, только тех) действительных элементов матрицы 272, которые предназначены для применения к сжатому аудио сигналу x(k). В противоположность этому предпочтительно, чтобы фазовращатель элементов матрицы 290 был настроен на исключение тех действительных элементов матрицы, которые применяются к выборкам декоррелированного сигнала q(k), и не влияют на значения сдвига фаз α1, α2. Следовательно, те элементы матрицы, которые предназначены для применения (умножителем матрицы на вектор 242) к выборкам декоррелированного сигнала q(k), сохраняют действительные значения, как это предусмотрено в определителе действительных параметров расширения 270. Тем не менее, в некоторых вариантах может произойти инверсия знака.

В варианте, показанном на фиг.2, могут использоваться следующие соотношения:

Соответственно, фазовращатель элементов матрицы 290 настраивается на получение (завершенных) элементов матрицы Н и передачу этих (завершенных) элементов матрицы на умножитель матрицы на вектор 242.

Обычно элементы матрицы Н могут быть изменены во время работы аппаратного блока 200. Например, элементы матрицы Н 264 могут обновляться всякий раз, когда новая порция дополнительной информации 262 поступает в аппаратный блок 200. В других вариантах изобретения может быть выполнена интерполяция. Таким образом, элементы матрицы 264 могут обновляться один раз за интервал обновления аудио выборки k, причем в некоторых вариантах может быть применена интерполяция.

Далее будет подробно описана со ссылкой на фиг.2А и 2В концепция настоящего изобретения, и будут кратко представлены выводы. Воплощения изобретения, повышающие эффективность способа расширения путем использования улучшенной фазы, предотвращают неправильную межканальную корреляцию на выходе, вызванную сдвигом фаз декоррелированной части сигнала.

Для простоты, вариант изобретения, показанный на фиг.2, а также последующее описание ограничиваются случаем расширения от одного до двух каналов. Процедура расширения в декодировщике, например, от одного канала до двух, осуществляется с помощью матричного умножения вектора, состоящего из сжатого сигнала х, называемого «сухой сигнал», и декоррелированной версии сжатого сигнала q, называемого «мокрый сигнал», на матрицу расширения Н. Мокрый сигнал q может быть получен путем подачи сжатого сигнала х на фильтр декорреляции (например, в виде модуля декорелляции 230). Выходной сигнал у является вектором, содержащим первый и второй канал вывода (например, первый расширенный аудио сигнал канала 222а и второй расширенный аудио канал 222в).

Все сигналы х, q, y могут быть доступны в разложении по комплекснозначным частотам. Матричная операция может быть выполнена для всех поддиапазонов выборок в каждом диапазоне частот. Следующая матричная операция может быть выполнена:

Указанная матричная операция, которая может быть выполнена умножителем матрицы на вектор 242, также показана на фиг.2, где индекс времени k показывает, что входные выборки х, y, расширенные выборки выхода y1, y2, а также матрица расширения Н, как правило, изменяются во времени.

Коэффициенты (или элементы матрицы) Н11, H12, H21, H22 матрицы расширения Н получены из пространственных сигналов, например, с помощью блока обработки дополнительной информации 260. Матричные операции (которые выполняются умножителем матрицы на вектор 242) выполняют смешивание сухого сигнала х и мокрого сигнала q в соответствии с ICCs и взвешивание выходных каналов 222а, 222в в соответствии с ILDs. С использованием комплексных коэффициентов может быть применен (как будет описано далее) дополнительный сдвиг фазы в соответствии с IPDs.

Мокрый сигнал q создается путем передачи сжатого сигнала х через фильтр декорреляции (например, модуль декорреляции 230), который разработан таким образом, что корреляция между х и q достаточно близка к нулю. Для воссоздания исходного состояния корреляции между двумя каналами, которое описывается переданными ICCs, сигналы х и q смешивают по-разному для двух выходных каналов 222а, 222в. Коэффициенты смешивания (например, элементы матрицы Н) рассчитываются таким образом, что соотношение выходных каналов соответствует переданным ICCs.

Фазовые соотношения между двумя каналами, которые описываются переданными IPDS, воссоздаются с применением фазовых сдвигов для выходных сигналов. Два сигнала, как правило, поворачиваются на разные углы.

Обычные декодировщики применяют сдвиги фаз ко всему выходному сигналу, при этом будут обработаны обе компоненты сигнала, сухая и мокрая.

Переданные IPDS описывают разности фаз между двумя каналами. Было установлено, что так как разность фаз не может быть определена для некоррелированных сигналов, значения IPD всегда основаны на коррелированных составляющих сигнала. Было установлено, что вследствие этого не стоит применять сдвиг фаз в мокрой части сигнала выходных каналов. Кроме того, было установлено, что применение различных фазовых сдвигов для двух каналов (включая декоррелированные части сигнала) может даже привести к неправильному уровню корреляции выхода, так как вычисление сухого и мокрого смешивания может быть основано на предположении, что этот же декоррелированный сигнал смешивается в обоих каналах.

Общий подход при смешивании сухих и мокрых сигналов заключается в смешении одинаковых порций мокрых сигналов обоих каналах с разными знаками. Было установлено, что, если для выходных каналов применяются различные сдвиги фаз (например, после объединения сухого сигнала х и мокрого сигнала q), фазовые свойства мокрой части сигнала теряются, что приводит к потере декорреляции.

В противоположность этому, предложенное в изобретении решение помогает поддерживать желаемую степень декорреляции. Далее будут изложены подробности, касающиеся описанного выше воплощения. В одном из вариантов изобретения используется измененный способ расширения (по сравнению с традиционными), позволяющий избежать потери декорреляции при сдвиге фаз, связанных с разностью фаз между каналами (IPDs). Как указывалось выше, было установлено, что сдвиг фаз мокрой части сигнала может привести к потере декорреляции и не является необходимым для реконструкции исходного соотношения фаз между каналами. При применении фазового сдвига к матрице расширения Н с использованием комплексных коэффициентов, обработка сухого сигнала может ограничиваться только вращением этих коэффициентов с умножением на них сухого сигнала.

Далее будет описан способ, который может быть использован для получения матрицы расширения Н или параметров расширения (например, элементов матрицы расширения Н).

На первом этапе, действительная матрица (или ее элементы) вычисляется с использованием переданной разности уровней между каналами (ILDs) и параметрами согласованности или корреляции между каналами (ICCs), из которых могут быть получены пространственные сигналы с помощью аппаратного блока 200 в виде части дополнительной информации 262. Это вычисление (которое может быть выполнено с помощью определителя действительных параметров расширения 270) может быть сделано таким же образом, как в случае отсутствия разности фаз между каналами (IPDs).

На следующем этапе (который может выполняться параллельно с первым этапом, или даже до «первого этапа»), обычным образом вычисляются сдвиги фаз углов, например, двух выходных каналов α1 и α2 (например, в определителе сдвига фазы параметров расширения 280), на основе переданных IPDs.

Наконец, выполняется комплексное вращение этих элементов (или записей) матрицы , которые умножаются на сухой сигнал, то есть первый столбец матрицы, для получения матрицы расширения Н (например, с помощью фазовращателя элементов матрицы 290):

При использовании этой модифицированной матрицы расширения, вращение фаз применяется только к сухой части сигналов (например, в умножителе матрицы на вектор 242 с применением матрицы Н), в то время как мокрая часть сигнала не изменяется и сохраняется правильная декорреляция.

Способ согласно фиг.3А

На фиг.3А приведена блок-схема способа 300 для расширения сжатого аудио сигнала в расширенный аудио сигнал, представленный одним или более расширенными аудио каналами. Способ 300 обычно включает применение параметров расширения 310 к сжатому аудио сигналу с целью получения расширенного звукового сигнала. Применение параметров расширения 310 включает этап 320, с применением фазового сдвига