2550525 - Аппаратный блок, способ и компьютерная программа для преобразования расширения сжатого аудио сигнала с помощью сглаженного значения фазы

Аппаратный блок, способ и компьютерная программа для преобразования расширения сжатого аудио сигнала с помощью сглаженного значения фазы

Иллюстрации

Показать все

Группа изобретений относится к расширению сжатого аудио сигнала, состоящего из одного или нескольких сжатого аудио каналов, в расширенный звуковой сигнал. Технический результат заключается в повышении качества расширенного звукового сигнала. Блок расширения настроен на использование текущих переменных параметров расширения для расширения сжатого аудио сигнала с целью получения расширенного звукового сигнала, в котором текущие переменные параметры расширения содержат текущие переменные сглаженных значений фазы. Определитель параметров настроен на получение одного или нескольких текущих сглаженных параметров расширения для использования в блоке расширения на основе входной информации о дискретизированных параметрах расширения. Определитель параметров настроен на объединение масштабированной версии предыдущего сглаженного значения фазы и масштабированной версии информации входной фазы, с использованием алгоритма ограничения изменения фазы для определения текущего сглаженного значения фазы на основе предыдущего сглаженного значения и информации входной фазы. 3 н. и 10 з.п. ф-лы, 7 ил.

Реферат

Техническое описание

Воплощения в соответствии с изобретением связаны с аппаратным блоком, способом и компьютерной программой для преобразования расширения сжатого звукового сигнала. Некоторые воплощения изобретения связаны с параметром сглаживания адаптивной фазы для параметрического многоканального аудио кодирования.

Предпосылки создания изобретения

Далее в тексте будет описана суть изобретения. Последние разработки в области параметрического кодирования звука создают методы для совместного преобразования многоканального аудио сигнала (например, 5.1 [или 6 каналов]) в один (или более) сжатых каналов и дополнительную информацию потока битов. Эти методы известны как Binaural Cue Coding (Бинауральное Трековое Кодирование), Parametric Stereo (Параметрическое Стерео Кодирование), MPEG Surround и т.д. Ряд публикаций описывают так называемое "Бинауральное Трековое Кодирование", использующее подход параметрического многоканального кодирования, см., например, ссылки [1], [2], [3], [4], [5].

"Parametric Stereo" относится к методике параметрического кодирования двухканального стерео сигнала, основанной на передаваемом моно сигнале плюс параметр дополнительной информации, см., например, ссылки [6], [7].

"MPEG Surround" является стандартом ISO для параметрического многоканального кодирования, см., например, [8].

Вышеупомянутые методы основаны на передаче в компактной форме соответствующих сигналов в приемник звука с использованием соответствующего сжатого моно или стерео сигнала для восприятия пространственным слухом человека. Типичные сигналы могут быть разностными сигналами уровня между каналами (ILD), сигналами корреляции или когерентности между каналами (ICC), а также разностными сигналами во времени между каналами (ITD), сигналами разности фаз между каналами (IPD) и общей разностью фаз (OPD).

Эти параметры в ряде случаев передаются с частотным и временным разрешением, адаптированным к восприятию слухом человека.

Для передачи параметры, как правило, дискретизируются (или, в некоторых случаях, они обязательно должны быть дискретизированы), причем часто (особенно при использовании низкой скорости передачи битов) используется довольно грубая дискретизация.

Интервал обновления во времени определяется кодировщиком, в зависимости от характеристик сигнала. Это означает, что параметры передаются не для каждой выборки сжатого сигнала. Другими словами, в некоторых случаях скорость передачи (или частота передачи, или частота обновления) параметров, описывающих вышеупомянутые сигналы, может быть меньше, чем скорость передачи данных (или частота передачи, или частота обновления) аудио выборок (или группы выборок).

Вместо передачи и разности фаз между каналами (IPDs) и общих разностей фаз (OPDs), можно также передавать в декодировщик только разности фаз между каналами (IPDs) и оценку общей разности фаз (OPDs).

Так как в некоторых случаях декодировщик может использовать параметры без пропусков, непрерывно в течение долгого времени, например, для каждой выборки (или аудио выборки), то могут потребоваться промежуточные параметры, которые будут получены в декодировщике, обычно путем интерполяции между предыдущим и текущим наборами параметров.

Некоторые традиционные подходы интерполяции, однако, приводят к ухудшению качества звука.

Далее будет описана общая схема кодирования бинаурального сигнала со ссылкой на фиг.7. На фиг.7 показана блок-схема передающей схемы кодирования бинаурального сигнала 800, которая включает кодировщик бинаурального сигнала 810 и декодировщик бинаурального сигнала 820. Кодировщик бинаурального сигнала 810 может, например, получать множество звуковых сигналов 812а, 812b, и 812c. Кроме того, кодировщик бинаурального сигнала 810 настроен на сжатие входных аудио сигналов 812а-812c с использованием блока сжатия 814 для получения сжатого сигнала 816, который может, например, быть суммарным сигналом и который может быть обозначен "AS" или "X". Кроме того, кодировщик бинаурального сигнала 810 сконфигурирован для анализа входных аудио сигналов 812а-812c с использованием анализатора 818 для получения сигнала дополнительной информации 819 ("SI"). Суммарный сигнал 816 и сигнал дополнительной информации 819 передаются от кодировщика бинаурального сигнала 810 на декодировщик бинаурального сигнала 820. Декодировщик бинаурального сигнала 820 может быть сконфигурирован для синтеза многоканального аудио сигнала, включающего, например, аудио каналы у1, у2, …, yN на основе суммарного сигнала 816 и разностных сигналов между каналами 824. Для этой цели декодировщик бинаурального сигнала 820 может включать в себя синтезатор кодирования бинаурального сигнала 822, который получает суммарный сигнал 816 и разностные сигналы между каналами 824 и обеспечивает аудио сигналы y1, y2, …, yN.

Декодировщик бинаурального сигнала 820 дополнительно включает процессор дополнительной информации 826, который настроен на получение сигнала дополнительной информации 819 и, кроме того, вход пользователя 827. Процессор дополнительной информации 826 настроен на получение разностных сигналов между каналами 824 на основе сигнала дополнительной информации 819 и информации, вводимой пользователем 827.

В результате, входные аудио сигналы анализируются и сжимаются. Суммарный сигнал вместе с дополнительной информацией передаются на декодировщик. Разностные сигналы между каналами генерируются на основе дополнительной информации и информации с входа локального пользователя. С помощью синтеза кодированного бинаурального сигнала генерируется многоканальный аудио сигнал на выходе.

Для получения дополнительной информации приведем ссылку на статью "Binaural Cue Coding Part II: Schemes and applications," by C.Faller and F.Baumgarte (published in: IEEE Transactions on Speech and Audio Processing, vol.11, no. 6, Nov. 2003).

Тем не менее, было установлено, что многие обычные декодировщики бинауральных сигналов формируют многоканальные аудио сигналы на выходе с ухудшением качества, если дополнительная информация дискретизируется с грубым или недостаточным разрешением.

В связи с этой проблемой, есть необходимость совершенствования концепции расширения сжатых аудио сигналов в расширенный звуковой сигнал, который уменьшает впечатление деградации при прослушивании, в случае, если дополнительная информация, описывающая фазовые соотношения между различными каналами расширенного сигнала, является дискретной и имеет сравнительно низкое разрешение.

Краткое описание изобретения

Воплощение в соответствии с изобретением создает аппаратный блок для расширения сжатого аудио сигнала, описываемого одним или более сжатыми аудио каналами в расширенный звуковой сигнал, представляющий множество расширенных аудио каналов. Аппаратная часть содержит блок расширения, настроенный на применение текущих переменных параметров расширения для расширения сжатого сигнала, чтобы получить расширенный звуковой сигнал. Текущие переменные параметры расширения представляют собой текущие переменные сглаженные значения фазы. Устройство дополнительно включает определитель параметров, настроенный на получение одного или нескольких текущих сглаженных параметров расширения, которые будут использоваться для расширения на основе входной информации дискретных параметров расширения. Определитель параметров настроен на объединение масштабированной версии предыдущего сглаженного значения фазы с масштабированной версией входной фазовой информации, с использованием алгоритма ограничения изменения фазы, чтобы определить текущее сглаженное значение фазы на основе предыдущего сглаженного значения фазы и входной фазовой информации.

Это воплощение изобретения основано на открытии того, что звуковые искажения в расширенных сигналах можно уменьшить или даже исключить их путем объединения масштабированной версии предыдущего сглаженного значения фазы с масштабированной версией входной фазовой информации, с использованием алгоритма ограничения изменения фазы, поэтому рассмотрение предыдущего сглаженного значения фазы в сочетании с алгоритмом ограничения изменения фазы позволяет получить достаточно малые разрывы в сглаженных значениях фазы. Уменьшение разрыва между последовательными сглаженными значениями фазы (например, предыдущее сглаженное значение фазы и текущее сглаженное значение фазы), в свою очередь, помогает избежать (или сохраняет достаточно малыми) изменения звуковой частоты при переходе между частями звукового сигнала, для которых используются последовательные значения фазы (например, предыдущее сглаженное значение фазы и текущее сглаженное значение фазы).

Подводя итог вышесказанному, изобретение создает общую концепцию адаптивной фазовой обработки при параметрическом многоканальном аудио кодировании. Воплощения в соответствии с изобретением позволяют заменить другие методы за счет уменьшения искажений в выходном сигнале, вызванных грубой дискретизацией или быстрыми изменениями фазовых параметров.

В предпочтительном варианте определитель параметров настроен на объединение масштабированной версии предыдущего сглаженного значения фазы с масштабированной версией входной фазовой информации, так что текущее сглаженное значение фазы находится в меньшем диапазоне углов из первого и второго диапазона углов, причем первый диапазон углов располагается в математически положительном направлении от первого начального направления, определяемого предыдущим сглаженным значением фазы, до первого конечного направления, определяемого входной фазовой информацией, причем второй диапазон углов располагается в математически положительном направлении от второго начального направления, определяемого входной фазовой информацией, до второго конечного направления, определяемого предыдущим сглаженным значением фазы. Соответственно, в некоторых вариантах осуществления изобретения, изменение фазы, которое вводится с помощью рекурсивных (типа бесконечного импульсного отклика) сглаженных значений фазы, сохраняется как можно меньшим. Соответственно, звуковые искажения имеют минимальную длительность. Например, аппаратный блок может быть настроен на обеспечение текущего сглаженного значения фазы, находящегося в пределах меньшего диапазона углов из двух диапазонов углов, из которых первый диапазон охватывает более 180°, а второй диапазон перекрывает менее 180°, и вместе два диапазона углов составляют 360°. Соответственно, алгоритмом ограничения изменения фазы обеспечивается разность фаз между предыдущим сглаженным значением фазы и мгновенным сглаженным значением фазы меньше 180°, и, желательно, даже меньше 90°. Это помогает сохранять звуковые искажения как можно меньшими.

В предпочтительном варианте определитель параметров настроен на выбор способа объединения из множества различных способов объединения в зависимости от разности между информацией фазы входного и предыдущего сглаженных значений фазы, а также для определения текущего сглаженного значения фазы, используя выбранную комбинацию способов. Соответственно может быть выбрана соответствующая комбинация способов, которая гарантирует, что фазовый переход между предыдущим сглаженным значением фазы и мгновенным сглаженным значением фазы ниже заданного порога или, в более общем случае, достаточно мал или мал насколько возможно. Соответственно, аппаратный блок изобретения превосходит аналогичные аппаратные решения, которые имеют фиксированные способы объединения.

В предпочтительном варианте определитель параметров настроен на выбор основного способа объединения, если разность между входной фазовой информацией и предыдущим сглаженным значением фазы находится в диапазоне от -π до +π, в противном случае [определитель параметров настроен на выбор] одного или нескольких способов объединения адаптированных фазовых различий. Основной способ объединения определяет линейную комбинацию, без постоянного слагаемого, масштабированной версии входной фазовой информации и масштабированной версии предыдущего сглаженного значения фазы. Один или несколько способов объединения адаптированных фаз определяют линейную комбинацию, учитывающую постоянное слагаемое адаптированных фаз, масштабированную версию входной фазовой информации и масштабированную версию предыдущего сглаженного значения фазы. Соответственно, может быть выполнена выгодная и простая в реализации линейная комбинация предыдущего сглаженного значения фазы и входной фазовой информации, в которой можно выборочно использовать дополнительное слагаемое, если разность между предыдущим сглаженным значением фазы и входной фазовой информацией принимает сравнительно большое значение (больше, чем π или меньше -π). Соответственно, в проблемных случаях, в которых имеется большая разность между предыдущим сглаженным значением фазы и входной фазовой информацией, могут использоваться специальные способы объединения адаптированных фаз, которые позволяет сохранить достаточно малыми фазовые изменения между последовательными сглаженными значениями фазы.

В предпочтительном варианте определитель параметров включает контроллер сглаживания, настроенный на выборочное отключение значений фазы при выполнении сглаживания, если разность между величиной сглаженной фазы и соответствующей величиной входной фазы больше заданного порогового значения. Соответственно, выполнение сглаживания значений фазы может быть отключено, если есть большое изменение входной фазовой информации. Как правило, очень большие изменения входной фазовой информации указывают на то, что на практике желательно не выполнять сглаживание изменений фазы, так как сравнительно большие изменения во входной фазовой информации (значительно большие, чем шаг дискретизации) часто связаны с конкретными особенностями звукового сигнала. Таким образом, сглаживание значений фазы в большинстве случаев улучшает впечатление при прослушивании и не наносит ущерба в данном конкретном случае. Соответственно, впечатления при прослушивании могут быть даже улучшены путем выборочного отключения сглаживания значений фазы.

В предпочтительном варианте контроллер сглаживания настроен для оценки, по известной величине сглаженной фазы, разности между двумя значениями сглаженной фазы и оценки, по известной величине соответствующей входной фазы, разности между двумя значениями входной фазы, соответствующими двум сглаженным значениям фазы. Было установлено, что в некоторых случаях разность между значениями фазы, которые связаны с различными (расширенными) каналами многоканального аудио сигнала, [разность] является особенно значимой величиной для принятия решения, будет ли включено или отключено сглаживание значения фазы.

В предпочтительном варианте блок расширения настроен на применение, в течение заданного промежутка времени, различных мгновенных сглаженных изменений фазы, которые определяются различными сглаживающими значениями фазы для получения расширенных сигналов аудио каналов, имеющих разность фаз между каналами, если сглаживающая функция (или полученное сглаженное значение фазы) включена и применяется к мгновенным не сглаженным изменениям фазы, которые определяются различными не сглаженными значениями фазы, для получения сигналов о различных расширенных аудио каналах, имеющих разность фаз между каналами, если сглаживающая функция (или полученное сглаженное значение фазы) отключено. В этом случае определитель параметров включает контроллер сглаживания, который настроен на выборочное включение или отключение сглаженного значения фазы, если разность между сглаженными значениями фазы, использованная для получения сигналов о различных расширенных аудио каналах, отличается от не сглаженного значения межканальной разности фаз, которое получает блок расширения, или от значения, полученного на основе информации блока расширения, на величину, большую заданного порогового значения. Было установлено, что избирательное отключение процедуры сглаживания значения фазы особенно полезно в плане улучшения впечатления при прослушивании, если величина разности фаз между каналами выбирается в качестве критерия для активации и деактивации процедуры сглаживания значения фазы.

В предпочтительном варианте определитель параметров настроен на регулирование постоянной времени фильтра для определения последовательности сглаженных значений фазы в зависимости от разности между мгновенным сглаженным значением фазы и соответствующим значением входной фазы. Регулируя постоянную времени фильтра, можно добиться того, что будет установлено достаточно малое время для очень больших изменений значений входной фазы, что позволяет сохранять сглаженные характеристики достаточно хорошими для малых и средних изменений значений входной фазы. Эта процедура имеет определенные преимущества, так как сравнительно небольшая величина (или, по крайнем мере, средняя величина) изменения входной фазы часто является фактором, определяющим шаг (зернистость) дискретизации. Другими словами, ступенчатое изменение входного значения фазы, обусловленное зернистостью дискретизации, может привести к эффективной работе сглаживания. В таком случае, процедура сглаживания может быть особенно выгодна и приносит хорошие результаты, если используется сравнительно большая постоянная времени фильтра. С другой стороны, очень большие изменения входного значения фазы, которые значительно больше шага дискретизации, обычно соответствует желаемому большому изменению значения фазы. В этом случае сравнительно малая постоянная времени фильтра приводит к хорошим результатам. Следовательно, с помощью подстройки постоянной времени фильтра в зависимости от разности между мгновенным сглаженным значением фазы и соответствующим значением входной фазы, можно достичь того, что заведомо большие изменения значения входной фазы приводят к быстрым изменениям сглаженного значения фазы, в то время как сравнительно небольшие изменения значения входной фазы, которые имеют величину шага дискретизации, приводят к сравнительно медленному и сглаженному переходу в сглаженном значении фазы. Соответственно, хорошее впечатление при прослушивании достигается как при заведомо больших изменениях соответствующих значений входной фазы, так и для небольших изменений соответствующих значений фазы (которые, тем не менее, могут привести к изменению значения входной фазы за один шаг дискретизации).

В предпочтительном варианте определитель параметров настроен на регулирование постоянной времени фильтра для определения последовательности сглаженных значений фазы в зависимости от разности между сглаженными межканальными разностями фаз, величина которой определяется разностью между двумя сглаженными значениями фазы, относящимися к различным каналам расширенного звукового сигнала, и не сглаженной межканальной разностью фаз, которая определяется информацией о не сглаженной разности фаз между каналами. Было установлено, что концепция выборочной настройки постоянной времени фильтра может быть успешно использована в сочетании с обработкой межканальных разностей фаз.

В предпочтительном варианте аппаратный блок для расширения сигнала настроен на выборочное включение или отключение процедуры сглаживания значений фазы в зависимости от сведений, извлеченных из битов аудио потока. Было установлено, что улучшение впечатления при прослушивании можно получить, создавая возможность выборочного включения и отключения, контролируемую аудио кодировщиком, при проведении процедуры сглаживания значений фазы в аудио декодировщике.

Воплощение изобретения создает метод реализации рассмотренных выше аппаратных средств для процедуры расширения сжатого аудио сигнала в расширенный звуковой сигнал. Указанный способ основан на тех же идеях, что и рассмотренные выше аппаратные средства.

Кроме того, варианты в соответствии с изобретением позволяют создать компьютерную программу для осуществления указанного способа.

Краткое описание чертежей.

Воплощения в соответствии с изобретением будут далее описаны со ссылками на прилагаемые фигуры, на которых:

на фиг.1 показана блок-схема аппаратного блока для расширения сжатого аудио сигнала, в соответствии с вариантом осуществления изобретения;

на фиг.2а и 2б показана блок-схема аппаратного блока для расширения сжатого аудио сигнала, согласно другому варианту осуществления изобретения;

на фиг.3 показано схематическое представление общей разности фаз OPD1, OPD2 и разности фаз IPD между каналами;

на фиг.4а и 4б показано графическое представление фазовых соотношений для первого варианта алгоритма ограничения изменения фазы;

на фиг.5а и 5б показано графическое представление фазовых соотношений для второго варианта алгоритма ограничения изменения фазы;

на фиг.6 показана блок-схема метода расширения сжатого аудио сигнала в расширенный звуковой сигнал, в соответствии с вариантом осуществления изобретения, а также

на фиг.7 показана блок-схема, представляющая общую схему кодирования бинаурального сигнала.

Подробное описание воплощений изобретения

1. Воплощение в соответствии с фиг.1

На фиг.1 показана блок-схема схема аппаратного блока 100 для расширения сжатого аудио сигнала согласно одному из вариантов изобретения. Аппаратный блок 100 настроен на прием сжатого аудио сигнала 110, представляющего собой один или более сжатых аудио каналов, и формирование расширенного аудио сигнала 120, представляющего множество расширенных аудио каналов. Аппаратный блок 100 включает в себя блок расширения 130, настроенный на применение мгновенных переменных параметров расширения для расширения сжатого аудио сигнала 110 и получения расширенного аудио сигнала 120. Аппаратный блок 100 также включает в себя определитель параметров 140, настроенный на получение входной информации о дискретизированных параметрах расширения 142. Определитель параметров 140 настроен на получение одного или нескольких текущих значений сглаженных параметров расширения 144 для использования в блоке расширения 130 на основе входной информации о дискретизированных параметрах расширения 142.

Определитель параметров 140 настроен на объединение масштабированной версии предыдущего сглаженного значения фазы с масштабированной версией входной фазовой информации 142а, которая входит во входную информацию о дискретизированных параметрах расширения 142, и [определитель параметров] использует алгоритм ограничения изменения фазы 146 для определения текущего значения сглаженной фазы 144а на основе предыдущего значения сглаженной фазы и входной фазовой информации. Текущее значение сглаженной фазы 144а включается в текущие значения сглаженных параметров расширения 144.

Далее будут описаны некоторые подробности, касающиеся принципа действия аппаратного блока 100. Сжатый аудио сигнал 110 вводится в блок расширения 130, например, в виде последовательности множеств комплексных значений, представляющих сжатый аудио сигнал в частотно-временной области (здесь не показано описание перекрывающихся или неперекрывающихся диапазонов частот или частотных поддиапазонов со скоростью обновления, определяемой кодировщиком). Блок расширения 130 настроен на формирование линейной комбинации нескольких каналов на основе сжатого аудио сигнала 110 в зависимости от текущих значений переменных для сглаженных параметров расширения и/или линейной комбинации канала сжатого аудио сигнала 110 с вспомогательным сигналом (например, декоррелированных сигналов) (где вспомогательный сигнал может быть получен из того же аудио канала сжатого аудио сигнала 110, из одного или нескольких других аудио каналов сжатого аудио сигнала 110, или из комбинации звуковых каналов сжатого аудио сигнала 110). Таким образом, текущие значения сглаженных параметров расширения 144 могут быть использованы в блоке расширения 130 для определения амплитуды масштабирования и/или изменения фазы (или задержки по времени), используемых для формирования расширенного аудио сигнала 120 (или расширенного канала) на основе сжатого аудио сигнала 110.

Определитель параметров 140, как правило, настроен на предоставление текущих значений переменных для сглаженных параметров расширения 144 со скоростью обновления, которая равна (или, в некоторых случаях выше, чем) скорости обновления дополнительной информации, которая описывается входной информацией о дискретизированных параметрах расширения 142. Определитель параметров 140 может быть настроен на исключение (или, по крайней мере, уменьшение) искажений, связанных с грубым (с сохранением скорости передачи битов) квантованием входной информации о дискретизированных параметрах расширения 142. Для этого определитель параметров 140 может применять сглаживание фазовой информации, описывающей, например, разность фаз между каналами. Сглаживание входной фазовой информации 142а, которая входит в квантованную входную информацию о дискретизированных параметрах расширения 142, осуществляется с помощью алгоритма ограничения изменения фазы 143 так, что большие и резкие изменения фазы, которые приводят к звуковым искажениям, могут быть исключены (или, по крайней мере, ограничены в допустимых пределах).

Сглаживание лучше проводить, комбинируя предыдущее сглаженное значение фазы со значением входной фазовой информации 142а такой, что текущее сглаженное значение фазы зависит как от предыдущего сглаженного значения фазы, так и от текущего значения входной фазовой информации 142а. Таким образом, достаточно плавный переход можно получить с использованием простой структуры алгоритма сглаживания. Другими словами, недостатки сглаживания импульсов конечной длительности можно устранить при использовании способа сглаживания импульсов с бесконечной длительностью, в котором применяется предыдущее сглаженное значение фазы.

Кроме того, определитель параметров 140 может включать в себя дополнительные функциональные возможности интерполяции, что является преимуществом, если входная информация о дискретизированных параметрах расширения 142 передается в течение сравнительно больших временных интервалов (например, меньше чем один раз для набора спектральных значений сжатого аудио сигнала 110).

Подводя итог, аппаратный блок 100 позволяет предоставить текущее сглаженное значение фазы 144а на основе входной информации о дискретизированных параметрах расширения 142 так, что текущее сглаженное значение фазы 144а хорошо подходит для формирования расширенного звукового сигнала 120 из сжатого звукового сигнала 110 с использованием блока расширения 130.

Звуковые искажения уменьшаются (или даже устраняются) путем предоставления сглаженного значения фазы 144а с использованием рассмотренной выше концепции, причем предыдущее сглаженное значение фазы используется в сочетании с ограничением изменения фазы. Соответственно, достигается хорошее впечатление при прослушивании расширенного аудио сигнала 120.

2. Воплощение в соответствии с фиг.2

2.1. Обзор по фиг.2

Более подробная информация о структуре и функционировании аппаратного блока для расширения звукового сигнала будет описана со ссылкой на фиг.2а и 2б. На фиг.2а и 2б показана подробная схема блока аппаратного блока 200, соответствующая другому варианту осуществления изобретения, для расширения сжатого аудио сигнала.

Аппаратный блок 200 можно рассматривать как декодировщик для создания многоканальных (например, 5.1) аудио сигналов на основе сжатого звукового сигнала 210 и дополнительной информации SI. Аппаратный блок 200 реализует функциональные возможности, которые были описаны в отношении аппаратного блока 100.

Аппаратный блок 200 может, например, использоваться для декодирования многоканального звукового сигнала, закодированного в соответствии с так называемыми "Binawal Cue Coding", "Parametric Stereo" или "MPEG Surround". Естественно, аппаратный блок 200 может также быть использован для расширения многоканальных аудио сигналов, закодированных в соответствии с другими системами с помощью пространственных сигналов.

Для простоты изложения описывается аппаратный блок 200, который выполняет расширение одного канала сжатого аудио сигнала в двухканальный сигнал. Тем не менее, концепция, описанная здесь, может быть легко распространена на случаи, когда сжатый звуковой сигнал включает в себя более одного канала, а также на случаи, когда расширенный звуковой сигнал состоит более чем из двух каналов.

2.2. Входные сигналы и временные интервалы для воплощения на фиг.2

Аппаратный блок 200 настроен на прием сжатого звукового сигнала 210 и дополнительной информации 212. Кроме того, аппаратный блок 200 настроен на формирование расширенного звукового сигнала 214, включающего, например, несколько каналов.

Сжатый аудио сигнал 210 может, например, быть выходным сигналом, сгенерированным кодировщиком (например, ВСС кодировщик 810, показанный на фиг.7). Сжатый аудио сигнал 210 может, например, быть представлен в частотно-временной области, например, в виде разложения по комплексным частотам. Например, аудио контенты [содержание] множества частотных поддиапазонов (которые могут быть перекрывающимися или неперекрывающимися) звукового сигнала могут быть представлены в виде соответствующих комплексных значений. Для заданного диапазона частот сжатый звуковой сигнал может быть представлен последовательностью комплексных значений, описывающих аудио контент в частотных поддиапазонах, рассматриваемых для последовательности промежутков времени (перекрывающихся или не перекрывающихся). Последовательность комплексных значений для последовательности промежутков времени может быть получена, например, с помощью набора фильтров (например, QMF набор фильтров), быстрого преобразования Фурье и т.п., в аппаратном блоке 100 (который может быть частью многоканального декодировщика звукового сигнала), или в дополнительном устройстве, соединенном с аппаратным блоком 100. Тем не менее, представление сжатого аудио сигнала 210, описанное здесь, как правило, не совпадает с представлением сжатого сигнала, используемого для передачи сжатого аудио сигнала из многоканального кодировщика аудио сигнала на многоканальный декодировщик аудио сигнала или аппаратный блок 100. Соответственно, сжатый аудио сигнал 210 может быть представлен потоком последовательностей или векторов комплексных значений.

Далее будем предполагать, что последующие временные интервалы сжатого аудио сигнала 210 обозначаются целочисленными индексами k. Также предположим, что аппаратный блок 200 получает один набор или вектор комплексных значений в интервале k канала сжатого аудио сигнала 210. Таким образом, одна выборка (набор или вектор комплексных значений) будет получена для каждой аудио выборки обновляемого интервала, описываемого индексом времени k.

Иными словами, аудио выборки ("AS") сжатого аудио сигнала 210 передаются в аппаратный блок 210 так, что одна аудио выборка AS связана с каждой аудио выборкой обновляемого интервала k.

Затем аппаратный блок 200 получает дополнительную информацию 212, описывающую параметры расширения. Например, дополнительная информация 212 может быть описана одним или несколькими из следующих параметров расширения:

разностными сигналами уровня между каналами (ILD), сигналами корреляции или когерентности между каналами (ICC), разностными сигналами во времени между каналами (ITD), сигналами разности фаз между каналами (IPD) и общей разностью фаз (OPD). Как правило, дополнительная информация 212 включает в себя ILD параметры и хотя бы один из параметров ICC, ITD, IPD, OPD. Однако для того чтобы сохранить диапазон частот, дополнительная информация 212, в некоторых вариантах, передается или получается аппаратным блоком 200 один раз за несколько интервалов обновления аудио выборок k сжатого аудио сигнала 210 (или передача единого набора дополнительной информации может временно распространяться на множество интервалов обновления k аудио выборок). Таким образом, в некоторых случаях, есть только один набор параметров дополнительной информации для множества интервалов обновления аудио выборок k. Тем не менее, в других случаях, может быть один набор параметров дополнительной информации для каждого интервала обновления аудио-выборок k.

Интервалы, на которых дополнительная информация обновляется, обозначены индексом n, причем исключительно для простоты мы будем считать в дальнейшем, что последовательность временных интервалов сжатого аудио сигнала 210, которая обозначена целочисленными значениями индекса k, совпадает с временными интервалами, на которых дополнительная информация SI 212 обновляется, так, что выполняется равенство k=n. Однако, если обновление дополнительной информации SI 212 производится только один раз для множества последовательных промежутков времени k сжатого аудио сигнала 210, может быть выполнена интерполяция, например, между последовательностью значений входной фазовой информации α_n или последовательностью значений сглаженной фазы .

Например, дополнительная информация может быть передана (или получена) аппаратным блоком 200 в интервалах обновления аудио выборок k=4, k=8 и k=16. С другой стороны, дополнительная информация 212 не может быть передана (или получена) аппаратным блоком между указанными интервалами обновления аудио выборок. Таким образом, интервалы обновления дополнительной информации 212 могут изменяться с течением времени, так как кодировщик может, например, принять решение о проведении обновления дополнительной информации только при необходимости (например, когда декодировщик отмечает, что дополнительная информация изменилась больше предварительно определенного значения). Например, дополнительная информация, полученная аппаратным блоком 200 для интервала обновления аудио выборки k=4, может быть связана с аудио интервалами обновления выборок k=3, 4, 5. Кроме того, дополнительная информация, полученная аппаратным блоком 200 для интервала обновления аудио выборки k=8, может быть связана с интервалами обновления аудио выборок k=6, 7, 8, 9, 10, и так далее. Тем не менее, естественно, возможны различные ассоциации, и интервалы обновления для дополнительной информации могут быть больше или меньше, чем обсуждалось.

2.3. Выходные сигналы и временные интервалы для воплощения по фиг.2

Отметим, что аппаратный блок 200 служит для формирования расширенных аудио сигналов в комплексных частотах. Например, аппаратный блок 200 может быть настроен для предоставления расширенных звуковых сигналов 214, так что расширенные звуковые сигналы включают один интервал обновления аудио выборки, или скорость обновления звукового сигнала такая же, как и у сжатого аудио сигнала 210. Другими словами, для каждой выборки (или интервала обновления аудио выборки k) сжатого аудио сигнала 210 выборка расширенного аудио сигнала 214 создается в нескольких вариантах.

2.4. Расширение

Далее будет подробно описано, как обновляются параметры расширения, которые используются для расширения сжатого аудио сигнала 210 и получения для каждого интервала обновления k аудио выборки, хотя, в некоторых вариантах, входная дополнительная информация 212 декодировщика может обновляться только на больших интервалах обновления. В дальнейшем, будет описана обработка одного поддиапазона частот, но концепция, естественно, может распространяться на несколько поддиапазонов частот.

Аппаратный блок 200 включает в себя, в качестве ключевого компонента, блок расширения 230, который настроен на работу в качестве комплексного линейного сумматора. Блок расширения 230 настраивается для получения выборок x(t) или x(k) сжатого аудио сигнала 210 (например, представляющих определенные диапазоны частот), связанные с интервалом обновления k аудио выборки. Сигнал x(t) или x(k), иногда называется «сухой сигнал». Кроме того, блок расширения 230 настроен на прием выборок q(t) или q(k), представляющих декоррелированную версию сжатого звукового сигнала.

Кроме того, аппаратный блок 200 включает в себя декоррелятор (например, устройство задержки или ревербератор) 240, который настроен на получение выборок x(k) сжатого аудио сигнала и на формирование на этой основе выборки q(k) декор

Аппаратный блок, способ и компьютерная программа для преобразования расширения сжатого аудио сигнала с помощью сглаженного значения фазы

Патент 2550525