Аппаратный блок, способ и компьютерная программа для расширения сжатого аудио сигнала
Иллюстрации
Показать всеИзобретение относится к вычислительной технике. Технический результат заключается в улучшении качества расширенного выходного аудиосигнала. Аппаратный блок для расширения сжатого аудио сигнала, содержащего один или более сжатых аудио каналов в расширенный звуковой сигнал, содержащий множество расширенных аудиоканалов, причем аппаратный блок включает блок расширения, настроенный на использование текущих значений переменных параметров расширения для расширения сжатого аудио сигнала и получения расширенного звукового сигнала; а также модуль интерполяции параметров, настроенный на получение одного или нескольких текущих интерполированных параметров расширения, которые будут использоваться в блоке расширения на основе информации, описывающей первый комплекснозначный параметр расширения и последующий второй комплекснозначный параметр расширения, причем модуль интерполяции параметров настроен на независимую интерполяцию между величиной магнитуды первого комплекснозначного параметра расширения и величиной магнитуды второго комплекснозначного параметра расширения, и между значением фазы первого комплекснозначного параметра расширения и значением фазы (256) второго комплекснозначного параметра расширения, для получения одного или нескольких текущих интерполированных комплекснозначных параметров расширения. 3 н. и 12 з.п. ф-лы, 8 ил.
Реферат
Предпосылки создания изобретения
Воплощения изобретения связаны с аппаратной частью, способом и компьютерной программой для расширения сжатого звукового сигнала.
Некоторые воплощения изобретения относятся к интерполяции параметров расширения для сохранения значения магнитуды при параметрическом многоканальном аудио кодировании.
Далее будет представлено содержание изобретения. Последние разработки в области параметрического кодирования звука обеспечивают способы для совместного преобразования многоканального аудио сигнала (например, 5.1) в один (или более) сжатых каналов плюс поток битов дополнительной информации. Эти способы известны как Binaural Cue Coding (Бинауральное Трековое Кодирование), Parametric Stereo (Параметрическое Стерео Кодирование), MPEG Surround и т.д.
Ряд публикаций описывает так называемое «Бинауральное Трековое Кодирование», использующее подход параметрического многоканального кодирования, см., например, ссылки [1] [2] [3] [4] [5].
«Parametric Stereo» связано с методикой параметрического кодирования двухканального стерео сигнала на основе передаваемого моно сигнала плюс параметры дополнительной информации [6] [7].
«MPEG Surround» является стандартом ISO для параметрического многоканального кодирования [8].
Указанные способы основаны на передаче в приемник звука сигналов в компактной форме в виде соответствующих сжатых моно или стерео сигналов, воспринимаемых пространственным слухом человека. Типичные сигналы могут быть разностными сигналами между каналами (ILD), сигналами корреляции или когерентности между каналами (ICC), а также разностными во времени сигналами между каналами (ITD) и разностными по фазе сигналами между каналами (IPD).
Эти параметры в некоторых случаях передаются с частотным и временным разрешением, адаптированным к слуховому разрешению человека. Интервал обновления во времени определяется кодировщиком в зависимости от характеристик сигнала. Это означает, что параметры передаются не для каждой выборки сжатого сигнала. Другими словами, в некоторых случаях скорость передачи (или частота передачи, или частота обновления) параметров, описывающих вышеуказанные сигналы, может быть меньше, чем скорость передачи (или частота передачи, или частота обновления) аудио выборок (или группы выборок).
Так как декодировщик может в некоторых случаях использовать параметры непрерывно и без пауз в течение долгого времени, например, для каждой выборки (или аудио выборки), могут потребоваться промежуточные параметры, которые будут получены в декодировщике обычно путем интерполяции между предыдущим и текущим наборами параметров.
Некоторые традиционные подходы интерполяции, однако, могут привести к ухудшению качества звука.
Далее будет описана со ссылкой на фиг.7 общая бинауральная схема кодирования. На фиг.7 показана блок- схема передающей системы бинаурального кодирования 800, которая включает кодировщик бинаурального кодирования 810 и декодировщик бинаурального кодирования 820. Кодировщик бинаурального кодирования 810, например, может получать множество звуковых сигналов 812а, 812b, и 812с. Кроме того, кодировщик бинаурального кодирования 810 настроен на сжатие входных аудио сигналов 812а-812с с использованием блока сжатия 814 и получения сжатого сигнала 816, который может быть, например, суммарным сигналом, обозначаемым как «AS» или «X». Кроме того, кодировщик бинаурального кодирования 810 сконфигурирован для анализа входных аудио сигналов 812а-812с с использованием анализатора 818 для получения сигнала дополнительной информации 819 («SI»). Суммарный сигнал 816 и сигнал дополнительной информации 819 передаются от кодировщика бинаурального кодирования 810 на декодировщик бинаурального кодирования 820. Декодировщик бинаурального кодирования 820 может быть сконфигурирован для синтеза многоканального аудио сигнала, включающего, например, аудио каналы у1, у2, …, yN на основе суммарного сигнала 816 и межканальных сигналов 824. Для этой цели декодировщик бинаурального кодирования 820 может включать в себя синтезатор бинаурального кодирования 822, который получает суммарный сигнал 816 и межканальные сигналы 824 и формирует звуковые сигналы у1, у2, …, yN.
Декодировщик бинаурального кодирования 820 дополнительно включает процессор дополнительной информации 826, который настроен на получение дополнительной информации 819 и дополнительный вход пользователя 827. Процессор дополнительной информации 826 настроен на получение разностного сигнала между каналами 824 на основе сигнала дополнительной информации 819 и дополнительно вводимой пользователем 827.
Таким образом, входные аудио сигналы анализируются и сжимаются. Суммарный сигнал вместе с дополнительной информацией передаются на декодировщик. Межканальные сигналы генерируются на основе дополнительной информации и входа локального пользователя. На этапе синтеза бинаурального кодирования генерируется многоканальный аудио сигнал на выходе.
Дополнительная информация представлена в статье С.Faller и F.Baumgarte «Binaural Cue Coding Part II: Schemes and applications» (опубликована в: IEEE Transactions on Speech and Audio Processing, vol.11, no. 6, Nov. 2003).
Тем не менее, было установлено, что многие обычные декодировщики бинаурального кодирования обеспечивают многоканальный аудио выход сигналов с ухудшением качества, если дополнительная информация получена с более низкой частотой обновления, чем сжатый сигнал.
В связи с этой проблемой, есть необходимость совершенствования концепции расширения сжатого аудио сигнала в расширенный звуковой сигнал, который уменьшает впечатление деградации при прослушивании, если частота обновления дополнительной информации меньше, чем частота обновления сжатого аудио сигнала.
Краткое описание изобретения
Воплощение в соответствии с изобретением позволяет создать аппаратный блок для расширения сжатого аудио сигнала, содержащего один или более сжатых аудио каналов, в расширенный аудио сигнал, состоящий из множества расширенных аудио каналов. Аппаратная часть состоит из блока расширения, настроенного на применение текущих значений параметров расширения для расширения сжатого аудио сигнала и получения расширенного звукового сигнала. Аппаратная часть дополнительно содержит модуль интерполяции параметров, который настроен на получение одного или нескольких текущих значений интерполированных параметров расширения, которые будут использоваться блоком расширения на основе первого комплекснозначного параметра расширения и последующего второго комплекснозначного параметра расширения. Модуль интерполяции параметров настроен на независимую интерполяцию между значением магнитуды первого комплекснозначного параметра расширения и значением магнитуды второго комплекснозначного параметра расширения, а также между фазой первого комплекснозначного параметра расширения и фазой второго комплекснозначного параметра расширения, для получения одного или нескольких текущих значений интерполированных параметров расширения.
Воплощения в соответствии с изобретением основаны на выводе, что независимая временная интерполяция значения магнитуды параметра расширения и значения фазы параметра расширения приводит к хорошему впечатлению при прослушивании расширенного аудио сигнала в случае, если изменение магнитуды интерполированных параметров расширения остается очень малым. Было установлено, что излишне большое изменение амплитуды параметра расширения может привести к неприятным звуковым модуляциям расширенного звукового сигнала. В отличие от указанного случая, при независимой интерполяции амплитуд комплекснозначных параметров расширения с использованием их фазовых значений, изменения амплитуды, вызванные интерполяцией, остаются небольшими (или сводятся к минимуму), даже при большой разности фаз между комплексным значением первого (или начального) комплекснозначного параметра расширения и комплексного значения второго (или последующего) параметра расширения. Соответственно, неприятные звуковые модуляции расширенного выходного аудио сигнала снижаются по сравнению с некоторыми другими типами интерполяции (или даже полностью устраняются).
Таким образом, хорошее впечатление при прослушивании расширенного выходного аудио сигнала может быть получено, даже если дополнительная информация передается от кодировщика бинаурального кодирования на декодировщик бинаурального кодирования с меньшей частотой, чем у выборок сжатого звукового сигнала.
В одном из вариантов в соответствии с изобретением, модуль интерполяции параметров настроен на монотонную во времени интерполяцию между значением магнитуды первого комплекснозначного параметра расширения и второго (последующего) комплекснозначного параметра расширения для получения одного или нескольких значений магнитуды интерполированных во времени параметров расширения. Кроме того, предпочтительно, чтобы модуль интерполяции параметров был настроен на линейную во времени интерполяцию между значением фазы комплекснозначного параметра расширения и значением фазы второго комплекснозначного параметра расширения, для получения одного или нескольких значений фазы интерполированных во времени параметров расширения. Кроме того, модуль интерполяции параметров может быть настроен на объединение одного или нескольких значений магнитуды интерполированных параметров расширения с соответствующими значениями фаз интерполированных параметров расширения для получения одного или нескольких интерполированных комплекснозначных параметров расширения.
В одном из вариантов в соответствии с изобретением, модуль интерполяции параметров настроен на линейную во времени интерполяцию между значением магнитуды первого комплекснозначного параметра расширения и значением магнитуды второго, последующего комплекснозначного параметра расширения, для получения одного или нескольких значений магнитуды интерполированных во времени параметров расширения. Выполняя монотонную или даже линейную во времени интерполяцию между значениями магнитуды последующих комплекснозначного параметра расширения, можно избежать неприятной амплитудной модуляции расширенного аудио сигнала (которая может быть вызвана другими способами интерполяции). Было установлено, что слуховая система человека особенно чувствительна к амплитудной модуляции звуковых сигналов. Было также обнаружено, что слуховое впечатление (или впечатление при прослушивании) существенно ухудшается при такой паразитной амплитудной модуляции. Соответственно, получение гладкого и немодулированного изменения параметров расширения, которое приводит к гладкому и немодулированному изменению во времени амплитуды аудио сигнала, является важным вкладом в улучшение впечатления при прослушивании сигнала, расширенного с использованием интерполяции параметров расширения.
В варианте изобретения, блок расширения настроен на выполнение линейной масштабированной суперпозиции поддиапазонов комплекснозначных параметров для множества входных аудио сигналов в блоке расширения в зависимости от комплекснозначных интерполированных параметров расширения для получения расширенного звукового сигнала. В этом случае, блок расширения может быть сконфигурирован для обработки последовательностей поддиапазонов параметров, представляющих последовательные аудио выборки входных аудио сигналов в блоке расширения. Модуль интерполяции параметров может быть настроен на получение последовательных комплекснозначных параметров расширения, которые имеют продолжительность во времени больше, чем один из поддиапазонов аудио выборок, а также на более частое обновление интерполированных параметров расширения (например, один раз в поддиапазоне аудио выборки).
Таким образом, блок расширения может быть настроен на получение обновленных выборок входных аудио сигналов блока расширения со скоростью обновления блока расширения, а модуль интерполяции параметров может быть настроен на обновление интерполированных параметров расширения со скоростью обновления блока расширения. Таким образом, скорость обновления параметров расширения может быть адаптирована к скорости обновления входных аудио сигналов блока расширения. Соответственно, в частности, могут быть получены плавные переходы между двумя последовательными наборами параметров расширения, полученными аппаратной частью (например, при меньшей скорости обновления, чем скорость обновления блока расширения).
В предпочтительном варианте изобретения, блок расширения может быть настроен на выполнение умножения матрицы на вектор с использованием матрицы, содержащей интерполированные параметры расширения, и вектора, содержащего один или более поддиапазонов параметров входных аудио сигналов блока расширения для получения, в результате, вектора, содержащего комплекснозначные поддиапазоны выборок расширенных звуковых сигналов. С использованием умножения матрицы на вектор, может быть получена особенно эффективная схема реализации изобретения. Умножение матрицы на вектор определяет эффективную в реализации форму параметров расширения, зависящую от линейной суперпозиции входных аудио сигналов. Умножение матрицы на вектор может быть эффективно реализовано в сигнальном процессоре (или в других соответствующих аппаратных или программных модулях), если в элементах матрицы представлены отдельно действительная и мнимая части. Обработка комплексных значений, разделенных на действительную и мнимую части, может быть выполнена с относительно небольшим затратами, так как разделение на действительную и мнимую части хорошо подходит и для умножения комплексных чисел и, в частности, для сложения результатов умножения. Таким образом, в то время как другие представления чисел вносят серьезные трудности, либо по отношению к умножению или в отношении к сложению (обе эти операции необходимы при умножении матрицы на вектор), использование представления чисел с разделением на действительную и мнимую части обеспечивает эффективное решение.
В одном из вариантов изобретения, аппаратная часть настроена на получение пространственных сигналов, описываемых параметрами расширения. В этом случае модуль интерполяции параметров может быть настроен на определение значений магнитуды параметров расширения в зависимости от параметров разности значений между каналами, или в зависимости от параметров межканальной корреляции (или когерентности), или в зависимости от разности значений параметров между каналами и между каналами корреляции (или когерентности). Кроме того, модуль интерполяции параметров может быть настроен на определение значений фазы параметров расширения в зависимости от параметров разности фаз между каналами. Таким образом, можно видеть, что в некоторых случаях можно очень эффективно и независимо друг от друга получить величины магнитуд и значения фаз параметров расширения. Таким образом, ввод информации, необходимой для независимой интерполяции, может быть эффективно получен даже без какого-либо дополнительного модуля разделения значений магнитуды и фазы, если вышеуказанные параметры (ILD, ICC, IPD, и/или ITD) или аналогичные параметры используются в качестве входных величин для модуля интерполяции.
В одном из вариантов изобретения, модуль интерполяции настроен на определение направления интерполяции между значениями фазы последовательных комплекснозначных параметров расширения, таким образом, что диапазон углов при интерполяции, изменяющийся в пределах между значением фазы первого комплекснозначного параметра расширения и значением фазы (следующего) второго комплекснозначного параметра расширения, будет меньше или равен 180°. Другими словами, в некоторых вариантах при интерполяции обеспечивается достаточно малое (или даже сведенное к минимуму) изменение фазы. Хотя слуховое восприятие человека не особенно чувствительно к изменениям фазы, такой подход может быть выгоден для ограничения изменения фазы. Например, быстрое изменение фазы параметров расширения может привести к трудностям при прогнозировании искажений, таких как сдвиги частоты или частотная модуляция. Такие искажения могут быть ограничены или исключены, при тщательном выборе способа интерполяции значений фаз параметров расширения.
Другой вариант изобретения предлагает способ расширения сжатого аудио сигнала.
Еще один вариант изобретения предлагает компьютерную программу для расширения сжатого аудио сигнала.
Краткое описание рисунков
Далее будут описаны воплощения изобретения со ссылками на прилагаемые рисунки, на которых:
на фиг.1 показана блок-схема аппаратной части для расширения сжатого аудио сигнала, в соответствии с вариантом осуществления изобретения;
на фиг.2а и 2б показана блок-схема аппаратной части для расширения сжатого аудио сигнала, согласно другому варианту осуществления изобретения;
на фиг.3 схематически показано временное представление соотношений между выборками сжатого звукового сигнала и дополнительной информацией на входе декодировщика;
на фиг.4 показано схематическое представление временных соотношений между дополнительной информацией на входе декодировщика и полученными из нее текущими интерполированными параметрами расширения;
на фиг.5 показано графическое представление направления интерполяции;
на фиг.6 показана блок-схема метода расширения сжатого аудио сигнала, в соответствии с вариантом осуществления изобретения; а также
на фиг.7 показана блок-схема, представляющая общую бинауральную схему кодирования сигнала.
Подробное описание воплощений изобретения
Воплощение в соответствии с фиг.1
На фиг.1 показана блок-схема аппаратной части 100 для расширения сжатого аудио сигнала, согласно одному из вариантов изобретения. Аппаратная часть 100 настроена на получение сжатого аудио сигнала 110, содержащего один или более сжатых аудио каналов, а также на получение расширенного аудио сигнала 120, содержащего множество расширенных аудио каналов. Аппаратная часть 100 включает в себя блок расширения 130, настроенный на использование текущих значений переменных параметров расширения, для расширения сжатого аудио сигнала 110 и получения расширенного аудио сигнала 120. Аппаратная часть 100 также включает в себя модуль интерполяции параметров 140, настроенный на получение последовательности комплексных значений параметров расширения, например, первого комплексного параметра расширения 142 и следующего второго комплексного параметра расширения 144. Модуль интерполяции параметров 140 настроен на получение одного или нескольких текущих интерполированных параметров расширения 150, которые будут использоваться в блоке расширения 130, на основе первого (или начального) комплекснозначного параметра расширения 142 и второго, следующего комплекснозначного параметра расширения 144. Модуль интерполяции параметров 140 настроен на независимую друг от друга интерполяцию между значением магнитуды первого комплекснозначного параметра расширения 142 и значением магнитуды второго комплекснозначного параметра расширения 144 (интерполированное значение магнитуды которого представлено позицией 160), а также между значением фазы первого комплекснозначного параметра расширения 142 и значением фазы второго комплекснозначного параметра расширения 144 (интерполированное значение фазы которого представлено позицией 162). Модуль интерполяции параметров 140 настроен на получение одного или нескольких текущих интерполированных параметров расширения 150 на основе интерполированных значений магнитуды (также обозначаемых значениями амплитуды или значениями усиления) (которые представлены позицией 160) и на основе интерполированных значений фазы (также обозначаемых значениями углов) (которые представлены позицией 164).
Далее будут описаны некоторые подробности, касающиеся функциональных возможностей аппаратной части 100. Сжатый аудио сигнал 110 может быть введен в блок расширения 130, например, в виде последовательности множеств комплексных значений, представляющих сжатый аудио сигнал в частотно-временной области (описание перекрывающихся или неперекрывающихся диапазонов или поддиапазонов частот с частотой обновления, определяемой кодировщиком, здесь не показано). Блок расширения 130 настроен на выполнение линейной комбинации нескольких каналов сжатого аудио сигнала 110 в зависимости от текущих интерполированных параметров расширения 150, или линейной комбинации канала сжатого аудио сигнала 110 с вспомогательным сигналом (например, де-коррелированным сигналом) (где вспомогательный сигнал может быть получен из того же аудио канала сжатого аудио сигнала 110, из одного или нескольких других каналов аудио сжатого аудио сигнала 110 или из комбинации аудио каналов сжатого аудио сигнала 110). Таким образом, текущие интерполированные параметры расширения 150 могут быть обработаны блоком расширения 130 для принятия решения о масштабировании амплитуды и фазового сдвига (или временной задержки), используемых при формировании расширенного аудио сигнала 120 (или его канала) на основе сжатого аудио сигнала 110.
Модуль интерполяции параметров 140, как правило, настроен на получение текущих интерполированных параметров расширения 150 со скоростью обновления большей, чем скорость обновления дополнительной информации, описываемой параметрами расширения 142, 144. Для этого модулем интерполяции параметров 140 формируются последовательные комплекснозначные параметры расширения (например, полученные или вычисленные). Значения магнитуды и фазы комплекснозначных параметров расширения 142, 144 независимо друг от друга (или самостоятельно) обрабатываются с использованием интерполированного значения магнитуды 160 и интерполированного значения фазы 162. Таким образом, текущие интерполированные значения магнитуды параметров расширения и текущие интерполированные значения фазы параметров расширения оказываются доступными независимо друг от друга и могут быть поданы отдельно либо в блок расширения 140, либо в блок расширения 130 в комбинированной форме (после раздельной интерполяции они переводятся в комплексные числа). Раздельная интерполяция имеет преимущество в том, что амплитуда текущих интерполированных значений параметров расширения обычно содержит гладкие и монотонные изменения во времени между последовательными моментами времени, в которые в аппаратную часть 100 поступает обновленная дополнительная информация. Неприятные звуковые искажения, такие как амплитудная модуляция одного или нескольких поддиапазонов, которая вызывается другими видами интерполяции, могут быть исключены. Соответственно, качество обновленных звуковых сигналов 120 превосходит качество расширенного сигнала, которое было бы получено с использованием обычных видов интерполяции параметров расширения.
Воплощение в соответствии с фиг.2
Более подробная информация о структуре и деятельности аппаратной части для расширения звукового сигнала будет описана со ссылкой на фиг.2а и 2б. На фиг.2а и 2б показана подробная схема аппаратного блока 200 по другому варианту осуществления изобретения для расширения сжатого аудио сигнала. Аппаратный блок 200 можно рассматривать как декодировщик для создания многоканальных (например, 5.1) аудио сигналов на основе сжатого аудио сигнала и дополнительной информации SI. Аппаратный блок 200 реализует функциональные возможности, которые были описаны в отношении аппаратного блока 100. Аппаратный блок 200 может, например, использоваться для декодирования многоканального звукового сигнала, закодированного в соответствии с видами кодирования, называемыми: «бинауральное кодирование сигнала», «параметрическое стерео», или «MPEG Surround». Естественно, аппаратный блок 200 может также быть использован для расширения многоканального аудио сигнала, закодированного в соответствии с другими системами кодирования, использующими пространственные сигналы.
Для простоты изложения описывается аппаратный блок 200, который выполняет расширение одного канала сжатого аудио сигнала в двухканальный сигнал. Тем не менее, концепция, описанная здесь, может быть легко расширена на случай, когда сжатый звуковой сигнал включает в себя более одного канала, а также в случаях, когда расширенный звуковой сигнал состоит более чем из двух каналов.
Входные сигналы и входная синхронизация
Аппаратный блок 200 настроен на прием сжатого звукового сигнала 210 и дополнительной информации 212. Кроме того, аппаратный блок 200 настроен на получение расширенного звукового сигнала 214, включающего, например, несколько каналов. Сжатый аудио сигнал 210 может, например, быть суммарным сигналом, генерируемым кодировщиком (например, ВСС кодировщиком 810, показанным на фиг.7). Сжатый аудио сигнал 210 может быть представлен в частотно-временной области, например, в форме разложения по комплексным частотам. Например, аудио контенты [содержание] множества поддиапазонов частот (которые могут быть перекрывающимися или неперекрывающимися) звукового сигнала могут быть представлены соответствующими комплексными значениями. Для заданного диапазона частот, сжатый аудио сигнал может быть представлен последовательностью комплексных значений, описывающих аудио контент в рассматриваемом поддиапазоне частот, для последовательных промежутков времени (перекрывающихся или не перекрывающихся). Последовательные комплексные значения для последовательных промежутков времени могут быть получены, например, с помощью набора фильтров (например, QMF набора фильтров), быстрого преобразования Фурье и т.п., в аппаратном блоке 100 (который может быть частью многоканального декодировщика звукового сигнала), или в дополнительном устройстве, соединенном с аппаратным блоком 100. Тем не менее, представление сжатого аудио сигнала, описанное здесь, как правило, не совпадает с представлением сжатого сигнала, используемого для передачи сжатого аудио сигнала от многоканального аудио сигнала кодировщика к многоканальному аудио сигналу декодировщика, или аппаратному блоку 100. Соответственно, сжатый аудио сигнал 210 может быть представлен потоком последовательностей или векторов с комплексными значениями.
Далее будем полагать, что последовательные временные интервалы сжатого аудио сигнала 210 обозначаются целочисленными индексами k. Также будем полагать, что аппаратный блок 200 получает один набор или вектор комплексных значений в интервале k через канал сжатого аудио сигнала 210. Таким образом, одна выборка (набор или вектор комплексных значений) получена для каждого интервала обновления аудио выборки, описываемого временным индексом k.
Для лучшего понимания, на фиг.3 показано графическое представление временных соотношений между выборками сжатого аудио сигнала 210 («х») и соответствующей дополнительной информацией декодировщика 212 («SI»). Аудио выборки ("AS") сжатого аудио сигнала 210, полученные аппаратным блоком 200 в течение промежутка времени, показаны цифрой 310. Как описано выше и видно из графического представления 310, с каждой аудио выборкой интервала обновления k связана единственная аудио выборка AS.
Аппаратный блок 200 затем получает дополнительную информацию 212, описывающую параметры расширения. Например, дополнительная информация 212 может быть описана одним или несколькими из следующих параметров расширения: разность уровней между каналами (ILD), корреляция (или когерентность) между каналами (ICC), разность во времени между каналами (ITD), и разность фаз между каналами (IPD). Как правило, дополнительная информация 212 включает в себя ILD параметры и хотя бы один из параметров ICC, ITD, IPD. Однако, для того, чтобы сохранить диапазон частот, дополнительная информация 212, как правило, передается или получается через аппаратный блок 200 только один раз за несколько интервалов обновления k аудио-выборок сжатого аудио сигнала 210 (или передача одного набора дополнительной информация может одновременно распространяться на множество интервалов обновления k аудио выборок). Таким образом, существует, как правило, только один набор параметров дополнительной информации для множества интервалов обновления k аудио выборок.
Такие временные зависимости показаны на фиг.3. Например, дополнительная информация передается (или получается) аппаратным блоком 200 в интервалах обновления аудио выборок k=4, k=8, и k=16, как это можно видеть под номером 320. При этом отсутствует дополнительная информация 212, передаваемая (или получаемая) аппаратным блоком 200 между указанными интервалами обновления аудио выборок.
Как видно из фиг.3, интервал обновления дополнительной информации 212 может изменяться с течением времени, так как кодировщик, например, может принять решение о предоставлении обновления дополнительной информации только при необходимости (например, когда декодировщик отмечает, что дополнительная информация изменилась больше заданной величины). Например, дополнительная информация, полученная аппаратным блоком 200 для интервала обновления аудио выборки k=4, может быть связана с интервалами обновления аудио выборок k=3, 4, 5. Кроме того, дополнительная информация, полученная аппаратным блоком 200 для интервала обновления аудио выборки k=8, может быть связана с интервалами обновления аудио выборок k=6, 7, 8, 9, 10, и так далее. Тем не менее, возможны различные варианты исполнения, и интервалы обновления для дополнительной информации могут быть больше или меньше, чем показано на фиг.3.
Выходные сигналы и синхронизация выхода
Тем не менее, аппаратный блок 200 служит для формирования расширенных аудио сигналов в комплексных частотах. Например, аппаратный блок 200 может быть настроен на создание расширенных аудио сигналов 214 так, что расширенные звуковые сигналы имеют один интервал обновления аудио выборки или такую же частоту обновления аудио сигнала, что и сжатый аудио сигнал 210. Другими словами, для каждой выборки (или интервала обновления аудио выборки k) сжатого аудио сигнала 210, выборка расширенного аудио сигнала 214 не генерируется.
Расширение сигнала
Далее будет подробно описано, как можно получить для каждого интервала обновления аудио выборки k обновление параметров расширения, которые используются для расширения сжатого аудио сигнала, даже если вход декодировщика дополнительной информации имеет только большие интервалы обновления (как показано на фиг.3). Далее будет описана обработка одного поддиапазона, но концепцию, естественно, можно распространить на несколько поддиапазонов.
Аппаратный блок 200 включает в себя, в качестве ключевого компонента, блок расширения, который настроен на работу в качестве комплексного линейного сумматора. Блок расширения 230 настроен на прием выборок x(k) сжатого аудио сигнала 210 (например, представляющих определенные диапазоны частот), связанные с интервалом обновления аудио выборки k. Сигнал x(k) иногда также называется «сухой сигнал». Кроме того, блок расширения настраивается на получение выборок, представляющих декоррелированную версию сжатого звукового сигнала.
Кроме того, аппаратный блок включает в себя 200 декоррелятор (например, модуль задержки или ревербератор) 240, который настроен на получение выборок x(k) сжатого аудио сигнала и на получение, на его основе, выборки q(k) декоррелированной версии сжатого аудио сигнала (представленного x(k)). Декоррелированная версия (выборка q(k)) сжатого аудио сигнала (выборка x(k)) может быть определена как «мокрый сигнал».
Блок расширения 230 включает в себя, например, умножитель матрицы на вектор 232, настроенный на выполнение комплексной линейной комбинации «сухой сигнал» (x(k)) и «мокрый сигнал» (q(k)) для получения первого расширенного сигнала канала (представленного выборкой у1(k)) и второго расширенного сигнала канала (представленного выборкой у2(k)). Умножитель матрицы на вектор 232 может, например, быть настроен на выполнение последовательного умножения матрицы на вектор для получения выборок у1(k) and у2(k) расширенных сигналов канала:
Обновление параметров расширения
Как видно из приведенного выше уравнения, желательно обновлять матрицу параметра расширения H(k) для каждого интервала обновления аудио выборки k. Обновление матрицы параметров расширения для каждого интервала обновления аудио выборки k влечет за собой преимущество в том, что матрица параметров расширения всегда хорошо приспособлена к реальной акустической среде. Обновление матрицы параметров расширения для каждого интервала обновления аудио выборки k также позволяет сохранить поэтапное изменение параметров матрицы расширения Н (или записей в ней) между последовательными малыми интервалами аудио выборки, так как изменения параметров матрицы расширения распределены по нескольким интервалам обновления аудио выборок, даже если дополнительная информация 212 обновляется только один раз за несколько интервалов обновления аудио выборок k.
Аппаратный блок 200 включает в себя блок обработки дополнительной информации 250, который настроен на предоставление параметров расширения, например, записей Hij(k), на основе дополнительной информации 212. Блок обработки дополнительной информации 250 настроен на предоставление обновленного набора параметров расширения для каждого интервала аудио выборки на основе дополнительной информации 212. Блок обработки дополнительной информации 250 настроен на предоставление обновленного набора параметров расширения для каждого интервала аудио выборки k, даже если дополнительная информация 212 обновляется только раз за несколько интервалов обновления аудио выборки k.
Блок обработки дополнительной информации 250 включает в себя определитель параметров расширения (или определитель коэффициентов матрицы расширения) 252, который настроен на прием дополнительной информации 212 и получение на ее основе, одного или нескольких параметров расширения (или, что то же самое, коэффициентов матрицы расширения). Например, определитель параметров расширения 252 может суммировать множество сигналов (например, ILD, ICC, ITD, IPD) для получения параметров расширения. Определитель параметров расширения 252 сконфигурирован для описания параметров расширения в виде независимых друг от друга значений магнитуды и фазы. Значение магнитуды, например, может быть представлено абсолютным значением комплексного числа, а значение фазы может быть представлено значением угла комплексного числа (определяется, например, в ортогональной системе координат: ось действительной части - ось мнимой части). Таким образом, определитель параметра расширения может обеспечить последовательность значений магнитуды параметров расширения 254 и последовательность значений фазы параметров расширения 256. Определитель параметров расширения 252 может быть сконфигурирован для получения, из одного набора дополнительной информации, полного набора параметров расширения (или полного набора элементов матрицы Н). Может существовать связь между набором дополнительной информации 212 и набором параметров расширения (или набором элементов матрицы). Соответственно, определитель параметров расширения 252 может быть настроен на обновление параметров расширения 254, 256 (или элементов матрицы) один раз за интервал обновления параметров расширения, т.е. один раз за обновление набора дополнительной информации.
Блок обработки дополнительной информации дополнительно включает модуль интерполяции параметров 260, который будет подробно описан ниже. Модуль интерполяции параметров 260 настроен на прием последовательности 254 из (действительных) значений магнитуды параметров расширения (или матрицы элементов) и последовательность 256 из (действительных) значений фазы параметров расширения (или матрицы элементов). Кроме того, модуль интерполяции параметров настроен на получение последовательности текущих значений, интерполированных во времени параметров расширения (или элементов матрицы) 262 на основе интерполяции и суммирования последовательностей 254 и 256.
Модуль интерполяции параметров 260 включает в себя модуль интерполяции значения магнитуды 270 и модуль интерполяции значения фазы 272. Кроме того, модуль интерполяции