Способ для обработки аудиосигнала в соответствии с импульсной характеристикой помещения, блок обработки сигналов, аудиокодер, аудиодекодер и устройство бинаурального рендеринга

Иллюстрации

Показать все

Изобретение относится к способу для обработки аудиосигнала в соответствии с импульсной характеристикой помещения. Аудиосигнал обрабатывается раздельно с первичной частью и поздней реверберацией в импульсной характеристике помещения, и обработанная первичная часть аудиосигнала и реверберированный сигнал объединяются. Переход от первичной части к поздней реверберации в импульсной характеристике помещения достигается, когда мера корреляции достигает пороговой величины, причем пороговая величина устанавливается зависимой от меры корреляции для выбранного отражения из первичных отражений в первичной части импульсной характеристики помещения. Заявленный способ решает проблему обеспечения конечного аудиосигнала, предоставляемого пользователю, пространственным ощущением и глубиной звучания. 6 н. и 15 з.п. ф-лы, 14 ил.

Реферат

Настоящее изобретение относится к области аудиокодирования/аудиодекодирования, в особенности пространственного аудиокодирования и пространственного кодирования аудиообъектов, например к области систем кодека объемного (3D) аудио. Варианты осуществления изобретения относятся к подходам для обработки аудиосигнала в соответствии с импульсной характеристикой помещения и для определения перехода от первичных отражений к поздней реверберации в такой импульсной характеристике помещения.

Инструменты пространственного аудиокодирования широко известны в данной области техники и стандартизованы, например, в стандарте MPEG-Surround. Пространственное аудиокодирование начинается с множества исходных входных каналов, например пяти или семи входных каналов, которые идентифицируются по их размещению в настройке воспроизведения, например, как левый канал, центральный канал, правый канал, левый канал окружения, правый канал окружения и канал низкочастотного расширения. Пространственный аудиокодер может получать один или несколько каналов понижающего микширования из исходных каналов и дополнительно может получать параметрические данные, относящиеся к пространственным меткам, например межканальные разности уровней в значениях когерентности каналов, межканальные разности фаз, межканальные разницы времени и т.п. Один или несколько каналов понижающего микширования передаются вместе с параметрической дополнительной информацией, указывающей пространственные метки, пространственному аудиодекодеру для декодирования каналов понижающего микширования и ассоциированных параметрических данных, чтобы получить в конечном счете выходные каналы, которые являются приблизительной версией исходных входных каналов. Размещение каналов в настройке вывода может быть неизменным, например, формат 5.1, формат 7.1 и т.п.

Также инструменты пространственного кодирования аудиообъектов широко известны в данной области техники и стандартизованы, например, в стандарте SAOC MPEG (SAOC=пространственное кодирование аудиообъектов). В отличие от пространственного аудиокодирования, начинающего с исходных каналов, пространственное кодирование аудиообъектов начинает с аудиообъектов, которые не выделены автоматически для определенной настройки воспроизведения. Точнее, размещение аудиообъектов в сцене воспроизведения гибкое и может задаваться пользователем, например, путем ввода некоторой информации о рендеринге в декодер пространственного кодирования аудиообъектов. В качестве альтернативы или дополнительно информация о рендеринге может передаваться в качестве дополнительной информации или метаданных; информация о рендеринге может включать в себя информацию, в какое положение в настройке воспроизведения нужно помещать некоторый аудиообъект (например, по прошествии времени). Чтобы добиться определенного сжатия данных, некоторое количество аудиообъектов кодируется с использованием кодера SAOC, который вычисляет из входных объектов один или несколько транспортных каналов путем понижающего микширования объектов в соответствии с некоторой информацией понижающего микширования. Кроме того, кодер SAOC вычисляет параметрическую дополнительную информацию, представляющую межобъектные метки, например разности уровней объектов (OLD), значения когерентности объектов и т.п. Как и в SAC (SAC=пространственное аудиокодирование), межобъектные параметрические данные вычисляются для отдельных фрагментов времени/частоты. Для некоторого кадра (например, 1024 или 2048 выборок) аудиосигнала рассматривается множество полос частот (например, 24, 32 или 64 полосы), чтобы параметрические данные предоставлялись для каждого кадра и каждой полосы частот. Например, когда некая аудиочасть содержит 20 кадров и когда каждый кадр подразделяется на 32 полосы частот, количество фрагментов времени/частоты равно 640.

В системах объемного аудио может быть желательно обеспечивать пространственное ощущение от аудиосигнала, как если бы аудиосигнал прослушивался в определенном помещении. В такой ситуации предоставляется импульсная характеристика определенного помещения, например, на основе ее измерения, и используется для обработки аудиосигнала при его представлении слушателю. Может быть желательно обрабатывать прямой звук и первичные отражения в таком представлении отдельно от поздней реверберации. Это требует определения того, где заканчиваются первичные отражения и где начинается поздняя реверберация.

Задача настоящего изобретения состоит в том, чтобы предоставить усовершенствованный подход для обработки аудиосигнала в соответствии с импульсной характеристикой помещения.

Эта задача решается с помощью способа по п. 1, блока обработки сигналов по п. 12, аудиокодера по п. 14, аудиодекодера по п. 16 и устройства бинаурального рендеринга по п. 21.

Настоящее изобретение основывается на выводах автора изобретения о том, что в традиционных подходах существует проблема, состоящая в том, что имеются ситуации, при которых определение перехода от первичных отражений к поздней реверберации происходит слишком рано, поскольку корреляция, используемая для оценки возникновения перехода, уже достигает пороговой величины еще до того, как возникает или сталкивается первое отражение. На основе этих выводов и поскольку известно, что время перехода должно быть больше времени прихода первого отражения, потому что первое отражение четко выражено и достоверно не может быть поздней рассеянной реверберацией, авторы изобретения обнаружили, что необходимо избегать использования постоянной пороговой величины, точнее, в соответствии с изобретательским подходом пороговая величина задается зависимой от корреляции во время столкновения одного из первичных отражений. Это гарантирует, что первое отражение всегда располагается перед временем перехода.

(1) Настоящее изобретение предоставляет способ для обработки аудиосигнала в соответствии с импульсной характеристикой помещения, содержащий:

раздельную обработку аудиосигнала с первичной частью и поздней реверберации в импульсной характеристике помещения; и

объединение аудиосигнала, обработанного с первичной частью в импульсной характеристике помещения, и реверберированного сигнала,

причем переход от первичной части к поздней реверберации в импульсной характеристике помещения определяется с помощью меры корреляции, которая достигает пороговой величины, причем пороговая величина устанавливается зависимой от меры корреляции для выбранного отражения из первичных отражений в первичной части импульсной характеристики помещения.

Изобретательский подход полезен, так как предусматривает усовершенствованную обработку аудиосигнала на основе надежной точки перехода. Изобретательский подход не зависит от помещения, от того, используется ли бинауральный подход, и от угла падения. По сравнению с подходами из известного уровня техники изобретательский подход обладает дополнительными преимуществами, потому что не строго зависит от азимутального угла бинауральной импульсной характеристики и связи между амплитудами прямого звука и первого сталкивающегося отражения.

(2) В соответствии с вариантами осуществления, мера корреляции описывает сходство спада в акустической энергии, включающего в себя начальное состояние, и спада в акустической энергии, начинающегося в любой момент после начального состояния на предопределенном частотном диапазоне, в отношении импульсной характеристики помещения.

(3) В соответствии с вариантами осуществления, определение перехода содержит определение распределения акустической энергии на основе импульсной характеристики помещения и определение множества мер корреляции, указывающего корреляцию между акустической энергией в соответствующей части определенного распределения и акустической энергией в начальном состоянии для множества частей определенного распределения.

(4) В соответствии с вариантами осуществления, определение распределения содержит определение частотно-временного распределения акустической энергии, где часть распределения содержит временной блок предопределенной длины, причем начальное состояние задается первым из множества временных блоков частотно-временного распределения.

Это выгодно, так как позволяет анализировать частотное распределение в разные моменты, посредством этого обеспечивая представление характеристик частотного распределения с течением времени.

(5) В соответствии с вариантами осуществления, определение распределения содержит вычисление рельефа спада энергии (EDR) из импульсной характеристики помещения, где EDR вычисляется следующим образом:

где =рельеф спада энергии,

=импульсная характеристика помещения,

ω=2πf.

(6) В соответствии с вариантами осуществления, импульсная характеристика помещения обладает предопределенной эффективной длиной, и где определение частотно-временного распределения содержит вычисление спектра FFT импульсной характеристики помещения с использованием окна, имеющего длину, соответствующую эффективной длине импульсной характеристики помещения.

Это выгодно, так как FFT/DFT четко определено, и существуют эффективные алгоритмы для вычисления спектральных значений. Если известны значения в окне, то FFT/DFT может вычисляться несложным способом.

(7) В соответствии с вариантами осуществления, акустическая энергия в начальном состоянии определяется путем получения всей эффективной длины импульсной характеристики помещения, вычисления спектра FFT и возведения абсолютных значений в квадрат, а акустическая энергия временного блока определяется путем сдвига окна на время, ассоциированное с временным блоком, заполнения нулями разделенных на окна выборок до эффективной длины, вычисления FFT и возведения абсолютных значений в квадрат.

Это выгодно, так как не требуется никакой дополнительной гребенки фильтров или т.п. для вычисления узкой полосы у EDR; необходим только сдвиг окна.

(8) В соответствии с вариантами осуществления, мера корреляции является мерой корреляции, описывающей сходство спада в акустической энергии, включающего в себя начальное состояние, и спада в акустической энергии, начинающегося в любой момент после начального состояния. Мера корреляции может вычисляться следующим образом:

где =мера корреляции,

=рельеф спада энергии полного частотного диапазона на частоте f,

=среднее значение по всем частотам у начального рельефа спада энергии полного диапазона,

=рельеф спада энергии на частоте f, начиная с момента t,

=среднее значение по всем частотам у рельефа спада энергии полного диапазона, начиная с момента t,

ω=2πf.

Это выгодно, так как формула ссылается на общеизвестный коэффициент корреляции Пирсона (корреляция Пирсона по смешанным моментам). Коэффициент корреляции можно вычислить непосредственно из EDR.

(9) В соответствии с вариантами осуществления, пороговая величина определяется на основе постоянного значения и меры корреляции для выбранного отражения из первичных отражений. Пороговая величина может задаваться следующим образом:

,

где =мера корреляции для выбранного отражения из первичных отражений,

tF=временной индекс, где выбранное отражение из первичных отражений сталкивается после прямого звука,

c=постоянное значение, которое основывается на , причем e – число Эйлера.

Это выгодно, так как пороговая величина не постоянная, а зависит от выбранного первичного отражения для гарантии, что корреляция не слишком рано опустится ниже пороговой величины.

(10) В соответствии с вариантами осуществления, время выбранного отражения из первичных отражений определяется, например, с помощью оператора скользящего эксцесса, обнаружения пороговой величины или обнаружения атаки.

Это выгодно, так как время столкновения отражения может вычисляться непосредственно и автоматически из выборок импульсной характеристики во временной области.

(11) В соответствии с вариантами осуществления, выбранное отражение из первичных отражений является первым отражением после прямого звука.

(12) Настоящее изобретение предоставляет блок обработки сигналов, содержащий вход для приема аудиосигнала, процессор, сконфигурированный или запрограммированный для обработки принятого аудиосигнала в соответствии с импульсной характеристикой помещения согласно изобретательскому способу, и выход для объединения обработанной первичной части принятого аудиосигнала и реверберированного сигнала в выходной аудиосигнал. Блок обработки сигналов может содержать процессор первичной части для обработки принятого аудиосигнала в соответствии с первичной частью в импульсной характеристике помещения, и процессор поздней реверберации для обработки принятого аудиосигнала в соответствии с поздней реверберацией в импульсной характеристике помещения.

(13) Настоящее изобретение предоставляет аудиокодер для кодирования аудиосигнала, причем аудиокодер конфигурируется или программируется для обработки аудиосигнала, кодируемого в соответствии с импульсной характеристикой помещения, в соответствии с изобретательским способом. Аудиокодер может содержать изобретательский блок обработки сигналов.

(14) Настоящее изобретение предоставляет аудиодекодер для декодирования кодированного аудиосигнала, причем аудиодекодер конфигурируется или программируется для обработки декодируемого аудиосигнала в соответствии с импульсной характеристикой помещения в соответствии с изобретательским способом. Аудиодекодер может содержать изобретательский блок обработки сигналов. Аудиодекодер может содержать устройство рендеринга типа устройства бинаурального рендеринга, сконфигурированное или запрограммированное для приема декодированного аудиосигнала и рендеринга выходных сигналов на основе импульсной характеристики помещения.

(15) Настоящее изобретение предоставляет устройство бинаурального рендеринга, содержащее изобретательский блок обработки сигналов.

Варианты осуществления настоящего изобретения будут описываться в отношении прилагаемых чертежей, на которых:

Фиг. 1 иллюстрирует общее представление кодера объемного аудио в системе объемного аудио;

Фиг. 2 иллюстрирует общее представление декодера объемного аудио в системе объемного аудио;

Фиг. 3 иллюстрирует пример для реализации преобразователя формата, который можно реализовать в декодере объемного аудио из фиг. 2;

Фиг. 4 иллюстрирует вариант осуществления устройства бинаурального рендеринга, который можно реализовать в декодере объемного аудио из фиг. 2;

Фиг. 5 иллюстрирует пример импульсной характеристики h(t) помещения;

Фиг. 6(A) иллюстрирует блок-схему блока обработки сигналов (например, в устройстве бинаурального рендеринга из фиг. 4) для раздельной обработки аудиосигнала с первичной частью и поздней реверберации в импульсной характеристике помещения в соответствии с вариантом осуществления изобретения;

Фиг. 6(B) иллюстрирует блок-схему другого блока обработки сигналов (например, в устройстве бинаурального рендеринга из фиг. 4) для раздельной обработки аудиосигнала с первичной частью и поздней реверберации в импульсной характеристике помещения в соответствии с дополнительным вариантом осуществления изобретения;

Фиг. 7 иллюстрирует блок-схему алгоритма подхода для определения момента перехода между первичными отражениями и поздней реверберацией в импульсной характеристике помещения в соответствии с вариантом осуществления изобретения;

Фиг. 8 иллюстрирует рельеф спада энергии (EDR), достигнутый для импульсной характеристики, определенной в соответствии с подходом на основе FFT;

Фиг. 9 иллюстрирует определение момента перехода в соответствии с вариантом осуществления изобретения;

Фиг. 10 иллюстрирует моменты перехода для левого канала и правого канала для измеренной бинауральной импульсной характеристики помещения, определенной с использованием традиционного подхода;

Фиг. 11 иллюстрирует моменты перехода для левого канала и правого канала для измеренной бинауральной импульсной характеристики помещения, определенной с использованием изобретательского подхода;

Фиг. 12 схематически иллюстрирует бинауральную обработку аудиосигналов в устройстве бинаурального рендеринга в соответствии с вариантом осуществления настоящего изобретения; и

Фиг. 13 схематически иллюстрирует обработку в ревербераторе частотной области в устройстве бинаурального рендеринга из фиг. 12 в соответствии с вариантом осуществления настоящего изобретения.

Будут описываться варианты осуществления изобретательского подхода для обработки аудиосигнала в соответствии с импульсной характеристикой помещения и для определения перехода от первичных отражений к поздней реверберации в импульсной характеристике помещения. Нижеследующее описание начнется с общего представления системы кодека объемного (3D) аудио, в которой можно реализовать изобретательский подход.

Фиг. 1 и 2 показывают алгоритмические блоки системы объемного аудио в соответствии с вариантами осуществления. Точнее говоря, фиг. 1 показывает общее представление кодера 100 объемного аудио. Аудиокодер 100 принимает в схеме 102 предварительного рендеринга/микширования, которая может предоставляться при желании, входные сигналы, точнее говоря, множество входных каналов, предоставляющих аудиокодеру 100 множество сигналов 104 каналов, множество сигналов 106 объектов и соответствующие метаданные 108 объектов. Сигналы 106 объектов, обработанные устройством 102 предварительного рендеринга/микшером (см. сигналы 110), можно предоставить кодеру 112 SAOC (SAOC=пространственное кодирование аудиообъектов). Кодер 112 SAOC формирует транспортные каналы 114 SAOC, предоставляемые кодеру 116 USAC (USAC=унифицированное кодирование речи и аудио). К тому же кодеру 116 USAC также предоставляется сигнал 118 SAOC-SI (SAOC-SI=дополнительная информация SAOC). Кодер 116 USAC дополнительно принимает сигналы 120 объектов непосредственно от устройства предварительного рендеринга/микшера, а также сигналы каналов и сигналы 122 объектов, повергшихся предварительному рендерингу. Информация 108 метаданных объектов подается в кодер 124 OAM (OAM=метаданные объектов), предоставляющий сжатую информацию 126 метаданных объектов в кодер USAC. Кодер 116 USAC на основе вышеупомянутых входных сигналов формирует сжатый выходной сигнал mp4, который показан позиционным обозначением 128.

Фиг. 2 показывает общее представление декодера 200 объемного аудио в системе объемного аудио. Кодированный сигнал 128 (mp4), сформированный аудиокодером 100 из фиг. 1, принимается в аудиодекодере 200, точнее говоря в декодере 202 USAC. Декодер 202 USAC декодирует принятый сигнал 128 в сигналы 204 каналов, в сигналы 206 объектов, повергшихся предварительному рендерингу, в сигналы 208 объектов и в сигналы 210 транспортных каналов SAOC. Кроме того, декодером 202 USAC выводится сжатая информация 212 метаданных объектов и сигнал 214 SAOC-SI. Сигналы 208 объектов предоставляются устройству 216 рендеринга объектов, выводящему сигналы 218 объектов, повергшихся рендерингу. Сигналы 210 транспортных каналов SAOC поступают в декодер 220 SAOC, выводящий сигналы 222 объектов, повергшихся рендерингу. Сжатая информация 212 метаданных объектов поступает в декодер 224 OAM, выводящий соответствующие управляющие сигналы в устройство 216 рендеринга объектов, и декодер 220 SAOC для формирования сигналов 218 объектов, повергшихся рендерингу, и сигналов 222 объектов, повергшихся рендерингу. Декодер дополнительно содержит микшер 226, принимающий входные сигналы 204, 206, 218 и 222 для вывода сигналов 228 каналов, как показано на фиг. 2. Сигналы каналов могут выводиться непосредственно в громкоговоритель, например 32-канальный громкоговоритель, который указан позиционным обозначением 230. Сигналы 228 могут предоставляться схеме 232 преобразования формата, принимающей в качестве управляющего входного сигнала сигнал компоновки воспроизведения, указывающий способ, которым должны быть преобразованы сигналы 228 каналов. В изображенном на фиг. 2 варианте осуществления предполагается, что преобразование нужно выполнить таким образом, что сигналы можно предоставить системе динамиков 5.1, которая указана позиционным обозначением 234. Также сигналы 228 каналов можно предоставить устройству 236 бинаурального рендеринга, формирующему два выходных сигнала, например для наушников, которые указаны позиционным обозначением 238.

В варианте осуществления настоящего изобретения изображенная на фиг. 1 и 2 система кодирования/декодирования основывается на кодеке USAC MPEG-D для кодирования сигналов каналов и объектов (см. сигналы 104 и 106). Для повышения эффективности кодирования большого количества объектов можно использовать технологию SAOC MPEG. Три типа устройств рендеринга могут выполнять задачи по рендерингу объектов для каналов, рендерингу каналов для наушников или рендерингу каналов для разной настройки громкоговорителей (см. фиг. 2, ссылочные позиции 230, 234 и 238). Когда сигналы объектов передаются явно или параметрически кодируются с использованием SAOC, соответствующая информация 108 метаданных объектов сжимается (см. сигнал 126) и мультиплексируется в поток 128 двоичных сигналов объемного аудио.

Алгоритмические блоки всей системы объемного аудио, показанные на фиг. 1 и 2, подробнее будут описываться ниже.

При желании, может предоставляться устройство 102 предварительного рендеринга/микшер для преобразования входной сцены с каналами и объектами в сцену с каналами перед кодированием. Функционально оно идентично устройству рендеринга объектов/микшеру, которое будет описываться ниже. Предварительный рендеринг объектов может быть нужен для обеспечения энтропии детерминированного сигнала на входе кодера, которая в основном не зависит от количества одновременно активных сигналов объектов. При предварительном рендеринге объектов не требуется никакая передача метаданных объектов. Сигналы дискретных объектов подвергаются рендерингу к компоновке каналов, для использования которой конфигурируется кодер. Веса объектов для каждого канала получаются из ассоциированных метаданных объектов (OAM).

Кодер 116 USAC является базовым кодеком для сигналов каналов громкоговорителя, сигналов дискретных объектов, сигналов понижающего микширования объектов и сигналов, повергшихся предварительному рендерингу. Он основывается на технологии USAC MPEG-D. Он проводит кодирование вышеупомянутых сигналов путем создания информации отображения каналов и объектов на основе геометрической и семантической информации о назначении входных каналов и объектов. Эта информация отображения описывает то, как входные каналы и объекты отображаются в элементы каналов USAC типа элементов канальной пары (CPE), элементов одиночного канала (SCE), низкочастотные эффекты (LFE) и элементы четырех каналов (QCE), и в декодер передаются CPE, SCE и LFE и соответствующая информация. Вся дополнительная полезная нагрузка типа данных 114, 118 SAOC или метаданных 126 объектов учитывается при регулировании скорости кодера. Кодирование объектов возможно разными способами в зависимости от требований к скорости/искажению и требований к интерактивности для устройства рендеринга. В соответствии с вариантами осуществления возможны следующие разновидности кодирования объектов:

- Объекты, повергшиеся предварительному рендерингу: Сигналы объектов подвергаются предварительному рендерингу и микшируются в сигналы каналов 22.2 перед кодированием. Последующая цепочка кодирования видит сигналы каналов 22.2.

- Формы сигналов дискретных объектов: Объекты поступают в кодер в виде монофонических форм сигналов. Кодер использует элементы одиночного канала (SCE) для передачи объектов в дополнение к сигналам каналов. Декодированные объекты подвергаются рендерингу и микшируются на стороне приемника. Сжатая информация метаданных объектов передается приемнику/устройству рендеринга.

- Формы сигналов параметрических объектов: Свойства объектов и их связь друг с другом описываются посредством параметров SAOC. Смесь сигналов объектов кодируется с помощью USAC. Наряду с этим передается параметрическая информация. Количество каналов понижающего микширования выбирается в зависимости от количества объектов и общей скорости передачи данных. Сжатая информация метаданных объектов передается устройству рендеринга SAOC.

Кодер 112 SAOC и декодер 220 SAOC для сигналов объектов могут основываться на технологии SAOC MPEG. Система допускает воссоздание, изменение и рендеринг некоторого количества аудиообъектов на основе меньшего количества передаваемых каналов и дополнительных параметрических данных, таких как OLD, IOC (межобъектная когерентность), DMG (усиления понижающего микширования). Дополнительные параметрические данные показывают значительно меньшую скорость передачи данных, чем необходимо для передачи всех объектов по отдельности, что делает кодирование очень эффективным. Кодер 112 SAOC в качестве входа принимает сигналы объектов/каналов в виде монофонических форм сигналов и выводит параметрическую информацию (которая упаковывается в поток 128 двоичных сигналов объемного аудио) и транспортные каналы SAOC (которые кодируются с использованием элементов одиночного канала и передаются). Декодер 220 SAOC восстанавливает сигналы объектов/каналов из декодированных транспортных каналов 210 SAOC и параметрической информации 214 и формирует выходную аудиосцену на основе компоновки воспроизведения, распакованной информации метаданных объектов и, при желании, на основе информации о взаимодействии с пользователем.

Кодек метаданных объектов (см. кодер 124 OAM и декодер 224 OAM) предоставляется, чтобы для каждого объекта ассоциированные метаданные, которые задают геометрическое положение и объем объектов в трехмерном пространстве, эффективно кодировались путем квантования свойств объектов во времени и пространстве. Сжатые метаданные 126 объектов cOAM передаются в приемник 200 в качестве дополнительной информации.

Устройство 216 рендеринга объектов использует сжатые метаданные объектов для формирования форм сигналов объектов в соответствии с заданным форматом воспроизведения. Каждый объект подвергается рендерингу к некоторому выходному каналу в соответствии с его метаданными. Вывод этого блока получается из суммы частичных результатов. Если декодируются канальное содержимое, а также дискретные/параметрические объекты, то канальные формы сигналов и формы сигналов объектов, повергшихся рендерингу микшируются микшером 226 перед выводом результирующих форм 228 сигналов или перед их подачей в модуль постпроцессора типа устройства 236 бинаурального рендеринга или модуля 232 рендеринга громкоговорителей.

Модуль 236 бинаурального рендеринга создает бинауральное понижающее микширование из многоканального аудиоматериала, так что каждый входной канал представляется виртуальным источником звука. Обработка проводится по кадрам в области QMF (гребенка квадратурных зеркальных фильтров), и бинауральный эффект основывается на измеренных бинауральных импульсных характеристиках помещения.

Устройство 232 рендеринга громкоговорителей преобразует между переданной конфигурацией 228 каналов и нужным форматом воспроизведения. Оно также может называться "преобразователем формата". Преобразователь формата выполняет преобразования к меньшим количествам выходных каналов, то есть он создает понижающие микширования.

Фиг. 3 показывает пример для реализации преобразователя 232 формата. Преобразователь 232 формата, также называемый устройством рендеринга громкоговорителей, преобразует между конфигурацией каналов передатчика и нужным форматом воспроизведения. Преобразователь 232 формата выполняет преобразования к меньшему количеству выходных каналов, то есть выполняет процесс 240 понижающего микширования (DMX). Средство 240 понижающего микширования, которое предпочтительно работает в области QMF, принимает выходные сигналы 228 микшера и выводит сигналы 234 громкоговорителя. Может предоставляться конфигуратор 242, также называемый контроллером, который в качестве управляющего входного сигнала принимает сигнал 246, указывающий выходную компоновку микшера, то есть компоновку, для которой определяются данные, представленные выходным сигналом 228 микшера и сигналом 248, указывающим нужную компоновку воспроизведения. На основе этой информации контроллер 242 формирует, предпочтительно автоматически, оптимизированные матрицы понижающего микширования для заданного сочетания входных и выходных форматов и применяет эти матрицы к средству 240 понижающего микширования. Преобразователь 232 формата допускает стандартные конфигурации громкоговорителей, а также произвольные конфигурации с нестандартными положениями громкоговорителей.

Фиг. 4 иллюстрирует вариант осуществления устройства 236 бинаурального рендеринга из фиг. 2. Модуль бинаурального рендеринга может обеспечивать бинауральное понижающее микширование многоканального аудиоматериала. Бинауральный эффект может основываться на измеренной бинауральной импульсной характеристике помещения. Импульсная характеристика помещения может считаться "отпечатком" акустических свойств реально существующего помещения. Импульсная характеристика помещения измеряется и сохраняется, и произвольные акустические сигналы могут снабжаться этим "отпечатком", посредством этого допуская имитацию у слушателя акустических свойств помещения, ассоциированных с импульсной характеристикой помещения. Устройство 236 бинаурального рендеринга может программироваться или конфигурироваться для рендеринга выходных каналов в двух бинауральных каналах, используя функции моделирования восприятия звука человеком или бинауральные импульсные характеристики помещения (BRIR). Например, для мобильных устройств бинауральный рендеринг нужен для наушников или громкоговорителей, подключенных к таким мобильным устройствам. В таких мобильных устройствах может быть необходимо ограничивать сложность декодера и рендеринга из-за ограничений. В дополнение к исключению декорреляции в таких сценариях обработки может быть предпочтительно выполнять сначала понижающее микширование с использованием средства 250 понижающего микширования в промежуточный сигнал 252 понижающего микширования, то есть в меньшее количество выходных каналов, что приводит к меньшему количеству входных каналов для фактического бинаурального преобразователя 254. Например, 22.2-канальный материал можно микшировать с помощью средства 250 понижающего микширования в промежуточное понижающее микширование 5.1, либо, в качестве альтернативы, промежуточное понижающее микширование может вычисляться непосредственно декодером 220 SAOC на фиг. 2 в виде "ускоренного" режима. Тогда бинауральному рендерингу нужно лишь применить десять HRTF (функции моделирования восприятия звука человеком) или функций BRIR для рендеринга пяти отдельных каналов в разных положениях, в отличие от применения 44 HRTF или функций BRIR, если нужно было бы непосредственно осуществить рендеринг 22.2 входных каналов. Необходимые для бинаурального рендеринга операции свертывания требуют большой вычислительной мощности, и поэтому для мобильных устройств особенно полезно снижение этой вычислительной мощности, получая при этом приемлемое качество аудио. Устройство 236 бинаурального рендеринга создает бинауральное понижающее микширование 238 из многоканального аудиоматериала 228, так что каждый входной канал (за исключением каналов LFE) представляется виртуальным источником звука. Обработка может проводиться по кадрам в области QMF. Бинауральный эффект основывается на измеренных бинауральных импульсных характеристиках помещения, и прямой звук и первичные отражения можно внести в аудиоматериал посредством сверточного подхода в области псевдо-FFT, используя быструю свертку вдобавок к области QMF, тогда как поздняя реверберация может обрабатываться отдельно.

Фиг. 5 показывает пример импульсной характеристики h(t) 300 помещения. Импульсная характеристика помещения содержит три компонента: прямой звук 301, первичные отражения 302 и позднюю реверберацию 304. Таким образом, импульсная характеристика помещения описывает характер отражения замкнутого отражающего акустического пространства, когда воспроизводится импульс. Первичные отражения 302 являются дискретными отражениями с увеличивающейся плотностью, и часть импульсной характеристики, где уже нельзя различить отдельные отражения, называется поздней реверберацией 304. Прямой звук 301 можно легко идентифицировать в импульсной характеристике помещения и отделить от первичных отражений, однако переход от первичного отражения 302 к поздней реверберации 304 менее очевиден.

Ниже будут подробнее описываться варианты осуществления изобретательского подхода. В соответствии с вариантами осуществления изобретения аудиосигнал обрабатывается раздельно с первичной частью и поздней реверберацией в импульсной характеристике помещения. Аудиосигнал, обработанный с первичной частью импульсной характеристики помещения, и реверберированный сигнал объединяются и выводятся в качестве выходного аудиосигнала. Для раздельной обработки нужно знать переход от первичной части к поздней реверберации в импульсной характеристике помещения. Переход определяется мерой корреляции, которая достигает пороговой величины, причем пороговая величина устанавливается зависимой от меры корреляции для выбранного отражения из первичных отражений в первичной части импульсной характеристики помещения. Мера корреляции может описывать сходство спада в акустической энергии, включающего в себя начальное состояние, и спада в акустической энергии, начинающегося в любой момент после начального состояния на предопределенном частотном диапазоне, в отношении импульсной характеристики помещения.

В соответствии с вариантами осуществления раздельная обработка аудиосигнала содержит обработку аудиосигнала с частью 301, 302 первичного отражения в импульсной характеристике помещения во время первого процесса и обработку аудиосигнала с рассеянной реверберацией 304 в импульсной характеристике помещения во время второго процесса, который отличается и отделен от первого процесса. Переключение с первого процесса на второй процесс происходит в момент перехода. В соответствии с дополнительными вариантами осуществления рассеянную (позднюю) реверберацию 304 во втором процессе можно заменить искусственной реверберацией. В этом случае предоставленная импульсная характеристика помещения может содержать только часть 301, 302 первичного отражения (см. фиг. 5), а поздняя рассеянная реверберация 304 не включается.

Фиг. 6(A) показывает блок-схему, иллюстрирующую первый примерный блок обработки сигналов для раздельной обработки аудиосигнала с первичной частью и поздней реверберации в импульсной характеристике помещения в соответствии с вариантом осуществления изобретения. Обработка аудиосигнала в соответствии с разными частями импульсной характеристики помещения может осуществляться в устройстве 236 бинаурального рендеринга, которое описано выше. Входной аудиосигнал 400 может быть неотражающимся аудиоматериалом, например многоканальным входным аудиосигналом, который сворачивается с помощью импульсной характеристики помещения, например импульсной характеристики помещения, измеренной с использованием искусственной головы или ушных микрофонов. Эта свертка позволяет усилить пространственное ощущение от исходного неотражающегося а