Пространственный аудио процессор и способ обеспечения пространственных параметров на основе акустического входного сигнала

Иллюстрации

Показать все

Изобретение относится к средствам для получения пространственных параметров на основе акустического входного сигнала. Технический результат заключается в обеспечении возможности получения пространственных параметров для входного аудиосигнала с минимизированными расхождениями с моделью, связанными с изменениями во времени или временной нестабильностью входного аудиосигнала. Пространственный аудио процессор для обеспечения пространственных параметров на основе входного аудио сигнала включает модуль определения сигнальных характеристик и управляемый модуль определения параметров. Модуль определения сигнальных характеристик настроен определять сигнальную характеристику входного аудио сигнала. Управляемый модуль определения параметров для вычисления пространственных параметров входного аудио сигнала в соответствии с формулой вычисления изменяемого пространственного параметра настроен модифицировать формулу вычисления изменяемого пространственного параметра в соответствии с определенной сигнальной характеристикой. 3 н. и 12 з.п. ф-лы, 10 ил.

Реферат

Область применения

Воплощения в соответствии с настоящим изобретением создают пространственный аудио процессор для получения пространственных параметров на основе акустического входного сигнала. Другие воплощения настоящего изобретения создают способ получения пространственных параметров на основе акустического входного сигнала. Воплощения настоящего изобретения могут относиться к области акустического анализа, параметрического описания и воспроизводству пространственного звука, например, на основе записей микрофона.

Уровень техники

Пространственная запись звука предназначена для записи звукового поля с группой микрофонов таким образом, что на стороне воспроизведения слушатель воспринимает звуковой образ так, как он был представлен в точке записи. При стандартных подходах к пространственной записи звука используются простые стерео микрофоны или более сложные комбинации направленных микрофонов, например, такие как микрофоны В-формата, используемые в системе Амбисоник. Обычно такие способы называются системами совмещенных микрофонов.

И наоборот, могут применяться способы, основанные на параметрическом представлении звукового поля, относящиеся к параметрическим пространственным аудио процессорам. В последнее время появились несколько методов анализа, параметрического описания и воспроизводства пространственного звука. Каждая система имеет свои преимущества и недостатки относительно типа параметрического описания, типа необходимого входного сигнала, зависимости и независимости от определенной акустической системы и т.д.

Пример эффективного параметрического описания пространственного звука представляет пространственное аудио кодирование (DirAC) (V. Pulkki: SpatialSoundReproductionwithDirectionalAudioCoding, JournaloftheAES. Vol. 55, No. 6. 2007). DirAC является способом акустического анализа и параметрического описания пространственного звука (DirAC анализ), а также способ его воспроизводства (DirAC синтез). DirAC анализ принимает сигналы группы микрофонов в качестве входного сигнала. Предоставляется описание пространственного звука для нескольких частотных поддиапазонов одного или нескольких микшированных с понижением аудио сигналов, а также дополнительная параметрическая информация, содержащая информацию о направлении звука и его размытости. Последний параметр описывает, насколько размыто записанное звуковое поле. Кроме этого, размытость может использоваться как показатель надежности при определении направления. Еще одно применение состоит в обработке пространственного аудио сигнала в зависимости от направления (M. Kallingeretal.: ASpatialFilteringApproachforDirectionalAudioCoding, 126th AESConvention, Munich, May 2009). На основе параметрического представления пространственный звук может быть воспроизведен с помощью любой акустической системы. Кроме этого, DirAC анализ может рассматриваться как акустический внешний интерфейс для параметрической системы кодирования, которая выполняет кодирование, передачу и воспроизводство многоканального пространственного звука, например, MPEGSurround.

Другой способ анализа пространственного звукового поля представлен так называемым пространственным микрофоном (SAM) (С. Fallen MicrophoneFront-endsforSpatialAudioCoders, inProceedingsoftheAES 125th InternationalConvention, SanFrancisco. Oct. 2008). SAM принимает сигналы совмещенных направленных микрофонов в качестве входного сигнала. Подобно DirACSAM определяет DOA (DOA - направление приема) звука для параметрического описания звукового поля совместно с вычислением компонентов диффузии звука.

Параметрические методы записи и анализа пространственного звука, такие как DirAC и SAM, основаны на вычислении определенных параметров звукового поля. Выполнение этих методов, таким образом, строго зависит от определения ключевых пространственных параметров, таких как направление приема звука или диффузия звукового поля.

Как правило, при определении ключевых пространственных параметров делаются предположения относительно входных аудио сигналов (например, относительно стационарности или тональности) для того, чтобы выполнить наилучший (т.е. наиболее эффективный и наиболее точный) алгоритм аудио обработки. Обычно для этой цели определяется одна инвариантная по времени модель сигнала. Однако, часто возникающая проблема состоит в том, что различные аудио сигналы могут демонстрировать значительные изменения во времени, поэтому общая инвариантная по времени модель, описывающая входной аудио сигнал, часто оказывается неэффективной. В частности, при рассмотрении одной инвариантной по времени модели сигнала могут встретиться несоответствия с моделью, что ухудшает выполнение применяемого алгоритма.

Задачей реализации настоящего изобретения является обеспечение пространственных параметров для входного аудио сигнала с незначительными расхождениями с моделью, связанными с изменениями во времени или временной нестабильностью входного аудио сигнала.

Сущность изобретения

Задача решается с помощью пространственного аудио процессора в соответствии с п. 1. способа для обеспечения пространственных параметров на основе входного аудио сигнала в соответствии с п. 14 и компьютерной программы в соответствии с п. 15.

Варианты реализации настоящего изобретения создают пространственный аудио процессор для обеспечения пространственных параметров на основе входного аудио сигнала. Пространственный аудио процессор содержит модуль определения сигнальных характеристик и контролируемый модуль определения параметров. Модуль определения сигнальных характеристик настроен определять сигнальные характеристики входного аудио сигнала. Контролируемый модуль определения параметров настроен вычислять пространственные параметры для входного аудио сигнала в соответствии с изменяемой формулой вычисления пространственных параметров. Модуль определения параметров также настроен модифицировать изменяемую формулу вычисления пространственных параметров в соответствии с определенной сигнальной характеристикой.

Суть идеи воплощений настоящего изобретения состоит в том, что пространственный аудио процессор для обеспечения пространственных параметров на основе входного аудио сигнала, который уменьшает несоответствия с моделью, возникающие в результате изменений во времени входного аудио сигнала, может быть создан в том случае, если формула вычисления будет модифицироваться на основе сигнальных характеристик входного аудио сигнала. Обнаружено, что несоответствия с моделью могут быть уменьшены, если определяются сигнальные характеристики входного аудио сигнала и на основе этих определенных сигнальных характеристик вычисляются пространственные параметры для входного аудио сигнала.

Другими словами, варианты реализации настоящего изобретения решают проблему модельных несоответствий, связанную с изменениями во времени входного аудио сигнала, путем определения характеристик (сигнальных характеристик) входных аудио сигналов, например, на этапе предварительной обработки (с помощью модуля определения сигнальных характеристик) и последующей идентификации модели сигнала (например, формулы вычисления пространственного параметра или формулы вычисления параметров пространственного параметра), которая наиболее оптимально соответствует текущей ситуации (текущим сигнальным характеристикам). Эта информация направляется в модуль определения параметров, который выбирает наилучшую стратегию определения параметра (в соответствии с временными изменениями входного аудио сигнала) для вычисления пространственных параметров. Таким образом, преимуществом воплощений настоящего изобретения является то, что можно получить параметрическое описание поля (пространственные параметры) со значительно сниженным модельным несоответствием.

Входной аудио сигнал может быть, например, сигналом, измеряемым с помощью одного или более микрофонов, например, с помощью микрофонной решетки или В-формат микрофона. Различные микрофоны могут иметь различную направленность. Входные аудио сигналы могут иметь, например, звуковое давление "Р" или акустическую скорость "U", например, во временной или частотной области (например, в области STFT, STFT - кратковременное преобразование Фурье) или, другими словами, во временном или частотном представлении. Входной аудио сигнал может, например, содержать компоненты в трех различных (например, ортогональных) направлениях (например, x-компонент. y-компонент и z-компонент) и всенаправленный компонент (например, w-компонент). Кроме этого, входной аудио сигнал может включать только компоненты в трех направлениях и не включать всенаправленный компонент. Кроме этого, входной аудио сигнал может включать только всенаправленный компонент. Кроме этого, входной аудио сигнал может включать два направленных компонента (например, x-компонент и y-компонент, x-компонент и z-компонент или y-компонент и z-компонент) и всенаправленный компонент или не включать всенаправленный компонент.

Кроме этого, входной аудио сигнал может включать только один направленный компонент (например, x-компонент, y-компонент или z-компонент) и всенаправленный компонент или не включать всенаправленный компонент.

Сигнальная характеристика, определяемая с помощью модуля определения сигнальных характеристик из входного аудио сигнала, например, из сигналов микрофона, может представлять собой, например: стационарные интервалы по отношению ко времени, частоте, пространству; присутствие одновременного разговора или множественных источников звука; присутствие тональности или переходных сигналов; отношение сигнал/шум входного аудио сигнала; или присутствие сигнала, похожего аплодисменты.

Сигналы, похожие на аплодисменты, определяются как сигналы, содержащие ускоренную последовательность переходов, например, с различной направленностью.

Информация, собранная модулем определения сигнальных характеристик, может быть использована для управления модулем определения параметров, например, при использовании направленного аудио кодирования (DirAC) или пространственного микрофона (SAM) для того, чтобы, например, выбирать стратегию работы модуля определения или его настройки (или, другими словами, чтобы модифицировать формулу вычисления изменяемого пространственного параметра), которые наиболее соответствуют текущей ситуации (текущей сигнальной характеристике входного аудио сигнала).

Варианты реализации настоящего изобретения могут применяться аналогичным образом в обеих системах, при использовании пространственного микрофона (SAM) и направленного аудио кодирования (DirAC). или в любой другой параметрической системе. Далее основное внимание будет уделено анализу направленного аудио кодирования.

В соответствии с некоторыми вариантами реализации настоящего изобретения управляемый модуль определения параметров может быть настроен на вычисление пространственных параметров в качестве параметров направленного аудио кодирования, включая параметр размытости для временного слота или частотного поддиапазона и/или параметр направления прихода сигнала для временного слота или частотного поддиапазона, или в качестве параметров при использовании пространственного микрофона.

Далее направленное аудио кодирование и пространственный микрофон рассматриваются как внешний интерфейс для систем, которые работают с пространственными параметрами, такими как, например, направление прихода сигнала или размытость звука. Необходимо отметить возможность непосредственного применения концепции настоящего изобретения с другими акустическими внешними интерфейсами. Как направленное аудио кодирование, так и система использования пространственных микрофонов обеспечивает специфические (пространственные) параметры, получаемые из входных аудио сигналов для описания пространственного аудио звука. Обычно при обработке пространственного аудио сигнала с помощью акустического внешнего интерфейса, такого как направленное аудио кодирование или специальный аудио микрофон, определяется одна общая модель для входных аудио сигналов и, таким образом, выводятся оптимальные (или почти оптимальные) модули определения параметров. Модули определения параметров функционируют столько, сколько это необходимо, пока не выполняются основополагающие допущения, принятые в соответствии с моделью. Как было сказано ранее, в противном случае появляются несоответствия, которые приводят к грубым ошибкам в вычислениях. Подобные несоответствия с моделью представляют собой часто встречающуюся проблему, так как входные аудио сигналы обычно значительно изменяются во времени.

Краткое описание чертежей

Варианты реализации настоящего изобретения будут далее описаны со ссылкой на прилагаемые фигуры:

Фиг. 1 показывает блок-схему пространственного аудио процессора в соответствии с вариантом реализации настоящего изобретения;

Фиг. 2 показывает блок-схему направленного аудио кодера в качестве примера;

Фиг. 3 показывает блок-схему пространственного аудио процессора в соответствии со следующим вариантом реализации настоящего изобретения;

Фиг. 4 показывает блок-схему пространственного аудио процессора в соответствии со следующим вариантом реализации настоящего изобретения;

Фиг. 5 показывает блок-схему пространственного аудио процессора в соответствии со следующим вариантом реализации настоящего изобретения;

Фиг. 6 показывает блок-схему пространственного аудио процессора в соответствии со следующим вариантом реализации настоящего изобретения;

Фиг. 7a показывает блок-схему модуля определения параметра, который может быть использован в пространственном аудио процессоре в соответствии с вариантом реализации настоящего изобретения;

Фиг. 7b показывает блок-схему модуля определения параметра, который может быть использован в пространственном аудио процессоре в соответствии с вариантом реализации настоящего изобретения;

Фиг. 8 показывает блок-схему пространственного аудио процессора в соответствии со следующим вариантом реализации настоящего изобретения;

Фиг. 9 показывает блок-схему пространственного аудио процессора в соответствии со следующим вариантом реализации настоящего изобретения; и

Фиг. 10 показывает блок-схему способа в соответствии со следующим вариантом реализации настоящего изобретения.

Подробное описание вариантов реализации настоящего изобретения

Прежде чем будут подробно описаны варианты реализации настоящего изобретения с помощью прилагаемых чертежей, необходимо отметить, что одинаковые или функционально эквивалентные элементы имеют один и тот же идентификационный номер, повторное описание таких элементов будет опущено. Описания элементов с одинаковыми идентификационными номерами, таким образом, являются взаимозаменяемыми.

Пространственный аудио процессор в соответствии с фиг. 1.

Далее будет дано описание пространственного аудио процессора 100 в соответствии с фиг. 1. на которой показана блок-схема подобного аудио процессора. Пространственный аудио процессор 100 для обеспечения пространственных параметров 102 или возможных значений пространственного параметра 102 на основе входного аудио сигнала 104 (или на основе множества входных аудио сигналов 104) включает управляемый модуль определения параметров 106 и модуль определения сигнальных характеристик 108. Модуль определения сигнальных характеристик 108 настроен определять сигнальную характеристику 110 входного аудио сигнала 104. Управляемый модуль определения параметров 106 настроен вычислять пространственные параметры 102 для входного акустического сигнала 104 в соответствии с изменяемой формулой вычисления пространственного параметра. Управляемый модуль определения параметров 106 настроен далее модифицировать изменяемую формулу вычисления пространственного параметра в соответствии с определенными сигнальными характеристиками 110.

Иными словами, управляемый модуль определения параметров 106 контролируется в зависимости от характеристик входных аудио сигналов или входного аудио сигнала 104.

Входной аудио сигнал 104, как отмечалось ранее, может включать направленные компоненты и/или всенаправленные компоненты. Подходящая сигнальная характеристика 110, как уже отмечалось, может представлять собой, например, стационарные интервалы по отношению ко времени, частоте, пространству входного аудио сигнала 104, присутствие одновременного разговора или множественных источников звука во входном аудио сигнале 104, присутствие тональности или переходных сигналов во входном аудио сигнале 104, присутствие сигнала в виде аплодисментов или отношение сигнал-шум входного аудио сигнала 104. Подобное перечисление сигнальных характеристик является примером сигнальных характеристик, которые может определить модуль определения сигнальных характеристик 108. В соответствии с другими вариантами реализации настоящего изобретения модуль определения сигнальных характеристик 108 может также определить другие (которые не упоминались) сигнальные характеристики входного аудио сигнала 104, и управляемый модуль определения параметров 106 может модифицировать изменяемую формулу вычисления пространственных параметров на основе таких сигнальных характеристик входного аудио сигнала 104.

Управляемый модуль определения параметров 106 может быть настроен на вычисление пространственных параметров 102 в качестве параметров направленного аудио кодирования, включая параметр размытости Ψ (k,n) для временного слота n и частотного поддиапазона k и/или параметр направления прихода сигнала φ (k,n) для временного слота n и частотного поддиапазона k, или в качестве параметров системы использования пространственного микрофона, например, для временного слота n и частотного поддиапазона k.

Управляемый модуль определения параметров 106 может быть далее настроен на вычисление пространственных параметров 102 при использовании не DirAC или SAM. а другой системы. Вычисление параметров DirAC или SAM приводится в качестве примера. Управляемый модуль определения параметров может быть, например. настроен на вычисление пространственных параметров 102 таким образом, что пространственные параметры будут включать направление звука, размытость звука или статистическую оценкунаправления звука.

Входной аудио сигнал может быть представлен во временной области или в (кратковременной) частотной области, например в STFT-области.

Аудио сигнал 104. представленный во временной области, может включать множество аудио потоков x1(t)-xN(t), каждый из которых содержит множество аудио сэмплов во временном интервале. Каждый из аудио потоков может поступать от отдельного микрофона и соответствовать различным направлениям взгляда. Например, первый входной аудио поток x1(t) может соответствовать первому направлению (например, x-направлению), второй входной аудио поток x2(t) может соответствовать второму направлению, которое может быть ортогонально первому направлению (например, y-направление), третий входной аудио поток x3(t) может соответствовать третьему направлению, которое может быть ортогонально первому и второму направлениям (например, z-направление) и четвертый входной аудио поток x4(t) может быть всенаправленным компонентом. Такие различные входные аудио потоки могут быть записаны с разных микрофонов, например, в ортогональном направлении и может быть ноцифрован при помощи аналого-цифрового преобразователя.

Согласно вариантам реализации настоящего изобретения входной аудио сигнал 104 может включать входные аудио потоки в частотном представлении, например во временно-частотной области, такой как STFT-область. Например, входной аудио сигнал 104 может быть представлен в В-формате, включающем вектор акустической скорости U(k,n) и вектор звукового давления Р(k,n), при этом k обозначает частотный поддиапазон и n обозначает временной слот. Вектор акустической скорости U(k,n) является направленным компонентом входного аудио сигнала 104, при этом звуковое давление Р(k,n) представляет всенаправленный компонент входного аудио сигнала 104.

Как отмечалось ранее, управляемый модуль определения параметров 106 может быть настроен обеспечивать пространственные параметры 102 в качестве параметров направленного аудио кодирования или в качестве параметров при использовании пространственного микрофона. Далее в качестве примера будет представлен конвенциональный направленный аудио кодер. Блок-схема конвенционального направленного аудио кодера показана на фиг. 2.

Конвенциональный направленный аудио кодер в соответствии с фиг. 2

На фиг. 2 показана блок-схема направленного аудио кодера 200. Направленный аудио кодер 200 включает модуль определения В-формата 202. Модуль определения В-формата 202 включает банк фильтров. Направленный аудио кодер 200 далее включает модуль определения параметров направленного аудио кодирования 204. Модуль определения параметров направленного аудио кодирования 204 включает энергетический анализатор 206 для осуществления анализа энергии. Кроме этого, модуль определения параметров направленного аудио кодирования 204 включает модуль определения направления 208 и модуль определения размытости 210.

Направленное аудио кодирование (DirAC) (V. Pulkki: SpatialSoundReproductionwithDirectionalAudioCoding, JournaloftheAES, Vol. 55, No. 6, 2007) представляет собой эффективный, обоснованный с точки зрения восприятия подход к анализу и воспроизводству пространственного звука. Анализ DirAC обеспечивает параметрическое описание звукового поля в отношении аудио сигнала с понижающим микшированием и дополнительной служебной информацией, например, направлением прихода сигнала (DOA) и размытостью звукового поля. DirAC принимает во внимание характеристики, значимые для человеческого слуха. Например, допускается, что интерауральные временные различия (ITD) и интерауральные уровневые различия (ILD) могут быть описаны с помощью DOA звука. Соответственно, предполагается, что интеауральная когерентность (IС) может быть представлена размытостью звукового поля. На основе выхода DirAC анализа система воспроизводства звука может создать параметры, чтобы воспроизвести звук с исходным пространственным эффектом при произвольном количестве акустических систем. Необходимо отметить, что размытость также может рассматриваться как показатель надежности для определенного DOA. Чем выше размытость, тем ниже надежность DOA. и наоборот. Подобная информация может быть использована многими инструментами на основе DirAC, такими как локализация источника (О. Thiergartetal.: LocalizationofSoundSourcesinReverberantEnvironmentsBasedonDirectionalAudioCodingParamet ers, 127th AESConvention, NY, October 2009). Варианты реализации настоящего изобретения сосредоточены на части анализа DirAC, а не на воспроизводстве звука.

В процессе DirAC анализа параметры вычисляются посредством энергетического анализа звукового поля, который выполняется энергетическим анализатором 206. на основе сигналов В-формата, которые обеспечиваются модулем определения В-формата 202. Сигналы В-формата состоят из всенаправленного сигнала, соответствующего звуковому давлению Р(k,n), и одного, двух или трех дипольных сигналов, расположенных в x-, y- или z-направлении согласно декартовой системе координат. Дипольные сигналы соответствуют элементам вектора акустической скорости частиц U(k,n). Анализ DirAc показан на фиг. 2. Сигналы микрофона во временной области, а именно х1(t), x2(t), xN(t) направляются в модуль определения В-формата. Сигналы микрофона во временной области далее буду: обозначены как «входные аудио сигналы во временной области». Модуль определения В формата 202, который содержит кратковременное преобразование Фурье (STFT) или другой банк фильтров (FB), вычисляет сигналы В-формата в кратковременной частотной области, т.е. звуковое давление Р(k,n) и вектор акустической скорости частиц U(k,n), где k и n обозначают показатель частоты (частотный поддиапазон) и показатель временного интервала (временного слота) соответственно. Сигналы Р(k,n) и U(k,n) далее будут обозначены как «входные аудио сигналы в кратковременной частотной области». Сигналы В-формата могут быть получены на основе значений решетки микрофонов, как было рассмотрено в работе R. Schultz-Amlingetal.: PlanarMicrophone Array ProcessingfortheAnalysisandReproductionofSpatialAudiousingDirectiona lAudioCoding, 124th AESConvention, Amsterdam, TheNetherlands, May 2008 или непосредственно при использовании микрофона В-формата. В процессе энергетического анализа вектор активной интенсивности звука Ia(k,n) определяется отдельно для различных частотных диапазонов при помощи формулы

где Re (·) выводит основную часть, a U*(k,n) обозначает комплексно сопряженное число вектора акустической скорости частиц U(k,n).

Далее вектор активной интенсивности звука будет также называться параметром интенсивности.

Используя представление STFT-области формулы 1, DOA звука φ(k,n) может быть определен модулем определения направления 208 для каждого кип как противоположное направление вектора активной интенсивности звука Ia(k,n). Модуль определения размытости 210 вычисляет размытость звукового поля Ψ ˜ ( k , n ) на основе колебаний активной интенсивности согласно формуле

где |(.)| обозначает вектор нормы, а Е(·) возвращает математическое ожидание. В применении на практике ожидание Е(·) приблизительно приравнивается путем усреднения по конечному элементу к одной или более определенной величине, например, времени, частоте или пространству.

Обнаружено, что ожидание Е(·) в формуле 2 может быть приблизительно приравнено путем усреднения к определенной величине. Для этого усреднение выполняется по времени (временное усреднение), по частоте (частотное усреднение) или пространству (пространственное усреднение). Пространственное усреднение означает, что вектор активной интенсивности звука Ia(k,n) согласно формуле 2 определяется с помощью множества микрофонных решеток, расположенных в разных точках. Например, можно расположить четыре различные (микрофонные) решетки в четырех разных точках комнаты. В результате для каждого значения времени-частоты (k,n) мы будем иметь четыре вектора интенсивности Ia(k,n), для которых можно найти среднее значение (как, например, при спектральном усреднении) для того, чтобы получить приблизительное значение оператора ожидания Е(·).

Например, при использовании временного усреднения для нескольких n, мы получаем значение Ψ(k,n) для параметра размытости согласно формуле

Существуют известные методы осуществления временного усреднения, которое необходимо согласно формуле 3. Одним из методов является усреднение блоков (усреднение интервалов) по определенному числу N временных интервалов nв соответствии с

где y (k,n) - это усредняемое количество, например, Ia(k,n) или | I a ( k , n ) P | . Второй метод для вычисления временного усреднения, который обычно используется в DirAC благодаря своей эффективности, представляет собой применение фильтров с бесконечной импульсной характеристикой (IIR). Например, при использовании фильтра нижних частот первого порядка с коэффициентом α∈[0,1] временное усреднение временное усреднение для определенного сигнала y(k,n) по числу n может быть получено согласно формуле:

где y ¯ ( k , n ) обозначает фактический результат усреднения и y ¯ ( k , n − 1 ) является предыдущим результатом усреднения, т.е. результатом усреднения для временного интервала (n-1). Более долгое временное усреднение достигается для меньших α, при этом большие α производят более быстрые результаты, а предыдущие результаты y ¯ ( k , n − 1 ) имеют меньшее значение. Типичным значением для α, используемым в DirAC, является α=0,1.

Было обнаружено, что кроме использования временного усреднения оператор ожидания в формуле 2 может быть приблизительно определен посредством спектрального усреднения по нескольким или всем частотным поддиапазонам k. Этот способ применим только в том случае, кода нет необходимости в самостоятельном вычислении значения размытости для различных частотных поддиапазонов в процессе предыдущей обработки, например, когда присутствует только один источник звука. Таким образом, наиболее подходящим способом вычисления размытости на практике может быть применение временного усреднения.

Обычно при приблизительном вычислении оператора ожидания согласно формуле 2, т.е. посредством процесса усреднения, мы предполагаем стационарность рассматриваемого сигнала по отношению к количеству, которое подвергается усреднению. Чем длиннее процесс усреднения, т.е. чем больше сэмплов учитывается, тем более точным оказывается результат.

Далее будет вкратце рассмотрен анализ с применением системы пространственного микрофона (SAM).

Анализ с применением системы пространственного микрофона (SAM)

Аналогично DiACSAM-анализ(С. Fallen Microphone Front-Ends for Spatial Audio Coders, in Proceedings of the AES 125th International Convention, San Francisco, Oct. 2008) обеспечивает параметрическое описание пространственного звука. Представление звукового поля основано на аудио сигнале с понижающим микшированием и параметрической служебной информации, а именно DOA звука и полученных значений уровней прямого и размытого компонентов звука. Входными сигналами SAM-анализа являются сигналы, измеряемые с помощью множественных синхронных направленных микрофонов, например, двух кардиоидных датчика, размещенных в одной точке. Базой для SAM-анализа являются спектральная плотность мощности (PSD) и взаимная спектральная плотность (CSD) входных сигналов.

Например, допустим, что Х1(k,n) и Х2(k,n) являются сигналами вовременно-частотной области, которые измеряются двумя синхронными направленными микрофонами. PSD обоих входных сигналов определяются в соответствии с

CSD между входными сигналами даются в соответствии с

SAM допускает, что полученные в результате измерений входные сигналы Х1(k,n) и Х2(k,n) представляют наложение прямого звука и размытого звука, причем прямой звук и размытый звук не согласованы. Основываясь на этом предположении в работе С. Fallen MicrophoneFront-EndsforSpatialAudioCoders, inProceedingsoftheAES 125th InternationalConvention, SanFrancisco, Oct. 2008 показано, что для каждого сенсора возможно извлечь с помощью формул 5а и 5bPSD полученного в результате измерений прямого звука и размытого звука. Соотношение различных PSD прямого звука затем позволяет определить DOAφ(k,n) звука с априорным знанием направленных ответов микрофонов.

Обнаружено, что в применении на практике ожидания Е{·} в формулах 5a и 5b могут быть приблизительно вычислены с помощью операций временного и /или спектрального усреднения. Эта процедура аналогична вычислению размытости в DirAC, которое было описано в предыдущем разделе. Аналогичным образом приблизительное вычисление может осуществляться, например, при помощи формул 4 или 5. Вычисление CSD может выполняться, например, на основе возвратного временного усреднения согласно формуле:

Как указывалось в предыдущем разделе, при приблизительном вычислении оператора ожидания в соответствии с формулами 5a и 5b при помощи операции усреднения может допускаться стационарность рассматриваемого сигнала в отношении количества, подвергаемого усреднению.

Далее будет рассматриваться вариант реализации настоящего изобретения, который осуществляет вычисление изменяемого во времени параметра в зависимости от стационарности интервала.

Пространственный аудио процессор в соответствии с фиг. 3

На фиг. 3 показан пространственный аудио процессор 300 согласно одному из вариантов реализации настоящего изобретения. По своей функциональности пространственный аудио процессор 300 аналогичен пространственному аудио процессору 100 на фиг. 1. Пространственный аудио процессор 300 содержит дополнительные функции, показанные на фиг. 3. Пространственный аудио процессор 300 включает управляемый модуль определения параметров 306, функциональность которого аналогична функциональности управляемого модуля определения параметров 106, показанного на фиг. 1, но который может иметь дополнительные функции, рассматриваемые далее. Пространственный аудио процессор 300 дополнительно включает модуль определения сигнальных характеристик 308, функциональность которого аналогична функциональности модуля определения сигнальных характеристик 108, показанного на фиг. 1, но который может иметь дополнительные функции, рассматриваемые далее.

Модуль определения сигнальных характеристик 308 настроен определять интервал стационарности входного аудио сигнала 104, который представляет собой определяемую сигнальную характеристику 110, например, при помощи модуля определения интервала стационарности 310. Модуль определения параметров 306 настроен модифицировать изменяемую формулу вычисления параметра в соответствии с определенной сигнальной характеристикой 110, т.е. определенным интервалом стационарности. Модуль определения параметров 306 настроен модифицировать изменяемую формулу вычисления параметра таким образом, что период усреднения или длительность усреднения для вычисления пространственных параметров 102 сравнительно длиннее (больше) для сравнительно более длинного интервала стационарности и сравнительно короче (меньше) для сравнительно более короткого интервала стационарности. Длительность усреднения может быть, например, равной интервалу стационарности.

Иными словами, пространственный аудио процессор 300 воплощает идею усовершенствования процесса определения размытости в направленном аудио кодировании, принимая во внимание изменяющийся интервал стационарности входного аудио сигнала 104 или входных аудио сигналов.

Интервал стационарности входного аудио сигнала 104 может, например, определять временной период, в котором не было движения (или оно было незначительным) источника звука входного аудио сигнала 104. В целом, стационарность входного аудио сигнала 104 может определять временной период, в котором определенная сигнальная характеристика входного аудио сигнала 104 оставалась постоянной. Сигнальной характеристикой может быть, например, энергия сигнала, пространственная размытость, тональность, отношение сигнал/шум и др. Учитывая интервал стационарности входного аудио сигнала 104 для вычисления пространственных параметров 102, можно модифицировать длительность усреднения для вычисления пространственных параметров 102 таким образом, что будет повышена точность пространственных параметров 102, которые представляют входной аудио сигнал 104. Например, для более длительного интервала стационарности, который означает, что источник звука входного аудио сигнала 104 не двигался в течение долгого периода, может применяться более длительное темпоральное (или временное) усреднение, чем для более короткого интервала стационарности. Таким образом, управляемый модуль определения параметров 306 может (всегда) выполнять по меньшей мере максимально оптимальное (или в некоторых случаях оптимальное) вычисление пространственного параметра в зависимости от интервала стационарности входного аудио сигнала 104.

Управляемый модуль определения параметров 306 может быть настроен на обеспечение параметра размытости Ψ(k,n), напр