Устройство для объединения пространственных аудиопотоков

Иллюстрации

Показать все

Изобретение относится к средствам объединения нескольких пространственных аудиопотоков. Технический результат заключается в повышении качества объединенного аудиопотока. Оценивают первое волновое представление, содержащее измерение направления первой волны, характеризующее направление первой волны, и измерение поля первой волны, являющееся относительной магнитудой первой волны, для первого пространственного аудиопотока, имеющего первое аудиопредставление, содержащее измерение давления или магнитуды первого аудиосигнала, и первое направление поступления звука. Оценивают второе волновое представление, содержащее направление второй волны, характеризующее направление второй волны, и измерение поля второй волны, являющееся относительной магнитудой второй волны, для второго пространственного аудиопотока, имеющего второе аудиопредставление, содержащее измерение давления или магнитуды второго аудиосигнала, и второе направление поступления звука. Обрабатывают представление первой и второй волны для получения объединенного представления волны, содержащего измерение объединенного волнового поля, измерение объединенного направления поступления и объединенного параметра диффузности. Обрабатывают первое и второе аудиопредставление для получения объединенного аудиопредставления, а также формируют объединенный аудиопоток. 3 н. и 12 з.п. ф-лы, 7 ил.

Реферат

Настоящее изобретение относится к области обработки звука, в частности пространственной обработки звука, и объединения нескольких пространственных аудио потоков.

DirAC (DirAC = Направленное Аудио Кодирование), см. V.Pulkki and С.Faller, Directional audio coding in spatial sound reproduction and stereo upmixing. In AES 28th International Conference, Pitea, Sweden, June 2006, и A method for reproducing natural or modified spatial impression in Multichannel listening. Patent WO 2004/077884 A1, September 2004, является эффективным подходом к анализу и воспроизведению пространственного звука. DirAC использует параметрическое представление звуковых полей на основе особенностей, которые имеют значение для восприятия пространственного звука, а именно направление поступления звука (DOA = направление поступления звука) и диффузное отражение звука (диффузность) в поддиапазонах частот. В самом деле, DirAC предполагает, что интерауральная разница во времени [ITD = интерауральные (межушные) различия времени прихода звука на правое и левое ухо] и интерауральные различия уровня (МН = интерауральные различия уровней) воспринимаются правильно, если правильно выполнено DOA звукового поля, а интерауральная согласованность (IC = интерауральная когерентность) воспринимается правильно, если точно воспроизводится диффузность.

Эти параметры, а именно DOA и диффузность, представляют собой соответствующую дополнительную информацию, которая сопровождает моно сигнал в моно потоке DirAC. DirAC параметры получаются из частотно-временного представления сигналов микрофона. Таким образом, параметры зависят от времени и от частоты. При воспроизведении сигнала эта информация позволяет получить точную пространственную передачу звука. Для воссоздания пространственного звука с желаемым качеством прослушивания требуется установка нескольких громкоговорителей. Однако их расположение является произвольным. Фактически, сигналы для громкоговорителей определяются в зависимости от параметров DirAC.

Есть существенные различия между DirAC и параметрическим кодированием многоканального звука, таким как MPEG Surround, хотя они имеют очень похожие способы обработки аудио структур, см. Lars Villemoes, Juergen Herre, Jeroen Breebaart, Gerard Hotho, Sascha Disch, Heiko Pumhagen, и Kristofer Kjrlingm, MPEG surround: соответствующий стандарт ISO для пространственного кодирования звука принят на AES 28-й Международная конференция, Pitea, Sweden, июнь 2006 года. Хотя кодирование MPEG Surround основано на частотно-временном анализе различных каналов громкоговорителей, DirAC принимает, в качестве входных, каналы совпадающих микрофонов, которые эффективно представляют звуковое поле в одной точке. Таким образом, DirAC также представляет собой эффективный метод для записи пространственного звука.

Другой обычной системой, которая использует пространственный звук, является SAOC (SAOC = кодирование пространственных аудио объектов), см. Jonas Engdegard, Barbara Resch, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Leonid Ternetiev, Jeroen Breebaart, Jeroen Koppens, Erik Schuijer, and Werner Oomen, пространственное аудио кодирование объекта (SAOC) вышеназванного стандарта MPEG параметрического объекта основано на аудио кодировании в соответствии со 124й конвенцией AES, 17-20 мая 2008 года, Amsterdam, The Netherlands, 2008 г., в настоящее время использующий стандарт ISO/MPEG.

Он основан на рендеринге [обработка объекта по модели с помощью компьютерной программы] по модели MPEG Surround и исправляет различные аудио объекты источников звука. Такое кодирование звука обеспечивает очень высокую эффективность по битрейту и дает беспрецедентную свободу для обработки при воспроизведении. Этот подход перспективен в получении новых важных возможностей и функций в устаревших системах, а также ряда других приложений.

Целью настоящего изобретения является получение улучшенного способа объединения пространственных звуковых сигналов.

Поставленная задача решается с помощью аппаратных средств для объединения в соответствии с одним из пп.1 или 14 и метода для объединения в соответствии с одним из пп.13 или 15.

Отметим, что объединение будет простым в случае многоканального потока DirAC, т.е. если 4 аудио канала в В-формате являются доступными. В самом деле, сигналы от разных источников могут непосредственно складываться для получения сигналов объединенного потока в В-формате. Однако, если эти каналы недоступны, непосредственное объединение является проблематичным.

Настоящее изобретение основано на концепции, что пространственные звуковые сигналы могут быть представлены суммой волновых представлений, например представления плоской волны и представления диффузного поля. В результате можно указать направление поступления звука. При слиянии нескольких аудио потоков варианты воплощения изобретения позволяют получить дополнительную информацию об объединенном потоке, например диффузность и направление поступления звука. Воплощения могут получить эту информацию из волновых представлений, а также из входных аудио потоков. При объединении нескольких звуковых потоков все они могут быть смоделированы в виде участка волны или представления и диффузного участка или представления, причем участки волны или компоненты и диффузные участки или компоненты могут быть объединены независимо друг от друга. Объединение участка волны дает объединенный участок волны, для которого объединенное направление может быть получено с использованием направлений представлений участков волны. Кроме того, диффузные участки могут быть объединены в отдельности, и из объединенного диффузного участка может быть получен общий параметр диффузности.

Воплощения могут использоваться в качестве способа объединения двух или нескольких пространственных звуковых сигналов, закодированных в виде моно потоков DirAC. Результирующий объединенный сигнал также может быть представлен как моно поток DirAC. В вариантах изобретения кодирование моно DirAC может использоваться в качестве компактного способа описания пространственного аудио сигнала, так как должен передаваться только один аудио канал вместе с дополнительной информацией.

В качестве вариантов возможного использования может быть, например, телеконференция с количеством участников более двух. Пусть, например, пользователь А общается с пользователями В и С, которые генерируют два отдельных моно потока DirAC. В месте расположения А воплощение позволяет объединить потоки пользователей В и С в единый моно поток DirAC, которые могут быть воспроизведены с помощью обычной методики синтеза DirAC. В варианте использования топологии сети, в которой имеется Сервер многоточечной конференции (MCU = Сервер многоточечной конференции [аппаратно-программное устройство вычислительной техники, предназначенное для объединения аудио- и видеоконференции в многоточечном режиме]), операция объединения будет выполняться самим MCU, так что пользователь А будет получать один моно поток DirAC, уже содержащий речь обоих участников В и С. Ясно, что потоки DirAC для объединения могут быть также созданы синтетически, а это означает, что необходимая дополнительная информация может быть добавлена в моно аудио сигнал. В только что упомянутом примере пользователь А может получить два аудио потока от В и С без какой-либо дополнительной информации. Тогда можно присвоить каждому потоку определенное направление и диффузность, тем самым добавив дополнительную информацию, необходимую для построения потоков DirAC, которые затем могут быть объединены с помощью воплощения изобретения.

Другой возможный сценарий использования вариантов воплощения можно предложить в многопользовательских онлайн-играх и приложениях виртуальной реальности. В этих случаях несколько потоков создаются либо из игроков, либо из виртуальных объектов. Каждый поток характеризуется определенным направлением расположения по отношению к слушателю и поэтому может быть выражен в потоке DirAC. Воплощение может быть использовано для объединения различных потоков в единый поток DirAC, который затем воспроизводится в зависимости от положения слушателя.

Воплощение настоящего изобретения будет подробно рассмотрено с использованием сопровождающих чертежей.

На фиг.1A показан вариант устройства для объединения.

Фиг.1B показывает давление и компоненты вектора скорости частицы в гауссовой плоскости для плоской волны.

На фиг.2 показан вариант кодировщика DirAC.

На фиг.3 показано идеальное объединение аудио потоков.

На фиг.4 показаны входы и выходы воплощения общего DirAC блока выполнения объединения.

На фиг.5 показана блок-схема воплощения.

На фиг.6 показана блок-схема воплощения метода объединения.

На фиг.1A представлен вариант выполнения аппаратного блока 100 для объединения первого пространственного аудио потока со вторым пространственным аудио потоком для получения объединенного аудио потока. Воплощение, показанное на фиг.1A выполняет объединение двух аудио потоков, однако оно не ограничивается двумя аудио потоками, аналогичным образом могут быть объединены несколько пространственных аудио потоков. Первый пространственный аудио поток и второй пространственный аудио поток могут, например, являться моно потоками DirAC, тогда и объединенный аудио поток будет единственным моно аудио потоком DirAC. Как будет подробно описано далее, поток моно DirAC может включать сигнал давления, например, на выбранный всенаправленный микрофон и дополнительную информацию. Поток моно DirAC может содержать зависимость частоты от времени в качестве меры диффузности и направление поступления звука. На фиг.1A показан вариант аппаратного блока 100 для объединения первого пространственного аудио потока со вторым пространственным аудио потоком для получения объединенного аудио потока, включающего блок оценки 120 для оценки первого волнового представления, содержащего направление первой волны и измерение поля первой волны для первого пространственного аудио потока, имеющего первое аудио представление и первое направление поступления звука, и для оценки второго волнового представления, содержащего направление второй волны и измерение поля второй волны для второго пространственного аудио потока, имеющего второе аудио представление и второе направление поступления звука. В вариантах исполнения первое и/или второе представление волны может соответствовать представлению плоской волны.

В варианте, показанном на фиг.1A, аппаратный блок 100 дополнительно включает процессор 130 для обработки представлений первой и второй волны и получения представления объединенной волны, содержащего измерение объединенного поля и объединенное направление поступления звука, и для обработки первого и второго аудио представлений и получения объединенного аудио представления, причем процессор 130 предназначен для формирования объединенного аудио потока, содержащего объединенное аудио представление и объединенное направление поступления звука.

Блок оценки 120 может быть адаптирован для оценки измерения первого волнового поля в терминах амплитуды первого волнового поля, измерения второго волнового поля в терминах амплитуды второго волнового поля и для оценки разности фаз между первым и вторым измерением волнового поля. В вариантах блок оценки может быть адаптирован для оценки фазы поля первой и второй волны. В вариантах, блок оценки 120 может оценить только сдвиг фаз или различие между первым и вторым представлениями волны для первого и второго измерения поля волны, соответственно. Процессор 130 может адаптироваться для обработки первого и второго представления волны и получения представления объединенной волны, содержащего измерение поля объединенной волны, которое может включать амплитуду, фазу и направление объединенного волнового поля, а также для обработки первого и второго аудио представления и получения объединенного аудио представления.

В вариантах изобретения процессор 130 может быть адаптирован для дальнейшей обработки первого и второго представления волны и получения представления объединенной волны, содержащего измерение поля объединенной волны, измерение объединенного направления поступления звука и объединенного параметра диффузности, а также для обеспечения объединения аудио потока, содержащего объединенное аудио представление, объединенное направление поступления звука и объединенный параметр диффузности.

Иными словами, в вариантах изобретения параметр диффузности может быть определен на основе волновых представлений объединенного аудио потока. Параметр диффузности можно определить путем измерения пространственной диффузности аудио потока, то есть путем измерения пространственного распределения, например углового распределения относительно определенного направления. В одном из возможных сценариев можно объединить два синтезированных моно сигнала с точной информацией о направлении.

Процессор 130 может быть адаптирован для обработки первого и второго представления волны и получения представления объединенной волны, в котором объединенный параметр диффузности получен с использованием измерения направлений первой и второй волны. В вариантах исполнения первое и второе представления волны могут иметь различные направления поступления, а объединенное направление поступления может находиться между ними. В этом варианте, хотя первый и второй пространственные аудио потоки не могут передать несколько параметров диффузности, объединенный параметр диффузности можно определить из первого и второго представления волны, т.е. на основе измерения направления первой и второй волны. Например, если две плоские волны приходят из различных направлений, т.е. измеренное направление первой волны отличается от измеренного направления второй волны, объединенное аудио представление может содержать комбинированное объединенное направление поступления с отличающимся от нуля объединенным параметром диффузности, учитывающим измерения направлений первой и второй волны. Иными словами, в то время как два сосредоточенных пространственных аудио потока могут не иметь или не обеспечивать диффузность, объединенный аудио поток может иметь отличающуюся от нуля диффузность, так как он получен с использованием угловых распределений, созданных первым и вторым аудио потоками.

В воплощениях можно оценить параметр диффузности Ψ, например, для объединенного потока DirAC. Вообще, в вариантах изобретения можно установить или вычислить фиксированные значения параметров диффузности отдельных потоков, например 0 или 0.1, или переменное значение, полученное из анализа аудио представлений и/или представлений направления.

В других вариантах, аппаратный блок 100 для объединения первого пространственного аудио потока со вторым пространственным аудио потоком для получения объединенного аудио потока может включать в себя блок оценки 120 для оценки первого волнового представления, содержащего измерение направления первой волны и измерение первого волнового поля для первого пространственного аудио потока, имеющего первое аудио представление, первое направление поступления звука и первый параметр диффузности. Другими словами, первое аудио представление может соответствовать аудио сигналу с определенной пространственной шириной или быть диффузным в определенной степени. В одном из вариантов, это может соответствовать сценарию в компьютерной игре. Первый игрок может быть в сценарии, где первое аудио представление представляет источник звука, такой как, например, проходящий мимо поезд, создающий поле диффузного, в определенной степени, звука. В таком варианте звуки, вызванные самим поездом, могут быть диффузными, а звук, произведенный гудком поезда, т.е. соответствующие ему частотные составляющие, может не быть диффузными.

Блок оценки 120 также может быть адаптирован для оценки второго волнового представления, содержащего измерение направления второй волны и измерение второго волнового поля для второго пространственного аудио потока, имеющего второе аудио представление, второе направление поступления звука и второй параметр диффузности.

Другими словами, второе аудио представление может соответствовать аудио сигналу с определенной пространственной шириной или быть диффузным в определенной степени. Такой случай также может соответствовать сценарию компьютерной игры, когда второй источник звука может быть представлен вторым аудио потоком, например фоновым шумом от другого поезда, проходящего по другому пути. Для первого игрока в компьютерной игре оба источника звука могут быть диффузными, когда он находится на железнодорожной станции.

В вариантах изобретения процессор 130 может быть адаптирован для обработки первого и второго волнового представления и получения представления объединенной волны, содержащего измерение объединенного волнового поля и объединенного направления поступления, и для обработки первого и второго аудио представления для получения объединенного аудио представления и объединенного аудио потока, содержащего объединенное аудио представление и измерение объединенного направления поступления. Другими словами, процессор 130 не может определить объединенный параметр диффузности. Такой случай соответствует звуковому полю, возникающему у второго игрока в описанной выше компьютерной игре. Второй игрок может быть расположен дальше от железнодорожного вокзала, поэтому два звуковых источника не могут восприниматься как диффузные для второго игрока и представляют собой довольно сосредоточенные источники звука из-за большого расстояния.

В вариантах аппаратный блок 100 может дополнительно содержать блок 110 для определения первого аудио представления и первого направления поступления в первом пространственном аудио потоке, а также для определения второго аудио представления и второго направления поступления во втором пространственном аудио потоке. В вариантах в блок для определения 110 может поступать прямой аудио поток, т.е. определение может быть сведено к чтению аудио представления в терминах, например, сигнала давления и DOA и, возможно, также параметров диффузности в качестве дополнительной информации.

Блок оценки 120 может быть адаптирован для оценки первого волнового представления в первом пространственном аудио потоке, содержащего первый параметр диффузности, и/или для оценки второго волнового представления во втором пространственном аудио потоке, содержащего второй параметр диффузности, процессор 130 может быть адаптирован для обработки измерения объединенного волнового поля, первого и второго аудио представлений, первого и второго параметров диффузности для получения объединенного параметра диффузности для объединенного аудио потока, процессор 130 также может быть адаптирован для последующего предоставления аудио потока, содержащего объединенный параметр диффузности. Блок для определения 110 может быть адаптирован для определения первого параметра диффузности из первого пространственного аудио потока и второго параметра диффузности из второго пространственного аудио потока.

Блок оценки 120 может быть адаптирован для оценки первого волнового представления в первом пространственном аудио потоке, содержащего первый параметр диффузности, и/или для оценки второго волнового представления во втором пространственном аудио потоке, содержащего второй параметр диффузности, процессор 130 может быть адаптирован для измерения объединенного волнового поля, содержащего объединенный параметр диффузности, первое и второе аудио представления, первый и второй параметры диффузности, и получения объединенного параметра диффузности для объединенного аудио потока, также процессор 130 может быть адаптирован для последующего предоставления аудио потока, содержащего объединенный параметр диффузности. Блок для определения 110 может быть адаптирован для определения первого параметра диффузности первого пространственного аудио потока, а второй параметр диффузности для второго пространственного аудио потока.

Процессор 130 может быть адаптирован для блочной обработки пространственных звуковых потоков, аудио представлений, DOA и/или параметров диффузности, т.е. в форме сегментов выборок или значений. В некоторых вариантах сегмент может содержать предварительно определенное количество выборок, соответствующих частоте представления в некотором диапазоне частот за определенный промежуток времени пространственного аудио потока. Такой сегмент может соответствовать моно представлению и будет связан с DOA и параметром диффузности.

В вариантах блок для определения 110 может быть адаптирован для определения первого и второго аудио представления, первого и второго направления поступления, первого и второго параметров диффузности в зависимости от частоты и времени и/или процессор 130 может быть адаптирован для обработки первого и второго волновых представлений, параметров диффузности и/или измерения DOA и/или для определения объединенного аудио представления, измерения объединенного направления поступления и/или объединенного параметра диффузности в зависимости от частоты и времени.

В вариантах изобретения первое аудио представление может соответствовать первому моно представлению, второе аудио представление может соответствовать второму моно представлению, а объединенное аудио представление может соответствовать объединенному моно представлению. Иными словами, аудио представление может соответствовать одному аудио каналу.

В вариантах изобретения блок для определения 110 может быть адаптирован для определения и/или процессор может быть адаптирован для обработки первого и второго моно представлений, первого и второго DOA, первого и второго параметров диффузности, а процессор 130 может сформировать объединенное моно представление, обеспечить измерение объединенного DOA и/или объединенного параметра диффузности в зависимости от частоты и времени. В вариантах воплощений первый пространственный аудио поток может быть уже получен, например, в виде представления DirAC, блок для определения 110 может быть адаптирован для определения первого и второго моно представлений, первого и второго DOA, первого и второго параметров диффузности просто путем их извлечения из первого и второго аудио потоков, т.е. в виде дополнительной информации DirAC.

Далее будет рассмотрено подробно воплощение, для которого будут введены обозначения и модели данных. В вариантах блок для определения 110 может быть адаптирован для определения первого и второго аудио представлений и/или процессор 130 может быть адаптирован для получения объединенного моно представления в терминах сигнала давления p(t) или частотно-временного преобразования сигнала давления P(k,n), в котором k обозначает частоту индексирования, а n обозначает индекс времени.

В различных вариантах измерение направления поступления первой и второй волны, а также измерение объединенного направления поступления может проводиться в любых величинах, например таких, как вектор, угол, направление (азимут) и т.д., и они могут быть получены из любого измерения направления, представляющего аудио компонент, например вектора интенсивности, вектора скорости частицы и т.д. Измерение первого и второго волнового поля, а также измерение объединенного волнового поля могут выполняться с помощью любой физической величины, описывающей аудио компонент, которая может иметь действительные или комплексные значения, соответствующие сигналу давления, амплитуды или магнитуды скорости частиц, громкости и т.д. Кроме того, измерения могут проводиться во временной и/или частотной области.

Воплощения могут быть основаны на оценке представления плоских волн для измерения волнового поля волновых представлений входных потоков, которая может проводиться блоком оценки 120 на фиг.1A. Другими словами, измерение волнового поля может быть смоделировано с помощью представления плоской волны. В целом существует несколько эквивалентных исчерпывающих (т.е. полных) описаний плоской волны или волны в целом. Далее будет введено математическое описание для вычисления параметров диффузности и направления поступления или измерения направления для различных компонентов. Хотя только несколько описаний непосредственно связаны с физическими величинами, такими как, например, давление, скорость частицы и т.д., допустимо существование бесконечного числа различных способов описания волновых представлений, из которых только одно будет представлено в качестве примера, что, однако, ни в коей мере не означает ограничение воплощений настоящего изобретения.

Для того чтобы более подробно представить различные возможные описания, рассмотрим два вещественных числа а и b. Информация, содержащаяся в а и b, может быть передана путем отправки с и d,

,

где Ω является известной матрицей 2×2. Например, рассмотрим только линейные комбинации, хотя любые комбинации, т.е. также и нелинейные, допустимы.

Далее скалярные величины представлены маленькими буквами а, b, с, а векторы-столбцы представлены полужирными маленькими буквами a, b, c. Индекс ()T обозначает транспонирование, и, соответственно, и (·) означают комплексное сопряжение. Комплексные обозначения фазы отличаются от временных. Например, давление p(t), являющееся действительным числом, из которого возможно измерение волнового поля, может быть выражено с помощью вектора Р, которое является комплексным числом, с помощью которого возможно получение еще одного измерения волнового поля, по формуле

,

где Re{·} обозначает действительную часть, а угловую частоту. Кроме того, далее для обозначения векторных физических величин использованы прописные буквы. В следующем начальном примере во избежание путаницы следует обратить внимание, что все величины с индексом "PW", рассматриваемые далее, относятся к плоским волнам.

Для идеальной монохроматической плоской волны вектор скорости частиц UPW можно записать в виде

,

где ed - единичный вектор точки в направлении поступления волны, например, соответствующей измеренному направлению. Может быть показано, что

,

Ψ=0

где Ia обозначает действительную часть интенсивности [интенсивность звука - векторная величина, значение потока звуковой энергии, проходящего через единичную площадку за единицу времени в направлении локальной скорости частиц. ГОСТ 30457.3-2006 Акустика. Определение уровней звуковой мощности источников шума по интенсивности звука.], ρ0 обозначает плотность воздуха, с обозначает скорость звука, Е обозначает энергию звукового поля и Ψ обозначает размытие. Интересно отметить, что поскольку все компоненты ed являются вещественными числами, компоненты UPW находятся в фазе с РPW. На фиг.1B показана модель UPW и РPW в гауссовой плоскости. Как указывалось выше, все компоненты UPW имеют одни и те же фазы PPW, а именно θ. Их магнитуды, с другой стороны, связаны следующим образом

.

Даже когда присутствуют несколько источников звука, давление и скорости частиц все еще могут быть выражены в виде суммы отдельных компонент. Без ограничения общности, рассмотрим случай двух источников звука. На практике использование большего количества источников может быть выполнено просто.

Пусть P(1) и P(2) являются значениями давления, которые записаны для первого и второго источника, соответственно, например, пусть они представляют первое и второе измерение волнового поля.

Аналогичным образом, пусть U(1) и U(2) являются комплексными векторами скорости частиц. Учитывая линейность явления распространения, когда источники действуют одновременно, отмечаемые давление Р и скорость частицы U равны

Р=Р(1)(2),

U=U(1)+U(2).

Таким образом, действительная часть интенсивности

,

.

Таким образом,

.

Отметим, что кроме отдельных случаев,

.

Когда имеются два источника, например, плоских волн, волны находятся точно в одной фазе (хотя распространяются по отношению друг к другу по различным направлениям),

P(2)=γ·P(1),

причем γ является вещественным числом. Отсюда следует, что

,

,

и

.

Когда волны находятся в фазе и распространяются в одном направлении, они могут быть четко интерпретированы как одна волна.

Для γ=-1 и произвольного направления давление исчезает, и поток энергии отсутствует, т.е. .

Когда волны строго перпендикулярны, то

P(2)=γ·ejπ/2P(1),

U(2)= γ·ejπ/2U(1),

,

,

,

причем γ является вещественным числом. Отсюда следует, что

,

,

и

.

С использованием этих уравнений может быть легко показано, что для плоской волны каждая из выбранных величин U, Р и еd или Р и Ia может давать эквивалентное и исчерпывающее описание, так же как и все другие физические величины, которые могут быть получены из них, т.е. любая комбинация из них в вариантах изобретения может использоваться вместо измерения волнового поля или направления волны. Например, в вариантах изобретения действительная 2-мерная норма вектора интенсивности может быть использована в качестве измерения волнового поля.

Минимальное описание, которое может быть использовано для выполнения объединения, указано в вариантах изобретения. Давление и векторы скорости частиц для i-й плоской волны могут быть выражены следующим образом:

,

,

причем ∠P(i) представляет фазу P(i). Выражение для объединенного вектора интенсивности, т.е. объединенного измерения волнового поля и объединенного направления поступления в этих переменных, запишется следующим образом:

.

Отметим, что первыми двумя слагаемыми являются и . Уравнение может быть еще более упрощено

.

Подставляя

,

получим

Это уравнение показывает, что информация, необходимая для вычисления Ia, может быть сведена к , , . Другими словами, представление для каждой, например, плоской волны может быть сведено к амплитуде волны и направлению поступления. Кроме того, можно использовать относительную разность фаз между волнами. Когда необходимо объединить более чем две волны, могут быть использованы разности фаз между всеми парами волн. Очевидно, существует несколько других описаний, которые содержат такую же информацию. Например, будет эквивалентно, если известны либо векторы интенсивности, либо разность фаз.

Как правило, энергетического описания плоских волн может быть недостаточно для выполнения правильного объединения. Объединение может быть аппроксимировано в предположении перпендикулярности распространения волн. Исчерпывающего описания волн (т.е. полагая известными все физические величины волны) может быть достаточно для объединения, однако это не является необходимым во всех вариантах. В вариантах изобретения для проведения правильного объединения необходимо принимать во внимание амплитуду каждой волны, направление поступления каждой волны и относительную разность фаз между каждой парой объединяемых волн.

Блок для определения 110 и/или процессор 130 могут быть адаптированы для обработки первого и второго направления поступления и/или для обеспечения измерения объединенного направления поступления в терминах единичного вектора eDOA(k,n), причем

и , где

и

U(k,n)=[Ux(k,n),Uy(k,n)Uz(k,n)]

обозначают частотно-временное преобразование u(t)=[ux(t),uy(t)uz(t)] вектора скорости частиц. Другими словами, мы полагаем, что p(t) и u(t)=[ux(t),uy(t)uz(t)] представляют давление и вектор скорости частицы, соответственно, для конкретной точки пространства, где [·]T обозначает транспонирование. Эти сигналы могут быть преобразованы в частотно-временную область с помощью соответствующего набора фильтров, например быстрого преобразования Фурье (STFT), как это было предложено, например, V.Pulkki и С.Faller, Directional audio coding: Filterbank and STFT-based design, in 120th AES Convention, May 20-23, 2006, Paris, France, May 2006.

Пусть P(k,n) и U(k,n)=[Ux(k,n),Uy(k,n)Uz(k,n)]

обозначают преобразованные сигналы, где k и n показывают частоту (или диапазон частот) и время, соответственно. Действительная часть вектора интенсивности Ia(k,n) может быть определена как

где (·) обозначает комплексное сопряжение и Re{·} выделяет действительную часть. Действительная часть вектора интенсивности выражает чистый поток энергии, характеризующий звуковое поле, см. F.J.Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989, и, таким образом, может быть использована в качестве измерения волнового поля.

Пусть с обозначает скорость звука в рассматриваемой среде и Е определяет энергию звукового поля в соответствии с F.J.Fahy

где вычисленная 2-мерная норма. Далее будет подробно рассмотрено содержание моно потока DirAC.

Моно поток DirAC может состоять из моно сигнала p(t) и дополнительной информации. Эта дополнительная информация может включать частотно-временную зависимость направления поступления и частотно-временную зависимость измерения диффузности. Первая информация обозначается единичным вектором eDOA(k,n), который направлен в сторону поступления звука. Вторая информация, диффузность, обозначается

Ψ(k,n).

В вариантах изобретения блок 110 и/или процессор 130 могут быть адаптированы для предоставления/обработки первого и второго DOAS и/или объединенного DOA в терминах единичного вектора eDOA(k,n). Направления поступления могут быть получены как

eDOA(k,n)=-eI(k,n),

где единичный вектор eI(k,n) указывает направление, в котором направлена действительная часть вектора интенсивности точек, а именно

,

Альтернативный вариант, в вариантах, DOA может