Устройство и способ основанного на геометрии кодирования пространственного звука

Иллюстрации

Показать все

Изобретение относится к обработке звука. Технический результат - улучшенный захват пространственного звука. Предоставлено устройство для генерации, по меньшей мере, одного выходного звукового сигнала на основании потока звуковых данных, включающего в себя звуковые данные, относящиеся к одному или более источникам звука. Устройство включает в себя приемник для приема потока звуковых данных, включающего в себя звуковые данные. Звуковые данные включают в себя одно или более значений давления для каждого из источников звука. Дополнительно звуковые данные включают в себя одно или более значений местоположения, указывающих местоположение одного из источников звука для каждого из источников звука. Кроме того, устройство включает в себя модуль синтеза для генерации, по меньшей мере, одного выходного звукового сигнала на основании, по меньшей мере, одного из одного или более значений давления из звуковых данных из потока звуковых данных и на основании, по меньшей мере, одного из одного или более значений местоположения из звуковых данных из потока звуковых данных. 9 н. и 16 з.п. ф-лы, 34 ил.

Реферат

Настоящее изобретение относится к обработке звука, и конкретнее, к устройству и способу геометрического кодирования пространственного звука.

Обработка звука, и в особенности, кодирование пространственного звука, становится все более и более важным. Традиционная запись пространственного звука ставит своей задачей захват звукового поля, такого, как в репродуцируемой стороне, слушатель воспринимает звуковое изображение так, как если бы он находился в месте записи. На современном уровне развития техники известны разные подходы к способам записи и воспроизведения пространственного звука, которые бывают основаны на канальных, объектных или параметрических представлениях.

Представления, основанные на каналах, представляют звуковую сцену средствами N дискретных звуковых сигналов, предназначенных для проигрывания на N громкоговорителях, расставленных в известной компоновке, например, компоновке 5.1 surround sound («звук вокруг»). В этом подходе для записи пространственного звука обычно применяют установленные на расстоянии всенаправленные микрофоны, например, в AB стереофонии, или совмещенные направленные микрофоны, например, в интенсивностной стереофонии. В ином случае, можно применять более сложные микрофоны, такие как микрофоны B-формата, например, в амбиофонии, см.:

[1] Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859-871, 1985.

Требуемые сигналы громкоговорителей для известной компоновки можно извлекать напрямую из записанных сигналов микрофонов и затем передавать или хранить в дискретном виде. Более эффективное представление достигается путем применения к дискретным сигналам кодирования звука, которое, в отдельных случаях, кодирует информацию различных каналов совместно, для повышения эффективности, например, в MPEG-Surrond для 5.1, см.:

[21] J. Herre, K. Kjorling, J. Breebaart, С Faller, S. Disch, H. Pumhagen, J. Koppens, J. Hilpert, J. Roden, W. Oomen, K. Linzmeier, K.S. Chong: "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", 122nd AES Convention, Vienna, Austria, 2007, Preprint 7084.

Большим недостатком этих способов является невозможность модификации звуковой сцены после завершения вычисления сигналов громкоговорителей.

Объектные представления, например, используют в кодировании пространственных звуковых объектов (SAOC), см.:

[25] Jeroen Breebaart, Jonas Engdegard, Cornelia Falch, Oliver Hellmuth, Johannes Hiipert, Andreas Hoelzer, Jeroens Koppens, Werner Oomen, Barbara Resch, Erik Schuijers, and Leonid Terentiev. Spatial audio object coding (saoc) - the upcoming mpeg standard on parametric object based audio coding. In Audio Engineering Society Convention 124, 5 2008.

Объектные представления представляют звуковую сцену с N дискретными звуковыми объектами. Это представление дает высокую гибкость на стороне воспроизведения, поскольку звуковой сценой можно манипулировать, изменяя, например, позицию и громкость для каждого объекта. Несмотря на то, что такое представление может быть доступно в настоящий момент с, например, многодорожечной записи, его очень сложно получить из сложной звуковой сцены, записанной с нескольких микрофонов (см., например, [21]). Фактически, говорящие стороны (или другие испускающие звук объекты) необходимо сначала локализовать и затем извлечь из смеси, что может вызвать артефакты.

Параметрические представления, для определения одного или более малоканальных сигналов вместе с пространственной информацией стороны, описывающей пространственный звук, часто применяют пространственные микрофоны. Примером является направленное кодирование звука (DirAC), как описано в

[22] Vilie Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503-516, June 2007.

Термин "пространственный микрофон" относится к любому устройству для получения пространственного звука, способному извлекать направление прихода звука (например, комбинация направленных микрофонов, массив микрофонов, и т.п.).

Термин "непространственный микрофон" относится к любому устройству, которое не адаптировано для извлечения направления прихода звука, такому как один всенаправленный или направленный микрофон.

Другой пример предложен в:

[23] C. Fallen Microphone front-ends for spatial audio coders. In Proc. of the AES 125 International Convention, San Francisco, Oct. 2008.

В DirAC, информация пространственного сигнала включает в себя направления прихода (DOA) звука и диффузность звукового поля, вычисленную в частотно-временной области. Для воспроизведения звука сигналы проигрывания звука можно извлечь на основании параметрического описания. Эти способы предлагают очень большую гибкость в стороне воспроизведения, поскольку можно использовать произвольную компоновку громкоговорителей, поскольку представление особенно гибко и компактно, так как оно включает в себя малоканальный монозвуковой сигнал и информацию о стороне, и поскольку оно позволяет легко осуществлять модификации звуковой сцены, например, акустическое масштабирование, направленную фильтрацию, объединение сцены и т.п.

Однако, эти способы по-прежнему ограничены в том, что пространственное изображение всегда записано относительно использованного пространственного микрофона. Таким образом, акустическую точку обзора нельзя сменить, и позицию слушателя в звуковой сцене нельзя изменить.

Подход с виртуальным микрофоном, изложенный в

[20] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E.A.P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA '11), Edinburgh, United Kingdom, May 2011,

который позволяет вычислять выходные сигналы произвольного пространственного микрофона, виртуально размещенного в окружающем пространстве произвольным образом (т.е., с произвольным местоположением и направленностью). Гибкость, характеризующая подход с виртуальным микрофоном (VM), позволяет произвольный виртуальный захват звуковой сцены на этапе постобработки, но не делает доступным представление звукового поля, которое можно использовать для эффективных передачи, и/или хранения, и/или модификации звуковой сцены. Более того, предполагается активным только один источник на каждый частотно-временной элемент выборки, и, таким образом, он не может корректно описать звуковую сцену, если в одном и том же частотно-временном элементе выборки активно два или более источников. Дополнительно, если виртуальный микрофон (VM) применяют на стороне приемника, все сигналы микрофона необходимо посылать по каналу, что делает представление неэффективным, в то же время при применении микрофона на стороне передатчика, звуковой сценой нельзя дополнительно манипулировать, и модель теряет гибкость и становится ограниченной определенной компоновкой громкоговорителей. Более того, она не позволяет манипулировать звуковой сценой на основании параметрической информации.

В

[24] Emmanuel Gallo and Nicolas Tsingos. Extracting and re-rendering structured auditory scenes from field recordings. In AES 30th International Conference on Intelligent Audio Environments, 2007,

оценку позиции звукового источника основывают на попарной разнице во времени поступления, измеренного при помощи распределенных микрофонов. Дополнительно, приемник зависим от записи и требует для синтеза все сигналы микрофонов (например, генерирования сигналов громкоговорителей).

Способ, представленный в

[28] Svein Berge. Device and method for converting spatial audio signal. US patent application, Appl. No. 10/547,151,

использует, аналогично DirAC, направление прихода как параметр, таким образом, ограничивая представление определенной точкой зрения звуковой сцены. Более того, он не предлагает возможности передавать/хранить представление звуковой сцены, поскольку и анализ, и синтез необходимо применять на одной и той же стороне системы связи.

Задачей настоящего изобретения является предоставление улучшенных концепций по захвату пространственного звука и описание путем извлечения геометрической информации. Задача настоящего изобретения достигается устройством для генерации, по меньшей мере, одного выходного звукового сигнала, основанного на потоке звуковых данных по п.1 формулы изобретения, устройством для генерации потока звуковых данных по п.10 формулы изобретения, системой по п.19 формулы изобретения, потоком звуковых данных по п.20 формулы изобретения, способом генерации, по меньшей мере, одного выходного звукового сигнала по п.23 формулы изобретения, способом генерации потока звуковых данных по п.24 формулы изобретения и компьютерной программой по п.25 формулы изобретения.

Предоставлено устройство для генерирования, по меньшей мере, одного выходного звукового сигнала, основанного на потоке звуковых данных, включающего в себя звуковые данные, относящиеся к одному или более источникам звука. Устройство включает в себя приемник для приема потока звуковых данных, включающего в себя звуковые данные. Звуковые данные включают в себя одно или более значений давления для каждого из источников звука. Дополнительно, звуковые данные включают в себя одно или более значений расположения, указывающих расположение одного из источников звука для каждого из источников звука. Более того, устройство включает в себя модуль синтеза, для генерирования, по меньшей мере, одного выходного звукового сигнала, основанного на, по меньшей мере, одном из одного или более значений расположения звуковых данных из потока звуковых данных. В варианте осуществления, каждый из одного или более значений местоположения может включать в себя, по меньшей мере, два значения координат.

Звуковые данные можно определить для частотно-временного элемента выборки из множества частотно-временных элементов выборки. Иначе, звуковые данные можно определить для момента времени из множества моментов времени. В некоторых вариантах осуществления, одно или более значений давления из звуковых данных можно определить для момента времени из множества моментов времени, в то время как соответствующие параметры (например, значения местоположения) можно определить в частотно-временной области. Этого можно легко добиться путем преобразования обратно во временную область значений давления, иначе определенных в частотно-временном. Для каждого из источников звука, по меньшей мере одно значение давления включают в звуковые данные, причем, по меньшей мере, одно значение давления может представлять собой значение давления, относящееся к испущенной звуковой волне, например, исходящей из источника звука. Значение давления может представлять собой значение звукового сигнала, например, значение давления выходного звукового сигнала, сгенерированного устройством для генерирования выходного звукового сигнала виртуального микрофона, причем этот виртуальный микрофон размещен в местоположении источника звука.

Вышеописанный вариант осуществления позволяет рассчитать представление звукового поля, которое в действительности не зависит от местоположения записи и предоставляет возможность эффективной передачи и хранения сложной звуковой сцены, а также возможность простых модификаций и повышенную гибкость в системе воспроизведения.

Наряду с прочим, важными преимуществами этого способа является то, что на стороне воспроизведения слушатель может свободно выбирать свое положение в записанной звуковой сцене, использовать любую компоновку громкоговорителей и дополнительно манипулировать звуковой сценой на основании геометрической информации, например, осуществлять позиционную фильтрацию. Другими словами, в предлагаемом способе акустическую точку зрения можно менять, и местоположения прослушивания в звуковой сцене можно изменять.

В соответствии с вышеописанным вариантом осуществления, звуковые данные, включенные в поток звуковых данных, включают в себя одно или более значений давления для каждого из источников звука. Таким образом, значения давления указывают звуковой сигнал относительно одного из источников звука, например, звуковой сигнал, исходящий из источника звука, и безотносительно местоположения записывающих микрофонов. Аналогично, одно или более значений местоположения, которые включены в поток звуковых данных, указывают местоположения источников звука, а не микрофонов.

Таким образом, осуществляют множество преимуществ: например, достигнутое представление звуковой сцены можно кодировать, используя немного бит. Если звуковая сцена включает в себя только единственный источник звука в определенном частотно-временном элементе выборки, вместе со значением местоположения, указывающим местоположение источника звука, необходимо кодировать значения давления единственного звукового сигнала, относящегося к единственному источнику звука. В отличии, в обычных способах может оказаться необходимым кодировать множество значений давления из множества записанных сигналов микрофона, для реконструкции звуковой сцены на приемнике. Более того, вышеописанный вариант осуществления позволяет легко модифицировать звуковую сцену на передатчике, а также на стороне приемника, как будет описано ниже. Таким образом, композиция сцены (например, определение местоположения прослушивания в звуковой сцене), также можно выполнять и на стороне приемника.

В вариантах осуществления применяют принцип моделирования сложной звуковой сцены посредством источников звука, например, точечных источников звука (PLS = точечный источник звука), например, изотропных точечных источников звука (IPLS), которые активны в определенных ячейках частотно-временного представления, такого как то, которое предоставлено оконным преобразованием Фурье (STFT).

В соответствии с вариантом осуществления, приемник может быть выполнен с возможностью приема потока звуковых данных, включающего в себя звуковые данные, причем звуковые данные, в свою очередь, включают в себя одно или более значений диффузности для каждого из источников звука. Модуль синтеза может быть выполнен с возможностью генерации, по меньшей мере, одного выходного звукового сигнала, основанного на, по меньшей мере, одном или более значениях диффузности.

В другом варианте осуществления, приемник может дополнительно включать в себя модуль модификации для модификации звуковых данных принятого потока звуковых данных путем модификации, по меньшей мере, одного из, одного или более значений давления из звуковых данных, путем модификации, по меньшей мере, одного из, одного или более значений местоположения из звуковых данных или путем модификации, по меньшей мере, одного из значений диффузности из звуковых данных. Модуль синтеза может быть выполнен с возможностью генерирования, по меньшей мере, одного выходного звукового сигнала, на основании, по меньшей мере, одного модифицированного значения давления, на основании, по меньшей мере, одного модифицированного значения местоположения или на основании, по меньшей мере, одного модифицированного значения диффузности.

В последующем варианте осуществления, каждое из значений местоположения каждого из источников звука может включать в себя, по меньшей мере, два значения координат. Дополнительно, модуль модификации может быть выполнен с возможностью модификации значений координат путем добавления, по меньшей мере, одного случайного числа к значениям координат, когда значения координат указывают, что источник звука расположен в местоположении, находящемся в предварительно определенной области окружающего пространства.

В соответствии с другим вариантом осуществления, каждое из значений местоположения каждого из источников звука может включать в себя, по меньшей мере, два значения координат. Более того, модуль модификации выполнен с возможностью модификации значений координат путем применения для значений координат детерминированной функции, когда значения координат указывают, что источник звука расположен в местоположении, находящемся в предварительно определенной области окружающего пространства.

В дополнительном варианте осуществления, каждое из значений местоположения каждого из источников звука может включать в себя, по меньшей мере, два значения координат. Более того, модуль модификации может быть выполнен с возможностью модификации выбранного значения давления из одного или более значений давления из звуковых данных, относящегося к тому же источнику звука, что и значения координат, когда значения координат указывают, что источник звука расположен в местоположении, находящемся в предварительно определенной области окружающего пространства.

В соответствии с вариантом осуществления, модуль синтеза может включать в себя блок первого этапа синтеза и блок второго этапа синтеза. Блок первого этапа синтеза может быть выполнен с возможностью генерирования сигнала прямого давления, включающего в себя прямой звук, сигнала диффузного давления, включающего в себя диффузный звук и информацию о направлении прихода, на основании, по меньшей мере, одного из одного или более значений давления из звуковых данных из потока звуковых данных, на основании, по меньшей мере, одного из одного или более значений местоположения из звуковых данных из потока звуковых данных и на основании, по меньшей мере, одного из одного или более значений диффузности из звуковых данных из потока звуковых данных. Блок второго этапа синтеза может быть выполнен с возможностью генерирования, по меньшей мере, одного выходного звукового сигнала на основании сигнала прямого давления, сигнала диффузного давления и информации о направлении прихода.

В соответствии с вариантом осуществления, предоставляют устройство для генерирования потоках звуковых данных, включающего данные источника звука, относящиеся к одному или более источникам звука. Устройство для генерирования потока звуковых данных включает в себя определитель для определения данных источника звука на основании, по меньшей мере, одного входного звукового сигнала, записанного при помощи, по меньшей мере, одного микрофона и основанного на информации звуковой стороны, предоставленной, по меньшей мере, двумя пространственными микрофонами. Дополнительно, устройство включает в себя генератор потока данных, для генерирования потока звуковых данных, так, чтобы поток звуковых данных включал в себя данные источника звука. Данные источника звука включают в себя одно или более значений давления для каждого из источников звука. Более того, данные источника звука дополнительно включают в себя одно или более значений местоположения, указывающих на местоположение источника звука для каждого из источников звука. Дополнительно, данные источника звука определены для частотно-временного элемента выборки из множества частотно-временных элементов выборки.

В дополнительном варианте осуществления, определитель может быть выполнен с возможностью определения данных источника звука на основании информации диффузности, по меньшей мере, с одного пространственного микрофона. Генератор потока данных может быть выполнен с возможностью генерирования потока звуковых данных так, чтобы поток звуковых данных включал в себя данные источника звука. В свою очередь, данные источника звука включают в себя одно или более значений диффузности для каждого из источников звука.

В другом варианте осуществления, устройство для генерирования потока звуковых данных может дополнительно включать в себя модуль модификации для модификации потока звуковых данных, сгенерированного генератором потока данных, путем модификации, по меньшей мере, одного из значений давления звуковых данных, по меньшей мере, одного из значений местоположения из звуковых данных или, по меньшей мере, одного из значений диффузности из звуковых данных, относящихся к, по меньшей мере, одному из источников звука.

В соответствии с другим вариантом осуществления, каждое из значений местоположения каждого из источников звука может включать в себя, по меньшей мере, два значения координат (например, две координаты декартовой системы координат или азимут и расстояние в полярной системе координат). Модуль модификации может быть выполнен с возможностью модификации значений координат путем добавления, по меньшей мере, одного случайного числа к значениям координат или путем применения к значениям координат детерминированной функции, когда значения координат указывают, что источник звука расположен в местоположении, находящемся в предварительно определенной области окружающего пространства.

В соответствии со следующим вариантом осуществления, предоставляют поток звуковых данных. Поток звуковых данных может включать в себя звуковые данные, относящиеся к одному или более источникам звука, причем звуковые данные включают в себя одно или более значений давления для каждого из источников звука. Звуковые данные могут дополнительно включать в себя, по меньшей мере, одно значение местоположения, указывающее местоположение источника звука для каждого из источников звука. В варианте осуществления, каждое из, по меньшей мере, одного значения местоположения может включать в себя, по меньшей мере, два значения координат. Звуковые данные можно определить для частотно-временного элемента выборки из множества частотно-временных элементов выборки.

В другом варианте осуществления, звуковые данные дополнительно включают в себя одно или более значений диффузности для каждого из источников звука.

Ниже будут описаны предпочтительные варианты осуществления изобретения, в которых:

на фиг.1 проиллюстрировано устройство для генерации, по меньшей мере, одного выходного звукового сигнала на основании потока звуковых данных, включающего в себя звуковые данные, относящиеся к одному или более источникам звука в соответствии с вариантом осуществления,

на фиг.2 проиллюстрировано устройство для генерации потока звуковых данных, включающего в себя данные источников звука, относящихся к одному или более источникам звука в соответствии с вариантом осуществления,

на фиг.3a-3c проиллюстрированы потоки звуковых данных в соответствии с разными вариантами осуществления,

на фиг.4 проиллюстрировано устройство для генерации потока звуковых данных, включающего в себя данные источников звука, относящиеся к одному или более источникам звука в соответствии с другим вариантом осуществления,

на фиг.5 проиллюстрирована звуковая сцена, состоящая из двух источников звука и двух равномерных линейных массивов микрофонов,

на фиг.6a проиллюстрировано устройство 600 для генерации, по меньшей мере, одного выходного звукового сигнала на основании потока звуковых данных в соответствии с вариантом осуществления,

на фиг.6b проиллюстрировано устройство 660 для генерации потока звуковых данных, включающего в себя данные источников звука, относящихся к одному или более источникам звука в соответствии с вариантом осуществления,

на фиг.7 изображен модуль модификации в соответствии с вариантом осуществления,

на фиг.8 изображен модуль модификации в соответствии с другим вариантом осуществления,

на фиг.9 проиллюстрированы блоки передатчика/анализатора и блоки приемника/синтезатора в соответствии с вариантом осуществления,

на фиг.10a изображен модуль синтеза в соответствии с вариантом осуществления,

на фиг.10b изображен блок первого этапа синтеза в соответствии с вариантом осуществления,

на фиг.10c изображен блок второго этапа синтеза в соответствии с вариантом осуществления,

на фиг.11 изображен модуль синтеза в соответствии с другим вариантом осуществления,

на фиг.12 проиллюстрировано устройство для генерации выходного звукового сигнала виртуального микрофона в соответствии с вариантом осуществления,

на фиг.13 проиллюстрированы входы и выходы устройства и способ для генерации выходного звукового сигнала виртуального микрофона в соответствии с вариантом осуществления,

на фиг.14 проиллюстрирована основная структура устройства для генерации выходного звукового сигнала виртуального микрофона в соответствии с вариантом осуществления, которое включает в себя оценщик местоположения звукового события и модуль вычисления информации,

на фиг.15 показан примерный сценарий, в котором реальные пространственные микрофоны изображены как равномерные линейные массивы из 3 микрофонов каждый,

на фиг.16 показаны два пространственных микрофона в 3D, для оценки направления прихода в 3D пространстве,

на фиг.17 проиллюстрирована геометрия, в которой изотропный точечный источник звука текущего частотно-временного элемента выборки (k, n) расположен в местоположении PIPLS(k, n),

на фиг.18 показан модуль вычисления информации в соответствии с вариантом осуществления,

на фиг.19 показан модуль вычисления информации в соответствии с другим вариантом осуществления,

на фиг 20 показаны два реальных пространственных микрофона, локализованное звуковое событие и местоположение виртуального пространственного микрофона,

на фиг.21 проиллюстрировано, как получить направление прихода по отношению к виртуальному микрофону в соответствии с вариантом осуществления,

на фиг.22 показан возможный путь вывода DOA звука с точки зрения виртуального микрофона в соответствии с вариантом осуществления,

на фиг.23 проиллюстрирован блок вычисления информации, включающий в себя блок вычисления диффузности в соответствии с вариантом осуществления,

на фиг.24 показан блок вычисления диффузности в соответствии с вариантом осуществления,

на фиг.25 проиллюстрирован сценарий, при котором невозможна оценка местоположения звукового события,

на фиг.26 проиллюстрировано устройство для генерации потока данных виртуального микрофона в соответствии с вариантом осуществления,

на фиг.27 проиллюстрировано устройство для генерации, по меньшей мере, одного выходного звукового сигнала на основании потока звуковых данных в соответствии с другим вариантом осуществления, и

на фиг.28a-28c проиллюстрированы сценарии, в которых два массива микрофонов принимают прямой звук, звук, отраженный от стены, и диффузный звук.

До предоставления подробного описания вариантов осуществления настоящего изобретения описывают устройство для генерации выходного звукового сигнала виртуального микрофона, для предоставления уровня техники, относящегося к идеям настоящего изобретения.

На фиг.12 проиллюстрировано устройство для генерации выходного звукового сигнала для эмуляции записи микрофона в настраиваемом виртуальном местоположении posVmic в окружающем пространстве. Устройство включает в себя оценщик 110 местоположения звуковых событий и модуль 120 вычисления информации. Оценщик 110 местоположения звуковых событий принимает первую информацию о направлении di1 с первого реального пространственного микрофона и вторую информацию о направлении di2 со второго реального пространственного микрофона. Оценщик 110 местоположения звуковых событий выполнен с возможностью оценки местоположения источника звука ssp, указывающего местоположение источника звука в окружающем пространстве, источник звука испускает звуковую волну, причем оценщик 110 местоположения звуковых событий выполнен с возможностью оценки местоположения ssp источника звука на основании первой информации о направлении di1, предоставленной первым реальным пространственным микрофоном, расположенным в окружающем пространстве в месторасположении pos1mic первого реального пространственного микрофона, и на основании второй информации о направлении di2, предоставленной вторым реальным пространственным микрофоном, расположенным в окружающем пространстве в месторасположении второго реального пространственного микрофона. Модуль 120 вычисления информации выполнен с возможностью генерации выходного звукового сигнала на основании первого записанного входного звукового сигнала is1, записанного первым реальным пространственным микрофоном, на основании местоположения pos1mic первого реального пространственного микрофона и на основании виртуального местоположения posVmic виртуального микрофона. Модуль 120 вычисления информации включает в себя компенсатор распространения, выполненный с возможностью генерации первого модифицированного звукового сигнала, путем модификации первого записанного входного звукового сигнала is1, путем компенсации первой задержки или затухания амплитуды между приходом звуковой волны, испущенной источником звука на первый реальный пространственный микрофон и приходом звуковой волны на виртуальный микрофон, путем поправки значения амплитуды, значения магнитуды или значения фазы первого записанного звукового сигнала is1, для получения выходного звукового сигнала.

На фиг.13 проиллюстрированы входы и выходы устройства и способ, в соответствии с вариантом осуществления. Информацию с двух или более реальных пространственных микрофонов 111, 112, …, 11N направляют в устройство/обрабатывают в соответствии со способом. Эта информация включает звуковые сигналы, принятые реальными пространственными микрофонами, а также информацию о направлении с реальных пространственных микрофонов, например, оценки направления прихода (DOA). Звуковые сигналы и информация о направлении, такие как оценки направления прихода, можно выражать в частотно-временной области. Если, например, требуема реконструкция 2D геометрии и для представления сигналов выбрана традиционная область STFT (кратковременное преобразование Фурье), DOA можно выразить как углы азимута, зависимые от k и n, а именно частотного и временного индексов.

В вариантах осуществления, локализацию звукового события в пространстве, а также описание местоположения виртуального микрофона, можно проводить на основании местоположений и ориентации реальных и виртуальных пространственных микрофонов в общей системе координат. Эту информацию можно представить входными сигналами 121…12N и входным сигналом 104 на фиг.13. Входной сигнал 104 может дополнительно указывать характеристику виртуального пространственного микрофона, например, его местоположение и диаграмму направленности приема, как будет описано ниже. Если виртуальный пространственный микрофон включает в себя многочисленные виртуальные датчики, можно учитывать их местоположения и соответствующие разные диаграммы направленности приема.

Выходным сигналом устройства или соответствующего способа могут являться, если желательно, один или более звуковых сигналов 105, которые можно было принять пространственным микрофоном, определенным и расположенным, как указано 104. Более того, устройство (или, скорее, способ) может, в качестве выхода, предоставлять соответствующую пространственную информацию 106 стороны, которую можно оценить с применением виртуального пространственного микрофона.

На фиг.14 проиллюстрировано устройство в соответствии с вариантом осуществления, которое включает в себя два главных блока обработки, оценщик 201 местоположения звуковых событий и модуль 202 вычисления информации. Оценщик 201 местоположения звуковых событий может выполнять геометрическую реконструкцию на основании DOA, включенных в входы 111…11N, и на основании знания местоположения и ориентации реальных пространственных микрофонов, где DOA были вычислены. Выходной сигнал оценщика 205 местоположения звуковых событий включает в себя оценку местоположения (либо в 2D, либо в 3D) источников звука, причем для каждого частотно-временного элемента выборки происходят звуковые события. Второй блок 202 обработки представляет собой модуль вычисления информации. В соответствии с вариантом осуществления с фиг.14, второй блок 202 обработки вычисляет сигнал виртуального микрофона и информацию о пространственной стороне. Таким образом, еще его обозначают как блок 202 вычисления сигнала виртуального микрофона и информации стороны. Блок 202 вычисления сигнала виртуального микрофона и информации стороны, для обработки звуковых сигналов, включенных в 111…11N, использует местоположения 205 звуковых событий, для выходного сигнала звукового сигнала 105 виртуального микрофона. Блок 202, если требуется, также может вычислять информацию 106 пространственной стороны, соответствующую виртуальному пространственному микрофону. Варианты осуществления ниже иллюстрируют возможные варианты функционирования блоков 201 и 202.

В нижеследующем, оценка местоположения звуковых событий, в соответствии с вариантом осуществления, описана более детально.

На основании размерности задачи (2D или 3D) и количества пространственных микрофонов возможны несколько решений по оценке местоположения.

Если в 2D существуют два пространственных микрофона, (самый простой из возможных случай) возможна простая триангуляция. На фиг.15 показан примерный сценарий, в котором реальные пространственные микрофоны изображены как равномерные линейные массивы (ULA) из трех микрофонов каждый. DOA, выраженная как углы азимута a1(k, n) и a2(k, n), рассчитывают для частотно-временного элемента выборки (k, n). Этого достигают, применяя подходящий оценщик DOA, такой как ESPRIT,

[13] R. Roy, A. Paulraj, and T, Kailath, "DIrection-of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986,

или (корневой) MUSIC, см.

[14] R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986

к сигналам давления, преобразованным в частотно-временную область.

На фиг.15 проиллюстрированы два реальных пространственных микрофона, здесь, два реальных пространственных массива микрофонов 410, 420. Два оцениваемых DOA a1(k, n) и a2(k, n) представлены двумя линиями, первой линией 430, представляющей DOA a1(k, n), и второй линией 440, представляющей DOA a2(k, n). Зная местоположение и ориентацию каждого массива, при помощи простых геометрических принципов возможна триангуляция.

Триангуляция невозможна, когда две линии, 430, 440, в точности параллельны. Однако, в реальном применении это крайне маловероятно. Однако, не все результаты триангуляции соответствуют физическому или реалистическому местоположению звукового события в рассматриваемом пространстве. Например, оцененное местоположение звукового события может быть слишком удаленно или даже вне предполагаемого пространства, указывая на то, что возможно DOA не соответствуют никакому звуковому событию, которое можно физически интерпретировать в используемой модели. Такие результаты могут быть вызваны шумом датчиков или слишком сильной реверберацией комнаты. Таким образом, в соответствии с вариантом осуществления, такие нежелательные результаты помечают так, чтобы модуль 202 вычисления информации мог обработать их соответствующим образом.

На фиг.16 изображен сценарий, в котором местоположения звукового события оценивают в 3D пространстве. Применяют подходящие пространственные микрофоны, например, планарный или 3D массив микрофонов. На фиг.16, первый пространственный микрофон 510, например, является первым 3D массивом микрофонов, и второй пространственный микрофон 520, например, является вторым 3D массивом микрофонов, как проиллюстрировано. DOA в 3D пространстве можно, например, выразить как азимут и высоту. Для выражения DOA можно применить блочные векторы 530, 540. Две линии, 550, 560 проецируют в соответствии с DOA. В 3D, даже при очень достоверных оценках, две линии, 550, 560, спроецированные в соответствии с DOA, могут не пересечься. Однако, триангуляцию все равно можно выполнить, например, путем выбора средней точки наименьшего сегмента, соединяющего две линии.

Аналогично со случаем 2D, триангуляция может закончиться неудачей, либо предоставить неправдоподобные результаты для определенной комбинации направлений, которые, затем, также можно пометить, например, для блока 202 вычисления информации с фиг.14.

Если существует более двух пространственных микрофонов, возможны несколько решений. Например, триангуляцию, описанную выше, можно выполнить для всех пар реальных пространственных микрофонов (если N=3, 1 со 2, 1 с 3 и 2 с 3). Затем, результирующие местоположения можно усреднить (вдоль x и y, и, если рассматривается 3D, z).

Иначе, можно использовать более сложные принципы. Например, как описано в

[15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553.

можно применять вероятностные подходы.

В соответствии с вариантом осуществления, звуковое поле можно анализировать в частотно-временной области, например, полученной при помощи оконного преобразования Фурье (STFT), в котором k и n обозначают частотный индекс k и временной индекс n, соответственно. Сложное давление Pv(k, n) в произвольном местоположении Pv для определенных k и n моделируют, как одиночную сферическую волну, испущенную узкополосным изотропным точечн