2570359 - Прием звука посредством выделения геометрической информации из оценок направления его поступления

Прием звука посредством выделения геометрической информации из оценок направления его поступления

Иллюстрации

Показать все

Изобретение относится к акустике, в частности к средствам обработки звуковых сигналов. Устройство содержит блок оценки местоположения звуковых событий и модуль вычисления информации. Блок оценки местоположения звуковых событий адаптирован для оценки местоположения источника звука на основе информации о первом и втором направлении, информация о которых принимается от первого и второго реальных пространственных микрофонов. Модуль вычисления информации адаптирован для создания выходного аудиосигнала на основе первого записанного входного аудиосигнала, на основе виртуального местоположения виртуального микрофона и на основе местоположения источника звука. Модуль вычисления информации содержит компенсатор распространения, адаптированный для модификации первого входного аудиосигнала на основе первого и второго затухания амплитуды путем регулировки значения амплитуды, значения магнитуды или значения фазы записанного входного аудиосигнала. Также компенсатор адаптирован для компенсации первой временной задержки между поступлением звуковой волны, излучаемой звуковым событием у первого реального пространственного микрофона, и поступлением звуковой волны у виртуального микрофона. Технический результат - повышение качества звучания, уменьшение величины реверберации. 3 н. и 15 з.п. ф-лы, 17 ил.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение относится к обработке аудиоданных и, в частности, касается устройств и способа для приема звука посредством выделения геометрической информации из оценок направления его поступления.

Уровень техники

Традиционная запись пространственного звука ставит своей целью зафиксировать звуковое поле с помощью множества микрофонов, так чтобы на стороне воспроизведения слушатель смог воспринимать звуковое изображение, каким оно было в месте записи. В стандартных подходах к записи пространственного звука обычно используются разнесенные всенаправленные микрофоны, например, как в AB-стереофонии, или совмещенные направленные микрофоны, например, как в интенсивной стереофонии, либо более сложные микрофоны, такие как микрофон B-формата, например, как в системе Ambisonics (смотри, например,

[1] R. K. Furness, "Ambisonics - An overview," in AES 8^th International Conference, April 1990, pp. 181-189).

Для воспроизведения звука согласно этим непараметрическим подходам необходимые аудиосигналы воспроизведения (например, сигналы, посылаемые на громкоговорители) получают непосредственно из записанных микрофонных сигналов.

В качестве альтернативы могут применяться способы на основе параметрического представления звуковых полей, которые предполагают использование так называемых параметрических пространственных аудиокодеров. Эти способы части предусматривают использование микрофонных матриц для определения одного или нескольких аудиосигналов понижающего микширования вместе с дополнительной пространственной информацией, описывающей пространственный звук. Примерами этого являются прямое аудиокодирование (DirAC) или подход на основе использования так называемых пространственных микрофонов (SAM). Более подробное описание DirAC можно найти в

[2] Pulkki, V., "Directional audio coding in spatial sound reproduction and stereo upmixing," in Proceedings of the AES 28^th International Conference, pp. 251-258, Pitea, Sweden, June 30 - July 2, 2006,

[3] V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc, vol. 55, no. 6, pp. 503-516, June 2007.

Более подробное описание использования пространственных микрофонов можно найти в

[4] C. Fallen "Microphone Front-Ends for Spatial Audio Coders", in Proceedings of the AES 125^th International Convention, San Francisco, Oct. 2008. [5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuch, D. Mahne, R. Schultz-Amling. and O. Thiergart, "A spatial filtering approach for directional audio coding," in Audio Engineering Society Convention 126, Munich, Germany, May 2009.

В способе DirAC информация в пространственном акустическом сигнале содержит направление поступления (DOA) звука и диффузность звукового поля, вычисленные в частотно-временной области. Аудиосигналы для воспроизведения звука могут быть получены на основе их параметрического описания. В некоторых приложениях прием пространственного звука ставит своей целью фиксацию всей звуковой сцены в целом. В других приложениях прием пространственного звука ставит своей целью фиксацию лишь некоторых необходимых компонент. Для записи отдельных источников звука с высоким отношением сигнал-шум и низкой реверберацией часто используют микрофоны ближнего действия, в то время как в дистанционные конфигурации, рассчитанные на большие расстояния, такие как XY-стереофония, обеспечивают механизм для фиксации пространственного представления всей звуковой сцены. Повышенная гибкость с точки зрения направленности может быть достигнута при использовании формирования луча, где для реализации управляемых диаграмм направленности съема звука может быть использована микрофонная матрица. Еще большая гибкость обеспечивается вышеупомянутыми способами, такими как прямое аудиокодирование (DirAC) (смотри [2], [3]), где можно реализовать пространственные фильтры с произвольными диаграммами направленности съема звука, как это описано в

[5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuch, D. Mahne, R. Schultz-Amling. and O. Thiergart, "A spatial filtering approach for directional audio coding," in Audio Engineering Society Convention 126, Munich, Germany, May 2009,

а также другие манипуляции для обработки сигналов звуковой сцены (смотри, например,

[6] R. Schultz-Amling, F. Kiich, O. Thiergart, and M. Kallinger, "Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, London UK, May 2010,

[7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger, and O. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology," in Audio Engineering Society Convention 128, London UK, May 2010).

Общим во всех вышеупомянутых концепциях является то, что микрофоны скомпонованы с известными фиксированными геометрическими характеристиками. Интервалы между микрофонами минимальны, насколько это возможно, в случае использования совмещенных микрофонов, в то время как в других способах они обычно составляют несколько сантиметров. Далее любое устройство для записи пространственного звука, способное определять направление поступления звука (например, комбинация направленных микрофонов или микрофонная матрица и т.д.), называется пространственным микрофоном.

Кроме того, общим для всех вышеупомянутых способов является то, что они ограничены представлением звукового поля относительно только одной точки, а именно, места измерения. Таким образом, необходимые микрофоны должны быть размещены в совершенно конкретных, тщательно выбранных местах, например, рядом с источниками звука, или так, чтобы можно было зафиксировать пространственное изображение оптимальным образом.

Однако во многих приложениях это физически невозможно, и, следовательно, выгодно разместить несколько микрофонов подальше от источников звука без потери требуемой способности фиксации звука.

На сегодняшний день существует несколько способов восстановления для оценки звукового поля в точке пространства, отличной от точки, где выполнялось измерение. Одним из таких способов является акустическая голография, описанная в

[8] E. G. Williams, Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography, Academic Press, 1999.

Акустическая голография позволяет вычислить звуковое поле в любой точке при произвольном объеме при условии, что известны звуковое давление и акустическая скорость частиц на всей поверхности. Следовательно, когда объем велик, потребуется нереально большое количество датчиков. Кроме того, этот способ предполагает, что внутри данного объема отсутствуют источники звука, что делает данный алгоритм неприемлемым для сформулированных потребностей. Соответствующая экстраполяция волнового поля (смотри также [8]) ставит своей целью экстраполяцию известного звукового поля на поверхности объема на внешние области. Однако точность экстраполяции быстро падает с возрастанием расстояния, а также в случае экстраполяций в направлениях, перпендикулярных направлению распространения звука (смотри

[9] A. Kuntz and R. Rabenstein, "Limitations in the extrapolation of wave fields from circular measurements," in 15th European Signal Processing Conference (EUSIPCO 2007), 2007.

[10] A. Walther and C. Faller, "Linear simulation of spaced microphone arrays using b-format recordings," in Audio Engineering Society Convention 128, London UK, May 2010,

где описана модель плоской волны и где экстраполяция поля возможна только в точках, отдаленных от реальных источников звука, например, рядом с точкой измерения.

Главным недостатком традиционных подходов является то, что записанное пространственное изображение всегда связано с используемым пространственным микрофоном. Во многих приложениях нельзя или физически невозможно разместить пространственный микрофон в требуемом месте, например, рядом с источниками звука. В этом случае было бы выгодно разместить множество пространственных микрофонов вдали от звуковой сцены без потери способности требуемой фиксации звука.

В [11] US61/287596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal,

предложен способ для виртуального перемещения реального местоположения записи в другое место при воспроизведении через громкоговорители или наушники. Однако этот подход применим лишь к простой звуковой сцене, в которой, как предполагается, все звуковые объекты расположены на одинаковом расстоянии по отношению к реальному пространственному микрофону, используемому для записи. Кроме того, этот способ может дать преимущества только в случае одного пространственного микрофона.

Сущность изобретения

Цель настоящего изобретения состоит в усовершенствовании концепций приема звука посредством извлечения геометрической информации. Цель настоящего изобретения достигается с помощью устройства согласно пункту 1 формулы изобретения, способа согласно пункту 17 формулы изобретения и машиночитаемого носителя согласно пункту 18 изобретения.

Согласно одному варианту обеспечено устройство для создания выходного аудиосигнала для имитации записи, осуществляемой виртуальным микрофоном, находящимся в конфигурируемом виртуальном местоположении в окружающей среде. Устройство содержит блок оценки местоположения звуковых событий и модуль вычисления информации. Блок оценки местоположения звуковых событий приспособлен для оценки местоположения источника звука, указывающего местоположение источника звука в окружающей среде, причем этот блок оценки местоположения звуковых событий приспособлен для оценки местоположения источника звука на основе информации о первом направлении, обеспечиваемой первым реальным пространственным микрофоном, который находится в месте расположения первого реального микрофона в окружающей среде, и основан на информации о втором направлении, обеспечиваемой вторым реальным пространственным микрофоном, который находится в месте расположения второго реального микрофона в упомянутой окружающей среде.

Модуль вычисления информации приспособлен для создания выходного аудиосигнала на основе первого записанного входного аудиосигнала, который записывается первым реальным пространственным микрофоном, на основе местоположения первого реального микрофона, на основе виртуального местоположения виртуального микрофона и на основе местоположения источника звука, где первый реальный пространственный микрофон сконфигурирован для записи первого записанного входного аудиосигнала, или где третий микрофон сконфигурирован для записи первого записанного входного аудиосигнала.

В одном варианте модуль вычисления информации содержит компенсатор распространения, где компенсатор распространения приспособлен для создания первого модифицированного аудиосигнала путем модификации первого записанного входного аудиосигнала на основе первого затухания амплитуды между источником звука и первым реальным пространственным микрофоном и на основе второго затухания амплитуды между источником звука и виртуальным микрофоном, путем регулировки значения амплитуды, значения магнитуды или значения фазы первого записанного входного аудиосигнала, для получения выходного аудиосигнала. В одном варианте первое затухание амплитуды может представлять собой затухание амплитуды звуковой волны, излучаемой источником звука, и второе затухание амплитуды может представлять собой затухание амплитуды звуковой волны, излучаемой источником звука.

Кроме того, компенсатор распространения адаптирован для создания третьего модифицированного аудиосигнала путем модификации третьего записанного входного аудиосигнала, записанного четвертым микрофоном, путем компенсации третьей временной задержки или третьего затухания амплитуды между поступлением звуковой волны, излучаемой звуковым событием, у четвертого микрофона, и поступлением звуковой волны у виртуального микрофона, путем регулировки значения амплитуды, значения магнитуды или значения фазы третьего записанного входного аудиосигнала для получения выходного аудиосигнала.

Согласно другому варианту модуль вычисления информации содержит компенсатор распространения, где компенсатор распространения приспособлен для создания первого модифицированного аудиосигнала путем модификации первого записанного входного аудиосигнала путем компенсации первого затухания между поступлением звуковой волны, излучаемой источником звука, у первого реального пространственного микрофона, и поступлением звуковой волны у виртуального микрофона путем регулировки значения амплитуды, значения магнитуды или значения фазы первого записанного входного аудиосигнала для получения выходного аудиосигнала.

Согласно одному варианту предполагается использовать два или более пространственных микрофона, которые далее называют реальными пространственными микрофонами. Для каждого реального пространственного микрофона можно оценить DOA звука в частотно-временной области. Из информации, собранной реальными пространственными микрофонами, зная их относительное местоположение, можно сформировать выходной сигнал произвольного пространственного микрофона, виртуально размещенного в указанной окружающей среде. Этот пространственный микрофон называют далее виртуальным пространственным микрофоном.

Заметим, что направление поступления (DOA) можно выразить в виде азимутального угла, если речь идет о двумерном пространстве, или в виде пары, состоящей из азимутального угла и угла места, в трехмерном пространстве. В качестве эквивалента можно использовать единичный нормальный вектор, указанный в DOA.

В ряде вариантов обеспечены средства для избирательной пространственной фиксации звука; например, звук, исходящий из конкретного заданного места, может быть зафиксирован, как если бы в этом месте был установлен близлежащий «точечный микрофон». Однако вместо реальной установки этого точечного микрофона можно имитировать его выходной сигнал путем использования двух или более пространственных микрофонов, расположенных в других удаленных местах.

Термин «пространственный микрофон» относится к любому устройству для приема пространственного звука, способному извлекать направление поступления звука (например, комбинация направленных микрофонов, микрофонные матрицы и т.д.).

Термин «непространственный микрофон» относится к любому устройству, которое не приспособлено для извлечения направления поступления звука, например, один всенаправленный или направленный микрофон.

Следует заметить, что термин «реальный пространственный микрофон» относится к пространственному микрофону, определенному выше, который физически существует.

Что касается виртуального пространственного микрофона, то следует заметить, что виртуальный пространственный микрофон может представлять собой микрофон любого требуемого типа или их комбинацию, например, это может быть единичный всенаправленный микрофон, направленный микрофон, пару направленных микрофонов, используемых в обычных стереомикрофонах, но также и микрофонную матрицу.

Настоящее изобретение основано на установленном положении, заключающемся в том, что при использовании двух или более реальных пространственных микрофонов можно оценить местоположение звуковых событий в двухмерном или трехмерном пространстве, что позволяет обеспечить локализацию местоположения. Используя определенные местоположения звуковых событий, можно вычислить звуковой сигнал, который мог бы быть записан виртуальным пространственным микрофоном, произвольно расположенным и ориентированным в пространстве, а также соответствующую дополнительную пространственную информацию, такую как направление поступления из точки обзора виртуального пространственного микрофона.

С этой целью можно предположить, что каждое звуковое событие представляет точечный источник звука, например, изотропный точечный источник звука. Используемый далее термин «реальный источник звука» относится к действительному источнику звука, физически существующему в среде записи, например, собеседники или музыкальные инструменты и т.д. С другой стороны, термины «источник звука» или «звуковое событие» относятся далее к действующему источнику звука, который активен в определенный момент времени или в определенном частотно-временном бине, где источники звука могут представлять, например, реальные источники звука или источники зеркальных изображений. Согласно одному варианту предположим в неявном виде, что звуковую сцену можно смоделировать в виде интенсивности указанных звуковых событий или точечных источников звука. Кроме того, можно предположить, что каждый источник может быть активен только в течение конкретного временного интервала и на частотном слоте в заранее определенном частотно-временном представлении. Расстояние между реальными пространственными микрофонами может быть таким, что результирующее различие между временами распространения будет меньше, чем временное разрешение частотно-временного представления. Последнее предположение гарантирует, что конкретное звуковое событие будет фиксироваться всеми пространственными микрофонами в одном и том же временном слоте. Это означает, что направления DOA, оцененные разными пространственными микрофонами для одного и того же частотно-временного слота, будут действительно соответствовать одному и тому же звуковому событию. Это предположение нетрудно удовлетворить, используя реальные пространственные микрофоны, размещенные в нескольких метрах друг от друга даже в больших помещениях (таких как жилые комнаты или конференц-залы) при временном разрешении, составляющем вплоть до нескольких миллисекунд.

Для локализации источников звука можно использовать микрофонные матрицы. Локализованные источники звука можно по-разному физически интерпретировать в зависимости от их природы. Когда микрофонные матрицы воспринимают звук напрямую, они способны локализовать местоположение действительного источника звука (например, собеседников). Когда микрофонные матрицы принимают отраженные сигналы, они могут локализовать местоположение источника зеркального отражения. Источники зеркального отражения также считаются источниками звука.

Обеспечен параметрический способ, способный оценить звуковой сигнал виртуального микрофона, имеющего произвольное местоположение. В отличие от ранее описанных способов, предложенный способ не ставит своей целью непосредственное восстановление звукового поля, а скорее имеет своей целью обеспечение звука, воспринимаемого подобно звуку, который был бы зафиксирован микрофоном, физически размещенным в этом месте. Это можно обеспечить, используя параметрическую модель звукового поля на основе точечных источников звука, например, изотропных точечных источников звука (IPLS). Необходимую геометрическую информацию, а именно, мгновенное местоположение всех IPLS, можно получить путем выполнения триангуляции направлений поступления, оцененных двумя или более распределенными микрофонными матрицами. Это можно достичь, получив информацию об относительном местоположении и ориентации этих матриц. При этом количество и местоположение действительных источников звука (например, собеседников) заранее знать не обязательно. При заданных параметрических особенностях предложенных концепций, например, касающихся предложенного устройства или способа, виртуальный микрофон может иметь произвольную диаграмму направленности, а также произвольные физические или нефизические свойства, например, в отношении снижения звукового давления с расстоянием. Представленный здесь подход был верифицирован путем исследования точности оценки параметров на основе измерений в реверберирующей среде.

В то время как традиционные способы записи для пространственного аудио ограничены, поскольку полученное пространственное изображение всегда соотнесено с местом, в котором физически размещены микрофоны, варианты настоящего изобретения учитывают, что во многих приложениях микрофоны желательно размещать вне звуковой сцены, причем они еще должны быть способны при этом фиксировать звук с произвольного ракурса. Согласно вариантам изобретения предложены концепции, которые позволяют виртуально разместить виртуальный микрофон в произвольной точке пространства путем вычисления сигнала, воспринимаемого подобно сигналу, который был бы зафиксирован в том случае, если бы микрофон был физически размещен в звуковой сцене. Варианты изобретения позволяют реализовать концепции, которые предполагают использование параметрической модели звукового поля на основе точечных источников звука, например, изотропных точечных источников звука. Необходимую геометрическую информацию можно получить, используя две или более распределенных микрофонных матрицы.

Согласно одному варианту изобретения блок оценки местоположения звуковых событий можно адаптировать для оценки местоположения источника звука на основе первого направления поступления звуковой волны, излучаемой источником звука, в месте расположения первого реального микрофона, в качестве информации о первом направлении, и на основе второго направления поступления звуковой волны в месте расположения второго реального микрофона, в качестве информации о втором направлении.

В других вариантах модуль вычисления информации может содержать модуль вычисления дополнительной пространственной информации для вычисления дополнительной пространственной информации. Модуль вычисления информации может быть адаптирован для оценки направления поступления или интенсивности активизированного звука у виртуального микрофона, в качестве дополнительной пространственной информации на основе вектора местоположения виртуального микрофона и на основе вектора местоположения звукового события.

Согласно еще одному варианту изобретения компенсатор распространения можно адаптировать для создания первого модифицированного аудиосигнала в частотно-временной области путем компенсации первой задержки или затухания амплитуды между поступлением второй волны, излучаемой вторым источником, у первого реального пространственного микрофона, и поступлением звуковой волны у виртуального микрофона путем регулировки значения указанной интенсивности первого записанного входного аудиосигнала, представленного в частотно-временной области.

В одном варианте компенсатор распространения может быть адаптирован для выполнения компенсации распространения путем создания модифицированного значения магнитуды первого модифицированного аудиосигнала с применением формулы:

где d₁(k,n) представляет собой расстояние между местоположением первого реального пространственного микрофона и местоположением звукового события, где s(k,n) - расстояние между виртуальным местоположением виртуального микрофона и местоположением источника звука для данного звукового события, где P_ref(k,n) - значение магнитуды первого записанного входного аудиосигнала, представляемого в частотно-временной области, и где P_v(k,n) - модифицированное значение магнитуды.

В дополнительном варианте модуль вычисления информации кроме того может содержать объединитель, причем компенсатор распространения кроме того может быть адаптирован для модификации второго записанного входного аудиосигнала, записываемого вторым реальным пространственным микрофоном, посредством компенсации второй задержки или затухания амплитуды между моментом поступления звуковой волны, излучаемой источником звука, на второй реальный пространственный микрофон, и моментом поступления звуковой волны на виртуальный микрофон путем регулировки значения амплитуды, значения магнитуды или значения фазы второго записанного входного аудиосигнала, чтобы получить второй модифицированный аудиосигнал, и где объединитель может быть адаптирован для создания объединенного сигнала путем объединения первого модифицированного аудиосигнала и второго модифицированного аудиосигнала, для получения выходного аудиосигнала.

Согласно еще одному варианту компенсатор распространения кроме того можно адаптировать для модификации одного или нескольких дополнительно записанных входных аудиосигналов, записываемых одним или несколькими дополнительными реальными пространственными микрофонами, посредством компенсации задержек между моментом поступления звуковой волны на виртуальный микрофон и моментом поступления звуковой волны, излучаемой источником звука, на каждый из дополнительных реальных пространственных микрофонов. Каждую задержку или затухание амплитуды можно компенсировать посредством регулировки значения амплитуды, значения магнитуды или значения фазы каждого из дополнительно записанных входных аудиосигналов, чтобы получить множество третьих модифицированных аудиосигналов. Упомянутый объединитель можно адаптировать для создания объединенного сигнала посредством объединения первого модифицированного аудиосигнала и второго модифицированного аудиосигнала и множества третьих модифицированных аудиосигналов для получения выходного аудиосигнала.

В следующем варианте модуль вычисления информации может содержать блок спектрального взвешивания для создания взвешенного аудиосигнала путем модификации первого модифицированного аудиосигнала в зависимости от направления поступления звуковой волны в виртуальном местоположении виртуального микрофона, а также в зависимости от виртуальной ориентации виртуального микрофона для получения выходного аудиосигнала, где первый модифицированный аудиосигнал может быть модифицирован в частотно-временной области.

Кроме того, модуль вычисления информации может содержать блок спектрального взвешивания для создания взвешенного аудиосигнала путем модификации объединенного сигнала в зависимости от направления поступления звуковой волны в виртуальное место нахождения виртуального микрофона, а также в зависимости от виртуальной ориентации виртуального микрофона для получения выходного аудиосигнала, где объединенный сигнал может быть модифицирован в частотно-временной области.

Согласно еще одному варианту блок спектрального взвешивания может быть адаптирован для применения весового коэффициента

α+(1-α)cos(φ_v(k,n)), или весового коэффициента

0,5+0,5cos(φ_v (k,n))

для взвешенного аудиосигнала,

где φ_v(k,n) указывает вектор направления поступления звуковой волны, излучаемой источником звука, в виртуальное место расположения виртуального микрофона.

В одном варианте компенсатор распространения кроме того адаптирован для создания третьего модифицированного аудиосигнала посредством модификации третьего записанного входного аудиосигнала, записываемого всенаправленным микрофоном, путем компенсации третьей задержки или затухания амплитуды между моментом поступления звуковой волны, излучаемой вторым источником звука, на всенаправленный микрофон, и моментом поступления звуковой волны на виртуальный микрофон, путем регулировки значения амплитуды, значения магнитуды или значения фазы третьего записанного входного аудиосигнала, чтобы получить выходной аудиосигнал.

В следующем варианте блок оценки местоположения звуковых событий может быть адаптирован для оценки местоположения источника звука в трехмерной окружающей среде.

Кроме того, согласно еще одному варианту модуль вычисления информации, кроме того, может содержать блок вычисления диффузности, адаптируемый для оценки энергии диффузного звука у виртуального микрофона или энергии прямого звука у виртуального микрофона.

Блок вычисления диффузности согласно следующему варианту может быть адаптирован для оценки энергии диффузного звука у виртуального микрофона путем применения формулы:

где N - количество реальных пространственных микрофонов из множества реальных пространственных микрофонов, содержащее первый и второй реальный пространственный микрофон, и где - энергия диффузного звука у i-го реального пространственного микрофона.

В следующем варианте блок вычисления диффузности можно адаптировать для оценки энергии прямого звука путем применения формулы:

где «расстояние SMi-IPLS» - расстояние между местоположением i-го реального микрофона и местоположением источника звука, где «расстояние VM-IPLS» - расстояние между виртуальным местоположением и местоположением источника звука и где - прямая энергия у i-го реального пространственного микрофона.

Кроме того, согласно еще одному варианту блок вычисления диффузности может, кроме того, быть адаптирован для оценки диффузности у виртуального микрофона путем оценки энергии диффузного звука у виртуального микрофона и энергии прямого звука у виртуального микрофона с применением формулы:

где указывает оцениваемую диффузность у виртуального микрофона, где указывает оцениваемую энергию диффузного звука и где указывает оцениваемую энергию прямого звука.

Краткое описание чертежей

Далее описываются предпочтительные варианты настоящего изобретения со ссылками на чертежи, на которых:

фиг. 1 - устройство для создания выходного сигнала согласно одному варианту настоящего изобретения;

фиг. 2 - входы и выходы устройства и способ создания выходного аудиосигнала согласно настоящему изобретению;

фиг. 3 - базовая структура устройства согласно одному варианту, которая содержит блок оценки местоположения звуковых событий, и модуль вычисления информации;

фиг. 4 - иллюстрация примерного сценария, где реальные пространственные микрофоны изображены в виде однородных линейных матриц из 3 микрофонов каждая;

фиг. 5 - два пространственных микрофона в трехмерном (3D) пространстве для оценки направления поступления звука в 3D пространстве;

фиг. 6 - геометрическая схема, где изотропный точечный источник звука для текущего частотно-временного бина (k,n) расположен у места расположения p_iPLs(k,n);

фиг. 7 - модуль вычисления информации согласно одному варианту настоящего изобретения;

фиг. 8 - модуль вычисления информации согласно другому варианту настоящего изобретения;

фиг. 9 - два реальных пространственных микрофона, локализованное звуковое событие и местоположение виртуального пространственного микрофона вместе с соответствующими задержками и затуханиями амплитуды;

фиг. 10 - иллюстрация способа получения направления поступления по отношению к виртуальному микрофону согласно одному варианту настоящего изобретения;

фиг. 11 - возможный способ получения DOA звука из точки обзора виртуального микрофона согласно одному варианту настоящего изобретения;

фиг. 12 - блок вычисления информации, дополнительно содержащий блок вычисления диффузности согласно одному варианту настоящего изобретения;

фиг. 13 - блок вычисления диффузности согласно одному варианту настоящего изобретения;

фиг. 14 - пример сценария, в котором невозможна оценка местоположения звуковых событий; и

фиг. 15а-15с - примеры сценариев, где две микрофонные матрицы принимают прямой звук, звук, отраженный стеной, и диффузный звук.

Подробное описание вариантов изобретения

На фиг. 1 показано устройство для создания выходного аудиосигнала с целью имитации записи, выполняющейся виртуальным микрофоном у конфигурируемого виртуального места posVmic его расположения в окружающей среде. Устройство содержит блок 110 оценки местоположения звуковых событий и модуль 120 вычисления информации. Блок 110 оценки местоположения звуковых событий получает информацию di1 о первом направлении от первого реального пространственного микрофона и информацию di2 о втором направлении от второго реального пространственного микрофона. Блок 110 оценки местоположения звуковых событий адаптирован для оценки ssp местоположения звукового события, указывающей местоположение источника звука в окружающей среде, где источник звука излучает звуковую волну, и где блок 110 оценки местоположения звуковых событий адаптирован для оценки ssp местоположения источника звука на основе информации di1 о первом направлении, обеспечиваемой первым реальным пространственным микрофоном, находящимся в месте pos1mic первого реального микрофона в данной окружающей среде, и на основании информации di2 о втором направлении, обеспечиваемой вторым реальным пространственным микрофоном, находящимся в окрестности места расположения второго реального микрофона в данной окружающей среде. Модуль 120 вычисления информации адаптирован для создания выходного аудиосигнала на основе первого записанного входного аудиосигнала is1, записываемого первым реальным пространственным микрофоном, на основе местоположения pos1mic первого реального микрофона и на основе виртуального местоположения posVmic виртуального микрофона. Модуль 120 вычисления информации содержит компенсатор распространения, адаптируемый для создания первого модифицированного аудиосигнала посредством модификации первого записанного входного аудиосигнала is1 посредством компенсации первой задержки или затухания амплитуды между моментом поступления звуковой волны, излучаемой источником звука, у первого реального пространственного микрофона и моментом поступления звуковой волны у виртуального микрофона путем регулировки значения амплитуды, значения магнитуды или значения фазы первого записанного входного аудиосигнала is1, чтобы получить выходной аудиосигнал.

На фиг. 2 показаны входы и выходы устройства и способа согласно одному варианту изобретения. Информация от двух или более реальных пространственных микрофонов 111, 112,… 11N подается в устройство/обрабатывается с использованием упомянутого способа. Эта информация содержит аудиосигналы, зафиксированные реальными пространственными микрофонами, а также информацию о направлении от реальных пространственных микрофонов, например, оценки направления поступления (DOA). Аудиосигналы и информация о направлении, например, оценки управления поступления, могут быть представлены в частотно-временной области. Например, если требуется восстановление в 2D геометрии, и для представления сигналов выбрана область традиционного кратковременного преобразования Фурье (STFT), то DOA можно выразить в виде азимутальных улов, зависящих от k и n, а именно от индексов частоты и времени.

В вариантах настоящего изобретения локализация звукового события в пространстве, а также описание местоположения могут быть выполнены на основе местоположений и ориентаций реальных и виртуальных пространственных микрофонов в общей системе координат. Эта информация может быть представлена входами 121,… 12N и входом 104 на фиг. 2. Вход 104 может дополнительно задать некоторую характеристику виртуального пространственного микрофона, например, его местоположение и диаграмму направленности приема звука, что обсуждается далее. Если виртуальный пространственный микрофон содержит множество виртуальных датчиков, то можно будет учесть их местоположение и соответствующие различные диаграммы направленности приема.

Выходом устройства или соответствующего способа может быть, когда это требуется, один или несколько пространственных сигналов 105, которые были зафиксированы пространственным микрофоном, определенным и размещенным так, как это задано ссылочной позицией 104. Кроме того, устройство (или, скорее, способ) в качестве выхода может предоставить дополнительную пространственную информацию 106, которую можно оценить, используя виртуальный пространственный микрофон.

На фиг. 3 показано устройство согласно одному варианту, которое содержит два основных обрабатывающих блока, блок 201 оценки местоположения звуковых событий и модуль 202 вычисления информации. Блок 201 оценки местоположения звуковых событий может выполнять геометрическое восстановление на основе направлений (DOA), содержащихся во входных сигналах 111,… 11N, и на основе известно местоположения и известной ориентации реальных пространственных микрофонов, где были вычислены направления DOA. Выход блока 205 оценки местоположения звуковых событий содержит оценки местоположения (в 2D или 3D пространстве) источников звука, где звуковые события появляются для каждого частотно-временного бина. Второй обрабатывающий блок 202 является модулем вычисления информации. Соглас

Прием звука посредством выделения геометрической информации из оценок направления его поступления

Патент 2570359