Устройство и способ преобразования первого параметрического пространственного аудиосигнала во второй параметрический пространственный аудиосигнал

Иллюстрации

Показать все

Изобретение относится к области обработки звука, а именно к области параметрического пространственного преобразования звука с трансформацией первого параметрического пространственного аудиосигнала во второй параметрический пространственный аудиосигнал. Технический результат заключается в обеспечении возможности задания виртуального места нахождения и/или перцептивной пространственной ориентации слушателя, которые отличаются от локализации точек снятия звука или положения слушателя во время записи пространственной звуковой сцены. Технический результат достигается за счет устройства, включающего в свою конструкцию: модификатор пространственного аудиосигнала, предназначенный для корректировки первого параметрического пространственного аудиосигнала в зависимости от изменения первоначального местоположения слушателя или первоначальной ориентации слушателя с формированием второго параметрического пространственного аудиосигнала, при этом второе местоположение слушателя или вторичная ориентация слушателя соответствуют первоначальному положению слушателя или первоначальной ориентации слушателя с внесением соответствующих изменений. 8 н. и 14 з.п. ф-лы, 9 ил.

Реферат

Настоящее изобретение относится к области обработки звука, а именно к области параметрического пространственного преобразования звука с трансформацией первого (базового) параметрического пространственного аудиосигнала во второй (производный) параметрический пространственный аудиосигнал.

Уровень техники

Запись пространственных фонограмм заключается в фиксировании улавливаемого акустического поля с помощью множества микрофонов таким образом, чтобы в дальнейшем на стороне воспроизведения слушатель воспринимал слуховой образ так, как он звучал на месте записи. Традиционные подходы к записи объемного звука предусматривают использование обычных стереомикрофонов или более сложных конфигураций направленных микрофонов, таких как В-форматные (би-форматные) микрофоны в амбиофонии, описанные в: М.А. Gerzon, "Periphony: Width-HeightSoundReproduction," [„Перифония: воспроизведение высоты и ширины охватывающего звука"]]. Aud. Eng. Soc, Vol.21, No. 1, pp. 2-10, 1973, далее в ссылках - [Ambisonics]. Эти методы получили общераспространенное название технологии совмещенных микрофонов.

В противоположность им существуют методики на базе параметрического представления акустических полей, которые носят название параметрического пространственного аудиокодирования. Основными компонентами таких механизмов являются микшированный с понижением аудиосигнал и соответствующая сопутствующая пространственная информация, которые отвечают за восприятие пространственного звучания. Примерами тому служат алгоритм „кодирования направленного звука (/направленного аудиокодирования)" (DirAC), обсуждаемый в: Pulkki, V., "DirectionalAudiocodingInSpatialsoundreproductionAndStereoupmixing" [,, Направленное аудиокодирование в воспроизведении пространственного звука и в повышающем стереомикшировании"] в: ProceedingsofTheAES 28thInternationalConference, pp. 251-258, Pitea, Sweden, June 30 - July 2, 2006, далее в ссылках - [DirAC], или применение так называемых „микрофонов пространственного звука" (SAM), предложенное в: Faller, С, "MicrophoneFront-EndsforSpatialAudioCoders"

[„ Микрофонные фронтальные интерфейсы для кодеров пространственного звука "], в: ProceedingsoftheAES 125thInternationalConvention, SanFrancisco, Oct. 2008, далее в ссылках - [SAM]. Данные пространственной ориентации в основе состоят из направления источника поступления (DOA) звука и диффузности акустического пространства по подполосам частот. На стадии синтеза сигналы для желаемого воспроизведения через громкоговорители задают на основе сигнала понижающего микширования (даунмикс-сигнала) и сопутствующей служебной параметрической информации.

Другими словами, микшированные с понижением сигналы и соответствующая пространственная служебная информация отображают звуковую сцену в соответствии с заданными параметрами, например ориентацией и/или расположением микрофонов относительно различных источников звука во время записи аудиосцены.

Целью настоящего изобретения является оформление концепции гибкой адаптации фонограммы звуковой сцены.

Краткое описание изобретения

Достижение указанной цели осуществляется за счет использования устройства по пункту 1, способа по пункту 17 и компьютерной программы по пункту 18 формулы изобретения.

Общим для всех вышеупомянутых методик является то, что они направлены на воссоздание акустического пространства на стороне воспроизведения так, как оно воспринималось при записи. Положение точек снятия звука, то есть позиции микрофонов, могут также рассматриваться как исходное положение слушателя. Все эти известные схемы пространственного захвата звука не предусматривают внесение изменений в фонограмму аудиосцены.

Вместе с тем, весьма часто, например при видеосъемке, изображение находится в движении. В частности, в видеокамерах используется визуальная трансфокация (зум-эффект), за счет чего виртуально меняется положение камеры и создается впечатление, что съемка произведена с другой точки. Это трактуется как изменение позиции видеокамеры. Другим простым видом изменения „картинки" является горизонтальное или вертикальное вращение камеры вокруг своей оси. Вертикальное вращение называют панорамированием или [- вращение в вертикальной плоскости -] наклоном.

В соответствии с настоящим изобретением реализованы устройство и способ, которые также обеспечивают возможность виртуального изменения места нахождения слушателя и/или ориентации в пространстве синхронно перемещению изображения. Иначе говоря, изобретение позволяет менять звуковой образ, воспринимаемый слушателем во время воспроизведения таким образом, что этот образ будет соответствовать записи, сделанной с использованием иного по позициям и/или ориентации виртуального расположения микрофонов, чем в реальном пространстве записи. Благодаря этому записанная акустическая картина может быть соотнесена с измененным видеоизображением. Предположим, приближение/удаление участка изображения может сопровождаться синхронным пространственно сориентированным звуковым оформлением. Следуя изобретению, это можно реализовать посредством соответствующей модификации характеристик пространственной ориентации и/или микшируемого с понижением сигнала в параметрической области кодера пространственного звука (пространственного аудиокодера).

Технические решения по данному изобретению позволяют гибко варьировать положение и/или ориентацию слушателя в многомерном объеме воспринимаемой звуковой сцены без необходимости перезаписи пространственной аудиосцены с изменением конфигурации микрофонов, например, их местоположения и/или направленности относительно источников звука. Иными словами, варианты конструктивного исполнения заявляемого изобретения обеспечивают возможность задания виртуального места нахождения и/или перцептивной пространственной ориентации слушателя, которые отличаются от локализации точек снятия звука или положения слушателя во время записи пространственной звуковой сцены.

В некоторых вариантах реализации изобретения используют всего один или несколько даунмикс-сигналов и/или пространственную служебную информацию, такую как направление источника и диффузность, для настройки сигналов понижающего микширования и/или пространственной служебной информации в соответствии с меняющимся положением и/или ориентацией слушателя. Говоря иначе, такие варианты осуществления не требуют какие-либо, дополнительные данные, допустим, геометрические параметры различных аудиоисточников и топологию точек записи исходной фонограммы.

Далее, устройство в одном из вариантов компоновки по настоящему изобретению принимает параметрические пространственные аудиосигналы в определенном пространственном аудиоформате, например микшированные с понижением моно- или стереосигналы в сопровождении данных о направлении источников и диффузности в составе пространственной служебной информации, преобразует эти данные, следуя управляющим сигналам, например командам управления зум-эффектами или вращением, и выводит модифицированные или преобразованные данные в том же пространственном аудиоформате, то есть в виде моно- или стереосигнала понижающего микширования с соответствующими параметрами направления источника и диффузности.

В целевых реализациях данного изобретения его схемы могут быть интегрированы с видеокамерой или другим источником видеосигнала для преобразования принимаемых или оригинальных данных пространственного звука в модифицированные данные пространственного звука в соответствии с командами масштабирования или поворота изображения, поступающими от видеокамеры, для синхронизации, например, звукового сопровождения с видеорядом, в частности для создания эффекта акустической трансфокации (приближения/удаления объекта) при наличии оптической трансфокации (укрупнения/уменьшения плана) и/или для создания ощущения поворота (вращения) в рамках звуковой сцены, если поворачивается (вращается) видеокамера, а микрофоны физически не вращаются вместе с ней, поскольку установлены автономно.

Краткое описаниечертежей.

Конструктивные решения по настоящему изобретению детализированы со ссылкой на прилагаемые фигуры.

На фиг.1 дана принципиальная блочная схема параметрического пространственного аудиокодера; на фиг.2 дана принципиальная блочная схема параметрического пространственного аудиокодера с фиг.1 с блоком модификации пространственных параметров, встроенным между анализатором пространственного звука (пространственным аудиоанализатором) и синтезатором пространственного звука (пространственным аудиосинтезатором) в составе кодера пространственного звука (пространственного аудиокодера); фиг.3А соответствует фиг.2 с детализацией блока модификации пространственных параметров; фиг.3В соответствует фиг.2 с более глубокой детализацией блока модификации пространственных параметров; на фиг.4 дан примерный геометрический анализ акустической трансфокации; на фиг.5А приведен пример построения функции направленности fp(k,n,φ,d) для картирования направлений источников звука (DOA); на фиг.5 В приведен пример построения функции диффузности fd(k,n,φ,d) для картирования рассеяния звука; на фиг.6 приведен ряд окон усиления для фильтра взвешивания H1((k,n,φ,d) составляющей прямого звука в зависимости от коэффициента масштабирования; и на фиг.7 приведен пример субкардиоидной оконной функции для фильтра взвешивания H2(k,n,φ,d) диффузной составляющей.

Ниже дано описание одинаковых или равнозначных элементов или элементов с одинаковыми или равнозначными функциями, представленных на фигурах одинаковыми или похожими номерами ссылок.

Подробное описание изобретения

Для более понятного объяснения технической сущности заявленного изобретения дается описание пространственного аудиокодера в стандартной компоновке. Основное назначение стандартного параметрического пространственного аудиокодера - воссоздание такого ощущения пространства, какое воспринималось в позиции снятия звука при записи. Для этого пространственный аудиокодер имеет в своем составе анализирующую часть 100 и синтезирующую часть 200, как показано на фиг.1. Акустический входной контур включает в себя N микрофонов 102, обеспечивающих N входных микрофонных сигналов, обрабатываемых пространственным аудиоанализатором 100 с выводом L сигналов понижающего микширования 112 при L≤N и сопутствующей пространственной служебной информации 114. Даунмикс-сигнал 112 и управляющая пространственная информация 114 поступают в декодер, то есть - в синтезатор пространственного звука (пространственный аудиосинтезатор), для расчета М каналов М громкоговорителей 202, которые воспроизводят фонограмму зафиксированного акустического поля с первоначальным пространственным слуховым воздействием. Жирные линии (линии, соединяющие микрофоны 102 с пространственным аудиоанализатором 100, отображающие даунмикс-сигналы L 112 и соединяющие пространственный аудиосинтезатор 200 с громкоговорителями М 202) обозначают аудиоданные, а тонкие линии 114 между пространственным аудиоанализатором 100 и пространственным аудиосинтезатором 200 обозначают пространственную служебную информацию.

Далее, подробнее рассмотрим основные шаги алгоритма вычисления пространственных параметров или, иначе говоря, анализа пространственного звука, выполняемого пространственным аудиоанализатором 100. Сигналы микрофонов проходят соответствующее преобразование из временного в частотное представление, например, посредством быстрого преобразования Фурье (БПФ) или иного банка фильтров. Сопутствующие пространственные данные, выделенные на стадии разложения (анализа) звукового сигнала, содержат показатель направления источника звука (DOA) и показатель диффузности звукового поля, описывающий соотношение прямого и рассеянного звука в анализируемом акустическом поле.

В DirAC предложено определять DOA звука как направление, противоположное активному вектору интенсивности. Необходимая акустическая информация, извлекаемая из входного сигнала так называемых В-форматных микрофонов, содержит характеристики звукового давления и скорости, полученные с помощью конфигурации микрофонов и формирующие по осям декартовой системы координат дипольную модель захваченного звука. Формулируя иначе, В-формат строится из четырех сигналов - w(t), x(t), y(t) и z(t). Первый соответствует давлению, измеренному всенаправленным микрофоном, остальные три - сигналам микрофонов, имеющих геометрию направленности в виде восьмерок вдоль трех осей декартовой системы координат. Сигналы x(t), y(t) и z(t) пропорциональны составляющим векторов колебательной скорости в направлениях x, y и z соответственно. В отличие от этого, в ЗАМ выдвинут подход, при котором DOA звука определяется по характеристикам направленности стереомикрофонов, известным априори.

Показатель диффузности может быть выведен из отношения активной силы звука к общей энергии звукового поля, как предложено в DirAC. В SAM предложена альтернативная методика, состоящая в оценке степени когерентности сигналов от различных микрофонов. Следует помнить, что рассеяние (диффузность) также является основным показателем достоверности оценки направления источника звука DOA. Не углубляясь в деталировку, оговорим, что в дальнейшем диффузность будет лежать в пределах [1,0], где 1 означает абсолютно рассеянное акустическое поле, а 0 соответствует исключительно наличию прямого звука. В других реализациях вполне допустимы другие диапазоны и значения диффузности.

Микшированный с понижением сигнал 112, сопровождаемый протокольными данными 114, выводят из входных сигналов от микрофонов. Он может быть монофоническим или состоять из множества аудиоканалов. В случае DirAC рассматривается только моносигнал, соответствующий уровню звукового давления, регистрируемому всенаправленным микрофоном. В случае SAM имеет место подход с использованием в качестве „даунмикса" двухканального стереосигнала.

Перейдем к более подробному рассмотрению стадии реконструкции (синтеза) звуковых сигналов для воспроизведения через громкоговорители, выполняемой синтезатором пространственного звука 200. На вход синтезатора 200 подается микшированный с понижением сигнал 112 и пространственные параметры 114 во время-частотном представлении. Из этих данных рассчитывают каналы громкоговорителей М, добиваясь адекватного воссоздания звукового объема или должного пространственного акустического воздействия. Пусть Yi(k,n) при i=1…M, обозначает сигнал каналафизического громкоговорителя i во время-частотном представлении с индексами времени и частоты кип, соответственно. Базовая модель для синтеза сигнала выражена как

Y i ( k , n ) = g i ( k , n ) S ( k , n ) + D i { N ( k , n ) }       ( 1 )

где S(k,n) соответствует составляющей прямого звука, aN(k,n) представляет компоненту диффузного звука. Обратим внимание, что для корректной реконструкции диффузного звука необходимо выполнение операции декорреляции Di{} для диффузной компоненты каждого динамического звукового канала. Масштабный коэффициент gi(k,n) зависит от управляющих данных DOA прямого звука и от конфигурации воспроизводящей акустической системы. Подходящим выбором здесь является метод „амплитудного панорамирования на векторной основе", предложенный в Pulkki, V., "VirtualSoundSourcepositionInGusingVectorBaseamplitudePanning" [„Позиционирование виртуальных источников звука с использованием амплитудного панорамирования на векторной основе"], J. AudioEng. Soc, Vol.45, рр. 456-466, June 1997, далее при ссылке - [VBAP].

В DirAC составляющую прямого звука задают путем соответствующего масштабирования моносигнала понижающего микширования W(k,n), и выводят из:

S ( k , n ) = W ( k , n ) 1 − Ψ ( k , n )       ( 2 ) .

Компоненту рассеянного звука получают из

N ( k , n ) = 1 M W ( k , n ) ⋅ Ψ ( k , n )       ( 3 ) ,

где М - количество используемых громкоговорителей.

В SAM применена та же модель сигнала (1), при том, что направленную и диффузную звуковые составляющие рассчитывают на основе микшированного с понижением стереосигнала.

На фиг.2 дана принципиальная блочная схема реализации настоящего изобретения [300], интегрированного в состав типового устройства на фиг.1 между пространственным аудиоанализатором 100 и пространственным аудиосинтезатором 200. Процесс, выполняемый устройством на фиг.1, состоит в записи фонограммы исходной аудиосцены с помощью определенной конфигурации микрофонов, заданной в соответствии с местоположением и ориентацией (в случае направленных микрофонов) различных источников звука. С N микрофонов поступает N физических микрофонных или канальных сигналов для обработки пространственным аудиоанализатором 100, который генерирует один или несколько микшированных с понижением сигналов W 112 и сопутствующие пространственные данные 114, в частности направления прихода (DOA) φ 114a и диффузности Ψ 114b звука. В отличие от фиг.1 пространственные аудиосигналы 112, 114a, 114b не пересылают напрямую насинтезатор пространственного звука 200, амодифицируют с использованием преобразователя первого параметрического пространственного аудиосигнала 112, 114a, 114b, отображающего первичное положения слушателя и/или первичную ориентацию слушателя (в данном примере - положение и ориентация точки снятия звука) в пространственной аудиосцене во второй параметрический пространственный аудиосигнал 212, 214a, 214b, то есть - в модифицированный сигнал понижающего микширования Wmod212, модифицированный сигнал направления источника звука φmod214a и/или модифицированный сигнал рассеяния звука Ψmod214b, представляющие второе положение слушателя и/или вторичную ориентацию слушателя (в пространстве), отличные от первоначального положения слушателя и/или первоначальной ориентации слушателя в пространстве. Модифицированное направление прихода звука 214а и модифицированная диффузность звука 214b также относятся к модифицированным данным пространственного звука 214. Устройство 300 называется модификатор пространственного аудиосигнала или блок модификации пространственного аудиосигнала 300. Устройство 300 на фиг.3А выполнено с возможностью модификации первого параметрического пространственного аудиосигнала 112, 114 в зависимости от управляющего сигнала d402, например, с внешнего блока управления 400. Управляющий сигнал 402, поступающий от блока управления 400 зум-функцией и/или функцией поворота, смонтированного на видеокамере, может представлять собой, например, сигнал управления зум-эффектом, задающий или передающий коэффициент аудиомасштабирования е или параметр d панорамирования/детализации (удаления/приближения) звука, или сигнал управления поворотом (вращением) источников звука. Следует иметь в виду, что зум-эффект (приближение объекта из точки) в определенном направлении и равномерное прямолинейное движение (приближение к объекту в точке) в том же направлении представляют собой два разных способа описания воображаемого движения в определенном направлении (зум-приближение объекта - с помощью коэффициента масштабирования, приближение к объекту - с помощью абсолютного расстояния или относительного расстояния, сопоставляемого с базовым расстоянием). Поэтому пояснения, касающиеся сигнала управления зум-масштабированием, относятся и к сигналу управления направленным приближениеми наоборот, а сигнал управления зум-эффектами 402 связан с сигналом управления приближением. Символ d может обозначать как управляющий сигнал 402 в целом, так и содержащиеся в нем информацию или параметр управления. В дальнейшем символом d будет обозначать управляющий сигнал 402 в целом. Контролируемый параметр или данные управления d могут представлять собой показатель расстояния, коэффициент масштабирования и/или угла и/или направления поворота.

Как видно на фиг.2, устройство 300 генерирует параметрические пространственные аудиосигналы 212, 214 (микшированные с понижением сигналы в сопровождении протокольных данных) в том же формате, в каком на входе были приняты параметрические пространственные аудиосигналы 112, 114. Таким образом, пространственный аудиосинтезатор 200 характеризуется возможностью реконструкции (без модификации) модифицированного пространственного аудиосигнала 212, 214 в том же режиме, что и оригинальный или записанный пространственный аудиосигнал 112, 114, и преобразования его в М физических сигналов громкоговорителей 204 с воспроизведением слухового впечатления модифицированной пространственной звуковой сцены, или, иначе говоря, предусматривает воссоздание модифицированного положения слушателя и/или модифицированной ориентации слушателя без каких-либо других изменений акустической сцены.

Другими словами, фиг.2 отображает принципиальную блочную схему реализации устройства или способа с признаками новизны. Как можно видеть, выходной сигнал 112, 114 кодера пространственного звука 100 модифицируют на основе управляющей информации извне 402 с формированием пространственного представления звука 212, 214, соответствующего положению слушателя, которое отличается от исходной позиции снятия звука. Точнее говоря, сигналы понижающего микширования 112 и сопутствующую пространственную информацию 114 изменяют соответствующим образом. Сценарий „дубляжа" строится на внешнем управлении 400, осуществляемом синхронно с видеокамеры 400 или с любого другого пользовательского интерфейса 400, откуда подаются команды о фактическом положении камеры или применении детализации/панорамирования изображения. Задачей алгоритма данной конфигурации и, соответственно, модификатора 300, является изменение пространственного впечатления от звуковой сцены синхронно с оптической трансфокацией или с поворотом камеры при изменении ракурса обзора зрителя. Иными словами, модификатор 300 обеспечивает акустические эффекты приближения/удаления и поворота, соответствующие переходу от дальнего зрительного плана к ближнему или наблюдаемому вращению.

На фиг.3А представлена принципиальная блочная схема или общая компоновка устройства 300, обозначенного как „блок аудиозума" („блок аудиотрансфокации"). Схемотехннческое решение 300 на фиг.3А включает в себя модификатор параметров 301 и модификатор даунмикс-сигнала 302. Контур модификатора параметров 301 имеет в своем составе модификатор направления прихода звука (модификатор DOA) 301а и модификатор диффузности 301b. Модификатор параметров 301 принимает показатель 114а направления источника и модифицирует [с помощью модификатора DO А 301а] этот, первый, параметр DOA 114а согласно управляющему сигналу d 402, генерируя на выходе модифицированный, или второй, параметр DOA 214а. Далее, модификатор параметров 301 принимает исходную характеристику, или первый параметр, диффузности 114b и с помощью модификатора диффузности 301b модифицирует параметр диффузности 114b согласно управляющему сигналу 402, генерируя на выходе модифицированный, или второй, параметр диффузности 214b. Модификатор даунмикс-сигнала 302 принимает один или более микшированных с понижением сигналов 112 и модифицирует исходный, или первый, из них 112, генерируя на выходе модифицированный, или второй, даунмикс-сигнал 212 в зависимости от первого, исходного, параметра DOA 114a, первого, исходного, параметра диффузности 114b и/или управляющего сигнала 402.

Если съемка ведется видеокамерой, управляемой независимо от микрофонов 102, данное изобретение предусматривает конструктивные решения с возможностью синхронизации изменений аудиосцены или восприятия звука в соответствии с командами от органов управления камерой 402. Кроме того, направления могут изменяться без модификации сигналов понижающего микширования 112, если камера 400 лишь вращается горизонтально без изменения масштаба изображения, то есть, если посылается только один управляющий сигнал вращения без зум-эффекта 402. На фиг.2 и 3 это показано с помощью элемента 400 „контроллер вращения".

Модификация вращения рассмотрена более подробно в разделе, описывающем реориентацию направленности или перенастройку согласования звуковых потоков. Разделы, описывающие рассеяние и модификацию сигналов понижающего микширования, отнесены к части, касающейся движения к объекту или трансфокации зум-масштабирования.

Версии исполнения изобретения предусматривают выполнение как модификации вращения, так и модификации приближения или трансфокации, например, сначала - модификации вращения, а затем - модификации поступательного движения или зум-эффекта, или наоборот, а также одновременное выполнение обоих преобразований с помощью соответствующих функций пространственного согласования.

Акустического зум-эффекта достигают за счет изменения виртуального местоположения слушателя, что осуществляется путем соответствующей переориентации направлений анализируемых звуковых потоков. Чтобы создать надлежащее общее впечатление от модифицированной звуковой сцены, микшированный с понижением сигнал проходит обработку фильтром, рассчитанным в зависимости от переориентированных направлений звука. Назначение этого фильтра - варьирование коэффициентов усиления, при котором, например, уровень близко расположенных в данный момент звуков возрастает, в то время как уровень звуков в областях, не представляющих интерес (вне зоны внимания), ослабляется. По такому же принципу построено масштабирование звукового рассеяния: например, звуки, возникающие вблизи нового местоположения слушателя, должны воспроизводиться с меньшим рассеянием, чем до этого.

Ниже более подробно описан алгоритм, или способ, действия устройства 300. Общая схема блока аудиозума дана на фиг.3А. Сначала выполняют переориентацию направлений (блок 301а, fp(k,n,φ,d)), затем применяют фильтр модификации диффузности (блок 301b, fd(k,n,φ,d)). С помощью блока 302 на основе управляющих данных аудиотрансфокации и исходного акустического пространства выполняют модификацию сигнала понижающего микширования.

В следующем разделе описана процедура переориентации направлений и, соответственно, ремаршрутизации векторов поступления звука (параметров DOA), которая выполняется, например, блоком модификации направлений 301а.

Параметр направления источника (параметр DOA) может быть представлен, например, единичным вектором е. В трехмерном (3D) анализе звукового поля вектор может быть выражен как

e = [ cos ϕ cos θ sin ϕ cos θ sin θ ]       ( 4 ) ,

где азимутальный угол φ соответствует DOA в двухмерной (2D) плоскости, а именно - в горизонтальной плоскости. Угол подъема дан как θ. Этот вектор будет изменен в соответствии с новыми виртуальными координатами микрофона, как описано ниже.

Не уходя от основной темы, обратимся к примеру рекоординации DOA в двухмерном пространстве (фиг.4). Соответствующая переориентация трехмерного DOA может быть выполнена аналогичным образом.

С помощью фиг.4 рассмотрим пример геометрического анализа акустической трансфокации. Буквой S обозначена первоначальная позиция микрофона в точке записи, то есть - исходное положение слушателя. Точками А и В отмечены положения [источников звука] в плане аудиопространства. Предположим, теперь место нахождения слушателя переместилось из точки S в точку S2, например, с сохранением ориентации на прежний источник звука. На фиг.4 видно, что звуки от источника А сохраняют свое угловое положение относительно точки звукозаписи, в то время как звуки из области или от пространственной точки В смещаются в сторону. Это обозначено изменением рассматриваемого угла из α в β. Таким образом, β указывает новое направление прихода звука из углового положения В, когда слушатель переместился в точку S2. В рассматриваемом примере на фиг.4 азимутальный угол увеличивается от α до β. Эта переориентация информации о направлениях прихода может быть записана как векторное превращение:

e mod = f ( e ) ,       ( 5 ) ,

где f() обозначает функцию переориентации, а emod - преобразованный вектор направления. Это функция нелинейного превращения, зависящая от коэффициента масштабирования (трансфокации) d и исходных расчетных DOA. На фиг.5А приведены примеры функциональной зависимости f() величины различных углов а применительно к двухмерной модели на фиг.4. При значении зум-коэффициента d=1, т.е. когда зум-эффект не используется, углы а соответствуют первоначальному DOA. При увеличении управляющего зум-коэффициента значение β также возрастает. Функция может быть выведена путем геометрического анализа или эвристически. Таким образом, переориентация направлений означает модификацию каждого DOA в соответствии с функцией f(). Рекоординацию fp(k,n,φ,d) выполняют для каждого шага по времени и частоте (k,n).

Несмотря на то, что на фиг.4 показатель зум-эффекта d отображен в виде отрезка поступательного движения между исходным положением S и измененным положением S2 слушателя, как говорилось выше, d может также быть коэффициентом, например, четырехкратной (4х) или восьмикратной (8х) оптической трансфокации. В особенности для настройки ширины охвата или управления фильтром трактование показателя d как множителя, а не как расстояния, упрощает применение акустического зум-эффекта. Говоря иначе, параметр зум-эффекта d в этом случае выражает реальное расстояние, или, по меньшей мере, пропорционален ему.

Далее следует указать на то, что реализация изобретения предусматривает не только зум-эффект в сторону увеличения объекта / уменьшения поля зрения „наезд", как описано выше, например, путем сокращения расстояния до объекта (до точки А на фиг.4 перемещением из позиции S в позицию S2), но и зум-уменьшение объекта / увеличение поля зрения, „отъезд", например, путем увеличения расстояния до объекта (до точки А на фиг.4 путем перемещения из позиции S2 в позицию S). В этом случае действует расчет, обратный описанному выше при „наезде", поскольку объекты, расположенные сбоку от слушателя (точка В относительно позиции S2), перемещаются в пространство перед слушателем по мере его движения к позиции S. Формулируя иначе, величины углов уменьшаются (от β к α).

Переориентация направлений или векторное преобразование выполняет модификатор направления прихода звука 301а. На фиг.5А сценарий фиг.4 представлен в виде функции координации направления прихода звука (где аргументом выступает коэффициент масштабирования (кратность трансфокации) d). На диаграмме фиг.5А значения коэффициента масштабирования (кратность трансфокации) по оси X представлены в пределах от 1 до 2, а величины модифицируемого, или координируемого, угла β - по оси Y. При коэффициенте масштабирования, равном 1, β=α, т.е. начальный угол остается без изменения. На диаграмме цифрами обозначены функции время-частотной координации fp(k,n,φ,d) для угла α: 512 - для α=10°, 514 - для α=30°, 516 - для α=50°, 518 - для α=70° и 520 - для α=90°.

Варианты реализации изобретения предусматривают использование как одной и той же, так и разных функций картирования (координации/переориентации) значений дискретов по времени и частоте кип.

Как становится понятно из вышеприведенных пояснений, принцип действия фильтра fd заключается в изменении показателя диффузности у таким образом, чтобы рассеяние снижалось при сужении поля зрения / звука (при „наезде") (φ<|γ|) и возрастало при расширении поля зрения / звука (φ>|γ|) (при „отъезде").

Для упрощения скоординированного перестроения угла β в некоторых схемотехнических вариантах модификатора 301а предусмотрено использование только направления в сочетании с радиусным размещением источников, например, A и B, определяющих DOA звука, при котором все они равноудалены от первоначального местоположения слушателя.

В случае использования, например, обычной компоновки стереофонической акустической системы, где электродинамические головки воспроизводят звук, поступающий только во фронтальных направлениях, функция координирования f() может быть задана так, что максимальный угол разнесения DOA будет ограничен. Предположим, если акустические колонки физически разнесены на ±60°, максимальный угол [звукового охвата] выбирают в пределах ±60°. В результате вся звуковая сцена будет происходить в фронтальной зоне с расширением только при использовании зум-эффекта.

При повороте камеры [вращении вокруг вертикали] начальные азимутальные значения просто сдвигаются так, что новый ракурс соответствует нулевому углу. Следовательно, поворот камеры в горизонтальной плоскости на 20° даст угол β=α-20°.

Более того, в данном случае без изменения остаются даунмикс-сигнал и параметр диффузности, пока вращение и поступательное движение не начнут выполняться одновременно.

Как видно из приведенных выше пояснений, угол поворота или изменения ракурса рассчитывают от исходной ориентации слушателя / зрителя (например, от „направления носа" слушателя / наблюдателя), которая служит репером или ориентиром (азимутом) 0°. При изменении положения слушателя равнозначно меняется репер или ориентир 0°. Таким образом, соответствующее устройство в настоящем изобретении меняет исходные углы или направления поступления звука, то есть начальный параметр направления, в соответствии с новым репером или ориентиром 0° таким образом, что второй параметр направления представляет то же самое „направление поступления"звука в этой аудиосцене, однако относительно нового репера (ориентира) или системы координат. На аналогичном принципе построено ощущение изменения направления прихода звука при движении к/от объекта, которое создается за счет имитации прямолинейного движения или трансфокации в направлении исходной ориентации слушателя (см. фиг.4).

Первый параметр направления 114а и второй параметр направления 214а могут быть двухмерными или трехмерными векторами. Более того, первый параметр направления 114а может представлять собой вектор, а управляющий сигнал 402 может быть командой вращения с указанием угла поворота (например, 20° в вышеописанном случае) и направления поворота (направо - в вышеописанном двухмерном примере), при этом модификатор параметров 301, 301а выполняет расчет вращения вектора на угол в направлении, противоположном направлению поворота (β=α-20° в примере выше), с получением второго параметра направления, т.е. второго, или модифицированного, вектора 214а.

В следующем разделе более подробно будет рассмотрен масштабный пересчет диффузности, выполняемый, например, модификатором диффузности 301b.

Пересчет диффузности выполняют с помощью окна, учитывающего DOA. В ряде технических решений значения диффузности y(k,n) убывают при выполнении зум-увеличения и нарастают в направлениях меньшего внимания. Это объясняется очевидным явлением, когда источники звука воспринимаются менее рассеянными, если они расположены ближе к слушателю. В силу этого, например, для минимального коэффициента аудиомасштабирования (допустим, d=1), диффузность не модифицируют. Угловое поле зрения объектива камеры может быть принято за меру диапазона масштабирования, в пределах которого может быть повышена ил