2505941 - Формирование бинауральных сигналов

Формирование бинауральных сигналов

Иллюстрации

Показать все

Описывается устройство, генерирующее на базе многоканального сигнала, представляющего совокупность множества каналов, бинауральный сигнал, предназначенный для воспроизведения через систему динамиков, при этом положение каждого виртуального источника звука соотнесено с индивидуальным каналом. Устройство включает в себя минимизатор корреляции, дифференцированно преобразующий и за счет этого ослабляющий корреляцию между, по меньшей мере, одним левым и правым, одним передним и задним и одним центральным и нецентральным каналом из множества каналов с целью формирования комбинации каналов с минимизированным взаимным подобием; множество направленных фильтров; первый микшер, смешивающий выходные сигналы направленных фильтров, моделирующий передачу звука к первому ушному каналу слушателя, и второй микшер, смешивающий выходные сигналы направленных фильтров, моделирующий передачу звука ко второму ушному каналу слушателя. Также представлен подход, при котором уровень центрального канала снижают для формирования сигнала понижающего микширования, поступающего далее в процессор построения акустического пространства. Другой подход заключается в формировании набора передаточных функций с минимизированным взаимным подобием, моделирующих слуховой тракт человека.21 и 12 з.п. ф-лы, 13 ил.

Реферат

Предлагаемое изобретение относится к генерации составляющих бинаурального сигнала, имитирующих эффекты отражения и/или реверберации в помещении, к генерации собственно бинаурального сигнала и к формированию набора функций моделирования восприятия звука с минимизацией взаимного подобия.

Слуховая система человека способна определять направление или множество направлений источников воспринимаемых звуков. С помощью слуха человек оценивает различия между звуком, улавливаемым правым ухом, и звуком, улавливаемым левым ухом. Полученная информация содержит, например, так называемые интерауральные ориентиры, отражающие межушные различительные признаки звуковых сигналов. Интерауральные ориентиры являются наиболее важным средством пространственной локализации. Разность уровней давления между ушами, а именно, интерауральное различие по интенсивности (ILD) является наиболее важной обособленной опорной информацией для пространственной локализации. Когда звук достигает слушателя в горизонтальной плоскости с ненулевым азимутом, в каждом ухе он имеет разный уровень громкости. Затененное ухо получает естественно приглушенное акустическое отображение по сравнению с незатененным ухом. Другим очень важным свойством, относящимся к объектно-пространственному позиционированию, является интерауральное временное [фазовое] различие (ITD). Затененное ухо расположено дальше от источника звука, и, следовательно, звуковой фронт волны достигает его позже, чем незатененное ухо. Значение ITD возрастает при низких частотах, которые не затухают при достижении затененного уха сильнее, чем при достижении незатененного уха. Роль ITD снижается на верхних частотах, где длина звуковой волны приближается к расстоянию между ушами. Другими словами, объектно-пространственная локализация осуществляется за счет различных видов взаимодействия звука, перемещающегося от источника к левому и правому уху, соответственно, с головой, ушами и плечами слушателя.

Проблемы возникают, когда стереосигнал предназначается для воспроизведения через громкоговорящую акустическую систему или головные телефоны. Весьма вероятно, что слушатель, ощущая источник звука у себя в голове, воспримет звук как неестественный, неудобоваримый и раздражающий. Этот феномен часто встречается в литературе как локализация «в голове». Длительное прослушивание звука «в голове» может привести к слуховому утомлению. Так происходит в силу того, что опорная аудиоинформация для позиционирования слушателем источников звука, иначе говоря - интерауральные ориентиры, отсутствует или размыта.

Для воспроизведения через головные телефоны стереосигналов или даже многоканальных сигналов, содержащих больше двух каналов, необходимо смоделировать указанные взаимодействия путем направленной фильтрации. В частности, сгенерировать из декодированного многоканального сигнала выходной сигнал для наушников можно, пропуская каждый сигнала после декодирования через пару направленных фильтров. Такие фильтры обычно служат для моделирования звукопередачи от виртуального акустического источника в помещении к слуховому каналу слушателя, то есть - для осуществления так называемой бинауральной передаточной функции окружающего пространства (функция BRTF). Функция BRTF отображает временные, уровневые и спектральные изменения и моделирует эффекты отражения и реверберации в пространственном объеме. Направленные фильтры могут работать как во временной, так и в частотной области.

При этом количество требуемых фильтров должно быть большим, а именно - Nx2, где N - число декодируемых каналов, поэтому направленные фильтры достаточно протяженны, например, 20000 подполос фильтра при 44,1 кГц, а процесс фильтрации вычислительно трудоемок. Вследствие этого направленные фильтры иногда предельно минимизируются. Так называемые передаточные функции слухового тракта (головы) слушателя (HRTF) содержат данные направленности, включая интерауральные ориентиры. Обычный блок преобразования применяют для имитации отражения и реверберации в окружающем объеме. Модуль пространственного построения может представлять собой алгоритм моделирования эффекта эхо во временной или частотной области путем преобразования одно- или двухканального входного сигнала, сформированного из многоканального входного сигнала суммированием каналов многоканального входного сигнала. Такое устройство описано, в частности, в WO 99/14983 А1. Как уже сказано, модуль построения акустического объема создает эффекты отражения и/или реверберации в помещении. Эффекты отражения звука и реверберации в ограниченном пространстве играют существенное значение для локализации звуков, особенно для экстернализации и создания ощущения удаленности источника во вне, то есть - для восприятия его вне головы слушателя. В указанной выше публикации предложена также реализация направленных фильтров в виде фильтров КИХ (с конечной импульсной характеристикой), преобразующих разные каналы с различной задержкой и моделирующих таким образом путь прохождения звука от источника к тому или другому уху с соответствующим вторичным отражением. Кроме того, в ряду средств достижения более привлекательного звучания при прослушивании через парные наушники в названной публикации предлагается вводить задержку смешанных центрального и фронтального левого каналов, а также центрального и фронтального правого каналов относительно суммы и разности тыльного левого и тыльного правого каналов, соответственно.

Тем не менее, полученные фонограммы по-прежнему имеют в значительной степени ограниченную пространственную протяженность бинаурального выходного сигнал и недостаточную экстернализацию.

Более того, стало очевидно, что, несмотря на указанные принятые меры по рендерингу многоканальных сигналов для головных телефонов, речевые диалоги в кинофильмах и музыкальные фрагменты при прослушивании часто воспринимаются с неестественной реверберацией и спектральными искажениями.

В связи с этим данное изобретение преследует цель предоставить алгоритм генерации бинаурального сигнала, обеспечивающий устойчивое и естественное звучание фонограммы в наушниках.

Поставленная цель достигается с помощью устройств, отвечающих любому из пунктов 1, 3, 4 и 7 формулы изобретения, и за счет применения способов согласно любому из пунктов 16-19.

Первая идея, которая легла в основу предлагаемого приложения, заключается в том, что более устойчивый и естественно воспринимаемый бинауральный сигнал для воспроизведения через наушники может быть получен путем раздельного преобразования и - благодаря этому - уменьшения взаимного подобия хотя бы одной из пар множества входных каналов: левого и правого, фронтального и тылового или центрального и нецентрального, формируя посредством этого набор каналов с уменьшенным взаимным подобием. Затем эта комбинация каналов с ограниченным взаимным сходством передается на множество направленных фильтров, после чего поступает на соответствующие смесители для левого и правого уха. Снижая степень обоюдного сходства каналов многоканального входного сигнала, можно расширить пространственный охват бинаурального выходного сигнала и улучшить экстернализацию.

Другая идея, лежащая в основе предлагаемого приложения, состоит в том, что более устойчивого и удобоваримого бинаурального сигнала для воспроизведения через наушники можно добиться - при спектральном подходе к изменениям - путем раздельного амплитудного и/или фазового преобразования хотя бы двух из множества каналов с формированием таким образом набора каналов с минимизированным взаимным подобием, который, в свою очередь, может быть передан на множество направленных фильтров с последующей обработкой соответствующими микшерами для левого и правого уха. Опять же, за счет уменьшения взаимоподобия каналов многоканального входного сигнала может быть расширен пространственный охват бинаурального выходного сигнала и улучшена экстернализация.

Выигрыш в вышеназванных показателях может быть достигнут также путем формирования набора передаточных функций, моделирующих голову слушателя [HRTF], с ограниченным обоюдным подобием за счет задержки импульсных характеристик исходного множества передаточных функций моделирования головы слушателя относительно друг друга, или - в спектральной области - фазовых и/или амплитудных характеристик исходного множества функций моделирования органов слуха раздельно относительно друг друга. Такое формирование может осуществляться как автономно, при проектировании системы, так и интерактивно, в ходе генерации бинаурального сигнала, путем применения перцептуально смоделированных передаточных функций в качестве направленных фильтров, предположим, реагирующих на заданные индикаторы пространственного положения виртуального аудиоисточника.

Еще одна идея, лежащая в основе данного приложения, заключается в том, что некоторые кино- и музыкальные фрагменты будут звучать в наушниках более естественно, если моно- или стереофоническое понижающее микширование (моно- или стереодаунмикс) каналов многоканального сигнала, подлежащего обработке процессором пространственного построения с целью моделирования акустических эффектов отражения/реверберации как составляющей бинаурального сигнала, будет выполняться таким образом, что множество каналов будет дополнять сигнал понижающего моно- или стереомикширования с разным уровнем интенсивности, как минимум, двух каналов многоканального сигнала. В частности, изобретатели выявили, что, как правило, кинодиалоги и музыку микшируют, главным образом, с центральным каналом многоканального сигнала, и что сигнал центрального канала, пройдя обработку в модуле построения акустического пространства, на выходе часто воспроизводится с неестественной реверберацией и искажениями спектра. Изобретатели, однако, выявили, что эти недостатки могут быть устранены путем подачи среднего канала на модуль пространственного построения с одновременным снижением интенсивности, предположим, на 3-12 дБ, или, в частности, на 6 дБ.

Далее более подробно представлены предпочтительные конструктивные решения на основе фигур, где: на фиг.1 дана принципиальная модульная схема реализации устройства для генерации бинаурального сигнала согласно изобретению; на фиг.2 дана принципиальная модульная схема варианта осуществления устройства для формирования набора функций моделирования восприятия звука с минимизацией взаимного подобия согласно изобретению; на фиг.3 дана принципиальная модульная схема устройства для имитации в генерируемом бинауральном сигнале акустических эффектов отражения и/или реверберации согласно изобретению; на фиг.4А и 4В даны принципиальные модульные схемы аппаратных версий процессора построения акустического объема, показанного на фиг.3; на фиг.5 дана принципиальная модульная схема варианта исполнения понижающего микшера, показанного на фиг.3; на фиг.6 графически представлен процесс пространственного аудиокодирования многоканального сигнала согласно изобретению; на фиг.7 показана принципиальная схема генератора бинаурального выходного сигнала согласно изобретению; на фиг.8 дан вариант принципиальной схемы генератора бинаурального выходного сигнала согласно изобретению; на фиг.9 дан еще один вариант принципиальной схемы генератора бинаурального выходного сигнала согласно изобретению; на фиг.10 дан вариант принципиальной схемы генератора бинаурального выходного сигнала согласно изобретению; на фиг.11 дан вариант принципиальной схемы генератора бинаурального выходного сигнала согласно изобретению; на фиг.12 дана принципиальная схема бинаурального пространственного аудиодекодера, показанного на фиг.11; и на фиг.13 дана принципиальная схема видоизмененной конструкции пространственного аудиодекодера, показанного на фиг.11.

На фиг.1 отображено устройство для генерации бинаурального сигнала, предназначенное, например, для воспроизведения фонограмм через головные телефоны на основе многоканального сигнала, представляющего множество каналов, причем расположение каждого виртуального аудиоисточника в конфигурации динамиков соответствует каждому отдельному каналу. Устройство, представленное под общим номером 10, имеет в своем составе блок минимизации подобия 12, гребенку 14 направленных фильтров 14a-14h, первый смеситель 16а и второй смеситель 16b.

Минимизатор подобия 12 предназначен для преобразования многоканального сигнала 18, представляющего множество каналов 18a-18d, в группу 20 каналов 20a-20d с минимизированным обоюдным сходством. Количество каналов 18a-18d, представленных многоканальным сигналом 18, может быть от двух и больше. Исключительно в целях наглядности на фиг.1 выделено четыре канала 18a-18d. Набор каналов 18 может быть скомбинирован, к примеру, из центрального канала, фронтального левого канала, фронтального правого канала, тыльного левого канала и тыльного правого канала. Допустим, звукорежиссер (саунд-дизайнер) смикшировал каналы 18a-18d из множества отдельных аудиосигналов, отображающих, например, различные инструменты, фрагменты вокала или другие индивидуальные источники звука, предполагая воспроизводить каналы 18a-18d через систему громкоговорителей (на фиг.1 не показано), где каждый динамик размещен в позиции, предварительно заданной для каждого виртуального источника звука, связанного с отдельным каналом 18a-18d.

В соответствии с вариантом реализации на фиг.1 каналы 18a-18d включают в себя хотя бы одну пару левого и правого каналов, одну пару фронтального и тыльного каналов или пару центрального и нецентрального каналов. Разумеется, в комбинацию 18 каналов 18a-18d может входить больше, чем одна из вышеупомянутых пар. Минимизатор подобия 12 индивидуально обрабатывает каждый канал из множества каналов, снижая таким образом степень сходства между ними и получая в результате комбинацию 20 каналов 20a-20d с минимизированным взаимоподобием. Итак, с одной стороны, степень подобия, по меньшей мере, одного левого и одного правого канала из множества 18 каналов, одного переднего и одного заднего канала из множества 18 каналов и одного центрального и одного нецентрального канала из множества 18 каналов может быть снижена блоком минимизации подобия 12 с образованием группы 20 каналов 20a-20d с минимизированным взаимным подобием. С другой стороны, минимизатор подобия (12) может - дополнительно или отдельно, в спектральной области - выполнить раздельное фазовое и/или амплитудное преобразование, по меньшей мере, двух из множества каналов с образованием комбинации каналов 20 с минимизированным взаимным подобием.

Как будет более подробно изложено ниже, минимизатор подобия 12 может выполнять раздельное преобразование, в частности, путем задержки соответствующих пар относительно друг друга, или за счет задержки соответствующих пар каналов на разную величину, например, в каждой из множества частотных полос, достигая посредством этого снижения интеркорреляции в группе каналов 20. Безусловно, имеются и другие возможности снижения степени тесноты корреляции между каналами. Иными словами, минимизатор корреляции 12 может иметь передаточную функцию, в соответствии с которой спектральное распределение энергии каждого канала остается постоянным, то есть, минимизатор подобия 12, сохраняя значение амплитуды передаточной функции на уровне единицы по всему соответствующему диапазону аудиоспектра, варьирует фазовые или частотные характеристики подполос. Например, блок минимизации корреляции 12 может предусматривать такое изменение фазы всех или одного или нескольких каналов 18, при котором сигнал первого канала в заданной полосе частот проходил бы с запозданием относительно другого канала, по меньшей мере, на один отсчет. Более того, блок снижения уровня корреляции 12 может быть рассчитан так, чтобы при изменении фазовой характеристики время групповых задержек по первому каналу относительно другого канала для всего множества частотных полос имело стандартное отклонение, по меньшей мере, на одну восьмую отсчета. Рассматриваемые частотные диапазоны могут представлять собой полосы барков или их более мелкое членение, или же любой другой вид разбиения частотного диапазона.

Ослабление корреляции - не единственный способ предотвращения эффекта «локализации в голове», возникающего в акустическом анализаторе человека. Корреляция, скорее, является одним из критериев, по которым слуховая система человека анализирует сходство составляющих звукового сигнала, поступающих в оба уха, и определяет направление поступающего звука. Кроме того, минимизатор подобия 12 может выполнять дифференцированное преобразование, разделяя соответствующие пары каналов путем снижения интенсивности на разную величину, например, по каждой из множества частотных полос, формируя таким образом комбинацию каналов 20 с минимизированным подобием, упорядоченных по спектру. Скомпонованный фрагмент в спектральной области может содержать, например, избыточную минимизацию, предположим, звукового сигнала заднего канала относительно звучания переднего канала вследствие затенения мочкой уха. Соответственно, блок минимизации подобия 12 предусматривает возможность регулирования в трансформанте степени минимизации тыловых каналов с учетом других каналов. Для формирования подобного спектрального представления минимизатор подобия 12 может, сохраняя постоянные фазовые характеристики, раздельно варьировать по всему соответствующему спектральному диапазону звукового сигнала амплитудные или частотные характеристики поддиапазонов.

В принципе, способ представления множества каналов 18a-18d многоканальным сигналом 18 не имеет какие-либо специфические ограничения. В частности, многоканальный сигнал 18 может представлять совокупность каналов 18a-18d в сжатом виде с использованием пространственного аудиокодирования. Для выполнения пространственного аудиокодирования совокупность каналов 18a-18d может быть представлена сигналом, полученным понижающим микшированием этих каналов, содержащим данные понижающего микширования (даунмикса), где указан коэффициент смешения каждого из каналов 18a-18d, примененный для формирования одного или нескольких уплотненных каналов, и где заданы пространственные параметры многоканального сигнала, описывающие геометрию звуковой среды посредством, например, перепадов уровня/интенсивности, сдвигов фаз, запаздывания по времени и/или изменения степени корреляции/когерентности между каналами 18a-18d. Выходной сигнал минимизатора корреляции 12 делится на каналы 20a-20d. По разделенным каналам на выход могут подаваться как временные сигналы, так и спектрограммы подполосовой декомпозиции.

Направленные фильтры 14a-14h предназначены для моделирования передачи звука от позиционируемого одним из каналов 20a-20d виртуального источника к ушному каналу слушателя. Предположим, на фиг.1 направленные фильтры 14a-14d моделируют звукопередачу на левый слуховой канал, а направленные фильтры 14e-14h моделируют звукопередачу на правый слуховой канал. Направленные фильтры имитируют передачу акустических волн от размещенных в виртуальной акустической среде источников звука к слуховому каналу слушателя за счет варьирования показателей времени, интенсивности и спектра, а также дополнительного моделирования эффектов отражения и реверберации. Направленные фильтры могут быть приложены во временной и в частотной области. Это означает, что направленные фильтры могут действовать как во временной области, например, фильтры КИХ, так и в частотной области - путем умножения определенных дискретных значений амплитудных и фазовых передаточных характеристик на соответствующие спектральные величины каналов 20a-20d. В частности, с помощью направленных фильтров 14a-14h можно смоделировать передаточную функцию слухового тракта человека с описанием направленного воздействия на голову, уши и плечи человека сигналов, проходящих по каналам 20a-20d, имитирующих взаиморасположение виртуальных источников звука. Первый микшер 16а комбинирует выходы направленных фильтров 14a-14d, моделируя звукопередачу на левый ушной канал слушателя в сигнале 22а, который может быть составляющей или полным левым каналом выходного бинаурального сигнала, при этом второй микшер 16b совмещает выходные сигналы направленных фильтров 14e-14h, моделируя передачу звука на правый ушной канал слушателя в сигнале 22b, который может стать составляющей или полноценным правым каналом бинаурального выходного сигнала.

Как дальше более детально будет рассмотрено на примерах реализации, в сигналы 22а и 22b могут быть введены компоненты, создающие эффекты звукоотражения и/или реверберации. Благодаря этому может быть упрощена система направленных фильтров 14a-14h.

Блок минимизации подобия 12 в составе устройства на фиг.1 нейтрализует негативные побочные эффекты сложения коррелированных входных сигналов смесителей 16а и 16b, приводящие к значительному сужению пространственного охвата и отсутствию ощущения естественного объема выходного бинаурального сигнала 22а и 22b. Эти негативные побочные явления редуцируются декорреляцией с использованием минимизатора подобия 12.

Прежде, чем перейти к рассмотрению следующего технического решения по данному изобретению, следует подытожить сказанное относительно фиг.1, где показан пример прохождения декодированного многоканального сигнала с преобразованием его в выходной сигнал для головных телефонов. Каждый сигнал фильтруется парой направленных фильтров. Так, канал 18а фильтруется двумя направленными фильтрами 14а-14е. К сожалению, как правило, при сведении многоканальных фонограмм между каналами 18a-18d в значительной степени присутствует подобие, такое как корреляция. Это отрицательно влияет на выходной бинауральный сигнал. В частности, после обработки многоканальных сигналов направленными фильтрами 14a-14h на их выходе промежуточные сигналы совмещаются в смесителях 16а и 16b с образованием выходного сигнала для наушников 20а и 20b. Суммирование подобных/коррелированных выходных сигналов приводит к сильному сужению пространственного объема выходного сигнала 20а и 20b и недостаточной экстернализации. На практике это вызывает особенные трудности при сходстве/корреляции левого и правого сигнала и центрального канала. В силу этого блок минимизации подобия 12 должен по возможности максимально снижать степень однородности этих сигналов.

Следует обратить внимание на то, что большинство функций по уменьшению взаимоподобия каналов 18a-18d множества каналов 18 может быть выполнено без введения минимизатора подобия 12 путем его замещения за счет расширения фукнциий направленных фильтров, которые должны будут не только моделировать распространение звука, но и обеспечивать его разнородность, например, путем декорреляции, о которой говорилось выше. В подобном случае направленные фильтры, соответственно, предназначены не только для моделирования, но и для модуляции передаточных функций головы и слухового тракта (HRTF).

Например, на фиг.2 представлено устройство для построения набора перцептуальных передаточных функций с минимизацией межканального подобия для моделирования передачи звука через группу каналов от виртуального источника, позиционирование которого соотнесено с индивидуальными каналами, к слуховому анализатору слушателя. Устройство, условно обозначенное общим номером 30, включает в свой состав построитель функций HRTF (построитель модели передаточных функций органов слуха) 32 и процессор HRTF 34.

Построитель функций HRTF 32 обеспечивает исходный набор функций моделирования окружающего звука HRTF. Шаг алгоритма 32 может включать в себя измерения с использованием эталонной модели головы слушателя для вычисления передаточных функций слухового тракта при прохождении звука от источников в определенных позициях до ушных каналов манекена эталонного слушателя. Аналогично этому построитель функций HRTF 32 может выполнять поиск и подстановку исходных функций HRTF из памяти. Или, наоборот, построитель функций HRTF 32 может выполнять расчет HRTF в соответствии с введенной формулой, например, в зависимости от заданного взаиморасположения виртуальных источников звука. Таким образом, построитель модели передаточных функций головы слушателя HRTF 32 может быть рассчитан для работы в среде формирования генератора выходного бинаурального сигнала или сам являться частью такого генератора выходного бинаурального сигнала, обеспечивая исходные функции HRTF в реальном времени, скажем, в ответ на выбор или изменение положения источников звука в виртуальном пространстве. В частности, устройство 30 может входить в состав генератора выходного бинаурального сигнала, предусматривающего согласованное распределение многоканальных сигналов между динамиками в различной конфигурации в зависимости от взаимного расположения виртуальных источников звука, соотнесенных с индивидуальными каналами. В подобном случае построитель функций HRTF 32 может предоставлять исходные смоделированные передаточные функции головы слушателя (HRTF) таким образом, что они будут скоординированы с текущими заданными позициями виртуальных источников звука.

Процессор HRTF 34, в свою очередь, выполняет рассогласование импульсных характеристик относительно друг друга, как минимум, одной пары функций HRTF или видоизменяет в спектральной области их фазовые и/или амплитудные характеристики, добиваясь их взаимной неоднородности. Такая пара функций HRTF может имитировать акустическую передачу по одной из пар каналов - левого и правого, фронтального и тыльного или центрального и нецентрального. Такой результат можно получить, применив к одному или нескольким каналам многоканального сигнала один из указанных ниже методов или их комбинацию, в частности - задержку функции HRTF соответствующего канала, изменение фазовой характеристики соответствующей функции HRTF и/или применение к соответствующей функции HRTF декоррелирующего, например, всечастотного, фильтра, формируя таким образом набор функций HRTF с минимизированной интеркорреляцией, и/или изменение в спектральной области амплитудной характеристики соответствующей функции HRTF, образуя таким образом набор функций HRTF, по меньшей мере, с уменьшенной степенью взаимного подобия. В любом случае достигнутая декорреляция/несхожесть между соответствующими каналами может стимулировать слуховую систему человека к внешней локализации источника звука и, благодаря этому, предупреждать эффект локализации в голове. Процессор HRTF 34 может быть выполнен, предположим, с возможностью модификации фазовых характеристик всех, или одного из, или нескольких, каналов HRTF с введением групповой задержки первой функции HRTF для определенной полосы частот - то есть запаздывания в определенном частотном диапазоне первой функции HRTF - относительно какой-либо другой функции HRTF, по меньшей мере, на один отсчет. Далее, процессор HRTF 34 может быть реализован с возможностью модификации фазовых характеристик таким образом, что групповые задержки первой функции HRTF относительно какой-либо другой функции HRTF для множества частотных полос будут иметь стандартное отклонение, по меньшей мере, в одну восьмую отсчета. Рассматриваемые частотные диапазоны могут представлять собой полосы барков или их более мелкое членение, или же любой другой вид разбиения частотного диапазона.

Набор функций HRTF с уменьшенным взаимоподобием, сформированный на выходе процессора HRTF 34, может быть использован для задания функций HRTF направленных фильтров 14a-14h устройства на фиг.1, в компоновку которого минимизатор подобия 12 может быть включен или не включен. Благодаря рассогласованию характеристик модифицированных функций HRTF упомянутые выше эффекты расширения пространственного объема выходного бинаурального сигнала и экстернализации могут быть достигнуты без применения минимизатора подобия 12.

Как описано выше, устройство на фиг.1 может быть дополнено опцией создания эффектов звукоотражения и/или реверберации в ограниченном пространстве как составляющих выходного бинаурального сигнала с использованием понижающего микширования, по меньшей мере, некоторых из входных каналов 18a-18d. Это способствует упрощению операции, выполняемой направленными фильтрами 14a-14h. На фиг.3 отображено устройство, имитирующее в выходном бинауральном сигнале эффекты звукоотражения и реверберации в помещении. Устройство 40 включает в себя генератор сигнала с понижающим микшированием (понижающий микшер) 42, к которому последовательно подключен процессор построения акустического объема 44. Устройство 40 может быть установлено между входным терминалом для ввода многоканального сигнала 18 устройства на фиг.1 и выходным терминалом для вывода бинаурального сигнала, причем, составляющая левого канала 46а процессора пространственного построения 44 соединена с выходом 22а, а правый выходной канал 46b процессора пространственного построения 44 соединен с выходом 22b. Понижающий микшер 42 генерирует на основе многоканального сигнала 18 моно- или стереосигнал 48, а процессор 44 генерирует левый канал 46а и правый канал 46b, несущий компоненты бинаурального сигнала, имитирующие отражение и реверберацию в помещении, смоделированные на основе моно- или стереосигнала 48.

Идея, лежащая в основе процессора построения акустического пространства 44, состоит в том, что звукоотражение/реверберация, предположим, в помещении, могут быть смоделированы для естественного восприятия слушателем на основе понижающего микширования, например, в виде простого суммирования каналов многоканального сигнала 18. Поскольку отраженные звуки/реверберация достигают слухового тракта позже, чем звуки, идущие от источника по прямой или вдоль оси видимости, импульсные характеристики процессора построения акустического пространства представляют и замещают хвостовые импульсные характеристики направленных фильтров, показанных на фиг.1. Импульсные характеристики направленных фильтров, в свою очередь, могут быть укорочены за счет ограничения из функций моделированием прямого прохождения звука и отражения с затуханием в области головы, ушей и плеч слушателя. Безусловно, граница между тем, что должно быть смоделировано направленным фильтром, а что - процессором построения акустического пространства, задается совершенно произвольно, причем, направленный фильтр, может, скажем, также моделировать первичные отражения/реверберацию в помещении.

На фиг.4А и 4В показаны возможные конструктивные решения процессора построения акустического пространства. Как видно на фиг.4а, в процессор построения акустического пространства 44, состоящий из двух фильтров реверберации 50а и 50b, поступает сигнал 48 монофонического понижающего микширования. Как и направленные фильтры, фильтры реверберации 50а и 50b могут работать как во временной, так и в частотной области. На входы обоих поступает сигнал понижающего мономикширования (монодаунмикс) 48. Фильтр реверберации 50а на выходе генерирует составляющую левого канала 46а, в то время как фильтр реверберации 50b формирует на выходе компоненту правого канала 46b. На фиг.4В приведен пример компоновки процессора объемного звукопостроения 44 для обработки сигнала понижающего стереомикширования (стереодаунмикса) 48. В этом случае процессор пространственного звукопостроения состоит из четырех фильтров реверберации 50a-50d. Входы фильтров реверберации 50а и 50b сопряжены с первым каналом 48а понижающего стереомикширования 48, а входы фильтров реверберации 50 с и 50d соединены со вторым каналом 48b понижающего стереомикширования 48. Выходы фильтров реверберации 50а и 50с сопряжены с входом сумматора 52а, который на выходе генерирует составляющую левого канала 46а. Выходы фильтров реверберации 50b и 50d соединены с входами второго сумматора 52b, формирующего на выходе составляющую правого канала 46b.

Хотя выше сказано, что понижающий микшер 42 может выполнять простое сложение каналов многоканального сигнала 18, это не распространяется на конфигурацию на фиг.3. Понижающий микшер 42 на фиг.3, скорее, предусматривает формирование моно- или стереодаунмикса 48 таким образом, что множество каналов вносят каждый свою компоненту в моно- или стереофоническое понижающее микширование с интенсивностью, различной, как минимум, для двух каналов многоканального сигнала 18. Это может служить средством блокировки или активации процесса имитации акустического объема для определенных видов контента многоканальных сигналов, таких как речь или фоновая музыка, микшируемых в выделенный канал, или выделенные каналы многоканального сигнала, чтобы предупреждать таким образом неестественность звучания.

Допустим, понижающий микшер 42 на фиг.3 может выполнять понижающее моно- или стереомикширование 48 таким образом, что составляющие центрального канала многоканального сигнала 18 вводятся в сигнал понижающего моно- или стереомикширования (моно- или стереодаунмикса) 48 с разной степенью снижения интенсивности относительно других каналов многоканального сигнала 18. К примеру, глубина снижения уровня может составлять от 3 дБ до 12 дБ. Интенсивность может плавно спадать по всему спектру рабочих частот каналов многоканального сигнала 18 или может находиться в зависимости от частоты, предположим, быть привязанной к заданному участку спектра, например, соответствующему голосовым сигналам. Степень уменьшения интенсивности относительно других каналов может быть одинаковой для всех каналов. Это означает, что другие каналы могут быть смешаны с сигналом понижающего микширования 48 при одинаковом уровне. Или наоборот, другие каналы могут быть введены в микшируемый с понижением сигнал 48 при разных уровнях. Кроме того, степень уменьшения интенсивности относительно других каналов может быть соотнесена со средним значением других каналов или средним значением всех каналов, включая редуцированный. В подобном случае стандартное отклонение смешиваемых весов других каналов или стандартное отклонение смешиваемых весов всех каналов может составлять менее 66% от уровня снижения интенсивности смешиваемого веса редуцированного по уровню канала относительно только что упомянутого среднего значения.

Эффект снижения уровня интенсивности относительно среднего канала состоит в том, что выходной бинауральный сигнал, сформированный введением составляющих 46а и 46b, воспринимается слушателями более естественно, чем без такого снижения интенсивности, по меньшей мере, при ряде условий, рассматриваемых подробнее ниже. Другими словами, генератор сигнала с понижающим микшированием (понижающий микшер) 42 получает взвешенную сумму каналов многоканального сигнала 18, имеющую весовое значение, соотнесенное с центральным каналом, редуцируемым относительно весовых значений других каналов.

Снижение интенсивности центрального канала особенно эффективно для передачи речи в кинодиалогах или воспроизведения музыкальных фрагментов. Улучшение слухового восприятия разговорных сцен в значительной степени компенсирует те несущественные минусы, которые возникают из-за снижения уровня в неречевых фрагментах. Тем не менее, исходя из альтернативных конструктивных решений, снижение уровня не является обязательным постоянно действующим фактором. Вернее сказать, понижающий микшер 42 может быть выполнен с возможностью коммутации между режимом с отключенной функцией снижения уровня и режимом, при котором функция снижения уровня активирована. Говоря иначе, понижающий микшер 42 предусматривает возможность варьирования глубины снижения уровня интенсивности во времени. Изменения могут вноситься в двоичной или аналоговой форме в интервале значений от ноля до максимума. Понижающий микшер 42 может иметь компоновку, обеспечивающую переключение режимов или варьирование глубины снижения уровня в зависимости от информации, содержащейся в многоканальном сигнале 18. Например, понижающий микшер 42 может быть настроен на распознавание голосовых фаз или на дифференциацию голосовых и неголосовых фаз, или может задавать систему измерения голосового контента, предположим, в форме порядковой шкалы, для последовательности фреймов центрального канала. Допустим, понижающий микшер 42

Формирование бинауральных сигналов

Патент 2505941