Способ и устройство для генерации бинаурального аудиосигнала

Иллюстрации

Показать все

Изобретение относится к способу и устройству для генерирования бинаурального звукового сигнала и, в частности, к генерированию бинаурального звукового сигнала из моносигнала понижающего микширования. Техническим результатом является повышение качества генерируемого бинаурального сигнала при снижении потребления вычислительного или запоминающего ресурса. Указанный результат достигается тем, что устройство для генерирования бинаурального звукового сигнала включает демультиплексор (401) и декодер (403), который получает звуковые данные, включающие звуковой сигнал M-канала, являющийся сигналом понижающего микширования N-канала, и пространственные параметрические данные для повышающего микширования звукового сигнала M-канала до звукового сигнала N-канала. Конверсионный процессор (411) преобразует пространственные параметры пространственных параметрических данных в первые бинауральные параметры в ответ на бинауральную перцепционную передаточную функцию. Матричный процессор (409) преобразует звуковой сигнал M-канала в первый стереосигнал в ответ на первые бинауральные параметры. Стереофильтр (415, 417) генерирует бинауральный звуковой сигнал посредством фильтрации первого стереосигнала. Коэффициенты фильтрации для стереофильтра определяются в ответ на бинауральную перцепционную передаточную функцию посредством коэффициентного процессора (419). 9 н. и 8 з.п. ф-лы, 6 ил.

Реферат

Изобретение имеет отношение к способу и устройству для генерирования бинаурального звукового сигнала и, в частности, но не исключительно, к генерированию бинаурального звукового сигнала из моносигнала понижающего микширования.

В последнее десятилетие существует тенденция к использованию многоканального звукового, а именно пространственного звукового сигнала, простирающегося за рамки обычных стереосигналов. Например, традиционная стереозапись сигналов включает только два канала, тогда как современные передовые звуковые системы типично используют пять или шесть каналов, как, например, в популярных 5.1 системах объемного звучания. Это предусматривает более качественное прослушивание, когда пользователь может быть окружен источниками звука.

Были разработаны различные методы и стандарты для передачи таких многоканальных сигналов. Например, шесть дискретных каналов, представляющих 5.1 систему объемного звучания, могут быть переданы в соответствии со стандартами, такими как Перспективное Звуковое Кодирование (ААС) или Долби Цифровой.

Однако чтобы обеспечить обратную совместимость, используется понижающее микширование большего числа каналов до меньшего числа, а именно, часто используется понижающее микширование 5.1 сигнала объемного звучания до стереосигнала, позволяющее воспроизводить стереосигнал традиционными (стерео) декодерами, а 5.1 сигнал декодерами объемного звучания.

Один пример - это MPEG2 (MPEG - Экспертная группа по движущимся изображениям) метод обратного совместимого кодирования. Многоканальный сигнал понижающе микшируется в стереосигнал. Дополнительные сигналы кодируются во вспомогательную часть данных, что позволяет многоканальному декодеру MPEG2 создавать отображение многоканального сигнала. Декодер MPEG1 игнорирует вспомогательные данные и, таким образом, декодирует только понижающее стереомикширование.

Есть несколько параметров, которые могут использоваться, чтобы описать пространственные свойства звуковых сигналов. Один из таких параметров - межканальная взаимная корреляция, такая как взаимная корреляция между левым каналом и правым каналом для стереосигналов. Другой параметр - коэффициент мощности каналов. В так называемых (параметрических) пространственных звуковых кодерах эти и другие параметры извлекаются из оригинального звукового сигнала, чтобы произвести звуковой сигнал, имеющий уменьшенное число каналов, например, только один канал, плюс ряд параметров, описывающих пространственные свойства оригинального звукового сигнала. В так называемых (параметрических) пространственных звуковых декодерах восстанавливаются пространственные свойства, как описано переданными пространственными параметрами.

Размещение трехмерного источника звука в настоящее время приобретает интерес, особенно в области мобильной связи. Качество воспроизведения музыки и звуковые эффекты в мобильных играх могут существенно улучшаться, когда размещены в трехмерном пространстве, эффективно создавая трехмерный эффект «без головы». А именно, записываются и воспроизводятся бинауральные звуковые сигналы, которые содержат определенную направленную информацию, к которой чувствительно человеческое ухо. Бинауральная запись типично осуществляется при помощи двух микрофонов, установленных на макете человеческой головы так, чтобы записанный звук соответствовал звуку, улавливаемому человеческим ухом, и включал любые воздействия из-за формы головы и ушей. Бинауральная запись отличается от стереозаписи (то есть, стереофонической), так как воспроизведение бинауральной записи вообще предназначено для гарнитуры или наушников, тогда как стереозапись вообще осуществляется для воспроизведения громкоговорителями. В то время как бинауральная запись позволяет воспроизведение всей пространственной информации при использовании только двух каналов, стереозапись не обеспечила бы то же самое пространственное восприятие.

Регулярная двуканальная (стереофоническая) или многоканальная (например, 5.1) запись может быть преобразована в бинауральную запись посредством свертывания каждого одномерного сигнала с рядом перцепционных передаточных функций. Такие перцепционные передаточные функции моделируют влияние головы человека, и возможно, других объектов, на сигнал. Хорошо известный тип пространственной перцепционной передаточной функции - так называемая Функция Моделирования Восприятия Звука (HRTF). Альтернативным типом пространственной перцепционной передаточной функции, которая также принимает во внимание отражения сигнала от стен, потолка и пола комнаты, является Бинауральная Импульсная Характеристика Помещения (BRIR).

Как правило, трехмерные позиционные алгоритмы используют HRTFs (или BRIRs), которые описывают передачу от определенного положения источника звука до барабанных перепонок посредством импульсной характеристики. Трехмерное размещение источника звука может быть применено к многоканальным сигналам посредством HRTFs, таким образом, позволяя бинауральному сигналу предоставлять пространственную звуковую информацию пользователю, например использующему пару наушников.

Обычный бинауральный алгоритм синтеза обрисован в общих чертах на фиг.1. Ряд входных каналов фильтруется рядом HRTFs. Каждый входной сигнал разделен на два сигнала (левый «L» и правый «R» компонент); каждый из этих сигналов впоследствии фильтруется при помощи HRTF, соответствующим желаемому положению источника звука. Все сигналы левого уха впоследствии суммируются, чтобы получить левый выходной бинауральный сигнал, и сигналы правого уха суммируются, чтобы получить правый выходной бинауральный сигнал.

Существуют системы декодера, которые могут получать кодированный сигнал объемного звука и генерировать впечатление объемного звука от бинаурального сигнала. Например, существуют системы наушников, которые позволяют преобразовывать сигнал объемного звука в бинауральный сигнал объемного звука, чтобы создать впечатление объемного звучания у пользователя наушников.

Фиг.2 показывает систему, где MPEG декодер объемного звука получает стереосигнал с пространственными параметрическими данными. Входной поток битов демультиплексируется (разуплотняется) демультиплексором (201) для получения пространственных параметров и потока битов понижающего микширования. Последний поток битов расшифровывается при помощи обычного моно- или стереодекодера (203). Декодированное понижающее микширование декодируется пространственным декодером (205), который обеспечивает многоканальный выход, основанный на переданных пространственных параметрах. Наконец, многоканальный выход обрабатывается на стадии бинауральной синтеза (207) (подобный показанному на фиг.1), производящего бинауральный выходной сигнал, обеспечивающий впечатление объемного звучания пользователю.

Однако такой подход сложен и требует существенного вычислительного ресурса и может далее ухудшить качество звука и ввести слышимые артефакты.

Чтобы преодолеть некоторые из этих недостатков, было предложено объединить параметрический многоканальный звуковой декодер с бинауральным алгоритмом синтеза таким образом, что многоканальный сигнал мог быть воспроизведен в наушниках без необходимости первоначального формирования многоканального сигнала из переданного сигнала понижающего микширования, сопровождаемого понижающим микшированием многоканального сигнала при помощи фильтров HRTF.

В таких декодерах пространственные параметры повышающего микширования для восстановления многоканального сигнала объединяются с фильтрами HRTF, чтобы генерировать объединенные параметры, которые могут непосредственно быть применены к сигналу понижающего микширования для получения бинаурального сигнала. Чтобы сделать это, фильтры HRTF параметризуются.

Пример такого декодера показан на фиг.3 и далее описан в работе Брибаарта Дж. «Анализ и синтез бинауральных параметров для эффективного трехмерного воспроизведения звукового сигнала в MPEG объемном звучании». Изд. ICME, Пекин, Китай (2007) и в работе Брибаарта Дж., Фоллера К. «Пространственная звуковая обработка: MPEG объемное звучание и другие применения», Уайли & Санз, Нью-Йорк (2007).

Входной поток битов, содержащий пространственные параметры и сигнал понижающего микширования, получается при помощи демультиплексора 301. Сигнал понижающего микширования декодируется обычным декодером 303, в результате чего получается моно или стерео понижающее микширование.

Дополнительно, данные HRTF преобразуются в область значений параметра посредством узла извлечения параметров HRTF 305. Получающиеся параметры HRTF объединяются в узле преобразования 307 для генерирования объединенных параметров, называемых бинауральными параметрами. Эти параметры описывают объединенный эффект пространственных параметров и обработки HRTF.

Пространственный декодер синтезирует бинауральный выходной сигнал, изменяя декодированный сигнал понижающего микширования, зависящий от бинауральных параметров. А именно, сигнал понижающего микширования передается в область преобразований или область блока фильтров при помощи узла преобразований 309 (или обычный декодер 303 может непосредственно обеспечивать декодированный сигнал понижающего микширования как преобразованный сигнал). Узел преобразований 309 может, в частности, включать блок фильтров QMF (квадратурный зеркальный фильтр), чтобы генерировать поддиапазоны QMF. Сигнал понижающего микширования поддиапазона подается в декодер (матричный узел) 311, который выполняет 2×2 матричную операцию в каждом поддиапазоне.

Если переданный сигнал понижающего микширования является стереосигналом, то два входных сигнала в матричный узел 311 являются двумя стереосигналами. Если переданный сигнал понижающего микширования является моносигналом, один из входных сигналов в матричный узел 311 является моносигналом, а другой сигнал является декоррелированным сигналом (подобно обычному повышающему микшированию моносигнала в стереосигнал).

И для моно и для стерео понижающего микширования матричный узел 311 выполняет операцию:

где k - индекс поддиапазона, n - щелевой (область преобразований) индекс, - матричные элементы для поддиапазона k, , - два входных сигнала для поддиапазона k, и , - образцы бинаурального выходного сигнала.

Матричный узел 311 подает образцы бинаурального выходного сигнала в инверсный узел преобразований 313, который преобразовывает сигнал обратно во временную область. Получающаяся временная область бинаурального сигнала может затем подаваться в наушники, чтобы создать впечатление объемного звука.

У описанного подхода есть много преимуществ:

Обработка HRTF может быть выполнена в области преобразования, которая во многих случаях может сократить число необходимых преобразований, поскольку та же самая область преобразований может использоваться для декодирования сигнала понижающего микширования.

Обработка достаточно проста (она использует только умножение на 2×2 матрицы) и фактически не зависит от числа одновременных звуковых каналов. Она может применяться и к моно, и к стерео понижающему микшированию; HRTFs представлены в очень компактном виде и, следовательно, могут быть переданы и сохранены очень эффективно.

Однако у подхода также есть некоторые недостатки. А именно, подход пригоден только для HRTFs, имеющих относительно короткие импульсные характеристики (обычно меньше, чем область преобразований), поскольку более длинные импульсные характеристики не могут быть представлены величинами параметризуемого поддиапазона HRTF. Таким образом, подход не пригоден для звуковой окружающей среды, имеющей длительное эхо или реверберации. А именно, подход обычно не работает со звукоподражательными HRTFs или Бинауральными Импульсными Характеристиками Помещения (BRIRs), которые могут быть длительными и поэтому очень трудно поддающимися правильному моделированию посредством параметрического подхода.

Следовательно, улучшенная система для генерирования бинаурального звукового сигнала была бы очень полезна и, в частности, система, обеспечивающая увеличение гибкости, улучшение работы, облегчение реализации, уменьшение потребления ресурса и/или улучшение пригодности для различной звуковой окружающей среды, была бы очень полезна.

Таким образом, изобретение направлено на поиск возможности смягчить, облегчить или устранить один или несколько вышеупомянутых недостатков отдельно или в любой комбинации.

Согласно первому аспекту изобретения предоставлено устройство для генерирования бинаурального звукового сигнала; устройство включает: средства для получения звуковых данных, включающие звуковой сигнал М-канала, являющийся звуковым сигналом понижающего микширования N-канала, и пространственные параметрические данные для повышающего микширования звукового сигнала М-канала до звукового сигнала N-канала; параметрические данные предназначены для преобразования пространственных параметров пространственных параметрических данных в первые бинауральные параметры в ответ на, по крайней мере, одну бинауральную перцепционную передаточную функцию; преобразование предназначено для превращения звукового сигнала М-канала в первый стереосигнал в ответ на первые бинауральные параметры; стереофильтр для генерирования бинаурального звукового сигнала посредством фильтрации первого стереосигнала; и коэффициент предназначен для определения коэффициентов фильтрации для стереофильтра в ответ на бинауральную перцепционную передаточную функцию.

Изобретение позволит произвести улучшенный бинауральный звуковой сигнал. В частности, осуществления изобретения могут использовать комбинацию частотной и временной обработки для генерирования бинауральных сигналов, отражающих звукоподражательную окружающую среду и/или HRTF или BRIRs с длинными импульсными характеристиками. Может быть достигнута относительная простота. Обработка может быть осуществлена с низкой потребностью вычислительного и/или запоминающего ресурса.

Звуковой сигнал понижающего микширования М-канала может быть, в частности, моно- или стереосигналом, включающим понижающее микширование более высокого числа пространственных каналов, такое как понижающее микширование 5.1, или 7.1 объемного сигнала. Пространственные параметрические данные могут, в частности, включать межканальные различия и/или различия взаимной корреляции для звукового сигнала N-канала. Бинауральная перцепционная передаточная функция(и) может быть HRTF или BRIR передаточной функцией(ями).

Согласно дополнительной характеристике изобретения, устройство далее включает преобразование, предназначенное для преобразования звукового сигнала М-канала из временной области в область поддиапазона, и где средства преобразования и стереофильтр устроены так, чтобы обеспечить индивидуальную обработку каждого поддиапазона области поддиапазона.

Техническая характеристика может обеспечить облегченную реализацию, пониженное потребление ресурса и/или совместимость со многими звукообрабатывающими применениями, такими как обычные алгоритмы декодирования.

Согласно дополнительной технической характеристике изобретения продолжительность импульсной характеристики бинауральной перцепционной передаточной функции превышает преобразованный интервал обновления.

Изобретение может обеспечить генерирование улучшенного бинаурального сигнала и/или может уменьшить сложность. В частности, изобретение может генерировать бинауральные сигналы, соответствующие звуковой окружающей среде с характеристиками длительного эха или реверберации.

Согласно дополнительной технической характеристике изобретения средства преобразования устроены так, чтобы, по существу, генерировать выходные стереообразцы для каждого поддиапазона:

,

где, по крайней мере, один из LI и RI является образцом звукового канала звукового сигнала М-канала в поддиапазоне, и конверсионные средства устроены так, чтобы определить матричные коэффициенты hxy и в ответ на пространственные параметрические данные, и в ответ, по крайней мере, на одну бинауральную перцепционную передаточную функцию.

Техническая характеристика может обеспечить генерирование улучшенного бинаурального сигнала и/или может уменьшить сложность.

Согласно дополнительной технической характеристике изобретения коэффициентные средства включают: средства для обеспечения представления поддиапазона импульсной характеристики множества бинауральных перцепционных передаточных функций, соответствующих различным источникам звука в сигнале N-канала; средства для определения коэффициентов фильтрации посредством взвешенной комбинации соответствующих коэффициентов представлений поддиапазона; и средства для определения весовых коэффициентов для представлений поддиапазона для взвешенной комбинации в ответ на пространственные параметрические данные.

Изобретение может обеспечить генерирование улучшенного бинаурального сигнала и/или может уменьшить сложность. В частности, может быть определена низкая сложность и высококачественные коэффициенты фильтрации.

Согласно дополнительной технической характеристике изобретения первые бинауральные параметры включают параметры когерентности, указывающие на корреляцию между каналами бинаурального звукового сигнала.

Техническая характеристика может обеспечить генерирование улучшенного бинаурального сигнала и/или может уменьшить сложность. В частности, желаемая корреляция может быть эффективно обеспечена посредством осуществления несложной операции до фильтрования. А именно, несложное умножение матрицы поддиапазона может быть выполнено для введения желаемой корреляции или свойств когерентности в бинауральный сигнал. Такие свойства могут быть введены до фильтрования без модификации фильтров. Таким образом, техническая характеристика может обеспечить эффективный несложный контроль корреляции или характеристик когерентности.

Согласно дополнительной технической характеристике изобретения первые бинауральные параметры не включают, по крайней мере, один из параметров локализации, показывающий местоположение любого звукового источника бинаурального звукового сигнала, и параметры реверберации, показывающие реверберацию любого звукового компонента бинаурального звукового сигнала.

Техническая характеристика может обеспечить генерирование улучшенного бинаурального сигнала и/или может уменьшить сложность. В частности, техническая характеристика может обеспечить эффективный контроль информации о локализации и/или параметров реверберации исключительно фильтрами, таким образом, облегчая операцию и/или обеспечивая улучшенное качество. Когерентность или корреляция бинауральных стереоканалов может контролироваться конверсионными средствами, таким образом, обеспечивая контроль корреляции/когерентности и локализации и/или реверберации независимо там, где это является практичным или эффективным.

Согласно дополнительной технической характеристике изобретения коэффициентные средства устроены так, чтобы определить коэффициенты фильтрации, чтобы отразить, по крайней мере, одну из реплик локализации и реплик реверберации для бинаурального звукового сигнала.

Техническая характеристика может обеспечить генерирование улучшенного бинаурального сигнала и/или может уменьшить сложность. В частности, желаемая локализация или свойства реверберации могут быть эффективно обеспечены фильтрацией поддиапазона, таким образом, обеспечивая улучшенное качество и, в частности, делая возможным эффективное моделирование, например, звукоподражательную окружающую среду.

Согласно дополнительной технической характеристике изобретения звуковой сигнал М-канала является моно звуковым сигналом, и конверсионные средства устроены так, чтобы генерировать декоррелированный сигнал от моно звукового сигнала, и генерировать первый стереосигнал посредством матричного умножения образцов стереосигнала, включающего декоррелированный сигнал и моно звуковой сигнал.

Техническая характеристика может обеспечить генерирование улучшенного бинаурального сигнала от моносигнала и/или может уменьшить сложность. В частности, изобретение может обеспечить все необходимые параметры для генерирования высококачественного бинаурального звукового сигнала от типично доступных пространственных параметров.

Согласно другому аспекту изобретения предоставлен способ генерирования бинаурального звукового сигнала; способ включает: получение звуковых данных, включающих звуковой сигнал М-канала, являющийся звуковым сигналом понижающего микширования N-канала, и пространственные параметрические данные для повышающего микширования звукового сигнала М-канала до звукового сигнала N-канала; преобразование пространственных параметров пространственных параметрических данных в первые бинауральные параметры в ответ на, по крайней мере, одну бинауральную перцепционную передаточную функцию; преобразование звукового сигнала М-канала в первый стереосигнал в ответ на первые бинауральные параметры; генерирование бинаурального звукового сигнала посредством фильтрации первого стереосигнала; и определение коэффициентов фильтрации для стереофильтра в ответ на, по крайней мере, одну бинауральную перцепционную передаточную функцию.

Согласно другому аспекту изобретения предоставлен передатчик для передачи бинаурального звукового сигнала; передатчик включает: средства для получения звуковых данных, включающих звуковой сигнал М-канала, являющийся понижающим микшированием звукового сигнала N-канала, и пространственные параметрические данные для повышающего микширования звукового сигнала М-канала до звукового сигнала N-канала; параметрические данные предназначены для преобразования пространственных параметров пространственных параметрических данных в первые бинауральные параметры в ответ на, по крайней мере, одну бинауральную перцепционную передаточную функцию; преобразование предназначено для преобразования звукового сигнала М-канала в первый стереосигнал в ответ на первые бинауральные параметры; стереофильтр для генерирования бинаурального звукового сигнала посредством фильтрации первого стереосигнала; коэффициент предназначен для определения коэффициентов фильтрации для стереофильтра в ответ на бинауральную перцепционную передаточную функцию; и средства для передачи бинаурального звукового сигнала.

Согласно другому аспекту изобретения предоставлена система передачи для передачи звукового сигнала; система передачи включает передатчик, включающий: средства для получения звуковых данных, включающих звуковой сигнал М-канала, являющийся понижающим микшированием звукового сигнала N-канала, и пространственные параметрические данные для повышающего микширования звукового сигнала М-канала до звукового сигнала N-канала; параметрические данные предназначены для преобразования пространственных параметров пространственных параметрических данных в первые бинауральные параметры в ответ на, по крайней мере, одну бинауральную перцепционную передаточную функцию, конверсионные средства предназначены для преобразования звукового сигнала М-канала в первый стереосигнал в ответ на первые бинауральные параметры; стереофильтр для генерирования бинаурального звукового сигнала посредством фильтрации первого стереосигнала; коэффициент предназначен для определения коэффициентов фильтрации для стереофильтра в ответ на бинауральную перцепционную передаточную функцию, и средства для передачи бинаурального звукового сигнала; и приемник для получения бинаурального звукового сигнала.

Согласно другому аспекту изобретения предоставлено звукозаписывающее устройство для записи бинаурального звукового сигнала; звукозаписывающее устройство включает средства для получения звуковых данных, включающих звуковой сигнал М-канала, являющийся звуковым сигналом понижающего микширования N-канала, и пространственные параметрические данные для повышающего микширования звукового сигнала М-канала до звукового сигнала N-канала; параметрические данные предназначены для преобразования пространственных параметров пространственных параметрических данных в первые бинауральные параметры в ответ на, по крайней мере, одну бинауральную перцепционную передаточную функцию; средства преобразования предназначены для превращения звукового сигнала М-канала в первый стереосигнал в ответ на первые бинауральные параметры; стереофильтр предназначен для генерирования бинаурального звукового сигнала посредством фильтрации первого стереосигнала; коэффициентный процессор (419) предназначен для определения коэффициентов фильтрации для стереофильтра в ответ на бинауральную перцепционную передаточную функцию и для записи бинаурального звукового сигнала.

Согласно другому аспекту изобретения предоставлен способ передачи бинаурального звукового сигнала; метод включает: получение звуковых данных, включающих звуковой сигнал М-канала, являющийся понижающим микшированием звукового сигнала N-канала, и пространственные параметрические данные для повышающего микширования звукового сигнала М-канала до звукового сигнала N-канала; преобразование пространственных параметров пространственных параметрических данных в первые бинауральные параметры в ответ на, по крайней мере, одну бинауральную перцепционную передаточную функцию; преобразование звукового сигнала М-канала в первый стереосигнал в ответ на первые бинауральные параметры; генерирование бинаурального звукового сигнала посредством фильтрации первого стереосигнала в фильтре; определение коэффициентов фильтрации для стереофильтра в ответ на бинауральную перцепционную передаточную функцию; и передача бинаурального звукового сигнала.

Согласно другому аспекту изобретения предоставлен способ передачи и получения бинаурального звукового сигнала; метод включает: передатчик, выполняющий следующие шаги: получение звуковых данных, включающих звуковой сигнал М-канала, являющийся звуковым сигналом понижающего микширования N-канала, и пространственные параметрические данные для повышающего микширования звукового сигнала М-канала до звукового сигнала N-канала; преобразование пространственных параметров пространственных параметрических данных в первые бинауральные параметры в ответ на, по крайней мере, одну бинауральную перцепционную передаточную функцию, преобразование звукового сигнала М-канала в первый стереосигнал в ответ на первые бинауральные параметры; генерирование бинаурального звукового сигнала посредством фильтрации первого стереосигнала в стереофильтре; определение коэффициентов фильтрации для стереофильтра в ответ на бинауральную перцепционную передаточную функцию, и передача бинаурального звукового сигнала; и приемник, осуществляющий получение бинаурального звукового сигнала.

Согласно другому аспекту изобретения предоставлен компьютерный программный продукт для осуществления любого из вышеупомянутых описанных способов.

Эти и другие аспекты, технические характеристики и преимущества изобретения станут очевидны и объяснимы при ссылке на осуществление(я), описанное далее.

Осуществления изобретения будут описаны, только в качестве примера, со ссылкой на чертежи, где:

Фиг.1 - иллюстрация подхода к генерированию бинаурального сигнала в соответствии с прототипом;

Фиг.2 - иллюстрация подхода к генерированию бинаурального сигнала в соответствии с прототипом;

Фиг.3 - иллюстрация подхода к генерированию бинаурального сигнала в соответствии с прототипом;

Фиг.4 иллюстрирует устройство для генерирования бинаурального звукового сигнала в соответствии с некоторыми осуществлениями изобретения;

Фиг.5 иллюстрирует блок-схему примера способа генерирования бинаурального звукового сигнала в соответствии с некоторыми осуществлениями изобретения; и

Фиг.6 иллюстрирует пример системы передачи звукового сигнала в соответствии с некоторыми осуществлениями изобретения

Следующее описание сосредоточено на осуществлениях изобретения, применимого к синтезу бинаурального стереосигнала от понижающего микширования моносигнала множества пространственных каналов. В частности, описание будет соответствовать генерированию бинаурального сигнала для воспроизведения через наушники от MPEG потока битов объемного звука, закодированного при помощи так называемой «5151» конфигурации, имеющей 5 каналов для входа (обозначены первой «5»), понижающее микширование монозвука (первая «1»), 5-канальная реконструкция (вторая «5») и пространственная параметризация согласно древовидной структуре «1». Подробная информация относительно различных древовидных структур может быть найдена в работах Херре Дж., Кьерлинга К., Брибаарта Дж., Фоллера К., Диша С., Пурнхагена X., Коппенса Дж., Гилперта Дж., Редена Дж., Оомена У., Линзмейера К., Чонга К.S. «MPEG объемный звук - стандарт ISO/MPEG для эффективного и совместимого многоканального звукового кодирования», Свид. 122 AES соглашения, Вена, Австрия (2007) и Брибаарта Дж., Хото Г., Коппенса Дж., Шуйерса Е., Оомена У., Ван де Пара С. «Фон, концепция и архитектура современного стандарта MPEG объемного звука на многоканальном звуковом сжатии» журнал Общества Звукотехники, 55, стр.331-351 (2007). Однако следует отметить, что изобретение не ограничивается только этим применением, а может, например, быть применено ко многим другим звуковым сигналам, включая, например, объемные звуковые сигналы, понижающе микшированные до стереосигнала.

В известных устройствах, таких как устройство на фиг.3, длительные HRTFs или BRIRs не могут быть эффективно представлены параметризованными данными и матричной операцией, выполненной при помощи матричного узла 311. В действительности, умножение матричного поддиапазона ограничивается, чтобы представить импульсные ответы (характеристики) временного интервала, имеющие продолжительность, соответствующую временному интервалу преобразования, использовавшегося для превращения во временной интервал поддиапазона. Например, если преобразование является Быстрым Преобразованием Фурье (FFT), каждый интервал FFT образцов N передается в образцы поддиапазона N, которые подаются в матричный узел. Однако импульсные ответы длиннее, чем образцы N, не будут представлены в достаточной мере.

Одно решение этой проблемы состоит в том, чтобы использовать метод фильтрации области поддиапазона, где матричная операция заменена методом матричной фильтрации, где фильтруются индивидуальные поддиапазоны. Таким образом, в таких осуществлениях обработка поддиапазона может вместо простого матричного умножения быть представлена как:

,

где Nq - число отводов, используемых для фильтра, чтобы представить функцию(и) HRTF/BRIR.

Такой подход эффективно соответствует применению четырех фильтров к каждому поддиапазону (один для каждой перестановки входного канала и выходного канала матричного узла 311).

Хотя такой подход может быть полезным в некоторых осуществлениях, у него также есть некоторые связанные недостатки. Например, система требует четырех фильтров для каждого поддиапазона, что значительно увеличивает сложность и потребление ресурса для обработки. Кроме того, во многих случаях может быть сложно, трудно или даже невозможно генерировать параметры, которые точно соответствуют желаемым импульсным ответам HRTF/BRIR.

А именно, для простого матричного умножения (фиг.3) когерентность бинаурального сигнала может быть оценена при помощи параметров HRTF и переданных пространственных параметров, потому что оба типа параметров существуют в той же самой (параметрической) области. Когерентность бинаурального сигнала зависит от когерентности между индивидуальными источниками звуковых сигналов (как описано пространственными параметрами) и акустической дорожкой от индивидуальных позиций до барабанных перепонок (описывается HRTFs). Если относительные уровни сигнала, парные величины когерентности, и передаточные функции HRTF все описаны статистическим (параметрическим) способом, чистая когерентность, являющаяся результатом объединенного эффекта пространственного представления и обработки HRTF, может быть оценена непосредственно в параметрической области. Этот процесс описан в работах Брибаарта Дж. «Анализ и синтез бинауральных параметров для эффективного трехмерного звукового представления в MPEG объемном звуке», Изд. ICME, Пекин, Китай (2007) и Брибаарта Дж., Фоллера К. «Пространственная звуковая обработка: MPEG объемный звук и другие применения», Уайли & Санз, Нью-Йорк (2007). Если желаемая когерентность известна, выходной сигнал с когерентностью согласно указанной величине может быть получен при помощи комбинации сигнала декоррелятора и моносигнала посредством матричной операции. Этот процесс описан в работах Брибаарта Дж., Ван де Пара С., Колрауша А., Шуйерса Е. «Параметрическое кодирование звукового стереосигнала», ЕВРАСИП Журн. Прикладной Сигнал, №9, стр.1305-1322 (2005) и Энгегарда Дж., Пурнхагена X., Редена Дж., Лильерида Л. «Искусственная среда в параметрическом стереокодировании», изд. 116-го соглашения AES, Берлин, Германия (2004).

В результате элементы матрицы сигнала декоррелятора (h12 и h22) следуют из относительно простых отношений между пространственными и HRTF параметрами. Однако для ответов (характеристик) фильтра, таких как вышеописанные, значительно труднее вычислить чистую когерентность, являющуюся результатом пространственного декодирования и бинаурального синтеза, потому что желаемая величина когерентности отличается для первой части (прямой звук) BRIR и для остальной части (последующая реверберация).

А именно, для BRIRs необходимые свойства могут значительно изменяться с течением времени. Например, первая часть BRIR может описывать прямой звук (без эффектов комнаты). Эта часть, поэтому, высоконаправлена (с отчетливыми свойствами локализации, отраженными, например, различиями уровня и различиями времени прибытия, и высокой когерентностью). Ранние отражения и поздняя реверберация, с другой стороны, часто относительно менее направлены. Таким образом, различия уровня между ушами менее явные, различия времени прибытия бывает трудно определить точно из-за их вероятностной природы, а когерентность во многих случаях весьма низкая. Это изменение свойств локализации весьма важно для точного захвата, но это может быть трудно, потому что возникнет необходимость того, чтобы когерентность ответов (характеристик) фильтра изменялась в зависимости от положения в пределах фактического ответа фильтра, в то время как полный ответ фильтра будет зависеть от пространственных параметров и HRTF коэффициентов. Эта комбинация требований является трудновыполнимой при ограниченном числе шагов обработки.

Таким образом, определение правильной когерентности между бинауральными выходными сигналами и гарантия ее правильного поведения во времени являются очень трудными для понижающего микширования моносигнала и типично невозможными при использовании подходов, известных как прототипный подход матричного умножения.

Фиг.4 иллюстрирует устройство для генерирования бинаурального звукового сигнала в соответствии с некоторыми осуществлениями изобретения. В описанном подходе параметрическое матричное умножение объединено с фильтрацией низкой сложности, позволяющей эмулировать звуковую окружающую среду с длинным эхом или реверберацией. В частности, система позволяет использовать долгие HRTFs/BRIRs, одновременно поддерживая низкую сложность и осуществляя практическое выполнение.