Устранение позиционной неоднозначности при формировании пространственного звука

Иллюстрации

Показать все

Предлагается способ, включающий получение информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами; получение информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов; и обработку информации о фазе и информации выборки для определения информации управления звуковым сигналом с целью управления формированием пространственного звука с использованием зарегистрированных звуковых каналов. 8 н. и 30 з.п. ф-лы, 14 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

Варианты осуществления настоящего изобретения относятся к устранению неоднозначности при формировании пространственного звука. В частности, эти варианты осуществления настоящего изобретения относятся к устройству, способам и компьютерным программам, которые позволяют устранить неоднозначность в позиции источника звука при формировании пространственного звука.

УРОВЕНЬ ТЕХНИКИ

У человека два уха. Путь прохождения звукового сигнала от источника звука до левого уха обычно отличается от пути прохождения этого сигнала от источника звука до правого уха. Важным для человека фактором является разность во времени (разность фаз) прохождения этого сигнала от источника до левого уха и от источника до правого уха. Однако такой фактор, как разность фаз, сам по себе создает позиционную неоднозначность, поскольку местоположение источника звука для конкретной разности фаз обычно находится в круге, центр которого располагается на линии, проходящей через оба уха, а не в отдельной точке.

Голова и тело человека преломляют звуковые волны. Этот эффект является более анизотропным в направлениях "вверх/вниз", чем в направлениях "влево/вправо". Разность амплитуд (уровень разности) сигналов, проходящих по путям до левого и правого уха, может позволить переместить источник звука выше или ниже, но этот фактор не является достаточным для расположения источника спереди/сзади.

Существует проблема, связанная со способом формирования пространственного звука (объемного звучания) при использовании нескольких акустических систем (громкоговорителей). Может возникнуть ситуация, в которой конфигурация микрофона вносит неоднозначность в определении позиции источника звука, в результате чего, например, источник звука формируется позади слушателя, в то время как он должен располагаться перед слушателем, и источник звука, который должен располагаться позади слушателя, формируется перед слушателем.

КРАТКОЕ ОПИСАНИЕ РАЗЛИЧНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ НАСТОЯЩЕГО ИЗОБРЕТЕНИЯ

В соответствии с различными, но не обязательно всеми, вариантами осуществления настоящего изобретения предлагается способ, включающий: получение информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами; получение информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов; и обработку информации о фазе, а также информации выборки для определения информации управления звуковым сигналом с целью управления формированием пространственного звука с использованием зарегистрированных звуковых каналов.

В соответствии с различными, но не обязательно со всеми, вариантами осуществления настоящего изобретения предлагается компьютерная программа, после загрузки которой процессор выполняет следующие операции: обработка информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами, и информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов, для определения информации управления звуковыми сигналами с целью управления формированием пространственного звука с использованием зарегистрированных звуковых каналов.

В соответствии с различными, но не обязательно всеми, вариантами осуществления настоящего изобретения предлагается устройство, содержащее: схему, сконфигурированную для обработки информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами, и информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов, для определения информации управления звуковым сигналом с целью управления формированием пространственного звука с использованием зарегистрированных звуковых каналов.

В соответствии с различными, но не обязательно всеми, вариантами осуществления настоящего изобретения предлагается способ, включающий: регистрацию звуковых каналов с использованием изменяющейся во времени пространственной выборки; выполнение параметрического кодирования звука зарегистрированных звуковых каналов для формирования опорного звукового сигнала и параметров звукового сигнала; передачу в удаленный пункт назначения опорного звукового сигнала и параметров звукового сигнала и передачу в удаленный пункт назначения информации выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов.

В соответствии с различными, но не обязательно всеми, вариантами осуществления настоящего изобретения предлагается способ, включающий: прием параметризированного звукового сигнала; прием управляющей информации; формирование пространственного звука с использованием зарегистрированных звуковых каналов с использованием множества акустических систем, при этом управляющая информация используется для управления относительным усилением множества акустических систем с целью устранения неоднозначности в азимуте формируемого источника звука.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Для лучшего понимания различных примеров осуществления настоящего изобретения далее в примерах приводятся ссылки на прилагаемые чертежи, на которых:

на фиг.1 представлена блок-схема системы для регистрации многоканального звукового сигнала и формирования многоканального пространственного звука;

на фиг.2А, 2В и 2С показано изменение во времени расположения линейного массива микрофонов;

на фиг.3А показана таблица, в которой приведен пример информации управления устранением неоднозначности для источника звука, расположенного спереди;

на фиг.3В показана таблица, в которой приведен пример информации управления устранением неоднозначности для источника звука, расположенного сзади;

на фиг.4 схематично показан пример конфигурации акустической системы;

на фиг.5 схематично показан процесс формирования информации управления устранением неоднозначности для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов;

на фиг.6 показана блок-схема декодера, который принимает входные сигналы от кодера;

на фиг.7 показана подробная блок-схема процесса формирования информации управления устранением неоднозначности;

на фиг.8 схематично показана реализация, в соответствии с которой информация управления устранением неоднозначности формируется в декодере;

на фиг.9 схематично показана реализация, в которой информация управления устранением неоднозначности формируется в кодере;

на фиг.10 показана блок-схема устройства, подходящего для использования в качестве компонента кодера или декодера; и

на фиг.11 схематично показан носитель для хранения компьютерной программы.

ПОДРОБНОЕ ОПИСАНИЕ РАЗЛИЧНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ НАСТОЯЩЕГО ИЗОБРЕТЕНИЯ

На фиг.1 представлена блок-схема системы 2 для регистрации многоканального звукового сигнала и формирования многоканального пространственного звука. Система 2 выполняет параметрическое кодирование многоканального звукового сигнала. Система 2 также позволяет устранять неоднозначность в азимуте источника звука.

Система 2, схематично показанная в этом примере, содержит нескольких блоков, а именно: блок 4 пространственной выборки для регистрации многоканального звукового сигнала; блок 6 параметризации для параметрического кодирования многоканального звукового сигнала с целью получения параметризованного звукового сигнала 7; блок 8 устранения неоднозначности для формирования информации 9 управления устранением неоднозначности и блок 10 формирования пространственного звука, который декодирует параметризованный звуковой сигнал 7 и использует информацию 9 управления устранением неоднозначности для улучшения процесса формирования пространственного звука.

Блок 4 пространственной выборки позволяет выполнять регистрацию (прием) N-канального звукового сигнала с помощью N пространственно разнесенных микрофонов. Каждый звуковой канал связан с микрофоном.

Блок 4 пространственной выборки позволяет получать изменяющуюся во времени пространственную выборку N зарегистрированных звуковых каналов. То есть в зависимости от времени изменяются позиции N микрофонов, связанных с N каналами. Этого можно добиться путем выборочной активизации подмножества набора микрофонов или путем перемещения массива микрофонов.

Например, процесс изменяющейся во времени пространственной выборки может выполняться с помощью фиксированного массива из N микрофонов, относительная позиция которых зафиксирована. Массив микрофонов затем размещается в фиксированном местоположении, однако изменяет свою ориентацию.

Такой массив микрофонов может представлять собой планарный массив микрофонов, установленных на плоскости, но не на одной прямой линии. В альтернативном варианте массив микрофонов может представлять собой линейный массив микрофонов, установленных на одной прямой линии.

В реализациях бинауральной или стереофонической системы массив 12 микрофонов может содержать пару микрофонов 14А, 14В, показанных на фиг.2А, 2В, 2С. Микрофоны 14А, 14В могут быть расположены друг от друга на фиксированном расстоянии d.

На фиг.2А, 2В и 2С показано изменение во времени расположения линейного массива 12. Например, как показано на фиг.2А-2С, возможны периодические колебания ориентации микрофонов.

Изменения ориентации массива 12 микрофонов могут обнаруживаться с помощью датчиков движения. Например, если пользователь надевает бинауральные микрофоны (микрофон располагается рядом с каждым ухом слушателя), то ориентация головы слушателя (ориентация массива микрофонов) по отношению к внешней среде отслеживается с помощью устройства слежения за головой. Таким образом, для измерения параметров местоположения массива может использоваться отдельное внешнее устройство.

Линейный массив 12 показан в плоскости чертежа, и его ориентация изменяется под углом θ в этой плоскости. В момент времени t1, показанный на фиг.2А, угол θ является отрицательным, и микрофон 14А находится перед микрофоном 14В. Затем в момент времени t2, показанный на фиг.2В, угол θ становится нулевым, и микрофон 14А находится на одном уровне с микрофоном 14В. В момент времени t3, показанный на фиг.2С, угол θ становится положительным, и микрофон 14В находится перед микрофоном 14А. Затем в момент времени t4, показанный на фиг.2В, угол θ становится нулевым, и микрофон 14А находится на одном уровне с микрофоном 14В. Далее в момент времени t5, показанный на фиг.2А, угол θ становится отрицательным, и микрофон 14А находится перед микрофоном 14В.

На фиг.2А-2С показано одно из возможных местоположений источника 16 звука. Это местоположение показано только для примера.

Путь 15 от источника 16 звука до микрофона 14А характеризуется временной задержкой TA(t). Путь 17 от источника 16 звука до микрофона 14В характеризуется временной задержкой TB(t).

Источник 16 звука расположен “перед” линейным массивом 12. Разность фаз φ между путем 15 звукового сигнала от источника 16 звука до микрофона 14А и путем 17 от источника 16 звука до микрофона 14В может вычисляться следующим образом: TA(t)-TB(t). Если микрофон 14А находится перед микрофоном 14В (фиг.2А), разность фаз является отрицательной. Если микрофон 14В находится перед микрофоном 14А (фиг.2С), разность фаз является положительной. Таким образом, если источник 16 звукового сигнала расположен “перед” линейным массивом 12, разность фаз φ имеет тот же знак, что и угол θ, определяющий ориентацию микрофонов. Если разность фаз φ отрицательна, угол θ ориентации также отрицателен. Если разность фаз φ положительна, угол θ ориентации также положителен. Эта взаимосвязь очевидно показана в таблице 1 на фиг.3А. Изменение разности фаз φ коррелирует с углом θ изменения ориентации.

Если же источник 16 звукового сигнала расположен “позади” линейного массива 12, разность фаз положительна, когда микрофон 14А находится перед микрофоном 14В (фиг.2А). Если микрофон 14В находится перед микрофоном 14А (фиг.2С), разность фаз является отрицательной. Таким образом, если источник 16 звукового сигнала расположен “позади” линейного массива 12, разность фаз φ имеет противоположный знак по отношению к знаку угла θ ориентации. Если разность фаз φ отрицательна, угол θ ориентации положителен. Если разность фаз φ положительна, угол θ ориентации отрицателен. Эта взаимосвязь показана в таблице 2 на фиг.3В. Изменение разности фаз φ находится в обратной корреляции с изменением угла θ ориентации.

Источник звука, характеризуемый разностью фаз φ, может находиться в неопределенном местоположении. Он может располагаться перед массивом 12 или позади него. Изменяющиеся во времени пространственные выборки, генерируемые перемещающимся массивом 12, позволяют устранить неоднозначность при определении местоположения источника звука. Например, если изменяющаяся во времени разность фаз φ находится в прямой корреляции с изменяющимся во времени углом θ ориентации, то источник 16 звукового сигнала расположен перед массивом 12, а если изменяющаяся во времени разность фаз φ находится в обратной корреляции с изменяющимся во времени углом θ ориентации, то источник 16 звукового сигнала расположен позади массива 12.

Таким образом, можно обрабатывать информацию о фазе и информацию выборки для формирования информации 9 управления устранением неоднозначности с целью управления формированием пространственного звука с использованием зарегистрированных звуковых каналов. Этот процесс выполняется блоком 8 устранения неоднозначности, показанным на фиг.1.

На фиг.5 показан алгоритм такого процесса 30. Процесс или способ 30 начинается в блоке 32, в котором осуществляется получение информации о фазе, зависящей от изменяющейся во времени разности фаз между зарегистрированными звуковыми каналами. В примере, описанном со ссылкой на фиг.2А-2С, информация о фазе может быть выражена как изменяющаяся во времени разность фаз φ(t) (например, TA(t)-TB(t)).

В блоке 34 осуществляется получение информации 5 выборки, связанной с изменяющейся во времени пространственной выборкой зарегистрированных звуковых каналов. В примере, описанном со ссылкой на фиг.2А-2С, информация 5 выборки может быть выражена как изменяющийся во времени угол θ(t) ориентации.

Затем в блоке 36 обрабатывается информация о фазе и информация 5 выборки с целью определения информации 9 управления звуковым сигналом для управления формированием пространственного звука с использованием зарегистрированных звуковых каналов. Информация 9 управления звуковым сигналом позволяет устранить неоднозначность азимута/местоположения источника звука.

На фиг.7 показан алгоритм процесса 60, который является примером одного из множества процессов, подходящих для использования в блоке 36. В ходе выполнения процесса 60 в блоке 62 принимается информация 61 о фазе в качестве первого входного сигнала и информация 63 выборки в качестве второго входного сигнала.

В блоке 62 сравниваются характеристики синхронизации информации 61 о фазе и информации 63 выборки, а затем результаты сравнения интегрируются в блоке 64 для формирования информации 9 управления звуковым сигналом. Информация 9 управления звуковым сигналом позволяет устранить неоднозначность азимута/местоположения источника звука.

В примере, описанном со ссылкой на фиг.2А-2С, информация 61 о фазе может быть выражена как изменяющаяся во времени разность фаз φ(t), a информация 63 выборки может быть выражена как изменяющийся во времени угол θ(t) ориентации. Первый входной сигнал может быть выражен как {φ(t1), φ(t2), φ(t3), φ(t4), φ(t5), …}. Второй входной сигнал может быть выражен как {θ(t1), θ(t2), θ(t3), θ(t4), θ(t5) …}.

В примере, описанном со ссылкой на фиг.2А-2С, под сравнением характеристик подразумевается сравнение знаков разности фаз φ(tn) и угла θ(tn) ориентации.

Блок 62 сравнения может определить, например, что знаки разности фаз φ(tn) и угла θ(tn) ориентации совпадают или противоположны. Это можно определить путем получения информации о синхронном изменении знака разности фаз φ(tn) и угла θ(tn) ориентации в их среднем диапазоне и перемножения разности фаз φ(tn) и угла θ(tn) ориентации, как показано в столбце 4 таблиц 1 и 2, изображенных на фиг.3А и 3В. Результаты перемножения затем интегрируются в блоке 64 для формирования информации управления звуковым сигналом. Если знаки разности фаз φ(tn) и угла θ(tn) ориентации одинаковы, то результат интегрирования строго положительный. Если знаки разности фаз φ(tn) и угла θ(tn) ориентации противоположны, то результат интегрирования строго отрицательный. Таким образом, знак результата интегрирования может использоваться как информация 9 управления звуковым сигналом, которая позволяет устранять неоднозначность азимута/местоположения источника звука. Если знак положительный, источник звука расположен перед массивом 12 микрофонов (таблица 1, фиг.3А). Если знак отрицательный, источник звука расположен позади массива 12 микрофонов (таблица 2, фиг.3В).

В альтернативной реализации блок 62 сравнения может определять, например, одинаково ли направлены “векторы движения” для разности фаз φ(tn) и угла θ(tn) ориентации. Этот процесс может выполняться путем сравнения, например, величин φ(tn)-φ(tn-1) и θ(tn)-θ(tn-1) для каждого значения n. Далее значение φ(tn)-φ(tn-1) умножается на значение θ(tn)-θ(tn-1). Результаты перемножения затем интегрируются в блоке 64 для формирования информации управления звуковым сигналом.

В другом варианте осуществления настоящего изобретения, объясняемом со ссылкой на фиг.2А-2С, информация о фазе может быть выведена из изменяющейся во времени разности фаз φ(t). Изменяющаяся во времени разность фаз φ(t) может быть преобразована в направление Ω(t) на источник 16 звука с помощью, например, справочной таблицы. Поскольку изменяющийся во времени азимут Ω(t) источника звука и изменяющийся во времени угол θ(t) ориентации измеряются в одинаковых единицах, можно выполнять непосредственное сравнение между Ω(t) и θ(t) или между Ω(tm)-Ω(tm-1) и θ(tm)-θ(tm-1).

В некоторых вариантах осуществления настоящего изобретения информация 9 управления звуковым сигналом может быть основана на отдельной обработке 36 информации о фазе для различных частотных диапазонов и информации выборки. Изменяющаяся во времени разность фаз между зарегистрированными звуковыми каналами может быть одновременно получена для различных частотных диапазонов.

Преобразователь может использоваться для преобразования входных звуковых сигналов 3 (два или более входных звуковых каналов) из временной области в частотную область с использованием, например, декомпозиции блоком фильтров в дискретных временных кадрах. Блок фильтров может быть критично дискретизирован. Под критичной дискретизацией подразумевается, что объем данных (отсчетов в секунду) остается таким же в преобразованной области. С этой целью может использоваться преобразователь, применяемый для кодирования звукового сигнала.

Каналы входного звукового сигнала по отдельности преобразуются в частотную область, то есть в частотный поддиапазон для временного интервала входного кадра. Входные звуковые каналы сегментируются во временные интервалы во временной области и в поддиапазоны в частотной области.

Сегментация может выполняться единообразно во временной области для формирования единообразных временных интервалов, например временных интервалов одинаковой длительности. Сегментация может выполняться единообразно в частотной области для формирования единообразных поддиапазонов, например поддиапазонов одинакового размера, либо сегментация может выполняться неравномерно в частотной области для формирования неравномерной структуры поддиапазонов, например поддиапазонов различных размеров. В некоторых вариантах осуществления настоящего изобретения ширина поддиапазонов в низкочастотной области меньше ширины поддиапазонов в высокочастотной области.

Информация 9 управления звуковым сигналом может быть сгенерирована для каждого поддиапазона путем обработки 62 информации 61 о фазе для поддиапазона и информации 63 выборки. Это позволяет устранить несоответствие при одновременном использовании источников звука. Это может также повысить устойчивость системы при перемещении источников звука. В процессе обнаружения информации о фазе полезно выравнивать частотные диапазоны таким же образом, как это делается в кодере звукового сигнала, поскольку в некоторых вариантах осуществления настоящего изобретения процесс обнаружения фазы может быть интегрирован в блок анализа звуковой сцены.

На фиг.1 блок 10 формирования пространственного звука использует управляющую информацию 9, сформированную блоком 8 устранения неоднозначности, для управления формированием пространственного звука с помощью множества акустических систем 22 и для устранения неоднозначности в положении источника звука в формируемом пространственном звуке.

На фиг.4 схематично показан пример возможной, но не обязательно типовой, конфигурации 24 акустических систем. Акустические системы 22 распределены вокруг слушателя 20 для формирования пространственного звучания. Пространственный звук окружает слушателя 20 по меньшей мере с четырех сторон (например, спереди, сзади, слева, справа), благодаря чему формируется звуковое пространство 26.

В конфигурации 24 задействовано М акустических систем. Значение М может превышать значение N, равное количеству микрофонов в массиве 12 микрофонов. В альтернативном варианте значение М может быть меньше значения N (или равно этому значению). Одна или более акустических систем 221, 222 расположена перед слушателем 20, и одна или более акустических систем 223, 224 расположена позади слушателя 20. Одна или более акустических систем 221, 224 расположена слева от слушателя 20, и одна или более акустических систем 222, 223 расположена справа от слушателя 20. Хотя на фиг.4 показаны равномерно расположенные акустические системы 221, 222, 223, 224, следует принимать во внимание, что эти системы можно расположить другим образом и что может использоваться другое количество систем. Изменяющаяся во времени пространственная выборка, формируемая блоком 4 пространственной выборки, состоит из выборок в пространстве, эквивалентном формируемому звуковому пространству 26. То есть два или три ортогональных вектора, которые проходят в области звукового пространства выборок, также проходят в области формируемого звукового пространства 26.

Управляющая информация 9 позволяет принять решение об азимуте/местоположении источника звука в пределах формируемого звукового пространства 26.

Если управляющая информация 9, например, указывает на то, что источник звука должен быть перед слушателем 20, усиление расположенных спереди акустических систем 221, 222 этого звукового сигнала может быть увеличено, а уровень усиления звукового сигнала акустических систем 223, 224, расположенных сзади, может быть уменьшен. Более высокий уровень усиления расположенных спереди акустических систем позволяет сформировать источник звука перед слушателем в пределах звукового пространства.

Если управляющая информация 9, например, указывает на то, что источник звука должен быть позади слушателя 20, усиление расположенных сзади акустических систем этого звукового сигнала может быть увеличено, а уровень усиления звукового сигнала акустических систем, расположенных спереди, может быть уменьшен. Более высокий уровень усиления расположенных сзади акустических систем позволяет сформировать источник звука позади слушателя в пределах звукового пространства.

В некоторых ситуациях может потребоваться компенсация изменяющегося во времени поворота формируемого звукового пространства 26 в результате изменяющейся во времени пространственной выборки зарегистрированных звуковых каналов. Функция изменения в зависимости от времени может использоваться для обеспечения пространственной компенсации таким образом, чтобы формируемое звуковое пространство 26, определяемое множеством акустических систем 22, оставалось стационарным по отношению к слушателю 20. Функция изменения в зависимости от времени может представлять собой инверсную функцию преобразования для изменяющейся во времени пространственной выборки.

Функция изменения в зависимости от времени позволяет компенсировать изменяющееся во времени вращение звукового пространства с использованием полученной информации о выборке. Этого можно добиться путем изменения параметров звукового сигнала или фильтрации формируемого звукового сигнала. Например, может использоваться модифицированная функция передачи звука, связанная с головой (HRTF, head related transfer function), которая выполняет компенсацию фазы с компенсацией или без компенсации уровня.

В некоторых ситуациях компенсация поворота звукового пространства может не понадобиться. Например, если массив 12 микрофонов быстро колеблется с очень небольшим смещением. В другом примере имеется возможность создания конфигурации для увеличения скорости регистрации звукового сигнала с целью устранения неоднозначности, а не с целью кодирования звукового сигнала. Так, в конфигурациях, показанных на фиг.2А-2С, регистрация звукового сигнала для кодирования может выполняться только в том случае, когда массив размещен таким образом, как это показано на фиг.2В, в то время как регистрация звукового сигнала для устранения неоднозначности может выполняться, если массив размещен таким образом, как это показано на фиг.2А-2С, и при перемещении между различными позициями, показанными на фиг.2А-2С.

Блок 10 формирования пространственного звука в некоторых, но не во всех реализациях для управления пространственной выборкой может передавать сигнал 11 обратной связи в блок 4 пространственной выборки. Сигнал 11 обратной связи может, например, использоваться для адаптации изменяющейся во времени пространственной выборки, например, путем изменения направления перемещения массива микрофонов. Это может способствовать выполнению процесса устранения неоднозначности путем управления перемещением массива 12 микрофонов таким образом, чтобы они размещались в пространстве, соответствующем формируемому звуковому пространству 26, определенному позициями акустических систем 22.

Блок 6 параметризации может использоваться, если для хранения или связи требуется уменьшить полосу частот, занимаемую звуковыми каналами. Блок 6 параметризации параметрически кодирует N звуковых каналов 3 для выработки параметризованного звукового сигнала 7. Затем блок 10 формирования пространственного звука принимает параметризованный звуковой сигнал и декодирует его с целью получения пространственного звукового сигнала.

Могут использоваться различные типы параметрического кодирования звукового сигнала, такие как направленное кодирование звукового сигнала (DirAC, Directional Audio Coding) или бинауральное кодирование сигнала (ВСС, binaural cue coding).

На фиг.6 схематично показан кодер 42, который передает параметризированные звуковые сигналы 47, 45 в удаленный декодер 40.

Показанный кодер 42 многоканального звукового сигнала является в этом примере параметрическим кодером, который выполняет кодирование в соответствии с определенной параметрической моделью с использованием анализа многоканального звукового сигнала.

Параметрическая модель в этом примере представляет собой модель, основанную на восприятии, которая позволяет выполнять сжатие с потерей данных и уменьшать полосу частот.

В этом примере кодер 42 выполняет кодирование пространственного звукового сигнала с использованием технологии параметрического кодирования, такой как параметризация при бинауральном кодировании сигнала (ВСС). Обычно модели параметрического кодирования звукового сигнала, такие как ВСС, представляют исходный звуковой сигнал в виде сигнала с уменьшенным количеством звуковых каналов (downmix), сформированных из каналов исходного сигнала, например, в виде монофонического или двухканального (стерео) суммарного сигнала, совместно с битовым потоком параметров, описывающих пространственный образ. Сигнал с уменьшенным количеством звуковых каналов, содержащий несколько каналов, может рассматриваться как несколько отдельных сигналов с уменьшенным количеством звуковых каналов.

Преобразователь 44 выполняет преобразование входных звуковых сигналов 3 (два или более входных звуковых каналов) из временной области в частотную область с использованием, например, декомпозиции блоком фильтров в дискретных временных кадрах. Блок фильтров может быть критично дискретизирован. Под критичной дискретизацией подразумевается, что объем данных (отсчетов в секунду) остается таким же в преобразованной области.

Блок фильтров может быть реализован, например, в виде перекрывающего преобразователя, позволяющего осуществлять плавный переход от одного кадра к другому, если формирование окон для блоков, то есть кадров, осуществляется как часть процесса декомпозиции поддиапазонов. В альтернативном варианте декомпозиция может быть реализована в виде операции аналоговой фильтрации с использованием, например, фильтров FIR в многофазном формате, позволяющем эффективно выполнять вычислительный процесс.

Каналы входного звукового сигнала по отдельности преобразуются в частотную область, то есть в частотный поддиапазон для временного интервала входного кадра. Входные звуковые каналы сегментируются во временные интервалы во временной области и в поддиапазоны в частотной области.

Сегментация может выполняться единообразно во временной области для формирования единообразных временных интервалов, например временных интервалов одинаковой длительности. Сегментация может выполняться единообразно в частотной области для формирования единообразных поддиапазонов, например поддиапазонов одинакового размера, либо сегментация может выполняться неравномерно в частотной области для формирования неравномерной структуры поддиапазонов, например поддиапазонов различных размеров. В некоторых вариантах осуществления настоящего изобретения ширина поддиапазонов в низкочастотной области меньше ширины поддиапазонов в высокочастотной области.

С точки зрения восприятия и психоакустики предпочтительно выбирать структуру поддиапазона, близкую к шкале ERB (equivalent rectangular bandwidth, эквивалентная прямоугольная полоса частот). Однако может применяться любой способ разделения на поддиапазоны.

Выходной сигнал преобразователя 44 подается на анализатор 48 звуковой сцены, который формирует параметры 45 сцены. Звуковая сцена анализируется в области преобразования, и соответствующие параметры 45 извлекаются и обрабатываются для передачи или сохранения с целью последующего использования.

Анализатор 48 звуковой сцены использует модель межканального предсказания для формирования межканальных параметров 45. В набор межканальных параметров могут, например, входить такие параметры, как разность уровней между каналами (ILD, inter-channel level difference) и разность фаз между каналами (ICPD, inter-channel phase difference). Разность фаз между каналами (ICPD) может выражаться в виде разности времени прохождения сигнала по различным каналам (ITD, inter-channel time difference). Кроме того, может быть определена межканальная когерентность (ICC, inter-channel coherence), связанная с частотным поддиапазоном для входного кадра, между выбранными парами каналов. Межканальные параметры могут оцениваться в пределах частотно-временного интервала области преобразования, то есть в частотном поддиапазоне для входного кадра. Обычно параметры ILD, ICPD/ITD и ICC определяют для каждого частотно-временного интервала входного сигнала или для подмножества частотно-временных интервалов. Подмножество частотно-временных интервалов может представлять, например, наиболее важные воспринимаемые частотные компоненты, (подмножество) частотных интервалов подмножества входных кадров или любое подмножество частотно-временных интервалов, представляющих определенный интерес. Степень важности межканальных параметров с точки зрения восприятия может отличаться для различных частотно-временных интервалов. Кроме того, степень важности межканальных параметров с точки зрения восприятия может отличаться для входных сигналов с различными характеристиками. Например, для некоторых входных сигналов параметр ITD может представлять собой параметр пространственного образа, имеющий определенную значимость.

Параметры ILD и ITD могут быть определены на основе сравнения входного звукового канала и опорного канала, обычно на основе сравнения каждого входного звукового канала и опорного входного звукового канала. Параметр ICC обычно определяется отдельно для каждого канала, сравниваемого с опорным каналом.

Далее приводятся некоторые подробности, относящиеся к подходу ВСС, на примере с двумя каналами L, R и одним сигналом, полученным путем уменьшения числа каналов. Однако такое представление процесса может быть обобщено для большего количества входных звуковых каналов и/или для конфигурации, в которой используется несколько сигналов, полученных путем уменьшения числа каналов.

Значение разности уровней между каналами (ILD) для каждого поддиапазона ∆Ln обычно рассчитывается следующим образом:

Δ L n = 10 log 10 ( S n L T S n L S n R T S n R ) ,   ( 1 )

где S n L и S n R являются соответственно сигналами левого и правого каналов временной области в поддиапазоне n.

Разность времени прохождения сигнала по различным каналам (ITD), то есть задержка между двумя входными звуковыми каналами, может определяться следующим образом:

τ n = arg max d { Φ n ( k , d ) }   ( 2 ) ,

где Фn(k,d) представляет собой нормализованную корреляцию:

Φ n ( k , d ) = S n L ( k − d 1 ) T S n R ( k − d 2 ) ( S n L ( k − d 1 ) T S n L ( k − d 1 ) ) ( S n R ( k − d 2 ) T S n R ( k − d 2 ) )   ( 3 )

где

d 1 = max { 0,   − d } d 2 = max { 0,   d }