2376654 - Параметрическое совместное кодирование аудиоисточников

Параметрическое совместное кодирование аудиоисточников

Иллюстрации

Показать все

Изобретение касается кодирования множества сигналов аудиоисточников, которые должны быть переданы или сохранены с целью микширования сигналов для синтеза волнового поля, сигналов многоканального объемного или стереофонического аудио после декодирования сигналов источников. Предложенный способ обеспечивает эффективное кодирование при совместном кодировании сигналов источников по сравнению с их отдельным кодированием, даже когда между сигналами источников отсутствует избыточность. Это возможно с учетом статистических свойств сигналов источников, свойства метода кодирования и пространственного слуха. Сумма сигналов источников передается вместе со статистическими свойствами сигналов источников, которые главным образом определяют важные для восприятия пространственные признаки окончательно микшированных аудиоканалов. Сигналы источников восстанавливаются в приемнике так, что их статистические свойства приблизительно тождественны соответствующим свойствам первоначальных сигналов источников. Технический результат - обеспечение увеличения эффективности кодирования при микшировании кодированных сигналов источников. 6 н. и 16 з.п. ф-лы, 14 ил.

Реферат

I. ВВЕДЕНИЕ

В общей задаче кодирования мы имеем множество (моно) сигналов s_i(n) (1≤i≤M) источников и вектор S(n) описания сцены, где n - индекс времени. Вектор описания сцены содержит такие параметры как положения (виртуальных) источников, ширина каждого источника и акустические параметры, такие как параметры (виртуального) помещения. Описание сцены может быть инвариантным по времени или может изменяться во времени. Сигналы источников и описание сцены кодируются и передаются декодеру. Кодированные сигналы источников последовательно микшируются как функция описания сцены для формирования сигналов синтеза волнового поля, многоканальных или стереофонических сигналов, как функции вектора описания сцены. Выходные сигналы декодера обозначены (1≤i≤N). Следует отметить, что вектор S(n) описания сцены не может быть передан, но может быть определен в декодере. В этом документе термин "стереофонический аудиосигнал" всегда относится к двухканальным стереофоническим аудиосигналам.

Стандарт MPEG-4 Международной организации по стандартизации (ISO)/Международной электротехнической комиссии (IEC) направлен на описанный сценарий кодирования. Он определяет описание сцены и использует для каждого ("естественного") сигнала источника отдельный монофонический аудиокодер, например аудиокодер схемы усовершенствованного кодирования звука (AAC). Однако, когда должна микшироваться сложная сцена со многими источниками, битовая скорость становится высокой, то есть битовая скорость увеличивается с увеличением количества источников. Кодирование одного сигнала источника с высоким качеством требует приблизительно 60-90 кбит/с.

Ранее рассматривался специальный случай описанной задачи кодирования ([1], [2]) с помощью схемы, названной бинауральным кодированием сигнала (BCC) для гибкого воспроизведения. Посредством передачи только суммы заданных сигналов источников и вспомогательной информации с низкой битовой скоростью достигается низкая битовая скорость. Однако сигналы источников не могут быть восстановлены в декодере, и схема была ограничена формированием сигнала стереофонического и многоканального объемного звука. Кроме того, использовалось только упрощенное микширование, основанное на амплитудном и фазовом панорамировании. Таким образом, можно было бы управлять направлением на источники, но никакими другими атрибутами звукового пространственного образа. Другим ограничением этой схемы являлось ее ограниченное качество аудио, особенно уменьшение качества аудио по мере увеличения количества сигналов источников.

Документ [1] (бинауральное кодирование сигнала, параметрическое стереофоническое аудио, объемное аудио формата MP3, объемное аудио формата MPEG) охватывает случай, в котором кодируются N аудиоканалов и затем декодируются N аудиоканалов со сходными признаками, а не первоначальные аудиоканалы. Переданная вспомогательная информация включает в себя параметры межканальных признаков, относящиеся к различиям между входными каналами.

Каналы стереофонических и многоканальных аудиосигналов содержат результаты микширования сигналов аудиоисточников и, таким образом, отличаются по характеру от чистых сигналов аудиоисточников. Стереофонические и многоканальные аудиосигналы микшируются так, что когда они воспроизводятся на соответствующей системе воспроизведения, слушатель будет воспринимать звуковой пространственный образ ("павильон звукозаписи") как зарегистрированный записывающим устройством или сконструированный инженером звукозаписи во время микширования. Ранее было предложено множество схем совместного кодирования для каналов стереофонических или многоканальных аудиосигналов.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Цель изобретения состоит в создании способа передачи множества сигналов источников при использовании минимальной ширины полосы. В большинстве известных способов формат воспроизведения (например, стерео, 5.1) является предопределенным и имеет прямое влияние на сценарий кодирования. Аудиопоток на стороне декодера должен использовать только этот предопределенный формат воспроизведения, тем самым привязывая пользователя к предопределенному сценарию воспроизведения (например, стерео).

Предложенное изобретение кодирует N сигналов аудиоисточников, обычно являющихся не каналами стереофонического аудио или многоканальными сигналами, а независимыми сигналами, такими как различные сигналы речи или инструментов. Переданная вспомогательная информация включает в себя статистические параметры, относящиеся к входным сигналам аудиоисточников.

Предложенное изобретение декодирует М аудиоканалов с разными признаками, а не первоначальные сигналы аудиоисточников. Эти разные признаки неявно синтезируются посредством применения микшера к принятому суммарному сигналу. Микшер управляется в зависимости от принятой статистической информации об источнике и принятых (или локально определенных) параметров аудиоформата и параметров микширования. Альтернативно, эти разные признаки явно вычисляются как функция принятой статистической информации об источниках и принятых (или локально определенных) параметров аудиоформата и параметров микширования. Эти вычисленные признаки используются для управления декодером предшествующего уровня техники (бинауральное кодирование сигнала, параметрическое стереофоническое аудио, объемное аудио формата MPEG) для синтеза выходных каналов на основе принятого суммарного сигнала.

Предложенная схема совместного кодирования сигналов аудиоисточников является первой в своем роде. Она разработана для совместного кодирования сигналов аудиоисточников. Сигналы аудиоисточников обычно являются монофоническими аудиосигналами, которые не подходят для воспроизведения на стереофонической или многоканальной аудиосистеме. Далее для краткости сигналы аудиоисточников часто называются сигналами источников.

Перед воспроизведением сигналы аудиоисточников сначала нужно микшировать в стереофонические, многоканальные аудиосигналы или сигналы синтеза волнового поля. Сигнал аудиоисточника может представлять отдельный инструмент или диктора или сумму множества инструментов и дикторов. Другим типом сигнала аудиоисточника является монофонический аудиосигнал, зарегистрированный с помощью точечного микрофона во время концерта. Часто сигналы аудиоисточников сохраняются на многодорожечных записывающих устройствах или в записывающих системах с жестким диском.

Заявленная схема совместного кодирования сигналов аудиоисточников основана только на передаче суммы сигналов аудиоисточников,

или взвешенной суммы сигналов источников. Факультативно, взвешенное суммирование может быть выполнено с разными весовыми коэффициентами на разных поддиапазонах, и весовые коэффициенты могут быть адаптированы во времени. Также может быть применено суммирование с компенсацией, как описано в главе 3.3.2 в [1]. Далее, когда говорится о сумме или суммарном сигнале, всегда имеется в виду сигнал, сформированный с помощью уравнения (1) или сформированный, как описано. В дополнение к суммарному сигналу передается вспомогательная информация. Сумма и вспомогательная информация представляют собой выходной аудиопоток. Факультативно, суммарный сигнал кодируется с использованием традиционного монофонического кодера. Этот поток может быть сохранен в файле (на компакт-диске, цифровом универсальном диске DVD, жестком диске) или транслирован в приемник. Вспомогательная информация представляет собой статистические свойства сигналов источников, которые являются наиболее важными факторами, определяющими пространственные признаки для восприятия выходных сигналов микшера. Будет показано, что эти свойства являются изменяющимися во времени огибающими спектра и функциями автокорреляции. На каждый сигнал источника приходится приблизительно 3 кбит/с передаваемой вспомогательной информации. В приемнике сигналы (1≤i≤M) источников восстанавливаются с помощью ранее упомянутых статистических свойств, приблизительно тождественных соответствующим свойствам первоначальных сигналов источников, и суммарного сигнала.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Изобретение поясняется со ссылками на чертежи, на которых представлено следующее:

фиг.1 - схема, в которой передача каждого сигнала источника производится независимо для дальнейшей обработки,

фиг.2 - множество источников, переданных как суммарный сигнал вместе со вспомогательной информацией,

фиг.3 - блок-схема бинаурального кодирования сигнала (BCC),

фиг.4 - микшер для формирования стереофонических сигналов на основе нескольких сигналов источников,

фиг.5 - зависимость между разностью по времени между каналами (ICTD), разностью уровней между каналами (ICLD) и когерентностью между каналами (ICC) и мощностью поддиапазона сигнала источника,

фиг.6 - процесс формирования вспомогательной информации,

фиг.7 - процесс оценки параметров кодирования с линейным предсказанием (LPC) каждого сигнала источника,

фиг.8 - процесс воссоздания сигналов источников из суммарного сигнала,

фиг.9 - альтернативная схема формирования каждого сигнала из суммарного сигнала,

фиг.10 - микшер для формирования стереофонических сигналов на основе суммарного сигнала,

фиг.11 - алгоритм амплитудного панорамирования, предотвращающий зависимость уровней источников от параметров микширования,

фиг.12 - массив громкоговорителей системы воспроизведения синтеза волнового поля,

фиг.13 - схема восстановления оценки сигналов источников в приемнике посредством понижающего микширования переданных каналов,

фиг.14 - схема восстановления оценки сигналов источников в приемнике посредством обработки переданных каналов.

II. ОПРЕДЕЛЕНИЯ, ОБОЗНАЧЕНИЯ И ПЕРЕМЕННЫЕ

В этом документе используются следующие обозначения и переменные:

n - индекс времени;

i - индекс аудиоканала или источника;

d - индекс задержки;

М - количество входных сигналов источников кодера;

N - количество выходных каналов декодера;

- микшированные первоначальные сигналы источников;

- микшированные выходные сигналы декодера;

s_i(n) - входные сигналы источников кодера;

- переданные сигналы источников, также называемые сигналами псевдоисточников;

s(n) - переданный суммарный сигнал;

- L канальный аудиосигнал (аудиосигнал, который должен быть повторно микширован);

- сигнал одного поддиапазона сигнала s_i(n) (аналогично определяемый для других сигналов);

- кратковременная оценка (аналогично определяемая для других сигналов);

ICLD - разность уровней между каналами;

ICTD - разность по времени между каналами;

ICC - когерентность между каналами;

- ICLD оцениваемого поддиапазона;

- ICTD оцениваемого поддиапазона;

c(n) - ICC оцениваемого поддиапазона;

- относительная мощность поддиапазона источника;

a_i, b_i - масштабные коэффициенты микшера;

c_i, d_i - задержки микшера;

, - разность уровней и разность по времени микшера;

G_i - коэффициент усиления источника микшера.

III. СОВМЕСТНОЕ КОДИРОВАНИЕ СИГНАЛОВ АУДИОИСТОЧНИКОВ

Ниже описано бинауральное кодирование сигнала (BCC), представляющее собой метод параметрического кодирования многоканального аудио. Далее показано, что на основе тех же представлений, на которых основано ВСС, можно разработать алгоритм для совместного кодирования сигналов источников для сценария кодирования.

A. Бинауральное кодирование сигнала (BCC)

Схема бинаурального кодирования сигнала (BCC) ([1], [2]) для кодирования многоканального аудио показана ниже на чертеже. Количество каналов входного многоканального аудиосигнала микшируется с понижением до одного канала. В отличие от кодирования и передачи информации о формах сигналов всех каналов кодируется (при помощи традиционного монофонического аудиокодера) и передается только сигнал понижающего микширования. Дополнительно оцениваются обусловленные восприятием "различия аудиоканалов" между первоначальными аудиоканалами и также передаются декодеру. Декодер формирует свои выходные каналы таким образом, что различия аудиоканалов приблизительно тождественны соответствующим различиям аудиоканалов первоначального аудиосигнала.

Суммарная локализация подразумевает, что важные для восприятия различия аудиоканалов для пары каналов сигналов громкоговорителей являются разностью по времени между каналами (ICTD) и разностью уровней между каналами (ICLD). Разность по времени между каналами (ICTD) и разность уровней между каналами (ICLD) могут быть связаны с воспринимаемым направлением звуковых событий. Другие атрибуты звукового пространственного образа, такие как ширина кажущегося источника и охват слушателя, могут быть связаны с когерентностью между звуками, воспринимаемыми разными ушами (IC-когерентность). Для пар громкоговорителей спереди или сзади от слушателя IC-когерентность часто непосредственно связана с когерентностью между каналами (ICC-когерентностью), которая, таким образом, рассматривается схемой BCC как третья мера различия аудиоканалов. ICTD, ICLD и ICC-когерентность оцениваются в поддиапазонах как функция времени. Используемые спектральное и временное разрешение являются обусловленными восприятием.

B. Параметрическое совместное кодирование аудиоисточников

Декодер BCC может формировать многоканальный аудиосигнал с любым звуковым пространственным образом с использованием монофонического сигнала и синтезируя на равных интервалах времени отдельный заданный признак ICTD, ICLD и ICC-когерентности для каждого поддиапазона и пары каналов. Хорошие показатели работы схем BCC для широкого диапазона аудиоматериалов (см. 1) означают, что воспринятый звуковой пространственный образ в значительной степени определяется параметрами ICTD, ICLD и ICC-когерентности. Поэтому в противоположность требованию "чистых" сигналов s_i(n) источников на входе микшера на фиг.1 требуются лишь сигналы псевдоисточников, имеющие такое свойство, что они приводят к аналогичным параметрам ICTD, ICLD и ICC-когерентности на выходе микшера, как для случая подачи на микшер сигналов реальных источников. Для формирования сигналов имеется три цели:

- Если на микшер подаются сигналы , каналы на выходе микшера будут иметь приблизительно те же самые пространственные признаки ICLD, ICTD и ICC-когерентность, как если бы на микшер были поданы сигналы s_i(n).

- Сигналы должны формироваться с возможно меньшей информацией о первоначальных сигналах s(n) источников (поскольку цель состоит в использовании вспомогательной информации с низкой битовой скоростью).

- Сигналы формируются из передаваемого суммарного сигнала s(n) таким образом, что вносится минимальная величина искажения сигнала.

Для получения предложенной схемы рассматривается стереофонический микшер (М=2). Дополнительное упрощение общего случая заключается в том, что для микширования применяются только амплитудное и фазовое панорамирование. Если бы отдельные сигналы источников были доступны в декодере, то стереофонический сигнал был бы смикширован, как показано на фиг.4, то есть

В этом случае вектор S(n) описания сцены содержит только направления на источники, которые определяют параметры микширования,

где T - транспонирование вектора. Следует отметить, что для параметров микширования опущен индекс времени для удобства обозначения.

Более удобными параметрами для управления микшером являются время T_i и разность уровней , которые связаны с a_i, b_i, c_i и d_i следующим образом:

где G_i - коэффициент усиления источника в децибелах.

Далее вычисляются ICTD, ICLD и ICC-когерентность стереофонического выходного сигнала микшера как функция входных сигналов s_i(n) источников. Полученные выражения будут указывать, какие свойства сигнала источника определяют ICTD, ICLD и ICC-когерентность (вместе с параметрами микширования). Затем формируются сигналы таким образом, что идентифицированные свойства сигнала источника приблизительно тождественны соответствующим свойствам первоначальных сигналов источников.

B.1 Разность по времени между каналами (ICTD), разность уровней между каналами (ICLD) и когерентность между каналами (ICC) на выходе микшера

Признаки оцениваются в поддиапазонах и как функция времени. Далее предполагается, что сигналы s_i(n) источников являются в среднем нулевыми и взаимно независимыми. Пара сигналов поддиапазона на выходе микшера (2) обозначена как и . Следует отметить, что для простоты обозначения используется один и тот же индекс времени n для сигналов в области времени и в области поддиапазона. Кроме того, индекс поддиапазона не используется, и описанные анализ/обработка применяются к каждому поддиапазону независимо. Мощность поддиапазона двух выходных сигналов микшера выражается как

где - один сигнал поддиапазона источника s_i(n), и E{.} обозначает кратковременную оценку, например

где K определяет длину скользящего среднего значения. Следует отметить, что значения мощности поддиапазона представляют собой для каждого сигнала источника огибающую спектра как функцию времени. Разность уровней между каналами (ICLD) выражается как

Для оценки ICTD и ICC-когерентности оценивается нормализованная функция взаимной корреляции

Когерентность c(n) между каналами (ICC) вычисляется в соответствии с

Для вычисления разности T(n) по времени между каналами (ICTD) вычисляется местоположение самого высокого пика на оси задержки

Теперь возникает вопрос, каким образом нормализованная функция взаимной корреляции может быть вычислена как функция параметров микширования. Вместе с уравнением (2) уравнение (8) может быть записано как

что эквивалентно

где нормализованная функция автокорреляции выражена как

и T_i=d_i-c_i. Следует отметить, что для выведения уравнения (12) из уравнения (11) предполагалось, что сигналы являются в широком смысле стационарными в пределах рассматриваемого интервала задержек, то есть

Числовой пример для двух сигналов источников, иллюстрирующий зависимость между ICTD, ICLD и ICC-когерентностью и мощностью поддиапазона источника, показан на фиг.5. Верхняя, средняя и нижняя части фиг.5 показывают соответственно , T(n) и c(n) как функцию отношения мощности поддиапазона двух сигналов источников, для различных параметров микширования (уравнение 4) , , T₁ и T₂. Следует отметить, что когда в поддиапазоне мощность имеет только один источник (a=0 или a=1), тогда вычисленные значения и T(n) равны параметрам микширования (, , T₁ и

T₂).

B.2 Необходимая вспомогательная информация

Параметр ICLD (уравнение 7) зависит от параметров микширования (a_i, b_i, c_i, d_i) и от кратковременной мощности поддиапазона источников, (6). Нормализованная функция взаимной корреляции поддиапазона (уравнение 12), которая необходима для вычисления ICTD (уравнение 10) и ICC-когерентности (уравнение 9), зависит от , а также от нормализованной функции автокорреляции поддиапазона (уравнение 13) для каждого сигнала источника. Максимум функции находится в пределах диапазона . Для источника i с параметром микширования соответствующий диапазон, для которого необходимо свойство (уравнение 13) поддиапазона сигнала источника, выражен как

Поскольку признаки ICTD, ICLD и ICC-когерентности зависят от свойств и поддиапазона сигнала источника в диапазоне (14), в принципе эти свойства поддиапазона сигнала источника должны передаваться как вспомогательная информация. Предполагается, что любой другой вид микшера (например, микшер с эффектами, микшер синтеза волнового поля/конвольвер и т.д.) имеет аналогичные свойства, и, таким образом, эта вспомогательная информация также полезна, когда используются микшеры, отличающиеся от описанного. Для уменьшения количества вспомогательной информации можно хранить набор предопределенных функций автокорреляции в декодере и передавать только индексы для выбора функций, наиболее близко соответствующих свойствам сигнала источника. Первая версия рассматриваемого алгоритма предполагает, что в пределах диапазона (14) , и, таким образом, уравнение (12) вычисляется только с использованием значений (6) мощности поддиапазона в качестве вспомогательной информации. Данные, показанные на фиг.5, были вычислены в предположении, что .

Чтобы сократить количество вспомогательной информации, относительный динамический диапазон сигналов источников ограничен. Каждый раз для каждого поддиапазона выбирается мощность самого сильного источника. Найдено достаточным ограничить снизу мощность соответствующего поддиапазона всех других источников значением на 24 дБ ниже, чем самая сильная мощность поддиапазона. Таким образом, динамический диапазон квантователя может быть ограничен значением 24 дБ.

Предполагая, что сигналы источников являются независимыми, декодер может вычислить сумму мощности поддиапазона всех источников как . Таким образом, в принципе достаточно передать к декодеру только значения мощности поддиапазона источников, в то время как мощность поддиапазона оставшегося источника может быть вычислена локально. Учитывая эту идею, скорость передачи вспомогательной информации может быть немного сокращена посредством передачи мощности поддиапазона источников с индексами относительно мощности первого источника,

Следует отметить, что ранее описанное ограничение динамического диапазона выполняется до вычисления уравнения (15). В качестве альтернативы значения мощности поддиапазона могут быть нормализованы относительно мощности поддиапазона суммарного сигнала, в противоположность нормализации относительно мощности поддиапазона одного источника (уравнение 15). Для частоты дискретизации 44,1 кГц используются 20 поддиапазонов и передача осуществляется для каждого поддиапазона приблизительно каждые 12 мс. 20 поддиапазонов соответствуют половине спектрального разрешения слуховой системы (один поддиапазон по ширине составляет две "критические ширины полосы"). Неформальные эксперименты показывают, что только небольшое улучшение достигается при использовании более чем 20 поддиапазонов, например 40 поддиапазонов. Количество поддиапазонов и ширина полос поддиапазонов выбираются в соответствии с разрешением по времени и частоте слуховой системы. Реализация схемы с низким качеством требует, по меньшей мере, трех поддиапазонов (низкие, средние и высокие частоты).

В соответствии с отдельным вариантом воплощения поддиапазоны имеют разную ширину полос, поддиапазоны на более низких частотах имеют меньшую ширину полосы, чем поддиапазоны на более высоких частотах.

Относительные значения мощности квантуются по схеме, аналогичной квантователю ICLD, описанному в [2], что приводит к битовой скорости приблизительно кбит/с. Фиг.6 иллюстрирует процесс формирования вспомогательной информации (соответствует блоку "Формирование вспомогательной информации" на фиг.2).

Скорость передачи вспомогательной информации может быть дополнительно сокращена посредством анализа активности для каждого сигнала источника и передачи вспомогательной информации, связанной с источником, только если он активен.

Вместо передачи значений мощности поддиапазона как статистической информации может быть передана другая информация, представляющая собой огибающие спектров сигналов источников. Например, могут быть переданы параметры кодирования с линейным предсказанием (LPC) или соответствующие другие параметры, такие как параметры решеточного фильтра или параметры пар спектральных линий (LSP). Процесс оценки параметров LPC каждого сигнала источника проиллюстрирован на фиг.7.

B.3 Вычисление сигнала

Фиг.8 иллюстрирует процесс, который используется для воссоздания сигналов источников при заданном суммарном сигнале (1). Этот процесс является частью блока "Синтез" на фиг.2. Сигналы отдельных источников восстанавливаются посредством масштабирования каждого поддиапазона суммарного сигнала с помощью g_i(n) и применения фильтра декорреляции с импульсной характеристикой h_i(n)},

где * - оператор линейной свертки и оценка вычислена с помощью вспомогательной информации:

В качестве фильтров h_i(n) декорреляции могут быть использованы дополнительные гребенчатые фильтры, всечастотные (фазовые) фильтры, элементы задержки или фильтры со случайными импульсными характеристиками. Цель процесса декорреляции состоит в том, чтобы уменьшить корреляцию между сигналами, не изменяя восприятие отдельных форм сигналов. Различные методы декорреляции вызывают различные артефакты. Дополнительные гребенчатые фильтры вызывают окрашивание. Все описанные методы распределяют энергию одиночных импульсов во времени, вызывая такие артефакты как "упреждающее эхо". Учитывая потенциальную возможность артефактов, метод декорреляции должен применяться в возможно меньшей степени. Следующий раздел описывает методы и стратегии, которые требуют меньшей обработки декорреляции, чем простое формирование независимых сигналов .

Альтернативная схема для формирования сигналов показана на фиг.9. Сначала спектр сигнала s(n) сглаживается посредством вычисления линейной ошибки e(n) предсказания. Затем с учетом фильтров f_i кодирования с линейным предсказанием (LPC), оцененных в кодере, вычисляются соответствующие полюсные фильтры как обратное z-преобразование

Получающиеся в результате полюсные фильтры представляют собой огибающую спектра сигналов источников. Если передается вспомогательная информация, отличающаяся от параметров LPC, сначала должны быть вычислены параметры LPC как функция вспомогательной информации. Как в другой схеме, фильтры h_i декорреляции используются для того, чтобы сделать сигналы источников независимыми.

IV. РЕАЛИЗАЦИИ, УЧИТЫВАЮЩИЕ ПРАКТИЧЕСКИЕ ОГРАНИЧЕНИЯ

В первой части этого раздела дан пример реализации, использующей схему синтеза с BCC в качестве стереофонического или многоканального микшера. Это особенно интересно, поскольку такая схема синтеза типа BCC является частью развивающегося стандарта MPEG ISO/IEC, обозначаемого как "кодирование пространственного аудио". В этом случае сигналы источников явно не вычисляются, что дает в результате уменьшенную вычислительную сложность. Кроме того, эта схема предлагает потенциальные возможности для лучшего качества аудио, поскольку фактически требуется меньшая декорреляция, чем для случая, когда сигналы источников вычисляются явно.

Вторая часть этого раздела рассматривает случаи, в которых предложенная схема применяется с любым микшером, и обработка декорреляции вообще не выполняется. Такая схема менее сложна, чем схема с обработкой декорреляции, но, как будет описано, может иметь другие недостатки.

Предпочтительно, было бы желательно применить обработку декорреляции таким образом, чтобы сформированные сигналы можно было считать независимыми. Однако, поскольку обработка декорреляции проблематична с точки зрения внесения артефактов, желательно применять обработку декорреляции по возможности в меньшей степени. Третья часть этого раздела рассматривает, как можно сократить объем проблематичной обработки декорреляции, получая преимущества, как если бы сформированные сигналы были независимыми.

A. Реализация без явного вычисления сигналов

Микширование непосредственно применяется к переданному суммарному сигналу (1) без явного вычисления сигналов . С этой целью используется схема синтеза BCC. Далее рассматривается случай стереофонии, но все описанные принципы также могут быть применены для формирования многоканальных аудиосигналов.

Стереофоническая схема синтеза BCC (или "параметрическая стереофоническая" схема), применяемая к обработке суммарного сигнала (1), показана на фиг.10. Желательно, чтобы схема синтеза BCC формировала сигнал, который воспринимается аналогично выходному сигналу микшера, показанному на фиг.4. Это справедливо, когда параметры ICTD, ICLD и ICC-когерентность для выходных каналов схемы синтеза BCC аналогичны соответствующим признакам, появляющимся между каналами выходного сигнала микшера (уравнение 4).

Используется та же самая вспомогательная информация, как для ранее описанной более общей схемы, позволяя декодеру вычислить значения кратковременной мощности поддиапазона источников. Исходя из значений , коэффициенты g₁ и g₂ усиления на фиг.10 вычисляются как

так что выходная мощность поддиапазонов и ICLD (уравнение 7) являются такими же, как для микшера на фиг.4. Разность T(n) по времени между каналами (ICTD) вычисляется согласно уравнению (10) и определяет задержки D₁ и D₂ на фиг.10 следующим образом:

Когерентность c(n) между каналами (ICC) вычисляется согласно уравнению (9) и определяет обработку декорреляции на фиг.10. Обработка декорреляции (синтез ICC-когерентности) описана в [1]. Преимущества применения выполнения декорреляции к выходным каналам микшера по сравнению с ее применением для формирования независимых сигналов состоят в следующем:

- Обычно количество M сигналов источников больше, чем количество N выходных аудиоканалов. Таким образом, количество независимых аудиоканалов, которые должны быть сформированы, является меньшим при декорреляции N выходных каналов в отличие от декорреляции М сигналов источников.

- Часто N выходных аудиоканалов коррелированы (когерентность между каналами ICC>0), и обработка декорреляции может быть применена в меньшей степени, чем было бы необходимо для формирования M или N независимых каналов.

Из-за меньшей степени обработки декорреляции ожидается более хорошее качество звука.

Наилучшее качество звука ожидается, когда параметры микшера ограничены так, что a_i ²+b_i ²=1, то есть G_i=0 дБ. В этом случае мощность каждого источника в передаваемом суммарном сигнале (1) является такой же, как мощность того же самого источника в микшированном выходном сигнале декодера. В этом случае выходной сигнал декодера (фиг.10) является таким же, как если бы выходной сигнал микшера (фиг.4) был закодирован и декодирован кодером/декодером схемы BCC. Таким образом, можно ожидать аналогичного качества.

Декодер может не только определить направление, в котором должен появляться каждый источник, но также может быть изменено усиление каждого источника. Усиление увеличивается посредством выбора a_i ²+b_i ²>1 (G_i>0 дБ) и уменьшается посредством выбора a_i ²+b_i ²<1 (G_i<0 дБ).

B. Использование обработки без декорреляции

Ограничение ранее описанного метода состоит в том, что микширование выполняется с помощью схемы синтеза BCC. Можно было бы представить себе реализацию синтеза не только ICTD, ICLD и ICC-когерентности, но и обработку дополнительных эффектов в рамках синтеза BCC.

Однако может быть желательно, чтобы могли использоваться существующие микшеры и процессоры эффектов. Это также включает в себя микшеры синтеза волнового поля (часто называемые "конвольверами»). Для использования существующих микшеров и процессоров эффектов сигналы вычисляются в явном виде и используются, как если бы они были первоначальными сигналами источников.

С применением обработки без декорреляции (

Параметрическое совместное кодирование аудиоисточников

Патент 2376654