Генерация пространственных сигналов понижающего микширования из параметрических представлений мультиканальных сигналов
Иллюстрации
Показать всеИзобретение относится к декодированию закодированных мультиканальных аудиосигналов. Технический результат - повышение точности воспроизведения мультиканальных аудиосигналов. Сигнал (314) понижающего микширования для наушников может быть эффективно получен из параметрического понижающего микширования мультиканального сигнала (312), когда модифицированные HRTF (310) (head related transfer functions - относящейся к голове функции передачи) получаются из HRTF (308) мультиканального сигнала, используя параметр (306) уровня, имеющего информацию о соотношении уровней между двумя каналами мультиканального сигнала, так, чтобы на модифицированную HRTF (310) сильнее влияла HRTF (308) канала, имеющего более высокий уровень, чем HRTF (308) канала, имеющего более низкий уровень. Модифицированные HRTF (310) получаются в процессе декодирования с учетом относительного уровня каналов, связанных с этими HRTF (308). Таким образом, HRTF (308) модифицируются так, чтобы сигнал (314) понижающего микширования параметрического представления мультиканального сигнала мог быть использован непосредственно для синтеза сигнала (314) понижающего микширования для наушников без необходимости в полном параметрическом мультиканальном восстановлении параметрического сигнала понижающего микширования. 7 н. и 19 з.п. ф-лы, 11 ил.
Реферат
Область техники, к которой относится изобретение
Данное изобретение относится к декодированию закодированных мультиканальных аудиосигналов, на основании параметрического мультиканального представления, и, в частности, к генерации двухканальных сигналов понижающего микширования, обеспечивающих восприятие объемного прослушивания, как например, сигналов понижающего микширования, совместимых с наушниками, или объемного понижающего микширования для систем с двумя динамиками.
Уровень техники
Недавние разработки в области аудиокодирования сделали доступной возможность восстановить мультиканальное представление аудиосигнала на основе стерео (или моно) сигнала и соответствующих управляющих данных. Эти способы существенно отличаются от прежних матричных способов, таких как Dolby Prologic, поскольку дополнительные управляющие данные передаются для управления восстановлением, также называемым повышающим микшированием, каналов пространственного звуковоспроизведения на основе переданных моно- или стереоканалов.
Таким образом, подобный декодер параметрического мультиканального аудио, к примеру, MPEG Surround, восстанавливает N каналов на основе М переданных каналов, где N>М, и дополнительных управляющих данных. Дополнительные управляющие данные представляют собой существенно меньшую частоту следования данных относительно передачи всех N каналов, повышая эффективность кодирования и в то же время гарантируя совместимость как с M-канальными, так и с N-канальными устройствами.
Эти способы кодирования параметрического окружающего звука обычно содержат параметризацию сигнала окружающего звука на основе IID (Inter channel Intensity Difference - разность мощностей между каналами) или CLD (Channel Level Difference - разница уровней каналов) и ICC (Inter Channel Coherence - межканальная когерентность). Эти параметры описывают соотношения мощностей и корреляцию между парами каналов в процессе повышающего микширования. Дополнительные параметры, также используемые в уровне техники, содержат параметры предсказания, используемые для предсказания промежуточных или выходных каналов в течение процедуры повышающего микширования.
Другие разработки в области воспроизведения мультиканального аудиоконтента обеспечивают средства для получения ощущения объемного звучания, используя стереонаушники. Для достижения восприятия объемного звучания посредством лишь двух динамиков наушников мультиканальные сигналы подвергаются процедуре понижающего микширования в стереосигналы с применением HRTF (head related transfer functions - функции передачи, относящиеся к голове), позволяющих принять в расчет чрезвычайно сложные с точки зрения передачи звука характеристики головы человека для обеспечения восприятия объемного звучания.
Другой связанный подход заключается в использовании обычного оборудования проигрывания двухканальных сигналов и фильтровании каналов мультиканального аудиосигнала соответствующими фильтрами с целью добиться восприятия звучания, сходного с таковым при проигрывании с исходным количеством динамиков. Эта обработка сигналов аналогична обработке в случае воспроизведения через наушники для создания обладающего требуемыми свойствами “объемного стереосигнала понижающего микширования”. В отличие от случая с наушниками сигнал от обоих динамиков достигает обоих ушей слушателя непосредственно, вызывая нежелательные “эффекты перекрестных помех”. В виду того что для оптимального качества воспроизведения этот факт необходимо принимать в расчет, фильтры, используемые для обработки сигнала, обычно называются фильтрами подавления перекрестных помех. По сути, цель этой методики есть расширение возможного круга источников звука вне базы стереодинамиков посредством подавления естественным образом возникающих перекрестных помех с помощью сложных фильтров подавления перекрестных помех.
Из-за сложности фильтрования HRTF-фильтры являются очень длинными, поскольку каждый из них может включать несколько сотен отводов. По той же причине вряд ли возможно найти такую параметризацию фильтров, которая, будучи использованной вместо реального фильтра, будет хорошо функционировать, не понижая качество восприятия.
Таким образом, с одной стороны, оптимальные с точки зрения сбережения ресурсов параметрические представления мультиканальных сигналов действительно существуют, что позволяет эффективно передавать закодированный мультиканальный сигнал. С другой стороны, простые способы создания эффекта объемного звучания для мультиканального сигнала известны только для стереонаушников и стереодинамиков. Однако в качестве входной информации для применения относящихся к голове функций передачи, которые создают сигнал понижающего микширования для наушников, они требуют полного числа каналов мультиканального сигнала. Таким образом, перед применением связанной с головой функции передачи или фильтров подавления перекрестных помех необходимы либо передача полного набора мультиканальных сигналов, либо полное восстановление параметрического представления, из-за чего неприемлемо велики либо ширина полосы пропускания, либо вычислительная сложность.
Сущность изобретения
Задача данного изобретения заключается в предоставлении концепции, позволяющей с помощью параметрических представлений мультиканальных сигналов более эффективно восстановить двухканальный сигнал, обеспечивающий эффект объемного звучания.
В соответствии с первым аспектом данного изобретения эта цель достигается посредством декодера для получения сигнала понижающего микширования наушников, используя представление понижающего микширования мультиканального сигнала, используя параметр уровня, имеющий информацию об соотношения уровней между двумя каналами мультиканального сигнала, и используя относящиеся к голове функции передачи, относящиеся к двум каналам мультиканального сигнала; причем декодер содержит: блок вычисления фильтров для получения модифицированных относящихся к голове функций передачи путем взвешивания относящихся к голове функций передачи двух каналов, используя с помощью параметра уровня так, чтобы на модифицированную относящуюся к голове функцию передачи сильнее влияла относящаяся к голове функция передачи канала, имеющего более высокий уровень, чем относящаяся к голове функция передачи канала, имеющего более низкий уровень; блок синтеза для получения сигнала понижающего микширования для наушников с использованием модифицированных относящихся к голове функций передачи и представления сигнала понижающего микширования.
В соответствии со вторым аспектом данного изобретения эта цель достигается посредством бинаурального декодера, содержащего: декодер для получения сигнала понижающего микширования для наушников, используя представление понижающего микширования мультиканального сигнала, параметр уровня, имеющий информацию о соотношении уровней между двумя каналами мультиканального сигнала, и используя относящиеся к голове функции передачи, относящиеся к двум каналам мультиканального сигнала; причем декодер содержит: блок вычисления фильтров для получения модифицированных относящихся к голове функций передачи путем взвешивания относящихся к голове функций передачи двух каналов, используя параметр уровня так, чтобы на модифицированную относящуюся к голове функцию передачи сильнее влияла относящаяся к голове функция передачи канала, имеющего более высокий уровень, чем относящаяся к голове функция передачи канала, имеющего более низкий уровень; и блок синтеза для получения сигнала понижающего микширования для наушников с помощью модифицированных относящихся к голове функций передачи и представления сигнала понижающего микширования; блок фильтров анализа для получения представления понижающего микширования мультиканального сигнала путем фильтрования под-диапазонов понижающего микширования мультиканального сигнала; и блок фильтров синтеза для получения сигнала временной области для наушников путем синтеза сигнала понижающего микширования для наушников.
В соответствии с третьим аспектом данного изобретения эта цель достигается способом получения сигнала понижающего микширования для наушников, используя представление понижающего микширования мультиканального сигнала, и используя параметр уровня, имеющий информацию о соотношении уровней между двумя каналами мультиканального сигнала, и используя относящиеся к голове функции передачи, относящиеся к двум каналам мультиканального сигнала; причем способ содержит этапы, на которых: получают, используя параметр уровня, модифицированные относящиеся к голове функции передачи путем взвешивания относящихся к голове функций передачи двух каналов так, чтобы на модифицированную относящуюся к голове функцию передачи сильнее влияла относящаяся к голове функция передачи канала, имеющего более высокий уровень, чем относящаяся к голове функция передачи канала, имеющего более низкий уровень; и получают сигнал понижающего микширования для наушников, используя модифицированные относящиеся к голове функции передачи и представление сигнала понижающего микширования.
В соответствии с четвертым аспектом данного изобретения эта цель достигается посредством приемника или аудиопроигрывателя, имеющего декодер для получения сигнала понижающего микширования для наушников, используя представление понижающего микширования мультиканального сигнала, используя параметр уровня, имеющий информацию о соотношении уровней между двумя каналами мультиканального сигнала, и используя относящиеся к голове функции передачи, относящиеся к двум каналам мультиканального сигнала; причем декодер содержит: блок вычисления фильтров для получения модифицированных относящихся к голове функций передачи путем взвешивания относящихся к голове функций передачи двух каналов с использованием параметра уровня так, чтобы на модифицированную относящуюся к голове функцию передачи сильнее влияла относящаяся к голове функция передачи канала, имеющего более высокий уровень, чем относящаяся к голове функция передачи канала, имеющего более низкий уровень; и блок синтеза для получения сигнала понижающего микширования для наушников, используя модифицированные относящиеся к голове функции передачи и представление сигнала понижающего микширования.
В соответствии с пятым аспектом данного изобретения эта цель достигается способом приема или проигрывания аудио, этот способ содержит способ получения сигнала понижающего микширования для наушников, используя представление понижающего микширования мультиканального сигнала, и используя параметр уровня, имеющий информацию о соотношении уровней между двумя каналами мультиканального сигнала, и используя относящиеся к голове функции передачи, относящиеся к двум каналам мультиканального сигнала; причем способ содержит этапы, на которых: получают, используя параметр уровня, модифицированные относящиеся к голове функции передачи путем взвешивания относящихся к голове функций передачи двух каналов так, чтобы на модифицированную относящуюся к голове функцию передачи сильнее влияла относящаяся к голове функция передачи канала, имеющего более высокий уровень, чем относящаяся к голове функция передачи канала, имеющего более низкий уровень; и получают сигнал понижающего микширования для наушников, используя модифицированные относящиеся к голове функции передачи и представление сигнала понижающего микширования.
В соответствии с шестым аспектом данного изобретения эта цель достигается посредством декодера для получения пространственного стереосигнала понижающего микширования, используя представление понижающего микширования мультиканального сигнала, и используя параметр уровня, имеющий информацию о соотношении уровней между двумя каналами мультиканального сигнала, и используя фильтры подавления перекрестных помех, связанные с двумя каналами мультиканального сигнала; причем декодер содержит: блок вычисления фильтров для получения модифицированных фильтров подавления перекрестных помех путем взвешивания фильтров подавления перекрестных помех двух каналов, используя параметр уровня так, чтобы на модифицированные фильтры подавления перекрестных помех сильнее влиял фильтр подавления перекрестных помех канала, имеющего более высокий уровень, чем фильтр подавления перекрестных помех канала, имеющего более низкий уровень; блок синтеза для получения сигнала понижающего микширования для наушников, используя модифицированные фильтры подавления перекрестных помех и представление сигнала понижающего микширования.
Данное изобретение основано на обнаружении того, что сигнал понижающего микширования для наушников может быть получен из параметрического понижающего микширования мультиканального сигнала, когда блок вычисления фильтров используется для получения модифицированных HRTF (head related transfer functions - относящихся к голове функций передачи) из исходных HRTF мультиканального сигнала, а преобразователь фильтров использует параметр уровня, имеющий информацию о соотношении уровней между двумя каналами мультиканального сигнала, так, чтобы на модифицированные HRTF сильнее влияли HRTF канала, имеющего более высокий уровень, чем HRTF канала, имеющего более низкий уровень. Модифицированные HRTF получаются в процессе декодирования с учетом относительного уровня каналов, связанных с этими HRTF. Исходные HRTF модифицируются так, чтобы сигнал понижающего микширования параметрического представления мультиканального сигнала мог быть использован непосредственно для синтеза сигнала понижающего микширования для наушников без необходимости в полном параметрическом мультиканальном восстановлении параметрического сигнала понижающего микширования.
В одном из вариантов осуществления данного изобретения используется декодер согласно изобретению для реализации как параметрического мультиканального восстановления, так и бинаурального восстановления согласно изобретению переданного параметрического понижающего микширования исходного мультиканального сигнала. Согласно данному изобретению не требуется полное восстановление мультиканального сигнала до бинаурального понижающего микширования, что дает очевидное преимущество в сильном снижении вычислительной сложности. Например, за счет этого у мобильных устройств с ограниченными источниками энергии значительно увеличивается продолжительность воспроизведения. Другое преимущество состоит в том, что одно и то же устройство может служить средством предоставления полных мультиканальных сигналов (например, сигналов 5.1, 7.1, 7.2), а также бинаурального понижающего микширования сигнала, имеющего эффект объемного звучания даже в случае использования наушников с двумя динамиками. Это может быть особенно ощутимо, к примеру, в домашних конфигурациях.
В другом варианте осуществления данного изобретения блок вычисления фильтров используется для получения модифицированных HRTF не только путем комбинирования HRTF двух каналов с применением индивидуальных весовых множителей к HRTF, но и с помощью введения дополнительных фазовых множителей для каждой из объединяемых HRTF. Введение фазового множителя дает преимущество в компенсации задержки двух фильтров до их совмещения или комбинирования. Это приводит к комбинированному отклику, который моделирует время основной задержки в соответствии с промежуточной позицией между передним и задним динамиками.
Второе преимущество заключается в том, что коэффициент усиления, который необходимо применять в процессе комбинирования фильтров для обеспечения сбережения энергии, становится гораздо стабильнее в отношении его поведения с частотой относительно случая без введения фазового множителя. Это особенно значимо для изобретательской концепции, так как согласно одному из вариантов осуществления данного изобретения представление понижающего микширования мультиканального сигнала обрабатывается внутри области блока фильтров для получения сигнала понижающего микширования для наушников. В связи с этим полосы разных частот представления сигнала понижающего микширования должны обрабатываться отдельно, и, следовательно, гладкое поведение отдельно применяемых функций усиления является необходимым.
Еще в одном варианте осуществления данного изобретения относящиеся к голове функции передачи преобразуются в фильтры под-диапазонов для областей под-диапазонов так, чтобы полное число модифицированных HRTF, использованных в области под-диапазонов, было меньше, чем полное число исходных HRTF. Это дает очевидное преимущество в виде еще большего снижения вычислительной сложности получения подвергшихся понижающему микшированию сигналов для наушников в сравнении с процессом понижающего микширования, использующим стандартные фильтры HRTF.
Реализация изобретательской концепции предусматривает использование и чрезвычайно длинных HRTF и таким образом предусматривает восстановление сигналов понижающего микширования для наушников на основе представления параметрического понижающего микширования мультиканального сигнала с безупречным качеством восприятия.
Кроме того, использование изобретательской концепции в отношении фильтров подавления перекрестных помех предусматривает генерацию понижающего микширования объемного стереосигнала, подлежащего использованию со стандартными системами с двумя динамиками, на основе представления параметрического понижающего микширования мультиканального сигнала с безупречным качеством восприятия.
Еще одно значимое преимущество изобретательской концепции декодирования состоит в том, что отдельно взятый изобретенный бинауральный декодер, реализующий изобретательскую концепцию, может быть использован для получения бинаурального понижающего микширования, а также для мультиканального восстановления переданного сигнала понижающего микширования с учетом дополнительно переданных пространственных параметров.
В одном варианте осуществления данного изобретения предложенный бинауральный декодер содержит блок фильтров анализа для получения представления понижающего микширования мультиканального сигнала в области под-диапазонов и предложенный декодер, реализующий вычисление модифицированных HRTF. Декодер, кроме того, содержит блок фильтров синтеза, чтобы получить окончательное представление во временной области сигнала понижающего микширования для наушников, готовое для проигрывания любым стандартным оборудованием проигрывания аудио.
В последующих абзацах схемы параметрического мультиканального декодирования и схемы бинаурального декодирования предшествующего уровня техники будут описаны более подробно со ссылками на сопроводительные чертежи с целью более четко обрисовать значимые преимущества изобретательской концепции.
В большинстве, описанные ниже варианты осуществления данного изобретения касаются изобретательской концепции с применением HRTF. Как замечено ранее, обработка с помощью HRTF аналогична применению фильтров подавления перекрестных помех. Поэтому все варианты осуществления могут быть истолкованы с точки зрения применения как HRTF, так и фильтров подавления перекрестных помех. Иными словами, все описанные ниже фильтры HRTF могут быть заменены фильтрами подавления перекрестных помех для применения изобретательской концепции к обработке фильтрами подавления перекрестных помех.
Краткое описание чертежей
Предпочтительные варианты осуществления данного изобретения описаны ниже со ссылками на прилагаемые чертежи, где:
на Фиг.1а изображено стандартное бинауральное синтезирование с применением HRTF;
на Фиг.1b изображено стандартное применение фильтров подавления перекрестных помех;
на Фиг.2 изображен пример мультиканального объемного кодера;
на Фиг.3 изображен пример объемного/бинаурального декодеров согласно уровню техники;
на Фиг.4 изображен пример параметрического мультиканального кодера;
на Фиг.5 изображен пример параметрического мультиканального декодера;
на Фиг.6 изображен пример предложенного декодера;
на Фиг.7 изображена блок-схема, иллюстрирующая концепцию преобразования фильтров в область под-диапазонов;
на Фиг.8 изображен пример декодера согласно изобретению;
на Фиг.9 изображен другой пример декодера согласно изобретению;
на Фиг.10 изображен пример приемника или проигрывателя аудио согласно изобретению.
Подробное описание предпочтительных вариантов осуществления
Нижеописанные варианты осуществления являются лишь иллюстрацией принципов данного изобретения для Бинаурального Декодирования Мультиканальных Сигналов Путем Фильтрования Видоизмененными HRTF. Понятно, что описанные здесь модификации и варианты устройства и деталей будут очевидными для специалистов в данной области техники. Таким образом, настоящее изобретение ограничено только объемом прилагаемой формулы изобретения, а не специфичными деталями, представленными в настоящем описании при раскрытии и разъяснении вариантов осуществления.
Для лучшего пояснения возможностей и преимуществ данного изобретения ниже дано более детальное описание уровня техники.
Стандартный бинауральный алгоритм синтеза изображен на Фиг.1а. Набор входных каналов (левый-передний (LF), правый-передний (RF), левый-окружающий (LS), правый-окружающий (RS) и центральный (C)): 10a, 10b, 10c, 10d и 10e - фильтруются набором HRTF с 12a по 12j. Каждый входной сигнал разделяется на два сигнала (на левый “L” и правый “R” компоненты), после чего каждый из компонентов сигналов фильтруется HRTF, соответствующей желаемой позиции звука. Наконец, все сигналы для левого уха суммируются сумматором 14a, генерируя левый бинауральный выходной сигнал L, а сигналы для правого уха суммируются сумматором 14b, генерируя правый бинауральный выходной сигнал R. Можно заметить, что свертка HRTF в большинстве случаев может выполняться во временной области, но выполнять фильтрование зачастую предпочтительнее в частотной области ввиду возрастания вычислений эффективности вычислений. Это значит, что и суммирование, показанное на Фиг.1а, будет выполняться в частотной области, и последующее преобразование во временную область становится необходимым.
На Фиг.1b показана обработка по подавлению перекрестных помех для достижения ощущения объемного звучания при помощи всего двух динамиков стандартного оборудования стереопроигрывания.
Цель заключается в том, чтобы мультиканальный сигнал воспроизводился системой стереопроигрывания, имеющей всего два динамика 16a и 16b, так, чтобы слушатель 18 испытывал эффект объемного звучания. Главное отличие от воспроизведения через наушники заключается в том, что сигналы обоих динамиков 16a и 16b достигают обоих ушей слушателя 18 непосредственно. Эти сигналы, обозначенные пунктирными линиями (перекрестные помехи), поэтому также должны приниматься в расчет.
Для упрощения объяснения на Фиг.1b проиллюстрирован только трехканальный входной сигнал, имеющий три источника 20a-20c. Не требует пояснений, что сценарий можно в принципе распространить на произвольное число каналов.
Для получения проигрываемого стереосигнала каждый входной источник обрабатывается двумя из фильтров подавления перекрестных помех 21a-21f, по одному фильтру на каждый канал проигрываемого сигнала. Наконец, все фильтрованные сигналы для левого канала 16a проигрывания и правого канала 16b проигрывания суммируются для проигрывания. Очевидно, что в общем случае фильтры подавления перекрестных помех будут разными для каждого из источников 20a и 20b (в зависимости от желаемых позиций восприятия) и более того могут даже зависеть от слушателя.
Вследствие высокой гибкости изобретательской концепции появляется выгода от высокой гибкости в устройстве и применении фильтров подавления перекрестных помех в том, что фильтры могут быть оптимизированы индивидуально для каждого применения и проигрывающего устройства. Еще одно преимущество в том, что способ имеет чрезвычайно высокую вычислительную эффективность, поскольку требуются только два блока фильтров синтеза.
Схема принципа работы объемного аудио- кодера изображена на Фиг.2. В столь фундаментальном сценарии кодирования пространственный декодер 40 аудио содержит пространственный кодер 42, кодер 44 понижающего микширования и мультиплексор 46.
Мультиканальный входной сигнал 50 анализируется пространственным кодером 42, извлекающим пространственные параметры, описывающие пространственные свойства входного мультиканального сигнала, который должен быть передан на сторону декодера. Подвергшийся понижающему микшированию сигнал, генерируемый пространственным кодером 42, может быть, например, монофоническим или стереофоническим сигналом, в зависимости от разных сценариев кодирования. Затем кодер 44 понижающего микширования может кодировать монофонический или стереофонический сигнал понижающего микширования, используя любую обычную схему моно- или стереокодирования. Мультиплексор 46 создает выходной битовый поток посредством объединения пространственных параметров и закодированного сигнала понижающего микширования.
На Фиг.3 изображено возможное непосредственное устройство мультиканального декодера, соответствующего кодеру на Фиг.2 и способу бинаурального синтеза, пример которого показан на Фиг.1а. Как можно увидеть, подход комбинирования возможностей из предыдущего уровня техники является простым и прозрачным. Структура содержит демультиплексор 60, декодер 62 понижающего микширования, пространственный декодер 64 и блок синтеза 66 стереосигнала. Входной битовый поток 68 демультиплексируется, давая пространственные параметры 70 и битовый поток сигнала понижающего микширования. Указанный битовый поток сигнала понижающего микширования декодируется декодером 62 понижающего микширования, содержащим обычный моно- или стереодекодер. Декодированный сигнал понижающего микширования вместе с пространственными параметрами 70 являются входными данными для пространственного декодера 64, который генерирует мультиканальный выходной сигнал 72, имеющий пространственные свойства, обозначенные пространственными параметрами 70. При полностью восстановленном мультиканальном сигнале 72 подход, заключающийся в простом добавлении бинаурального блока 66 синтеза для реализации концепции бинаурального синтеза согласно Фиг.1а, сам собой разумеется. Поэтому выходной мультиканальный сигнал 72 используется как входной для бинаурального блока 66 синтеза, который обрабатывает выходной мультиканальный сигнал для получения выходного бинаурального сигнала 74. Подход, изображенный на Фиг.3, имеет, по меньшей мере, три недостатка:
- представление полного мультиканального сигнала должно быть вычислено как промежуточный шаг, за которым следуют свертка HRTF и процесс понижающего микширования в бинауральном синтезировании. Несмотря на то что свертка HRTF должна быть выполнена на поканальной основе, ввиду того факта, что каждый из аудиоканалов имеет отличную пространственную позицию, с точки зрения сложности это является нежелательной ситуацией. Таким образом, вычислительная сложность высока, и происходят лишние затраты энергии.
- Пространственный декодер действует в области блока фильтров (QMF). Свертка HRTF, с другой стороны, типично применяется в FFT-области. Следовательно, каскад блока QMF-фильтров мультиканального синтеза, мультиканального DFT-преобразования и обратного DFT-преобразования стереосигнала является необходимым, что приводит к системе с высокими вычислительными требованиями.
- Будут слышны и, вероятно, усилены в выходных (стерео) бинауральных данных артефакты кодирования, созданные пространственным декодером для создания мультиканального восстановления.
Более подробное описание мультиканального декодирования дается на Фиг.4 и 5.
Пространственный кодер 100, показанный на Фиг.4, содержит первый OTT-блок (1-в-2 кодер) 102a, второй OTT-блок 102b и TTT-блок (3-в-2 кодер) 104. Входной мультиканальный сигнал 106, состоящий из каналов LF, LS, C, RF, RS (левого-переднего, левого-бокового, центрального, правого-переднего и правого-бокового), обрабатывается пространственным кодером 100. Каждый из OTT-блоков принимает два входных канала аудио и выдает один монофонический выходной канал аудио и соответствующие пространственные параметры, эти параметры имеют информацию о пространственных свойствах исходных каналов относительно друг друга или относительно выходного канала (например, параметры CLD, ICC). В кодере 100 каналы LF и LS обрабатываются OTT-кодером 102a, а каналы RF и RS обрабатываются OTT-кодером 102b. Генерируются два сигнала L и R, один из которых имеет информацию только о левой стороне, а другой имеет информацию только о правой стороне. Затем сигналы L, R и C обрабатываются TTT-кодером 104, генерирующим стереосигнал понижающего микширования и дополнительные параметры.
Параметры, выдаваемые из TTT-кодера, обычно состоят из пары коэффициентов предсказания для каждого диапазона параметров или же из пары разностей уровней для описания отношения энергии трех входных сигналов. Параметры 'OTT'-кодеров состоят из разностей уровней и значений когерентности или кросс-корреляции между входными сигналами для каждой полосы частот.
Можно заметить, что, хотя схематическое изображение пространственного кодера 100 указывает на последовательную обработку отдельных каналов сигнала понижающего микширования во время кодирования, полный процесс понижающего микширования кодера 100 также возможно реализовать в одной единственной матричной операции.
На Фиг.5 изображен соответствующий пространственный декодер, принимающий в качестве входных данных сигналы понижающего микширования, предоставляемые кодером согласно Фиг.4, и соответствующие пространственные параметры.
Пространственный декодер 120 содержит 2-в-3 декодер 122 и 1-в-2 декодеры 124a-124c. Сигналы понижающего микширования L0 и R0 являются входными для 2-в-3 декодера 122, который восстанавливает центральный канал C, правый канал R и левый канал L. Эти три канала далее обрабатываются OTT-декодерами - 124a-124c, выдающими шесть выходных каналов. Можно заметить, что получение низкочастотного расширенного канала LFE не является обязательным и может быть опущено, так что в пространственном декодере 120, показанном на Фиг.5, можно оставить единственный OTT-кодер.
Согласно одному из вариантов осуществления данного изобретения изобретательская концепция применяется в декодере, как показано на Фиг.6. Декодер 200 согласно изобретению содержит 2-в-3 декодер 104 и шесть HRTF-фильтров 106a-106f. Входной стереосигнал (L0, R0) обрабатывается TTT-декодером 104, выдающим три сигнала L, C и R. Можно заметить, что входной стереосигнал считается получаемым в области под-диапазонов, так как TTT-кодер может быть тем же кодером, что показан на Фиг.5, и потому приспособленным для работы на сигналах под-диапазонов. Сигналы L, R и C подвергаются обработке HRTF-параметра HRTF-фильтрами 106a-106f.
Итоговые 6 каналов суммируются для генерации выходной бинауральной стереопары (Lb, Rb).
TTT-декодер 106 может быть описан как следующая матричная операция:
где элементы матрицы mxy зависят от пространственных параметров. Взаимосвязь пространственных параметров и элементов матрицы идентична их взаимосвязи в случае 5.1-мультиканального пространственного MPEG-декодера. Каждый из трех итоговых сигналов L, R и C разделяется на два и обрабатывается с HRTF-параметрами, соответствующими желаемой (воспринимаемой) позиции звуковых источников. Для центрального канала (C) пространственные параметры позиции звукового источника могут быть применены непосредственно, имея итогом два выходных сигнала для центра LB(C) и RB(C):
Для левого канала (L) HRTF-параметры из левого-переднего и левого-окружающего (бокового) каналов объединяются в единственный набор HRTF-параметров, используя веса wlf и wrf.
Итоговые 'смешанные' HRTF-параметры эмулируют эффект как передних, так и боковых каналов в статистическом смысле. Следующие уравнения используются для генерации бинауральных выходных пар (LB, RB) для левого канала:
Аналогичным образом бинауральные выходные пары для правого канала получают согласно
При описанных выше определениях LB(C), RB(C), LB(L), RB(L), LB(R) и RB(R) полные сигналы LB и RB могут быть получены из единственной матрицы 2 на 2 на основе входного стереосигнала:
где
Выше предполагалось, что элементы HY(X) для Y=L0,R0 и X=L,R,C являются комплексными скалярами. Однако данное изобретение предлагает способ, как распространить подход бинаурального декодера с матрицей 2 на 2 для работы с HRTF-фильтрами произвольной длины. Чтобы добиться этого, данное изобретение содержит следующие этапы:
- преобразование откликов HRTF-фильтров в область блока фильтров;
- общее извлечение разности задержек или разности фаз из пар HRTF-фильтров;
- видоизменение откликов пар HRTF-фильтров как функции от CLD-параметра;
- регулировка усиления
Это достигается путем замещения шести комплексных коэффициентов усиления HY(X) для Y=L0,R0 и X=L,R,C шестью фильтрами. Эти фильтры получаются из десяти фильтров HY(X) для Y=L0,R0 и X=Lf,Ls,Rf,Rs,C, которые описывают заданные отклики HRTF-фильтров в QMF-области. Эти QMF-представления могут быть достигнуты в соответствии со способом, описанным в одном из последующих абзацев.
Иными словами, настоящее изобретение предлагает концепцию для получения модифицированных HRTF путем модифицирования (видоизменения) входных фильтров передних и боковых каналов, используя комплексные линейные комбинации в соответствии с
Как можно увидеть из вышеприведенной формулы, получение модифицированных HRTF осуществляется через взвешенную суперпозицию исходных HRTF с дополнительным применением фазовых множителей. Веса ws, wf зависят от CLD-параметров, предназначенных для использования OTT-декодерами 124a и 124b с Фиг.5.
Веса wlf и wls зависят от CLD-параметра 'OTT'-блока для Lf и Ls:
Веса wrf и wrs зависят от CLD-параметра 'OTT'-блока для Rf и Rs:
Фазовый параметр φXY может быть получен из разности времени главной задержки τXY между передним и задним HRTF-фильтрами и индекса n под-диапазона QMF-блока:
Роль этого фазового параметра в видоизменении фильтров является двоякой. Во-первых, он реализует компенсацию задержки двух фильтров перед суперпозицией, что приводит к комбинированному отклику, который формирует время основной задержки в соответствии с позицией источника между передним и задним динамиками. Во-вторых, он делает необходимый множитель g компенсации усиления гораздо более стабильным и медленнее изменяющимся в зависимости от частоты, чем в случае простой суперпозиции с φXY=0.
Множитель g усиления определяется посредством правила мощностей некогерентного сложения:
где
и pXY является вещественным значением нормализованной комплексной кросс-корреляции между фильтрами
и
В представленных выше уравнениях через P обозначен параметр, описывающий средний уровень на полосу частот для импульсного отклика фильтра, определенного индексами. Конечно, при известных функциях характеристики эту среднюю