2409912 - Декодирование бинауральных аудиосигналов

Декодирование бинауральных аудиосигналов

Иллюстрации

Показать все

Способ синтеза бинаурального аудиосигнала включает ввод параметрически кодированного аудиосигнала, содержащего, по меньшей мере, один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающей мультиканальный аудиосигнал; и применение заранее заданного набора фильтров с передаточными функциями головы, по меньшей мер, к одному комбинированному сигналу в пропорции, определяемой указанным соответствующим набором значений оценок усиления, для синтеза бинаурального аудиосигнала. Технический результат - обеспечивание усовершенствованного использования компрессированного промежуточного состояния, обеспечиваемого в параметрическом аудиокодировании, улучшение эффективности при передаче, а также хранении аудиосигнала. 4 н. и 29 з.п ф-лы, 4 ил., 1 табл.

Реферат

РОДСТВЕННЫЕ ЗАЯВКИ

Эта заявка ссылается на приоритет международной заявки PCT/FI 2006/050014, поданной 9.01.2006, заявки на патент США 11/334,041, поданной 17.01.2006, и заявки на патент США 11/354,211, поданной 13.02.2006.

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение относится к пространственному аудиокодированию, более конкретно - к декодированию бинауральных аудиосигналов.

УРОВЕНЬ ТЕХНИКИ

При пространственном аудиокодировании двухканальный или мультиканальный аудиосигнал обрабатывается так, что аудиосигналы, воспроизводимые в разных аудиоканалах, отличаются один от другого, обеспечивая таким образом слушателям ощущение пространственного эффекта вокруг аудиоисточника. Пространственный эффект может быть создан прямой записью аудиосигнала в подходящие форматы для мультиканального или бинаурального воспроизведения, либо пространственный эффект может быть создан искусственно в любом двух- или мультиканальном аудиосигнале, что известно как создание пространственного эффекта.

Широко известно, что для наушников воспроизведение искусственного пространственного эффекта может быть выполнено с помощью фильтрации с использованием функции HRTF (Head Related Transfer Function, Передаточная Функция Головы), которая производит бинауральные сигналы для правого и левого уха слушателя. Сигналы источника звука фильтруются фильтрами, полученными из функций HRTF, соответствующих их направлению от источника. HRTF - это передаточная функция, измеренная от источника звука в свободном пространстве до уха человека или искусственной головы, деленная на передаточную функцию до микрофона, замещающего голову и помещенного в середине головы. К сигналу с созданным пространственным эффектом может быть добавлен эффект искусственного помещения (например, ранние отражения и/или поздняя реверберация) для улучшения экстернирования источника и естественности.

Поскольку число различных устройств для прослушивания аудиосигнала и интерактивных устройств увеличивается, становится более важной совместимость. Среди пространственных аудиоформатов обеспечиваются сквозные техники повышающего микширования (увеличение числа каналов сигнала) и понижающего микширования (уменьшение числа каналов сигнала). Широко известно, что есть алгоритмы для преобразования мультиканального аудиосигнала в стереоформат, такие как DolbyDigital® и Dolby Surround®, и для дальнейшего преобразования стереосигнала в бинауральный сигнал. Однако при таком типе обработки пространственный эффект исходного мультиканального аудиосигнала не может быть воспроизведен полностью. Лучший путь преобразования мультиканального аудиосигнала для прослушивания в наушниках - заменить исходные громкоговорители на виртуальные громкоговорители путем применения фильтрации HRTF и проигрывать сигналы каналов громкоговорителей через них (например, Dolby Headphone®). Однако этот процесс имеет недостаток, заключающийся в том, что для генерации бинаурального сигнала сначала всегда необходимо мультиканальное микширование. То есть, мультиканальные (например 5+1 каналов) сигналы сначала декодируются и синтезируются, затем для формирования бинаурального сигнала к каждому сигналу применяется HRTF. Этот подход требует интенсивных вычислений по сравнению с декодированием напрямую из компрессированного мультиканального формата в бинауральный формат.

Бинауральное Кодирование с Метками (Binaural Cue Coding, BCC) - это хорошо разработанный параметрический способ пространственного аудиокодирования. BCC представляет пространственный мультиканальный сигнал как один (или несколько) аудиоканалов понижающего микширования и набор релевантных к восприятию межканальных различий, оцененных из исходного сигнала как функция частоты и времени. Этот способ позволяет преобразовать пространственный аудиосигнал, микшированный для произвольного расположения громкоговорителей, в сигнал с любым другим расположением громкоговорителей, содержащим либо такое же, либо другое число громкоговорителей.

Таким образом, ВСС разработано для мультиканальных систем громкоговорителей. Однако генерация бинаурального сигнала из моносигнала и его дополнительной информации, обработанных с помощью ВСС, требует, чтобы сначала на базе монофонического сигнала и дополнительной информации было синтезировано мультиканальное представление, и только тогда становится возможным генерировать бинауральный сигнал из мультиканального представления для пространственного проигрывания в наушниках. Ясно, что такой подход также не оптимизирован с точки зрения генерации бинаурального сигнала.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Предлагается улучшенный способ, а также техническое оборудование, реализующее этот способ, в котором генерирование бинаурального сигнала возможно прямо из параметрически кодированного аудиосигнала. Различные аспекты данного изобретения включают способ декодирования, декодер, устройство и компьютерное программы, особенности которых описаны далее. Также раскрыты различные варианты осуществления данного изобретения.

В соответствии с первым аспектом, способ, согласно данному изобретению, основывается на идее синтеза бинаурального аудиосигнала, при котором сначала вводится параметрически кодированный аудиосигнал, содержащий по меньшей мере один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающих мультиканальный звуковой образ. По меньшей мере один комбинированный сигнал разделяется на множество подполос, и определяются значения параметров для подполос из указанного набора дополнительной информации. Затем заранее заданный набор фильтров с передаточными функциями головы применяется по меньшей мере к одному комбинированному сигналу в пропорции, определяемой указанными значениями параметров, для синтеза бинаурального аудиосигнала.

В соответствии с изобретением, указанные значения параметров определяются путем интерполирования значения параметра, соответствующего конкретной подполосе, из следующего и предыдущего значений параметров, предоставляемых указанным набором дополнительной информации.

В соответствии с вариантом осуществления изобретения, из заранее заданного набора фильтров с передаточными функциями головы для применения выбирается пара левого-правого фильтров с передаточными функциями головы, соответствующая каждому направлению громкоговорителя исходного мультиканального расположения громкоговорителей.

В соответствии с вариантом осуществления изобретения, указанный набор дополнительной информации включает набор оценок усиления для канальных сигналов мультиканального аудиосигнала, описывающих исходный звуковой образ.

В соответствии с вариантом осуществления изобретения, оценки усиления исходного мультиканального аудиосигнала определяются как функция времени и частоты; и значения усиления для каждого канала громкоговорителя регулируются так, что сумма квадратов каждой величины усиления равна единице.

В соответствии с изобретением, по меньшей мере один комбинированный сигнал разделяют на один из следующих типов подполос: множество подполос QMF, множество подполос Эквивалентной Прямоугольной Полосы (Equivalent Rectangular Bandwidth, ERB); или множество психоакустически мотивированных частотных полос.

В соответствии с изобретением, указанные значения параметров являются величинами усиления по меньшей мере для одной подполосы.

В соответствии с изобретением, этап определения величин усиления для подполос также включает: определение величин усиления для каждого канального сигнала мультиканального аудиосигнала, описывающего исходный звуковой образ; и интерполирование единой величины усиления для подполос из указанных величин усиления для каждого канального сигнала.

В соответствии с изобретением, представление бинаурального сигнала в частотной области для подполос определяется перемножением по меньшей мере одного указанного комбинированного сигнала с по меньшей мере одной величиной усиления и заранее заданным фильтром с передаточной функцией головы.

Данное изобретение обеспечивает существенные преимущества. Главное преимущество - это простота и небольшая вычислительная сложность процесса декодирования. Декодер также является гибким в том смысле, что он обеспечивает бинауральный синтез полностью на базе пространственных параметров и параметров кодирования, предоставляемых кодером. Более того, при преобразовании поддерживаются одинаковые по отношению к исходному сигналу пространственные характеристики. Что касается дополнительной информации, то достаточно набора оценок усиления исходного микширования. Наиболее существенно то, что изобретение обеспечивает усовершенствованное использование компрессированного промежуточного состояния, обеспечиваемого в параметрическом аудиокодировании, улучшая эффективность при передаче, а также хранении аудиосигнала.

Другие аспекты изобретения включают различные устройства, предназначенные для выполнения этапов вышеуказанных способов, реализующих изобретение. Так, согласно изобретению, предлагается параметрический аудиодекодер, содержащий:

параметрический кодовый процессор для обработки параметрически кодированного аудиосигнала, содержащего по меньшей мере один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающей мультиканальный аудиосигнал;

средство для разделения по меньшей мере одного комбинированного сигнала на множество подполос;

средство для определения значений набора оценок усиления для подполос из указанного набора дополнительной информации; и

синтезатор для применения заранее заданного набора фильтров с передаточными функциями головы по меньшей мере к одному комбинированному сигналу в пропорции, определяемой указанными значениями набора оценок усиления, для синтеза бинаурального аудиосигнала.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Далее различные варианты осуществления данного изобретения будут описаны более подробно, со ссылками на сопроводительные чертежи, где:

Фиг.1 - общая схема кодирования ВСС в соответствии с уровнем техники;

Фиг.2 - общая структура схемы синтеза ВСС в соответствии с уровнем техники;

Фиг.3 - блок-схема бинаурального декодера в соответствии с вариантом осуществления данного изобретения; и

Фиг.4 - электронное устройство в соответствии с вариантом осуществления данного изобретения в виде упрощенной блок-схемы.

ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

В дальнейшем изобретение будет иллюстрировано со ссылкой на кодирование ВСС (Бинауральное Кодирование с Метками), как например платформы для реализации схемы декодирования в соответствии с вариантами осуществления изобретения. Нужно отметить, однако, что данное изобретение не ограничено исключительно способами пространственного кодирования аудиосигнала ВСС-типа, а может быть реализовано в любой схеме кодирования аудиосигнала, обеспечивающей по меньшей мере один аудиосигнал, комбинированный из исходного набора с одним или более аудиоканалом, и соответствующую дополнительную пространственную информацию.

Бинауральное Кодирование с Метками - это общая концепция параметрического представления пространственного аудиосигнала, обеспечивающая мультиканальный выход с произвольным числом каналов из единственного аудиоканала и некоторой дополнительной информации. Фиг.1 показывает эту концепцию. Несколько (М) входных аудиоканалов комбинируются в единственный выходной (S, «сумма») сигнал путем процесса понижающего микширования. Одновременно из входных каналов выделяют наиболее выраженные межканальные сигналы, описывающие мультиканальный звуковой образ, и компактно кодируют их как дополнительную информацию ВСС. Суммарный сигнал и дополнительная информация передаются затем на сторону приемника, возможно, с использованием соответствующей схемы низкоскоростного кодирования аудиосигнала для кодирования суммарного сигнала. Окончательно декодер ВСС генерирует мультиканальный (N) выходной сигнал для громкоговорителей из переданного суммарного сигнала и пространственной дополнительной информации путем повторного синтеза канальных выходных сигналов, которые несут существенные межканальные метки, такие как Межканальная Разница Времени (Inter-channel Time Difference, ICTD), Межканальная Разница Уровней (Inter-channel Level Difference, ICLD) и Межканальная Когерентность (Inter-channel Coherence, ICC). Соответственно, дополнительная информация ВСС, т.е. межканальные метки, выбирается исходя из оптимизации реконструкции мультиканального аудиосигнала, в частности, для проигрывания через громкоговорители.

Есть две схемы ВСС, а именно: ВСС для Гибкого Рендеринга (ВСС типа 1), которая предназначена для передачи некоторого числа раздельных источников сигналов с целью рендеринга в приемнике, и ВСС для Естественного Рендеринга (ВСС тип 2), которое предназначено для передачи некоторого числа раздельных аудиоканалов стереосигнала или сигнала объемного звучания. ВСС для Гибкого Рендеринга принимает в качестве входных данных раздельные источники аудиосигналов (например, речевые сигналы, раздельно записанные инструменты, мультитрековая запись). ВСС для Естественного Рендеринга, в свою очередь, принимает в качестве входных данных «финальный микс» - стерео- или мультиканальный сигнал (например, CD-аудио, объемный звук DVD). Если эти процессы выполняются посредством стандартных техник кодирования, скорость битового потока пропорциональна или по меньшей мере почти пропорциональна количеству аудиоканалов; например, передача шести аудиоканалов мультиканальной системы 5.1 требует примерно в 6 раз большей скорости битового потока, чем для одного аудиоканала. Однако обе схемы ВСС приводят к скорости битового потока, которая только чуть больше, чем требуется для передачи одного аудиоканала, поскольку дополнительная информация ВСС требует очень низкой скорости битового потока (например, 2 кб/с).

Фиг.2 демонстрирует основную структуру схемы синтеза ВСС. Переданный моносигнал («сумма») сначала кадрируется во временной области, а затем отображается в спектральное представление соответствующих подполос путем Быстрого Преобразования Фурье (БПФ) и Банка Фильтров (БФ). Вместо обработки с помощью БПФ и БФ для выполнения декомпозиции сигнала может быть использован банк Квадратурных Зеркальных Фильтров (Quadrature Mirror Filter, QMF). В общем случае проигрывания каналов метки ICLD и ICTD учитываются в каждой подполосе между парами каналов, т.е. для каждого канала по отношению к эталонному каналу. Подполосы выбираются такими, чтобы достигалось достаточное высокое частотное разрешение; например, ширина подполосы, равная удвоенному размеру ERB (Equivalent Rectangular Bandwidth, Эквивалентная Прямоугольная Полоса), обычно считается подходящей. Для каждого генерируемого выходного канала индивидуальные задержки времени ICTD и разницы уровней ICLD накладываются на спектральные коэффициенты, за этим следует процесс когерентного синтеза, который восстанавливает наиболее существенные аспекты когерентности и/или корреляции (IСС) между синтезированными аудиоканалами. Окончательно, все синтезированные выходные каналы конвертируются обратно во временное представление путем процесса обратного БПФ (ОБПФ), с результатом в виде мультиканального выхода. Для более подробного описания подхода ВСС сделаем ссылку на: F. Baumgarte and С.Fallen "Binaural Cue Coding - Part I: Psychoacoustic Fundamentals and Design Principles", IEEE Transactions on Speech and Audio Processing, Vol.11, No. 6, Ноябрь 2003, и на: С.Faller and F. Baumgarte: "Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, Vol.11, No.6, Ноябрь 2003.

ВСС - это пример схемы кодирования, который обеспечивает подходящую платформу для реализации схемы декодирования в соответствии с вариантами осуществления изобретения. Бинауральный декодер, в соответствии с вариантом осуществления изобретения, принимает монофонизированный сигнал и дополнительную информацию как входные данные. Идея заключается в замене каждого громкоговорителя в оригинальном смешивании парой фильтров HRTF, соответствующих направлению громкоговорителя по отношению к позиции прослушивания. Каждый частотный канал монофонизированного сигнала пропускается через каждую пару фильтров, реализующих HRTF, в пропорции, определяемой набором величин усиления, которые могут быть вычислены на базе дополнительной информации. В результате этот процесс может считаться реализацией набора виртуальных громкоговорителей, соответствующих исходным, в бинауральной аудиосцене. Соответственно, изобретение добавляет значение к ВСС, позволяя, кроме мультиканальных аудиосигналов для различных расположений громкоговорителя, получить бинауральный аудиосигнал прямо из кодированного параметрически аудиосигнала, без какого-либо промежуточного процесса синтеза ВСС.

Некоторые варианты осуществления данного изобретения проиллюстрированы в дальнейшем со ссылкой на фиг.3, которая показывает блок-схему бинаурального декодера в соответствии с аспектом изобретения. Декодер 300 включает первый вход 302 для монофонизированного сигнала и второй вход 304 для дополнительной информации. Входы 302, 304 показаны как отдельные входы с целью иллюстрации вариантов осуществления изобретения, однако специалисту будет понятно, что в практических реализациях монофонизированный сигнал и дополнительная информация могут поступать через один вход.

В соответствии с вариантом осуществления изобретения, дополнительная информация не обязательно должна включать такие же межканальные метки, как и в схеме ВСС, т.е. Межканальную Разницу Времени (Inter-channel Time Difference, ICTD), Межканальную Разницу Уровней (Inter-channel Level Difference, ICLD) и Межканальную Когерентность (Inter-channel Coherence, ICC), достаточным будет только набор оценок усиления, определяющих распределение звукового давления между каналами исходного смешивания на каждой частотной полосе. В дополнение к оценкам усиления, дополнительная информация предпочтительно включает число и расположение громкоговорителей исходного смешивания относительно позиции прослушивания, а также применяемую длину кадра. В соответствии с вариантом осуществления изобретения, вместо передачи оценок усиления как части дополнительной информации, полученных из кодера, оценки усиления вычисляются в декодере из межканальных сигналов схемы ВСС, например, из ICLD.

Декодер 300 также содержит оконное устройство 306, где монофонизированный сигнал сначала разделяется на временные кадры применяемой длины, а затем к кадрам применяется подходящая оконная функция, например, синус-окно. Подходящая длина кадра должна быть подобрана так, чтобы кадры были достаточной длинными для Дискретного Преобразования Фурье (ДПФ), и в то же время достаточно короткими для обработки быстрых вариаций в сигнале. Эксперименты показали, что подходящая длина кадра - примерно 50 мс. Соответственно, если используется частота дискретизации 44.1 кГц (обычно применяемая в различных схемах аудиокодирования), то кадр может содержать, например, 2048 выборок, что приводит к длине кадра 46.3 мс. Применение оконной функции предпочтительно выполнено так, чтобы соседние окна перекрывались на 50 процентов для сглаживания переходов, вызванных спектральными изменениями (уровень и задержка).

Далее монофонизированый сигнал, обработанный оконной функцией, преобразуется в частотную область в устройстве БПФ 308. Обработка выполняется в частотной области для эффективности вычислений. Специалисту ясно, что предыдущие этапы обработки сигнала могут быть выполнены вне декодера 300, т.е. оконное устройство 306 и устройство БПФ 308 могут быть реализованы в устройстве, включающем декодер, и монофонизированный сигнал может быть уже обработан оконной функцией и преобразован в частотную область перед поступлением в декодер.

Для эффективности выполнения вычислений над сигналом в частотной области он пропускается через банк фильтров 310, который разделяет сигнал на психоакустически мотивированные частотные полосы. В соответствии с вариантом осуществления изобретения, банк фильтров 310 разработан таким образом, чтобы разделить сигнал на 32 частотные полосы, соответствующие общеизвестной шкале Эквивалентных Прямоугольных Полос (Equivalent Rectangular Bandwidth, ERB), с результатом в виде компонент сигнала Х₀, …, Х₃₁ на указанных 32-х частотных полосах.

Декодер 300 включает набор фильтров HRTF 312, 314 в виде заранее заданной информации, из которого выбирается пара левого-правого фильтров HRTF, соответствующая каждому направлению громкоговорителя. С иллюстративной целью на фиг.3 показано два набора фильтров HRTF 312, 314, один для левостороннего сигнала, и один для правостороннего сигнала, однако понятно, что в практической реализации достаточно одного набора фильтров HRTF. Для регулирования выбранной пары левого-правого фильтров HRTF, в соответствии с уровнем звука каждого канала громкоговорителя, предпочтительно оценивается величина усиления G. Как указано выше, оценки усиления могут быть включены в дополнительную информацию, принимаемую из кодера, или могут быть вычислены в декодере на базе дополнительной информации ВСС. Соответственно, усиление оценивается для каждого канала громкоговорителя как функция времени и частоты, и для сохранения уровня усиления исходного смешивания величина усиления для каждого канала громкоговорителя предпочтительно регулируется так, что сумма квадратов каждой величины усиления равна единице. Это дает преимущество, заключающееся в том, что если число виртуально генерированных каналов равно N, то передавать из кодера нужно только N-1 оценок усиления, а оставшаяся величина усиления может быть вычислена на базе N-1 величин усиления. Специалисту, однако, ясно, что функционирование изобретения не делает необходимым приведение суммы квадратов каждой величины усиления к единице, а декодер может масштабировать квадраты величин усиления так, чтобы эта сумма равнялась единице.

Затем каждая пара левого-правого фильтров HRTF 312, 314 регулируется в пропорции, определяемой набором усилений G, с результатом в виде скорректированных фильтров HRTF 312', 314'. Снова отметим, что на практике исходные значения фильтров HRTF 312, 314 масштабируют в соответствии с величинами усиления, однако для иллюстративных целей на фиг.3 показаны «дополнительные» наборы фильтров HRTF 312', 314'.

Для каждой частотной полосы компоненты моносигнала Х₀, …, Х₃₁ подаются на каждую пару левого-правого скорректированных фильтров HRTF 312', 314'. Выходы фильтров для левостороннего сигнала и правостороннего сигнала затем суммируются в устройстве суммирования 316, 318 для обоих бинауральных каналов. Суммированные бинауральные каналы снова обрабатываются синус-окном и преобразуются обратно во временную область обратным БПФ, выполняемым в устройствах ОБПФ 320, 322. В случае, если анализирующие фильтры не нормализованы, либо их фазовая характеристика нелинейна, предпочтительно используется подходящий синтезирующий банк фильтров для устранения искажений в финальных бинауральных сигналах b_R и b_L.

В соответствии с вариантом осуществления изобретения, для улучшения экстернирования (т.е. локализации вне головы) бинаурального сигнала к нему может быть добавлено небольшое количество характеристик помещения. Для этих целей декодер может включать устройство реверберации, предпочтительно расположенное между устройствами суммирования 316, 318 и устройствами ОБПФ 320, 322. Добавляемые характеристики помещения имитируют свойства помещения в ситуации прослушивания через громкоговорители. Время реверберации, однако, необходимо довольно короткое, для того чтобы вычислительная сложность заметно не увеличивалась.

Бинауральный декодер 300, показанный на фиг.3, также позволяет получить особый вариант стереодекодирования с понижающим микшированием, при котором пространственный образ сужен. В функционирование декодера 300 внесены изменения так, что каждый регулируемый фильтр HRTF 312, 314, который в вышеуказанных вариантах осуществления изобретения был масштабирован в соответствии с величинами усилений, заменен заранее заданным усилением. Соответственно, монофонизированный сигнал обрабатывается постоянными фильтрами HRTF, состоящими из единственного усиления, умноженного на набор величин усилений, вычисленных на базе дополнительной информации. Как результат, пространственный аудиосигнал преобразуется понижающим микшированием в стереосигнал. Этот особый вариант обеспечивает то преимущество, что стереосигнал может быть создан из комбинированного сигнала с использованием дополнительной пространственной информации без необходимости декодирования пространственного аудиосигнала, вследствие чего процедура стереодекодирования проще, чем обычный синтез ВСС. Структура бинаурального декодера 300 остается, тем не менее, такой же, как на фиг.3, только регулируемые фильтры HRTF 312, 314 заменяются фильтрами понижающего микширования, имеющими заранее заданные усиления для стереопонижающего микширования.

Если бинауральный декодер включает фильтры HRTF, например, для конфигурации объемного звука 5.1, тогда для особого варианта стереодекодирования с понижающим микшированием постоянные усиления для фильтров HRTF могут быть, например, такими, как в Таблице.

HRTF	Левый	Правый
Фронтальный левый	1.0	0.0
Фронтальный правый	0.0	1.0
Центр	Sqrt (0.5)	Sqrt (0.5)
Левый, тыл	Sqrt (0.5)	0.0
Правый, тыл	0.0	Sqrt (0.5)
LFE	Sqrt (0.5)	Sqrt (0.5)

Данное изобретение обеспечивает существенные преимущества. Главное преимущество - это простота и небольшая вычислительная сложность процесса декодирования. Декодер также является гибким в том смысле, что он обеспечивает бинауральное повышающее микширование полностью на базе пространственных параметров и параметров кодирования, предоставляемых кодером. Более того, при преобразовании поддерживаются одинаковые по отношению к исходному сигналу пространственные характеристики. Что касается дополнительной информации, то достаточно набора оценок усиления исходного смешивания. С точки зрения передачи или хранения аудиосигнала, наиболее существенны преимуществом является то, что изобретение обеспечивает улучшенную эффективность при использовании компрессированного промежуточного состояния, обеспечиваемого при параметрическом аудиокодировании.

Специалисту понятно, что, поскольку фильтры HRTF весьма индивидуальны и усреднение невозможно, наилучшая передача пространственного образа может быть достигнута только измерением уникального собственного набора фильтров HRTF слушателя. Соответственно, использование фильтров HRTF неизбежно ведет к окрашиванию сигнала так, что качество обработанного аудиосигнала не эквивалентно исходному. Однако, поскольку измерение фильтров HRTF для каждого слушателя является нереалистичным, наилучший возможный результат достигается тогда, когда используется либо моделированный набор, либо набор, измеренный с помощью искусственной головы или человека с головой средних размеров и высокой симметрией.

Как указано ранее, в соответствии с вариантом осуществления изобретения, оценки усиления могут быть включены в дополнительную информацию, принимаемую из кодера. В результате аспект изобретения относится к кодеру для мультиканального пространственного аудиосигнала, который оценивает усиление для каждого канала громкоговорителя как функцию частоты и времени, и включает оценки усиления в дополнительную информацию, передаваемую с одним (или более) комбинированным каналом. Кодер может быть, например, тем же кодером ВСС с добавлением вычисления оценок усиления, либо в дополнение, либо вместо межканальных сигналов ICTD, ICLD и IСС, описывающих мультиканальный звуковой образ. Затем суммарный сигнал и дополнительная информация, включающая по меньшей мере оценки усиления, передаются на сторону приемника, предпочтительно с использованием соответствующей схемы низкоскоростного аудиокодирования для кодирования суммарного сигнала.

В соответствии с вариантом осуществления изобретения, если оценки усиления вычисляются в кодере, вычисления выполняются сравнением уровня усиления каждого индивидуального канала с кумулятивным уровнем усиления комбинированного канала. То есть, если мы обозначим уровни усиления как X, индивидуальные каналы исходного расположения громкоговорителей как «m», и выборки как «k», то для каждого канала оценка усиления вычисляется как |Xm(k)|/|Xsum(k)|. Соответственно, оценки усиления определяют пропорциональные величины усиления каждого индивидуального канала в сравнении с общей величиной усиления всех каналов.

В соответствии с вариантом осуществления изобретения, если оценки усиления вычисляются в декодере на базе дополнительной информации ВСС, вычисление может быть выполнено, например, на базе значений Межканальной Разницы Уровней (ICLD). В результате, если N - число виртуально генерированных «громкоговорителей», то сначала на базе значений ICLD составляется N-1 уравнений, содержащих N-1 неизвестных переменных. Затем сумма квадратов каждого уравнения громкоговорителей устанавливается равной единице, посредством чего может быть найдена оценка усиления одного индивидуального канала, и на базе найденной оценки усиления из N-1 уравнений могут быть найдены остальные оценки усиления.

Например, если число виртуально генерируемых каналов равно пяти (N=5), N-1 уравнений могут быть сформированы так: L2=L1+ICLD1, L3=L1+ICLD2, L4=L1+ICLD3 и L5=L1+ICLD4. Затем сумма их квадратов устанавливается равной единице: L1²+(L1+ICLD1)²+(L1+ICLD2)²+(L1+ICLD3)²+(L1+ICLD4)²=1. Затем может быть найдено значение L1, и на базе L1 могут быть найдены остальные значения уровня усиления L2-L5.

В соответствии со следующим вариантом осуществления, основная идея данного изобретения, т.е. генерация бинаурального сигнала напрямую из параметрически кодированного аудиосигнала без необходимости декодирования этого сигнала сначала в мультиканальный формат, может быть также реализована так, что для создания бинаурального сигнала будет использована только информация уровней каналов (ICLD) битового потока дополнительной информации вместе с суммарным сигналом (сигналами), вместо использования набора оценок усиления и применения их к каждой частотной подполосе.

Соответственно, вместо определения набора оценок усиления в декодере или включения оценок усиления в дополнительную информацию ВСС в кодере, в декодере происходит обработка (как функции времени и частоты) информации уровней каналов (ICLD) обычной дополнительной информации ВСС каждого исходного канала. Исходный суммарный сигнал (сигналы) разделяется на соответствующие частотные бины, и усиления для частотных бинов получаются из информации уровней каналов. Этот процесс позволяет получить дальнейшее улучшение качества бинаурального выходного сигнала путем введения более плавных изменений величин усиления от одной частотной полосы к другой.

В данном варианте осуществления изобретения предварительные этапы обработки такие же, как описанные выше: суммарный сигнал (моно или стерео) и дополнительная информация подаются на декодер, суммарный сигнал разделяется на временные кадры применяемой длины, а затем к кадрам применяется подходящая оконная функция, например, синус-окно. Снова при анализе используются синус-окна, перекрывающиеся на 50 процентов, и для эффективного преобразования сигнала из временной области в частотную область применяется БПФ (Быстрое Преобразование Фурье). Тогда, если длина окна анализа равна N выборкам, и окна имеют перекрытие 50%, получаем N/2 частотных бина в частотной области. В этом варианте осуществления, вместо разделения сигнала на психоакустически мотивированные частотные полосы, такие как подполосы, соответствующие шкале ERB, обработка применяется к указанным частотным бинам.

Как описано выше, дополнительная информация кодера ВСС обеспечивает информацию о том, как суммарный сигнал (сигналы) должен быть отмасштабирован для получения каждого индивидуального канала. Информация усиления в основном предоставляется только для ограниченных позиций времени и частоты. На временной шкале величины усиления даются, например, один раз на кадр из 2048 выборок. Для реализации настоящего изобретения необходимы величины усиления в середине каждого синус-окна и для каждого частотного бина (т.е. N/2 величин усиления в середине каждого синус-окна). Это эффективно достигается посредством интерполяции. Альтернативно, информация усиления может быть обеспечена в моменты времени, определяемые в дополнительной информации, и число моментов времени в кадре также может предоставляться в дополнительной информации. В этой альтернативном варианте осуществления величины усилений интерполируются на основе знания моментов времени и количества моментов времени, в которые обновляются величины усилений.

Предположим, что мультиканальный кодер ВСС обеспечивает N_g величин усиления в моменты времени t_m, m=0, 1, 2, … По отношению к текущему моменту времени t_w (центр текущего синус-окна), найденные следующий и предыдущий набор величин усиления, обеспеченные мультиканальным кодером ВСС, обозначим как t_prev и t_next. Используя, например, линейную интерполяцию, N_g величин усиления интерполируются для момента времени t_w так, что расстояние от t_w до t_prev и t_next используется в интерполяции как масштабирующий коэффициент. В соответствии с другим вариантом осуществления, просто выбирается величина усиления (t_prev или t_next), которая ближе к моменту времени t_w, что обеспечивает более прямолинейное решение для определения хорошо аппроксимированной величины усиления.

После того как определен набор N_g величин усиления для текущего момента, они требуют интерполяции на частотной шкале для получения индивидуальной величины усиления для каждого N/2 частотного бина. Для решения этой задачи может быть использована простая линейная интерполяция, однако, например, может быть использована и синус-интерполяция. Обычно N_g величин усиления получаются с большим разрешением на низких частотах (разрешение может следовать, например, шкале ERB), что должно быть учтено при интерполяции. Интерполяция может быть выполнена в линейном или логарифмическом масштабе. Общее число интерполированных наборов усиления равно числу выходных каналов мультиканального декодера, умноженному на число суммарных сигналов.

Кроме того, для создания бинаурального сигнала необходимы функции HRTF исходных положений громкоговорителей. Также функции HRTF преобразуются в частотную область. Для обеспечения простоты процесса в частотной области при преобразовании используется такая же длина кадра (N выборок), как и при преобразовании суммарного сигнала (сигналов) из временной в частотную область (N/2 бин).

Предположим, что Y₁(n) и Y₂(n) являются соответственно представлением левого и правого бинауральных сигналов в частотной области. В случае одного суммарного сигнала (т.е. монофонизированного суммарного сигнала X_sum1 (n)) бинауральный выходной сигнал получается следующим образом:

где 0=n<N/2. С - общее число каналов в мультиканальном кодере ВСС (например, аудиосигнал 5.1 включает 6 каналов), и g₁ ^c(n) - интерполированная величина усиления для монофонического суммарного сигнала для получения канала с в текущий момент времени t_w. H₁ ^c(n) и H₂ ^c(n) - ДПФ-представление HRTF (ДПФ - Дискретное Преобразование Фурье) для левого и правого ушей для выходного канала с мультиканального кодера, т.е. направление каждого исходного канала должно быть известно.

В случае двух суммарных сигналов (стереофонического суммарного сигнала), обеспеченных мультиканальным кодером ВСС, оба суммарных сигнала (X_sum1 (n) и X_sum2 (n)) взаимосвязаны с обоими бинауральными выходами следующим образом:

Декодирование бинауральных аудиосигналов

Патент 2409912