Декодирование бинауральных аудиосигналов
Иллюстрации
Показать всеИзобретение относится к пространственному аудиокодированию, более конкретно - к декодированию бинауральных аудиосигналов. Способ синтеза бинаурального аудиосигнала включает ввод параметрически кодированного аудиосигнала, содержащего, по меньшей мере, один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающей мультиканальный аудиосигнал; и применение заранее заданного набора фильтров с передаточными функциями головы, по меньшей мере, к одному комбинированному сигналу в пропорции, определяемой указанным соответствующим набором дополнительной информации, для синтеза бинаурального аудиосигнала. Описаны также соответствующие параметрический аудиодекодер, параметрический аудиокодер, компьютерный программный продукт и устройство для синтеза бинаурального аудиосигнала. Технический результат - обеспечивание улучшенной эффективности при использовании компрессированного промежуточного состояния, обеспечиваемого при параметрическом аудиокодировании. 9 н. и 22 з.п. ф-лы, 4 ил., 1 табл.
Реферат
РОДСТВЕННЫЕ ЗАЯВКИ
Эта заявка ссылается на приоритет международной заявки PCT/FI2006/050014, поданной 9.01.2006, и заявки на патент США 11/334041, поданной 17.01.2006.
ОБЛАСТЬ ТЕХНИКИ
Настоящее изобретение относится к пространственному аудиокодированию, более конкретно - к декодированию бинауральных аудиосигналов.
УРОВЕНЬ ТЕХНИКИ
При пространственном аудиокодировании двухканальный или мультиканальный аудиосигнал обрабатывается так, что аудиосигналы, воспроизводимые в разных аудиоканалах, отличаются один от другого, обеспечивая таким образом слушателям ощущение пространственного эффекта вокруг аудиоисточника. Пространственный эффект может быть создан прямой записью аудиосигнала в подходящие форматы для мультиканального или бинаурального воспроизведения либо пространственный эффект может быть создан искусственно в любом двух- или мультиканальном аудиосигнале, что известно как создание пространственного эффекта.
Широко известно, что для наушников воспроизведение искусственного пространственного эффекта может быть выполнено с помощью фильтрации с использованием функции HRTF (Head Related Transfer Function, Передаточная Функция Головы), которая производит бинауральные сигналы для правого и левого уха слушателя. Сигналы источника звука фильтруются фильтрами, полученными из функций HRTF, соответствующих их направлению от источника. HRTF - это передаточная функция, измеренная от источника звука в свободном пространстве до уха человека или искусственной головы, деленная на передаточную функцию до микрофона, замещающего голову и помещенного в середине головы. К сигналу с созданным пространственным эффектом может быть добавлен эффект искусственного помещения (например, ранние отражения и/или поздняя реверберация) для улучшения экстернирования источника и естественности.
Поскольку число различных устройств для прослушивания аудиосигнала и интерактивных устройств увеличивается, становится более важной совместимость. Среди пространственных аудиоформатов обеспечиваются сквозные техники повышающего микширования (увеличение числа каналов сигнала) и понижающего микширования (уменьшение числа каналов сигнала). Широко известно, что есть алгоритмы для преобразования мультиканального аудиосигнала в стереоформат, такие как DolbyDigital® и Dolby Surround®, и для дальнейшего преобразования стереосигнала в бинауральный сигнал. Однако при таком типе обработки пространственный эффект исходного мультиканального аудиосигнала не может быть воспроизведен полностью. Лучший путь преобразования мультиканального аудиосигнала для прослушивания в наушниках - заменить исходные громкоговорители на виртуальные громкоговорители путем применения фильтрации HRTF и проигрывать сигналы каналов громкоговорителей через них (например, Dolby Headphone®). Однако этот процесс имеет недостаток, заключающийся в том, что для генерации бинаурального сигнала сначала всегда необходимо мультиканальное микширование. То есть мультиканальные (например 5+1 каналов) сигналы сначала декодируются и синтезируются, затем для формирования бинаурального сигнала к каждому сигналу применяется HRTF. Этот подход требует интенсивных вычислений по сравнению с декодированием напрямую из компрессированного мультиканального формата в бинауральный формат.
Бинауральное Кодирование с Метками (Binaural Cue Coding, BCC) - это хорошо разработанный параметрический способ пространственного аудиокодирования. BCC представляет пространственный мультиканальный сигнал как один (или несколько) аудиоканалов понижающего микширования и набор релевантных к восприятию межканальных различий, оцененных из исходного сигнала как функция частоты и времени. Этот способ позволяет преобразовать пространственный аудиосигнал, микшированный для произвольного расположения громкоговорителей, в сигнал с любым другим расположением громкоговорителей, содержащим либо такое же, либо другое число громкоговорителей.
Таким образом, ВСС разработано для мультиканальных систем громкоговорителей. Однако генерация бинаурального сигнала из моносигнала и его дополнительной информации, обработанных с помощью ВСС, требует, чтобы сначала на базе монофонического сигнала и дополнительной информации было синтезировано мультиканальное представление, и только тогда становится возможным генерировать бинауральный сигнал из мультиканального представления для пространственного проигрывания в наушниках. Ясно, что такой подход также не оптимизирован с точки зрения генерации бинаурального сигнала.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Предлагается улучшенный способ, а также техническое оборудование, реализующее этот способ, в котором генерирование бинаурального сигнала возможно прямо из параметрически кодированного аудиосигнала. Различные аспекты данного изобретения включают способ декодирования, декодер, устройство и компьютерные программы, особенности которых описаны в зависимых пунктах формулы. Различные варианты осуществления данного изобретения описаны в зависимых пунктах формулы.
В соответствии с первым аспектом способ, согласно данному изобретению, основывается на идее синтеза бинаурального аудиосигнала, при котором сначала вводится параметрически кодированный аудиосигнал, содержащий, по меньшей мере, один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающих мультиканальный звуковой образ. Затем заранее заданный набор фильтров с передаточными функциями головы применяется, по меньшей мере, к одному комбинированному сигналу в пропорции, определяемой указанным соответствующим набором дополнительной информации, для синтеза бинаурального аудиосигнала.
В соответствии с вариантом осуществления изобретения из заранее заданного набора фильтров с передаточными функциями головы для применения выбирается пара левого-правого фильтров с передаточными функциями головы, соответствующая каждому направлению громкоговорителя исходного мультиканального расположения громкоговорителей.
В соответствии с вариантом осуществления изобретения указанный набор дополнительной информации включает набор оценок усиления для канальных сигналов мультиканального аудиосигнала, описывающих исходный звуковой образ.
В соответствии с вариантом осуществления изобретения оценки усиления исходного мультиканального аудиосигнала определяются как функция времени и частоты; и значения усиления для каждого канала громкоговорителя регулируются так, что сумма квадратов каждой величины усиления равна единице.
В соответствии с вариантом осуществления изобретения, по меньшей мере, один комбинированный сигнал разделяют на временные кадры применяемой длины, а затем к кадрам применяется оконная функция; и, по меньшей мере, один комбинированный сигнал преобразуется в частотную область перед применением фильтров с передаточной функцией головы.
В соответствии с вариантом осуществления изобретения, по меньшей мере, один комбинированный сигнал перед применением фильтров с передаточной функцией головы разделен в частотной области на множество психоакустически мотивированных частотных полос, таких как частотные подполосы, соответствующие шкале Эквивалентных Прямоугольных Полос (Equivalent Rectangular Bandwidth, ERB).
В соответствии с вариантом осуществления изобретения выходы фильтров с передаточными функциями головы для каждой указанной частотной полосы суммируются раздельно для левостороннего и правостороннего сигнала; и просуммированный левосторонний и просуммированный правосторонний сигналы преобразуют во временную область для создания левосторонней и правосторонней компонент бинаурального аудиосигнала.
Второй аспект представляет собой способ генерации параметрически кодированного аудиосигнала, который включает: ввод мультиканального аудиосигнала, содержащего множество аудиоканалов; генерирование по меньшей мере одного комбинированного сигнала множества аудиоканалов; генерирование одного или более соответствующего набора дополнительной информации, включающего оценки усиления для множества аудиоканалов.
В соответствии с вариантом осуществления изобретения оценки усиления вычисляют путем сравнения уровня усиления каждого индивидуального канала с кумулятивным уровнем усиления комбинированного сигнала.
Данное изобретение обеспечивает существенные преимущества. Главное преимущество - это простота и небольшая вычислительная сложность процесса декодирования. Декодер также является гибким в том смысле, что он обеспечивает бинауральный синтез полностью на базе пространственных параметров и параметров кодирования, предоставляемых кодером. Более того, при преобразовании поддерживаются одинаковые по отношению к исходному сигналу пространственные характеристики. Что касается дополнительной информации, то достаточно набора оценок усиления исходного микширования. Наиболее существенно то, что изобретение обеспечивает усовершенствованное использование компрессированного промежуточного состояния, обеспечиваемого в параметрическом аудиокодировании, улучшая эффективность при передаче, а также хранении аудиосигнала.
Другие аспекты изобретения включают различные устройства, предназначенные для выполнения этапов вышеуказанных способов, реализующих изобретение. Так, согласно изобретению, предлагается параметрический аудиодекодер, содержащий:
параметрический кодовый процессор для обработки параметрически кодированного аудиосигнала, содержащего, по меньшей мере, один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающих мультиканальный аудиосигнал;
средство фильтрации для разделения, по меньшей мере, одного комбинированного сигнала в частотной области на множество психоакустически мотивированных частотных полос;
синтезатор для применения заранее заданного набора фильтров с передаточными функциями головы, по меньшей мере, к одному комбинированному сигналу в пропорции, определяемой указанным соответствующим набором дополнительной информации, для синтеза бинаурального аудиосигнала;
блок суммирования для суммирования выходных сигналов фильтров с передаточными функциями головы для каждой указанной частотной полосы раздельно для левостороннего и правостороннего сигнала.
Также предлагается параметрический аудиодекодер, содержащий:
параметрический кодовый процессор для обработки параметрически кодированного аудиосигнала, содержащего, по меньшей мере, один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающей мультиканальный аудиосигнал; и
синтезатор для применения набора фильтров понижающего микширования, имеющих заранее заданные значения усиления, по меньшей мере, к одному комбинированному сигналу в пропорции, определяемой указанным соответствующим набором дополнительной информации, для синтеза стереоаудиосигнала.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Далее различные варианты осуществления данного изобретения будут описаны более подробно, со ссылками на сопроводительные чертежи, где:
Фиг.1 - общая схема кодирования ВСС в соответствии с уровнем техники;
Фиг.2 - общая структура схемы синтеза ВСС в соответствии с уровнем техники;
Фиг.3 - блок-схема бинаурального декодера в соответствии с вариантом осуществления данного изобретения;
Фиг.4 - электронное устройство в соответствии с вариантом осуществления данного изобретения в виде упрощенной блок-схемы.
ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
В дальнейшем изобретение будет иллюстрировано со ссылкой на кодирование ВСС (Бинауральное Кодирование с Метками), как, например, платформы для реализации схемы декодирования в соответствии с вариантами осуществления изобретения. Нужно отметить, однако, что данное изобретение не ограничено исключительно способами пространственного кодирования аудиосигнала ВСС-типа, а может быть реализовано в любой схеме кодирования аудиосигнала, обеспечивающей по меньшей мере один аудиосигнал, комбинированный из исходного набора с одним или более аудиоканалом, и соответствующую дополнительную пространственную информацию.
Бинауральное Кодирование с Метками - это общая концепция параметрического представления пространственного аудиосигнала, обеспечивающая мультиканальный выход с произвольным числом каналов из единственного аудиоканала и некоторой дополнительной информации. Фиг.1 показывает эту концепцию. Несколько (М) входных аудиоканалов комбинируются в единственный выходной (S, «сумма») сигнал путем процесса понижающего микширования. Одновременно из входных каналов выделяют наиболее выраженные межканальные сигналы, описывающие мультиканальный звуковой образ, и компактно кодируют их как дополнительную информацию ВСС. Суммарный сигнал и дополнительная информация передаются затем на сторону приемника, возможно с использованием соответствующей схемы низкоскоростного кодирования аудиосигнала для кодирования суммарного сигнала. Окончательно декодер ВСС генерирует мультиканальный (N) выходной сигнал для громкоговорителей из переданного суммарного сигнала и пространственной дополнительной информации путем повторного синтеза канальных выходных сигналов, которые несут существенные межканальные метки, такие как Межканальная Разница Времени (Inter-channel Time Difference, ICTD), Межканальная Разница Уровней (Inter-channel Level Difference, ICLD) и Межканальная Когерентность (Inter-channel Coherence, ICC). Соответственно, дополнительная информация ВСС, т.е. межканальные метки, выбираются исходя из оптимизации реконструкции мультиканального аудиосигнала, в частности для проигрывания через громкоговорители.
Есть две схемы ВСС, а именно: ВСС для Гибкого Рендеринга (ВСС типа 1), которая предназначена для передачи некоторого числа раздельных источников сигналов с целью рендеринга в приемнике, и ВСС для Естественного Рендеринга (ВСС типа 2), которое предназначено для передачи некоторого числа раздельных аудиоканалов стереосигнала или сигнала объемного звучания. ВСС для Гибкого Рендеринга принимает в качестве входных данных раздельные источники аудиосигналов (например, речевые сигналы, раздельно записанные инструменты, мультитрековая запись). ВСС для Естественного Рендеринга, в свою очередь, принимает в качестве входных данных «финальный микс» - стерео- или мультиканальный сигнал (например, CD-аудио, объемный звук DVD). Если эти процессы выполняются посредством стандартных техник кодирования, скорость битового потока пропорциональна или, по меньшей мере, почти пропорциональна количеству аудиоканалов; например, передача шести аудиоканалов мультиканальной системы 5.1 требует примерно в 6 раз большей скорости битового потока, чем для одного аудиоканала. Однако обе схемы ВСС приводят к скорости битового потока, которая только чуть больше, чем требуется для передачи одного аудиоканала, поскольку дополнительная информация ВСС требует очень низкой скорости битового потока (например, 2 кб/с).
Фиг.2 демонстрирует основную структуру схемы синтеза ВСС. Переданный моносигнал («сумма») сначала кадрируется во временной области, а затем отображается в спектральное представление соответствующих подполос путем Быстрого Преобразования Фурье (БПФ) и Банка Фильтров (БФ). Вместо обработки с помощью БПФ и БФ для выполнения декомпозиции сигнала может быть использован банк Квадратурных Зеркальных Фильтров (Quadrature Mirror Filter, QMF). В общем случае проигрывания каналов метки ICLD и ICTD учитываются в каждой подполосе между парами каналов, т.е. для каждого канала по отношению к эталонному каналу. Подполосы выбираются такими, чтобы достигалось достаточное высокое частотное разрешение; например, ширина подполосы, равная удвоенному размеру ERB (Equivalent Rectangular Bandwidth, Эквивалентная Прямоугольная Полоса), обычно считается подходящей. Для каждого генерируемого выходного канала индивидуальные задержки времени ICTD и разницы уровней ICLD накладываются на спектральные коэффициенты, за этим следует процесс когерентного синтеза, который восстанавливает наиболее существенные аспекты когерентности и/или корреляции (ICC) между синтезированными аудиоканалами. Окончательно все синтезированные выходные каналы конвертируются обратно во временное представление путем процесса обратного БПФ (ОБПФ), с результатом в виде мультиканального выхода. Для более подробного описания подхода ВСС сделаем ссылку на: F.Baumgarte and С.Fallen "Binaural Cue Coding - Part I: Psychoacoustic Fundamentals and Design Principles", IEEE Transactions on Speech and Audio Processing, Vol.11, No. 6, Ноябрь 2003, и на: С.Faller and F.Baumgarte: "Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, Vol.11, No.6, Ноябрь 2003.
ВСС - это пример схемы кодирования, который обеспечивает подходящую платформу для реализации схемы декодирования в соответствии с вариантами осуществления изобретения. Бинауральный декодер, в соответствии с вариантом осуществления изобретения, принимает монофонизированный сигнал и дополнительную информацию как входные данные. Идея заключается в замене каждого громкоговорителя в оригинальном смешивании парой фильтров HRTF, соответствующих направлению громкоговорителя по отношению к позиции прослушивания. Каждый частотный канал монофонизированного сигнала пропускается через каждую пару фильтров, реализующих HRTF, в пропорции, определяемой набором величин усиления, которые могут быть вычислены на базе дополнительной информации. В результате этот процесс может считаться реализацией набора виртуальных громкоговорителей, соответствующих исходным, в бинауральной аудиосцене. Соответственно, изобретение добавляет значение к ВСС, позволяя, кроме мультиканальных аудиосигналов для различных расположений громкоговорителя, получить бинауральный аудиосигнал прямо из кодированного параметрически аудиосигнала без какого-либо промежуточного процесса синтеза ВСС.
Некоторые варианты осуществления данного изобретения проиллюстрированы в дальнейшем со ссылкой на фиг.3, которая показывает блок-схему бинаурального декодера в соответствии с аспектом изобретения. Декодер 300 включает первый вход 302 для монофонизированного сигнала и второй вход 304 для дополнительной информации. Входы 302, 304 показаны как отдельные входы с целью иллюстрации вариантов осуществления изобретения, однако специалисту будет понятно, что в практических реализациях монофонизированный сигнал и дополнительная информация могут поступать через один вход.
В соответствии с вариантом осуществления изобретения, дополнительная информация не обязательно должна включать такие же межканальные метки, как и в схеме ВСС, т.е. Межканальную Разницу Времени (Inter-channel Time Difference, ICTD), Межканальную Разницу Уровней (Inter-channel Level Difference, ICLD) и Межканальную Когерентность (Inter-channel Coherence, ICC), достаточным будет только набор оценок усиления, определяющих распределение звукового давления между каналами исходного смешивания на каждой частотной полосе. В дополнение к оценкам усиления дополнительная информация предпочтительно включает число и расположение громкоговорителей исходного смешивания относительно позиции прослушивания, а также применяемую длину кадра. В соответствии с вариантом осуществления изобретения вместо передачи оценок усиления как части дополнительной информации, полученных из кодера, оценки усиления вычисляются в декодере из межканальных сигналов схемы ВСС, например, из ICLD.
Декодер 300 также содержит оконное устройство 306, где монофонизированный сигнал сначала разделяется на временные кадры применяемой длины, а затем к кадрам применяется подходящая оконная функция, например синус-окно. Подходящая длина кадра должна быть подобрана так, чтобы кадры были достаточной длинными для Дискретного Преобразования Фурье (ДПФ), и в то же время достаточно короткими для обработки быстрых вариаций в сигнале. Эксперименты показали, что подходящая длина кадра - примерно 50 мс. Соответственно, если используется частота дискретизации 44.1 кГц (обычно применяемая в различных схемах аудиокодирования), то кадр может содержать, например, 2048 выборок, что приводит к длине кадра 46.3 мс. Применение оконной функции предпочтительно выполнено так, чтобы соседние окна перекрывались на 50 процентов для сглаживания переходов, вызванных спектральными изменениями (уровень и задержка).
Далее монофонизированый сигнал, обработанный оконной функцией, преобразуется в частотную область в устройстве БПФ 308. Обработка выполняется в частотной области для эффективности вычислений. Специалисту ясно, что предыдущие этапы обработки сигнала могут быть выполнены вне декодера 300, т.е. оконное устройство 306 и устройство БПФ 308 могут быть реализованы в устройстве, включающем декодер, и монофонизированный сигнал может быть уже обработан оконной функцией и преобразован в частотную область перед поступлением в декодер.
Для эффективности выполнения вычислений над сигналом в частотной области он пропускается через банк фильтров 310, который разделяет сигнал на психоакустически мотивированные частотные полосы. В соответствии с вариантом осуществления изобретения банк фильтров 310 разработан таким образом, чтобы разделить сигнал на 32 частотных полосы, соответствующих общеизвестной шкале Эквивалентных Прямоугольных Полос (Equivalent Rectangular Bandwidth, ERB), с результатом в виде компонент сигнала Х0, …, Х31 на указанных 32-х частотных полосах.
Как альтернатива для блоков 306, 208, и 310 обработка монофонизированного сигнала в частотно-временной области может быть выполнена в блоке банка фильтров QMF, обеспечивающем декомпозицию сигнала. Специалисту понятно, что, в дополнение к обработке БПФ или обработке банком фильтров QMF, для требуемой обработки в частотно-временной области может быть применен любой подходящий способ.
Декодер 300 включает набор фильтров HRTF 312, 314 в виде заранее заданной информации, из которого выбирается пара левого-правого фильтров HRTF, соответствующая каждому направлению громкоговорителя. С иллюстративной целью на фиг.3 показано два набора фильтров HRTF 312, 314, один для левостороннего сигнала и один для правостороннего сигнала, однако понятно, что в практической реализации достаточно одного набора фильтров HRTF. Для регулирования выбранной пары левого-правого фильтров HRTF, в соответствии с уровнем звука каждого канала громкоговорителя, предпочтительно оценивается величина усиления G. Как указано выше, оценки усиления могут быть включены в дополнительную информацию, принимаемую из кодера, или могут быть вычислены в декодере на базе дополнительной информации ВСС. Соответственно, усиление оценивается для каждого канала громкоговорителя как функция времени и частоты, и для сохранения уровня усиления исходного смешивания величина усиления для каждого канала громкоговорителя предпочтительно регулируется так, что сумма квадратов каждой величины усиления равна единице. Это дает преимущество, заключающееся в том, что если число виртуально генерированных каналов равно N, то передавать из кодера нужно только N-1 оценок усиления, а оставшаяся величина усиления может быть вычислена на базе N-1 величин усиления. Специалисту, однако, ясно, что функционирование изобретения не делает необходимым приведение суммы квадратов каждой величины усиления к единице, а декодер может масштабировать квадраты величин усиления так, чтобы эта сумма равнялась единице.
Затем каждая пара левого-правого фильтров HRTF 312, 314 регулируется в пропорции, определяемой набором усилений G, с результатом в виде скорректированных фильтров HRTF 312', 314'. Снова отметим, что на практике исходные значения фильтров HRTF 312, 314 масштабируют в соответствии с величинами усиления, однако для иллюстративных целей на фиг.3 показаны «дополнительные» наборы фильтров HRTF 312', 314'.
Для каждой частотной полосы компоненты моносигнала Х0, …, Х31 подаются на каждую пару левого-правого скорректированных фильтров HRTF 312', 314'. Выходы фильтров для левостороннего сигнала и правостороннего сигнала затем суммируются в устройстве суммирования 316, 318 для обоих бинауральных каналов. Суммированные бинауральные каналы снова обрабатываются синус-окном и преобразуются обратно во временную область обратным БПФ, выполняемым в устройствах ОБПФ 320, 322. В случае, если анализирующие фильтры не нормализованы либо их фазовая характеристика нелинейна, предпочтительно используется подходящий синтезирующий банк фильтров для устранения искажений в финальных бинауральных сигналах BR и BL. Снова, если для декомпозиции сигнала используется банк фильтров QMF (как описано выше), то блоки 320, 322 ОБПФ предпочтительно заменяются блоком банка инверсных фильтров QMF (Inverse QMF, IQMF).
В соответствии с вариантом осуществления изобретения для улучшения экстернирования (т.е. локализации вне головы) бинаурального сигнала к нему может быть добавлено небольшое количество характеристик помещения. Для этих целей декодер может включать устройство реверберации, предпочтительно расположенное между устройствами суммирования 316, 318 и устройствами ОБПФ 320, 322. Добавляемые характеристики помещения имитируют свойства помещения в ситуации прослушивания через громкоговорители. Время реверберации, однако, необходимо довольно короткое для того, чтобы вычислительная сложность заметно не увеличивалась.
Бинауральный декодер 300, показанный на фиг.3, также позволяет получить особый вариант стереодекодирования с понижающим микшированием, при котором пространственный образ сужен. В функционирование декодера 300 внесены изменения так, что каждый регулируемый фильтр HRTF 312, 314, который в вышеуказанных вариантах осуществления изобретения был масштабирован в соответствии с величинами усилений, заменен заранее заданным усилением. Соответственно, монофонизированный сигнал обрабатывается постоянными фильтрами HRTF, состоящими из единственного усиления, умноженного на набор величин усилений, вычисленных на базе дополнительной информации. Как результат, пространственный аудиосигнал преобразуется понижающим микшированием в стереосигнал. Этот особый вариант обеспечивает то преимущество, что стереосигнал может быть создан из комбинированного сигнала с использованием дополнительной пространственной информации без необходимости декодирования пространственного аудиосигнала, вследствие чего процедура стереодекодирования проще, чем обычный синтез ВСС. Структура бинаурального декодера 300 остается, тем не менее, такой же как на фиг.3, только регулируемые фильтры HRTF 312, 314 заменяются фильтрами понижающего микширования, имеющими заранее заданные усиления для стереопонижающего микширования.
Если бинауральный декодер включает фильтры HRTF, например, для конфигурации объемного звука 5.1, тогда для особого варианта стереодекодирования с понижающим микшированием постоянные усиления для фильтров HRTF могут быть, например, такими, как в Таблице.
HRTF | Левый | Правый |
Фронтальный левый | 1.0 | 0.0 |
Фронтальный правый | 0.0 | 1.0 |
Центр | Sqrt (0.5) | Sqrt (0.5) |
Левый,тыл | Sqrt (0.5) | 0.0 |
Правый,тыл | 0.0 | Sqrt (0.5) |
LFE | Sqrt (0.5) | Sqrt (0.5) |
Данное изобретение обеспечивает существенные преимущества. Главное преимущество - это простота и небольшая вычислительная сложность процесса декодирования. Декодер также является гибким в том смысле, что он обеспечивает бинауральное повышающее микширование полностью на базе пространственных параметров и параметров кодирования, предоставляемых кодером. Более того, при преобразовании поддерживаются одинаковые по отношению к исходному сигналу пространственные характеристики. Что касается дополнительной информации, то достаточно набора оценок усиления исходного смешивания. С точки зрения передачи или хранения аудиосигнала наиболее существенным преимуществом является то, что изобретение обеспечивает улучшенную эффективность при использовании компрессированного промежуточного состояния, обеспечиваемого при параметрическом аудиокодировании.
Специалисту понятно, что, поскольку фильтры HRTF весьма индивидуальны и усреднение невозможно, наилучшая передача пространственного образа может быть достигнута только измерением уникального собственного набора фильтров HRTF слушателя. Соответственно, использование фильтров HRTF неизбежно ведет к окрашиванию сигнала так, что качество обработанного аудиосигнала не эквивалентно исходному. Однако, поскольку измерение фильтров HRTF для каждого слушателя является нереалистичным, наилучший возможный результат достигается тогда, когда используется либо моделированный набор, либо набор, измеренный с помощью искусственной головы или человека с головой средних размеров и высокой симметрией.
Как указано ранее, в соответствии с вариантом осуществления изобретения оценки усиления могут быть включены в дополнительную информацию, принимаемую из кодера. В результате аспект изобретения относится к кодеру для мультиканального пространственного аудиосигнала, который оценивает усиление для каждого канала громкоговорителя как функцию частоты и времени и включает оценки усиления в дополнительную информацию, передаваемую с одним (или более) комбинированным каналом. Кодер может быть, например, тем же кодером ВСС с добавлением вычисления оценок усиления либо в дополнение, либо вместо межканальных сигналов ICTD, ICLD и IСС, описывающих мультиканальный звуковой образ. Затем суммарный сигнал и дополнительная информация, включающая по меньшей мере оценки усиления, передаются на сторону приемника, предпочтительно с использованием соответствующей схемы низкоскоростного аудиокодирования для кодирования суммарного сигнала.
В соответствии с вариантом осуществления изобретения, если оценки усиления вычисляются в кодере, вычисления выполняются сравнением уровня усиления каждого индивидуального канала с кумулятивным уровнем усиления комбинированного канала. То есть, если мы обозначим уровни усиления как X, индивидуальные каналы исходного расположения громкоговорителей как «m», и выборки как «k», то для каждого канала оценка усиления вычисляется как |Xm(k)|/|Xsum(k)|. Соответственно, оценки усиления определяют пропорциональные величины усиления каждого индивидуального канала в сравнении с общей величиной усиления всех каналов.
В соответствии с вариантом осуществления изобретения, если оценки усиления вычисляются в декодере на базе дополнительной информации ВСС, вычисление может быть выполнено, например, на базе значений Межканальной Разницы Уровней (ICLD). В результате, если N - число виртуально генерированных «громкоговорителей», то сначала на базе значений ICLD составляется N-1 уравнений, содержащих N-1 неизвестных переменных. Затем сумма квадратов каждого уравнения громкоговорителей устанавливается равной единице, посредством чего может быть найдена оценка усиления одного индивидуального канала, и на базе найденной оценки усиления из N-1 уравнений могут быть найдены остальные оценки усиления.
Например, если число виртуально генерируемых каналов равно пяти (N=5), N-1 уравнений могут быть сформированы так: L2=L1+ICLD1, L3=L1+ICLD2, L4=L1+ICLD3 and L5=L1+ICLD4. Затем сумма их квадратов устанавливается равной единице: L12+(L1+ICLD1)2+(L1+ICLD2)2+(L1+ICLD3)2+(L1+ICLD4)2=1. Затем может быть найдено значение L1, и на базе L1 могут быть найдены остальные значения уровня усиления L2-L5.
Для простоты изложения предыдущие примеры описаны так, что в кодере входные каналы (М) микшируются с понижением для формирования одного комбинированного (например, моно) канала. Однако этот вариант осуществления изобретения в равной степени пригоден в альтернативных реализациях, где множество входных каналов (М) микшируется с понижением для формирования двух или более раздельных комбинированных каналов (S), в зависимости от конкретного приложения аудиообработки. Если процесс понижающего микширования генерирует множество комбинированных каналов, комбинированные канальные данные могут быть переданы с использованием обычной техники аудиопередачи. Например, если генерируются два комбинированных канала, может быть применена обычная техника передачи стереосигнала. В этом случае декодер ВСС может извлекать и использовать коды ВСС для синтеза бинаурального сигнала из двух комбинированных каналов.
В соответствии с вариантом осуществления изобретения число (N) виртуально генерируемых «громкоговорителей» в синтезированном бинауральном сигнале может отличаться (быть больше или меньше) от числа входных каналов (М), в зависимости от конкретного приложения. Например, входной аудиосигнал может соответствовать системе 7.1, а бинауральный выходной аудиосигнал может быть синтезирован соответствующим системе 5.1 или наоборот.
Вышеуказанные варианты осуществления изобретения могут быть обобщены так, что они будут обеспечивать преобразование М входных аудиоканалов в S комбинированных аудиоканалов и один или более соответствующих наборов дополнительной информации (где М>S) и для генерирования N выходных аудиоканалов из S комбинированных аудиоканалов и соответствующих наборов дополнительной информации (где N>S, и N может быть равно или отличаться от М).
Поскольку скорость битового потока, требуемая для передачи одного комбинированного канала и необходимой дополнительной информации, очень мала, изобретение особенно хорошо применимо в таких системах, где доступная полоса пропускания является дефицитным ресурсом, например в беспроводных телекоммуникационных системах. Соответственно, варианты осуществления изобретения особенно применимы в мобильных терминалах или в других портативных устройствах, обычно не имеющих высококачественных громкоговорителей, где возможности мультиканального объемного звука могут быть получены через наушники при прослушивании бинаурального аудиосигнала в соответствии с вариантами осуществления изобретения. Дальнейшие варианты пригодных применений включают услуги телеконференций, где участники телеконференции могут быть легко разделены путем предоставления слушателю впечатления, что участники конференции выступает с разных мест помещения.
Фиг.4 иллюстрирует упрощенную структуру устройства обработки данных (ТЕ, data processing device), где может быть реализована бинауральная декодирующая система в соответствии с изобретением. Устройство обработки данных (ТЕ) может быть, например, мобильным терминалом, карманным персональным компьютером (КПК) или персональным компьютером (ПК). Устройство обработки данных (ТЕ) содержит средство ввода-вывода (I/O), центральное процессорное устройство (CPU) и память (MEM). Память (MEM) содержит память только для чтения (ROM) и перезаписываемую память, например память с произвольным доступом (RAM) и память FLASH. Информация, используемая для связи с различными внешними частями, например с CD-ROM, другими устройствами или пользователем, передается посредством средства ввода-вывода (I/O) в/из центрального процессорного устройства (CPU). Если устройство обработки данных реализовано как мобильная станция, оно обычно содержит приемопередатчик Tx/Rx, который взаимодействует с беспроводной сетью, обычно с базовой передающей станцией (BTS), посредством антенны. Оборудование интерфейса пользователя (UI) обычно включает дисплей, клавиатуру, микрофон и средство для подключения наушников. Устройство обработки данных может содержать также средство подключения ММС, например, слот стандартной формы для различных аппаратных модулей или интегральные схемы 1C, которые могут обеспечивать запуск различных приложений в устройстве обработки данных.
Соответственно, бинауральная декодирующая система в соответствии с изобретением может реализовываться в центральном процессорном устройстве (CPU) или в специализированном цифровом процессоре сигналов DSP (параметрический кодовый процессор) устройства обработки данных. Устройство обработки данных принимает параметрически кодированный аудиосигнал, содержащий по меньшей мере один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описыв