2419249 - Аудиокодирование

Аудиокодирование

Иллюстрации

Показать все

Изобретение относится к аудиокодированию, более конкретно к устройству и способу преобразования входного звукового сигнала в бинауральный выходной сигнал. Сущность изобретения состоит в том, что модуль (23) пространственного декодера выполнен с возможностью преобразования одного или больше аудиоканалов (s; l, r) в пару бинауральных выходных каналов (lb, rb). Устройство содержит модуль (234) преобразования параметра, предназначенный для преобразования пространственных параметров (sp) в бинауральные параметры (bp), содержащие бинауральную информацию. Устройство дополнительно содержит модуль (232) пространственного синтеза, предназначенный для преобразования аудиоканалов (L, R) в пару бинауральных сигналов (Lb, Rb) при использовании бинауральных параметров (bp). Модуль (232) пространственного синтеза, предпочтительно, работает в области преобразования, такой как область QMF. Технический результат - повышение эффективности преобразования звукового сигнала в бинауральный выходной сигнал 5 н. и 7 з.п ф-лы, 9 ил.

Реферат

Настоящее изобретение относится к аудиокодированию. Более конкретно, настоящее изобретение относится к устройству и способу преобразования входного звукового сигнала в бинауральный выходной сигнал, в котором входной сигнал содержит, по меньшей мере, один аудиоканал и параметры, представляющие дополнительные каналы.

Хорошо известны запись и воспроизведение бинауральных аудиосигналов, то есть аудиосигналов, которые содержат специфическую информацию направления, к которой чувствительно ухо человека. Бинауральные записи обычно получают, используя два микрофона, установленные на модели головы человека, таким образом, чтобы записываемый звук соответствовал звуку, воспринимаемому ухом человека, и включал бы в себя все влияния, связанные с формой головы и ушей. Бинауральные записи отличаются от стереозаписей (то есть стереофонических записей) тем, что для воспроизведение бинауральной записи требуются наушники, в то время как стереофоническая запись формируется для воспроизведения с помощью громкоговорителей. В то время как бинауральная запись обеспечивает воспроизведение всей пространственной информации с использованием только двух каналов, стереофоническая запись не позволяет получить такое же пространственное восприятие.

Обычные двухканальные (стереофонические) или многоканальные (например, 5.1) записи могут быть преобразованы в бинауральные записи путем свертки каждого обычного сигнала с набором перцепционных передаточных функций. Такие перцепционные передаточные функции моделируют влияние головы человека и, возможно, других объектов на сигнал. Хорошо известный тип перцепционной передаточной функции представляет собой так называемая передаточная функция с учетом влияния головы (HRTF). Альтернативный тип перцепционной передаточной функции, который также учитывает отражения, связанные со стенами, потолком и полом помещения, представляет собой бинауральный импульсный отклик помещения (BRIR).

В случае многоканальных сигналов преобразование сигналов в сигналы бинауральной записи с набором перцепционных функций обычно подразумевает выполнение свертки перцепционных функций с сигналами всех каналов. Поскольку обычная свертка требует привлечения больших вычислительных ресурсов, сигналы и HRTF обычно преобразуют в область частот (Фурье), в которой свертка заменяется умножением, для которого требуется намного меньшая вычислительная мощность.

Кроме того, хорошо известно уменьшение количества аудиоканалов для передачи или сохранения путем представления исходного количества каналов меньшим количеством каналов и параметрами, обозначающими взаимосвязь между исходными каналами. Набор стереосигналов может, таким образом, быть представлен одним (монофоническим) каналом, а также множеством ассоциированных пространственных параметров, в то время как набор из 5.1 сигналов может быть представлен двумя каналами и набором ассоциированных пространственных параметров, или даже одним каналом и ассоциированными пространственными параметрами. Такое "смешение с уменьшением количества каналов" множества аудиоканалов в пространственных кодерах и соответствующее "смешение с увеличением количества каналов" аудиосигналов в пространственных декодерах обычно осуществляется в области преобразования или в области подполосы, например, в области QMF (КЗФ, квадратурный зеркальный фильтр).

Публикация PCT WO 2004/028204 раскрывает систему для генерации бинауральных сигналов с использованием передаточной функции с учетом влияния головы. Документ "The Reference Model Architecture for MPEG Spatial Audio Coding", Herre et al; Audio Engineering Society Convention Paper, New York; 28 May 2005; XP009059973 раскрывает архитектуру эталонной модели MPEG. Документ "Synthetic Ambiance in Parametric Stereo Coding", Endegard et al; Preprints of papers presented at the AES Convention, 8 May 2004, pages 1-12, XP008048096 раскрывает пример параметрического стереокодирования. Документ "MP3 Surround: Efficient and Compatible Coding of Multi-Channel Audio"; Herre et al; Audio Engineering Society, Convention Preprint, 8 May 2004; XP 002338414 раскрывает примеры кодирования объемного звучания МР3.

Когда входные каналы, смешанные с уменьшением количества каналов, необходимо преобразовать в бинауральные выходные каналы, подход предшествующего уровня техники состоит в том, что вначале выполняют смешение с увеличением количества входных каналов, используя пространственный декодер, для получения промежуточных каналов, смешанных с увеличением их количества, и затем преобразуют эти смешанные с увеличенным количеством промежуточные каналы с получением бинауральных каналов. Такая процедура обычно позволяет получить пять или шесть промежуточных каналов, количество которых затем требуется уменьшить до двух бинауральных каналов. Первоначальное увеличение и последующее уменьшение количества каналов, очевидно, является неэффективным и повышает сложность вычислений. Кроме того, уменьшение пяти или шести промежуточных каналов означает, что многоканальные громкоговорители будут воспроизводить только два канала, что означает для бинаурального воспроизведения неизбежный ввод искажений и поэтому снижение качества звука.

Область QMF, упомянутая выше, является аналогичной, но не идентичной области частот (преобразование Фурье). Если пространственный декодер должен формировать бинауральные выходные сигналы, смешанные аудиосигналы с уменьшенным количеством каналов вначале требуется преобразовать в область QMF для смешения с увеличением количества каналов, затем подвергнуть обратному преобразованию QMF для получения промежуточных сигналов в области времени и затем преобразовать в область частот для умножения (после преобразования Фурье) HRTF и, наконец, подвергнуть обратному преобразованию для получения выходных сигналов в области времени. Очевидно, что такая процедура является неэффективной, поскольку необходимо последовательно выполнять несколько преобразований.

Количество вычислений, связанных с подходом предшествующего уровня техники, сильно усложняет конструирование переносных потребительских устройств, таких как портативный MP3-плеер, позволяющий формировать бинауральные выходные сигналы из аудиосигналов, смешанных с уменьшением количества каналов. Даже если бы такое устройство можно было бы воплотить, срок службы его батареи был бы очень коротким из-за требуемой вычислительной нагрузки.

Таким образом, цель настоящего изобретения состоит в преодолении этих и других проблем предшествующего уровня техники и в формировании модуля пространственного декодера, который позволил формировать пары бинауральных выходных каналов из набора аудиоканалов, смешанных с уменьшением количества каналов, представленных одним входным аудиоканалом и ассоциированным набором пространственных параметров, причем этот декодер должен иметь повышенную эффективность.

В соответствии с этим, настоящее изобретение направлено на модуль пространственного декодера, предназначенный для формирования пары бинауральных выходных каналов с использованием пространственных параметров и одного входного аудиоканала, причем устройство содержит модуль преобразования параметров, предназначенный для преобразования пространственных параметров в бинауральные параметры, используя параметризованные перцепционные передаточные функции, причем бинауральные параметры зависят как от пространственных параметров, так и от параметризованных перцепционных передаточных функций; один модуль преобразования, предназначенный для преобразования одного входного аудиоканала в преобразованный аудиоканал; модуль декорреляции, предназначенный для декорреляции преобразованного аудиоканала для формирования преобразованного декоррелированного сигнала; и модуль пространственного синтеза, предназначенный для синтеза пары преобразованных бинауральных каналов путем применения бинауральных параметров к преобразованному аудиоканалу (S) и преобразованному декоррелированному сигналу; и пару модулей обратного преобразования для обратного преобразования преобразованных бинауральных каналов в пару бинауральных выходных каналов.

В результате преобразования пространственных параметров в бинауральные параметры модуль пространственного синтеза может непосредственно синтезировать пару бинауральных каналов, и при этом не требуется использовать дополнительный модуль бинаурального синтеза. Поскольку не формируются добавочные промежуточные сигналы, требования к вычислительной мощности снижаются, и при этом введение искажений, по существу, предотвращается.

В модуле пространственного декодера в соответствии с настоящим изобретением синтез бинауральных каналов может осуществляться в области преобразования, например в области QMF, без необходимости использования дополнительных этапов преобразования в область частоты и последующего обратного преобразования в область времени. Поскольку эти два этапа преобразования могут быть исключены, то объем вычислений и требования к запоминающему устройству существенно снижаются. Поэтому модуль пространственного декодера в соответствии с настоящим изобретением может быть относительно легко воплощен в портативном потребительском устройстве.

Кроме того, в модуле пространственного декодера в соответствии с настоящим изобретением бинауральные каналы формируются непосредственно из канала, полученного в результате смешения с уменьшением количества каналов, и каждый бинауральный канал содержит бинауральные сигналы для бинаурального воспроизведения с использованием наушников или аналогичного устройства. Модуль преобразования параметров получает бинауральные параметры, используемые для формирования бинауральных каналов из пространственных (то есть полученных при смешении с увеличением количества каналов) параметров. Такое получение бинауральных параметров подразумевает использование параметризованных перцепционных передаточных функций, таких как HRTF (передаточная функция с учетом влияния головы) и/или бинауральный импульсной отклик помещения (BRIR). Поэтому, в соответствии с настоящим изобретением, обработка перцепционных передаточных функций выполняется в области параметров, в то время как в предшествующем уровне техники такую обработку выполняли в области времени или в области частот. В результате этого можно дополнительно понизить сложность вычислений, поскольку разрешающая способность в области параметров обычно ниже, чем разрешающая способность в области времени или в области частоты.

Предпочтительно, чтобы модуль преобразования параметров был выполнен с возможностью комбинирования в области параметров для определения бинауральных параметров вкладов от всех перцепционных передаточных функций, которые были бы сделаны входными аудиоканалами (после смешения с уменьшением количества каналов) в бинауральные каналы. Другими словами, пространственные параметры и параметризованные перцепционные передаточные функции комбинируются таким образом, чтобы полученные комбинированные параметры позволяли получить бинауральный выходной сигнал, имеющий статистические свойства, аналогичные получаемым в способе предшествующего уровня техники, в котором используются промежуточные сигналы, полученные в результате смешения с увеличением количества каналов.

В предпочтительном варианте воплощения модуль пространственного декодера в соответствии с настоящим изобретением дополнительно содержит один или больше модулей преобразования, предназначенных для преобразования входных аудиоканалов в преобразованные входные аудиоканалы, и пару модулей обратного преобразования, предназначенных для обратного преобразования синтезированных бинауральных каналов в пару бинауральных выходных каналов, при этом модуль пространственного синтеза выполнен с возможностью работы в области преобразования или в области подполосы, предпочтительно в области QMF.

Модуль пространственного декодера в соответствии с настоящим изобретением может содержать два модуля преобразования, причем модуль преобразования параметров выполнен с возможностью использования параметров перцепционной передаточной функции, в которых подразумевается применение только трех каналов, причем два из этих трех каналов объединяют вклады составных переднего и заднего каналов. В таком варианте воплощения модуль преобразования параметра может быть выполнен с возможностью обработки параметров уровня канала (например, CLD), когерентности канала (например, ICC (когерентность между каналами)), прогнозирования канала (например, CPC) и/или фазы (например, IPD).

Модуль пространственного декодера в соответствии с настоящим изобретением содержит только один модуль преобразования и дополнительно содержит модуль декорреляции, предназначенный для декорреляции преобразованного одиночного канала, выводимого одним модулем преобразования. В таком варианте воплощения модуль преобразования параметра может быть выполнен с возможностью обработки параметров уровня канала (например, CLD), когерентности канала (например, ICC) и/или фазы (например, IPD).

Модуль пространственного декодера в соответствии с настоящим изобретением может дополнительно содержать модуль стереореверберации. Такой модуль стереореверберации может быть выполнен с возможностью работы в области времени или в области преобразования, или в области подполосы (например, QMF).

Настоящее изобретение также направлено на устройство пространственного декодера, предназначенное для формирования пары бинауральных выходных каналов из входного потока битов, причем это устройство содержит модуль демультиплексирования, предназначенный для демультиплексирования входного потока битов с получением одного канала, сформированного в результате смешения с уменьшением количества каналов, и параметров сигнала, модуль декодера смешения с уменьшением количества каналов для декодирования этого одного канала, полученного в результате смешения с уменьшением количества каналов, и модуль пространственного декодера, предназначенный для формирования пары бинауральных выходных каналов с использованием пространственных параметров и этого одного канала, полученного в результате смешения с уменьшением количества каналов.

Кроме того, настоящее изобретение направлено на потребительское устройство и аудиосистему, содержащую модуль пространственного декодера и/или устройство пространственного декодера, как определено выше. Настоящее изобретение дополнительно направлено на способ формирования пары бинауральных выходных каналов с использованием пространственных параметров и одного входного аудиоканала, причем способ содержит этапы преобразования пространственных параметров в бинауральные параметры, используя параметризованные перцепционные передаточные функции; преобразования одного входного аудиоканала в преобразованный аудиоканал; декоррелирования преобразованного аудиоканала для формирования преобразованного декоррелированного сигнала; синтеза пары бинауральных каналов путем применения бинауральных параметров к преобразованному аудиоканалу (S) и преобразованному декоррелированному сигналу и обратного преобразования преобразованных бинауральных каналов в пару бинауральных выходных каналов.

Дополнительные аспекты способа в соответствии с настоящим изобретением будут очевидны из следующего описания.

Настоящее изобретение дополнительно направлено на компьютерный программный продукт, предназначенный для выполнения способа, как определено выше. Компьютерный программный продукт может содержать набор выполняемых компьютером инструкций, сохраненных на носителе данных, таком как CD или DVD. Набор выполняемых компьютерных инструкций позволяет запрограммированному компьютеру выполнять способ, как определено выше, он также может быть доступен для загрузки из удаленного сервера, например, через сеть Интернет.

Настоящее изобретение будет дополнительно поясняться ниже со ссылкой на примерные варианты воплощения, иллюстрируемые на прилагаемых чертежах, на которых:

На фиг.1 схематично представлено применение передаточных функций с учетом влияния головы в соответствии с предшествующим уровнем техники.

На фиг.2 схематично представлено устройство пространственного аудиокодера в соответствии с предшествующим уровнем техники.

На фиг.3 схематично представлено устройство пространственного аудиодекодера в соответствии с предшествующим уровнем техники, соединенное с устройством бинаурального синтеза.

На фиг.4 схематично показан модуль пространственного аудиодекодера в соответствии с предшествующим уровнем техники.

На фиг.5 схематично показан пример модуля пространственного аудиодекодера.

На фиг.6 схематично показано устройство пространственного аудиодекодера в соответствии с настоящим изобретением.

На фиг.7 схематично показан модуль пространственного аудиодекодера по фиг.6, в котором предусмотрен модуль реверберации в области преобразования.

На фиг.8 схематично показан модуль пространственного аудиодекодера по фиг.6, в котором предусмотрен модуль реверберации в области времени.

На фиг.9 схематично показано потребительское устройство, в котором предусмотрено устройство пространственного аудиодекодера в соответствии с настоящим изобретением.

Применение перцепционных передаточных функций, таких как передаточная функция с учетом влияния головы (HRTF), в соответствии с предшествующим уровнем техники схематично иллюстрируется на фиг.1. Устройство 3 бинаурального синтеза представлено на чертеже и содержит шесть модулей 31 HRTF, каждый из которых содержит передаточную функцию для конкретной комбинации входного канала и выходного канала. В представленном примере имеется три входных аудиоканала ch1, ch2 и ch3, которые могут соответствовать каналам l (левый), с (центр) и r (правый). Первый канал ch1 подключен к двум модулям 31 HRTF, содержащим HRTF(l, L) и HRTF(l, R), соответственно. В этом примере HRTF(l, L) представляет собой передаточную функцию с учетом влияния головы, которая определяет вклад первого канала в левый бинауральный сигнал.

Для специалиста в данной области техники будет понятно, что HRTF могут быть определены в результате получения обеих обычных (стерео) записей и бинауральных записей, и получения передаточной функции, которая представляет формирование бинауральной записи относительно обычной записи. Бинауральные записи получают с использованием двух микрофонов, установленных на модели головы человека, поэтому записанный звук соответствует звуку, воспринимаемому ухом человека, и включает в себя любые влияния, связанные с формой головы и ушей, и даже присутствием волос и плеч.

Если обработка HRTF происходит в области времени, выполняют свертку HRTF с аудиосигналами (область времени) для каналов. Как правило, однако, HRTF преобразуют в область частот и полученные в результате передаточные функции и частотные спектры аудиосигналов затем перемножают (модули преобразования Фурье и модули обратного преобразования Фурье, не показанные на фиг.1). Соответствующие методы наложения и суммирования (OLA), включающие в себя временные кадры наложения, можно использовать для размещения HRTF, имеющих большую длину, чем кадры быстрого преобразования Фурье (FFT, БПФ).

После обработки HRTF соответствующим модулем HRTF 31 полученные в результате левый и правый сигналы суммируют с помощью соответствующего сумматора 32 для получения левого (в области времени) бинаурального сигнала lb и правого бинаурального сигнала rb.

Примерное устройство 3 бинаурального синтеза предшествующего уровня техники по фиг.1 имеет три входных канала. Современные аудиосистемы часто имеют пять или шесть каналов, как в случае так называемых систем 5.1. Однако для уменьшения количества данных, предназначенных для передачи и/или сохранения, множество аудиоканалов обычно уменьшают ("смешивают с уменьшением количества каналов") для получения одного или двух каналов. Количество параметров сигнала, обозначающих свойства и взаимное соответствие исходных каналов, обеспечивает возможность разворачивания ("смешения с увеличением количества каналов") одного или двух каналов с получением исходного количества каналов. Примерное устройство 1 пространственного кодера в соответствии с предшествующим уровнем техники схематично представлено на фиг.2.

Устройство 1 пространственного кодера содержит модуль 11 пространственного кодирования (SE), модуль 12 кодирования смешения с уменьшением количества каналов (DE) и мультиплексор (Mux) 13. Модуль 11 пространственного кодирования принимает пять входных аудиоканалов lf (левый передний), lr (левый задний), rf (правый передний), rr (правый задний) и с (центр). Модуль 11 пространственного кодирования выполняет смешение с уменьшением количества каналов этих пяти входных каналов для получения двух каналов l (левый) и r (правый), а также параметров sp сигнала (следует отметить, что модуль 11 пространственного кодирования может формировать один канал вместо двух каналов l и r). В представленном варианте выполнения, когда пять каналов смешивают с уменьшением количества каналов до двух каналов (так называемая конфигурация 5-2-5), параметры sp сигнала могут, например, содержать:

Параметр	Описание
CPC_l	Параметр прогнозирования/энергии для преобразования 2-в-3
CPC₂	Параметр прогнозирования/энергии для преобразования 2-в-3
CLD_l	Разница уровня левого переднего по сравнению с левым задним
CLD_r	Разница уровня правого переднего по сравнению с правым задним
ICC_l	Корреляции левого переднего с левым задним

ICC_r	Корреляции правого переднего с правым задним
ICC_f	Параметр корреляции для преобразования 2-в-3
CLD_lfe	Разница уровней в центре по сравнению с lfe (если применимо)

Следует отметить, что "lfe" представляет собой необязательный низкочастотный канал (канал сабвуфера), и что "задние" каналы также известны, как каналы "объемного звучания".

Два канала l и r, полученных в результате смешения с уменьшением количества каналов, формируемых модулем 11 пространственного кодирования, подают в модуль 12 кодирования со смешением с уменьшением количества каналов (DE), который обычно использует такой тип кодирования, который направлен на уменьшение количества данных. Кодированные таким образом каналы l и r, полученные после смешения с уменьшением количества каналов, и параметры sp сигнала мультиплексируют с помощью модуля 13 мультиплексора для получения выходного потока битов bs.

В альтернативном варианте воплощения (не показан) пять (или шесть) каналов смешивают с уменьшением количества каналов до одного (моно) канала (так называемая конфигурация 5-1-5), и параметры sp сигнала могут, например, содержать:

Параметр	Описание
CLD_fs	Разность уровня переднего и заднего
CLD_fc	Разность уровня переднего и центрального
CLD_f	Разность уровня переднего левого и переднего правого
CLD_s	Разность уровня левого заднего и правого заднего

ICC_fs	Корреляция переднего с задним
ICC_fc	Корреляция переднего с центральным
ICC_f	Корреляция переднего левого с передним правым
ICC_s	Корреляция левого заднего с правым задним
CLD_lfe	Разность уровня центра по сравнению с lfe (если применимо)

В этом альтернативном варианте воплощения кодированный канал s, полученный после смешения с уменьшением количества каналов, а также параметры sp сигнала также мультиплексируют с помощью модуля 13 мультиплексора для получения выходного потока битов bs.

Если бы этот поток битов bs необходимо было использовать для получения пары бинауральных каналов при подходе предшествующего уровня техники, вначале потребовалось бы выполнить смешение с увеличением количества каналов двух каналов l и r, полученных после смешения с уменьшением количества каналов (или, в качестве альтернативы, одного канала, полученного после смешения с уменьшением количества каналов), для получения пяти или шести исходных каналов, и затем преобразовать эти пять или шесть каналов в два бинауральных канала. Пример такого подхода предшествующего уровня техники иллюстрируется на фиг.3.

Устройство 2' пространственного декодера в соответствии с предшествующим уровнем техники содержит модуль 21' демультиплексора (Demux), модуль 22' декодирования смешения с уменьшением количества каналов и модуль 23' пространственного декодера. Устройство 3 бинаурального синтеза соединено с модулем 23' пространственного декодера устройства 2' пространственного декодера.

Модуль 21' демультиплексора принимает поток битов bs, который может быть идентичным потоку битов bs по фиг.2, и выводит параметры sp сигнала и два кодированных канала, полученных в результате смешения с уменьшением количества каналов. Параметры sp сигнала передают в модуль 23' пространственного декодера, в то время как кодированные каналы, полученные в результате смешения с уменьшением количества каналов, вначале декодируют с использованием модуля 22' декодирования смешения с уменьшением количества каналов для получения декодированных каналов l и r, после смешения с уменьшением количества каналов. Модуль 23' пространственного декодера, по существу, выполняет операции, обратные выполняемым модулем 11 пространственного кодирования по фиг.2, и выводит пять аудиоканалов. Эти пять аудиоканалов подают в устройство 3 бинаурального синтеза, которое может иметь структуру, аналогичную устройству 3 по фиг.1, но с дополнительными модулями 31 HRTF для размещения всех пяти каналов. Как и в примере по фиг.1, устройство 3 бинаурального синтеза выводит два бинауральных канала lb (левый бинауральный) и rb (правый бинауральный).

Примерная структура модуля 23' пространственного декодера предшествующего уровня техники показана на фиг.4. Модуль 23' по фиг.4 содержит модуль 230' смешения с увеличением количества каналов от двух до трех, три модуля 232' пространственного синтеза (SS) и три модуля 239' декорреляции (D). Модуль 230' смешения с увеличением количества каналов от двух до трех принимает каналы l и r, полученные после смешения с уменьшением количества каналов, и параметры sp сигнала и формирует три канала l, r и ce. Каждый из этих каналов подается в модуль 239' декорреляции, который формирует декоррелированную версию соответствующего канала. Каждый канал l, r и ce, его соответствующая версия декорреляции и соответствующие параметры sp сигнала подаются в соответствующий модуль 232' пространственного синтеза (или смешения с увеличением количества каналов). Модуль 232' пространственного синтеза, принимающий, например, канал l, выводит выходной канал lf (левый передний) и lr (левый задний). Модули 232' пространственного синтеза обычно выполняют матричное умножение, при этом параметры матрицы определяются параметрами sp сигнала.

Следует отметить, что в примере по фиг.4 предусмотрены шесть выходных каналов. В некоторых вариантах воплощения третий модуль 239' декорреляции и третий модуль 232' пространственного синтеза могут быть исключены, и при этом формируются, таким образом, только пять выходных каналов. Однако во всех вариантах выполнения модуль 23' пространственного синтеза предшествующего уровня техники будет производить больше, чем два выходных канала. Кроме того, следует отметить, что любые модули преобразования (QMF) и модули обратного преобразования (QMF) были опущены в иллюстративном примере по фиг.4 с целью ясности иллюстрации. В фактических вариантах воплощения пространственное декодирование будет осуществляться в области преобразования, такой как область QMF.

Конфигурация, представленная на фиг.3, является неэффективной. Устройство 2' пространственного декодера преобразует два канала (l и r), полученных в результате смешения с уменьшением количества каналов, в пять каналов, полученных в результате смешения с увеличением количества (промежуточных) каналов, в то время как устройство 3 бинаурального синтеза затем уменьшает пять каналов, полученных в результате смешения с увеличением количества каналов, до двух бинауральных каналов. Кроме того, смешение с увеличением количества каналов в модуле 23' пространственного декодера обычно выполняется в области подполосы, такой как область QMF (квадратурный зеркальный фильтр). Однако устройство 3 бинаурального синтеза обычно обрабатывает сигнал в области частот (то есть преобразование Фурье). Поскольку эти две области не являются идентичными, устройство 2' пространственного декодера вначале преобразует сигналы каналов, полученных в результате смешения с уменьшением количества каналов, в область QMF, обрабатывает преобразованные сигналы и затем переводит сигналы, смешанные с увеличением количества каналов, обратно в область времени. Затем устройство 3 бинаурального синтеза преобразует все (пять в настоящем примере) такие сигналы, полученные в результате смешения с увеличением количества каналов, в область частот, обрабатывает преобразованные сигналы и затем преобразует бинауральные сигналы обратно в область времени. Понятно, что затраты, связанные с вычислениями, будут значительными, и что требуется более эффективная обработка сигналов, в частности, когда их обработка должна осуществляться в переносном устройстве.

Настоящее изобретение обеспечивает намного более эффективную обработку путем интегрирования устройства бинаурального синтеза в устройство пространственного декодера и эффективного выполнения бинауральной обработки в параметре. Пример модуля пространственного декодера схематично представлен на фиг.5, в то время как комбинированное устройство пространственного и бинаурального декодера в соответствии с настоящим изобретением (для краткости называется устройством пространственного декодера) представлено на фиг.6.

Модуль 23 пространственного декодера, показанный на фиг.5, содержит модули 231 преобразования, модуль 232 пространственного синтеза (SS), модули 233 обратного преобразования, модуль 234 преобразования параметра (PC) и модуль 235 памяти (Мem). В примере по фиг.5 модуль 23 пространственного декодера содержит два модуля 231 преобразования, но в других примерах может присутствовать только один модуль 231 преобразования (как на фиг.6), или больше, чем два модуля 231 преобразования, в зависимости от количества каналов, полученных после смешения с уменьшением их количества.

Каждый из модулей 231 преобразования принимает каналы l и r, полученные после смешения с уменьшением количества каналов, соответственно (см. также фиг.3). Каждый модуль 231 преобразования выполнен с возможностью преобразования (сигнала) соответствующего канала в соответствующую область преобразования или в область подполосы, в настоящем примере в область QMF. QMF преобразованные каналы L и R подают в модуль 232 пространственного синтеза, который, предпочтительно, выполняет матричную операцию над сигналами каналов L и R для получения бинауральных каналов Lb и Rb в области преобразования. Модули 233 обратного преобразования выполняют обратное преобразование, в настоящем примере обратное преобразование QMF, для получения бинауральных каналов lb и rb в области времени.

Модуль 232 пространственного синтеза может быть аналогичным или идентичным модулю 232' пространственного синтеза предшествующего уровня техники по фиг.4. Однако параметры, используемые этим модулем, отличаются от параметров, используемых в предшествующем уровне техники. Более конкретно, модуль 234 преобразования параметра преобразует обычные пространственные параметры sp в бинауральные параметры bp, используя параметры hp HRTF, сохраненные в модуле 235 памяти. Эти параметры hp HRTF могут содержать:

- средний уровень на полосу частот для левой передаточной функции как функцию азимута (угла в горизонтальной плоскости), угла места (угла в вертикальной плоскости) и расстояния,

- средний уровень на полосу частот для правой передаточной функции как функцию азимута, угла места и расстояния, и

- среднюю разность фазы или времени на полосу частот как функцию азимута, угла места и расстояния.

Кроме того, могут быть включены следующие параметры:

- мера когерентности левой и правой передаточных функций на полосу частот HRTF как функция азимута, угла места и расстояния, и/или

- параметры абсолютной фазы и/или времени для левой и правой передаточных функций как функция азимута, угла места и расстояния.

Фактически используемые параметры HRTF могут зависеть от конкретного варианта воплощения.

Модуль 232 пространственного синтеза может определять бинауральные каналы Lb и Rb, используя следующую формулу:

(1)

где индекс k обозначает гибридный индекс полосы (частот) QMF, и индекс m обозначает индекс интервала (времени) QMF. Параметры h_ij матрицы H_k определяют по бинауральным параметрам (bp на фиг.5). Как обозначено индексом k, матрица H_k может зависеть от гибридной полосы QMF. В одном примере модуль преобразования параметра (234 на фиг.5) формирует бинауральные параметры, которые затем преобразуются в параметры h_ij матрицы, с использованием модуля 232 пространственного синтеза. В другом примере параметры h_ij матрицы идентичны бинауральным параметрам, формируемым модулем преобразования параметра (234 на фиг.5), и могут непосредственно применяться модулем 232 пространственного синтеза без преобразования.

Параметры h_ij матрицы H_k могут быть определены следующим образом в случае двух каналов, полученных после смешения с уменьшением количества каналов (конфигурация 5-2-5). В модуле пространственного декодера предшествующего уровня техники по фиг.4 модуль 230' декодера 2-в-3 преобразует два (входных) канала l и r, полученных после смешения с уменьшением количества каналов, в три (выходных) канала l, r и ce (следует понимать, что выходные каналы l и r обычно не будут идентичными входным каналам l и r, по этой причине входные каналы в следующем описании будут помечены как l₀ и r₀).

В соответствии с одним примером модуль преобразования параметра (234 на фиг.5 и 6) выполнен с возможностью использования параметров перцепционной передаточной функции, где учитывается вклад только трех каналов (например, l, r и c), при этом два из этих трех каналов (например, l и r) содержат композитные соответствующие передний (lf, rf) и задний (lr, rr) каналы. Таким образом, соответствующие передний и задний каналы сгруппированы для улучшения эффективности.

Операция, выполняемая модулем 230' смешения с увеличением количества каналов два-в-три, может быть описана следующей матричной операцией:

(2)

в которой входы m_ij матрицы зависят от пространственных параметров. Взаимосвязь пространственных параметров и входов матрицы идентична декодеру 5.1 MPEG объемного звучания. Для каждого из трех полученных в результате сигналов l, r и c определяют эффект параметров перцепционной передаточной функции (в настоящем примере HRTF), которые соответствуют требуемому (воспринимаемому) положению этих источников звука. Для центрального канала (c) пространственные параметры положения источника звука могут применяться непосредственно, в результате чего получают два выходных сигнала для центра, l_B(c) и r_B(c):

(3)

Как можно видеть из уравнения (3), обработка параметра HRTF состоит в умножении сигнала на средние уровни P_l и P_r мощности, которые соответствуют положению источника сигнала центрального канала, в то время как разность фаз распределяется симметрично. Этот процесс выполняется независимо для каждой полосы QMF, используя отображение из параметров HRTF на гребенку фильтров QMF с одной стороны, и отображение от пространственных параметров на полосу QMF с другой стороны.

Для левого (l) канала параметры HRTF из левого переднего и левого заднего каналов к

Аудиокодирование

Патент 2419249