Способ и процессор сигналов для преобразования множества входных каналов из конфигурации входных каналов в выходные каналы из конфигурации выходных каналов

Иллюстрации

Показать все

Изобретение относится к области радиосвязи и предназначено для понижающего преобразования формата между различными конфигурациями каналов громкоговорителей. Технический результат – повышение качества звука. Данный способ содержит предоставление набора правил, ассоциированного с каждым входным каналом из множества входных каналов, при этом правила задают различные преобразования между ассоциированным входным каналом и набором выходных каналов. Для каждого входного канала из множества входных каналов, к правилу, ассоциированному с входным каналом, осуществляется доступ, выполняется определение в отношении того, присутствует ли набор выходных каналов, заданных в правиле, к которому осуществляют доступ, в конфигурации выходных каналов, и выбирается правило, к которому осуществляют доступ, если набор выходных каналов, заданных в правиле, к которому осуществляют доступ, присутствует в конфигурации выходных каналов. Входные каналы преобразуются в выходные каналы согласно выбранному правилу. 5 н. и 18 з.п. ф-лы, 9 ил., 6 табл.

Реферат

Настоящее изобретение относится к способам и процессорам сигналов для преобразования множества входных каналов из конфигурации входных каналов в выходные каналы из конфигурации выходных каналов и, в частности, к способам и устройствам, подходящим для понижающего преобразования формата между различными конфигурациями каналов громкоговорителей.

Инструментальные средства пространственного кодирования аудио известны в данной области техники и стандартизированы, например, в стандарте объемного звучания MPEG. Пространственное кодирование аудио начинается с множества исходных входных, например, пяти или семи входных каналов, которые идентифицируются посредством их размещения в компоновке для воспроизведения, например, в качестве левого канала, центрального канала, правого канала, левого канала объемного звучания, правого канала объемного звучания и канала улучшения низких частот (LFE). Пространственный аудиокодер может извлекать один или более каналов понижающего микширования из исходных каналов и, дополнительно, может извлекать параметрические данные, связанные с пространственными сигнальными метками, такие как межканальные разности уровней в значениях канальной когерентности, межканальные разности фаз, межканальные разности времен и т.д. Один или более каналов понижающего микширования передаются вместе с параметрической вспомогательной информацией, указывающей пространственные сигнальные метки, в пространственный аудиодекодер для декодирования каналов понижающего микширования и ассоциированных параметрических данных, чтобы в итоге получать выходные каналы, которые являются аппроксимированной версией исходных входных каналов. Размещение каналов в выходной компоновке может быть фиксированным, например, как 5.1-формат, 7.1-формат и т.д.

Кроме того, инструментальные средства пространственного кодирования аудиообъектов известны в данной области техники и стандартизированы, например, в MPEG SAOC-стандарте (SAOC – пространственное кодирование аудиообъектов, spatial audio object coding). В отличие от пространственного кодирования аудио, начинающегося с исходных каналов, пространственное кодирование аудиообъектов начинается с аудиообъектов, которые автоматически не выделяются для определенной компоновки для воспроизведения при рендеринге. Наоборот, размещение аудиообъектов в сцене для воспроизведения является гибким и может задаваться пользователем, например, посредством ввода определенной информации рендеринга в декодер по стандарту пространственного кодирования аудиообъектов. Альтернативно или дополнительно, информация рендеринга может передаваться в качестве дополнительной вспомогательной информации или метаданных; информация рендеринга может включать в себя информацию того, в какой позиции в компоновке для воспроизведения определенный должен быть размещен аудиообъект (например, во времени). Чтобы получать определенное сжатие данных, определенное число аудиообъектов кодируется с использованием SAOC-кодера, который вычисляет, из входных объектов, один или более транспортных каналов посредством понижающего микширования объектов в соответствии с определенной информацией понижающего микширования. Кроме того, SAOC-кодер вычисляет параметрическую вспомогательную информацию, представляющую межобъектные сигнальные метки, такую как разности уровней объектов (OLD), значения когерентности объектов и т.д. Аналогично SAC (SAC – пространственное кодирование аудио), межобъектные параметрические данные вычисляются для отдельных частотно-временных мозаичных фрагментов. Для определенного кадра (например, 1024 или 2048 выборок) аудиосигнала, рассматриваются множество полос частот (например, 24, 32 или 64 полосы частот), так что параметрические данные предоставляются для каждого кадра и каждой полосы частот. Например, когда аудио фрагмент имеет 20 кадров, и когда каждый кадр подразделяется на 32 полосы частот, число частотно-временных мозаичных фрагментов равно 640.

Требуемый формат воспроизведения, т.е. конфигурация выходных каналов (конфигурация выходных громкоговорителей) может отличаться от конфигурации входных каналов, при этом число выходных каналов, в общем, отличается от числа входных каналов. Таким образом, преобразование формата может требоваться для того, чтобы преобразовывать входные каналы из конфигурации входных каналов в выходные каналы из конфигурации выходных каналов.

Задача, лежащая в основе настоящего изобретения, заключается в том, чтобы предоставлять проверенный подход для гибкого преобразования входных каналов из конфигурации входных каналов в выходные каналы в конфигурации выходных каналов.

Это задача решается посредством способа по п. 1, компьютерной программы по п. 25, процессора сигналов по п. 26 и аудиодекодера по п. 27.

Варианты осуществления изобретения предоставляют способ для преобразования множества входных каналов из конфигурации входных каналов в выходные каналы из конфигурации выходных каналов, при этом способ содержит:

- предоставление набора правил, ассоциированного с каждым входным каналом из множества входных каналов, при этом правила в наборе задают различные преобразования между ассоциированным входным каналом и набором выходных каналов;

- для каждого входного канала из множества входных каналов, осуществление доступа к правилу, ассоциированному с входным каналом, определение того, присутствует ли набор выходных каналов, заданных в правиле, к которому осуществляют доступ, в конфигурации выходных каналов, и выбор правила, к которому осуществляют доступ, если набор выходных каналов, заданных в правиле, к которому осуществляют доступ, присутствует в конфигурации выходных каналов; и

- преобразование входных каналов в выходные каналы согласно выбранному правилу.

Варианты осуществления изобретения предоставляют компьютерную программу для осуществления такого способа при выполнении на компьютере или в процессоре. Варианты осуществления изобретения предоставляют процессор сигналов, содержащий процессор, сконфигурированный или запрограммированный с возможностью осуществлять такой способ. Варианты осуществления изобретения предоставляют аудиодекодер, содержащий такой процессор сигналов.

Варианты осуществления изобретения основаны на новом подходе, при котором набор правил, описывающий потенциальные преобразования входных-выходных каналов, ассоциирован с каждым входным каналом из множества входных каналов, и при котором одно правило из набора правил выбирается для данной конфигурации входных-выходных каналов. Соответственно, правила не ассоциированы с конфигурацией входных каналов или с конкретной конфигурацией входных каналов. Таким образом, для данной конфигурации входных каналов и конкретной конфигурации выходных каналов, для каждого из множества входных каналов, присутствующих в данной конфигурации входных каналов, к ассоциированному набору правил осуществляется доступ, чтобы определять то, какое из правил совпадает с данной конфигурацией выходных каналов. Правила могут задавать один или более коэффициентов, которые должны применяться к входным каналам непосредственно, либо могут задавать процесс, который должен применяться для того, чтобы извлекать коэффициенты, которые должны применяться к входным каналам. На основе коэффициентов, может формироваться матрица коэффициентов, к примеру, матрица понижающего микширования (DMX), которая может применяться к входным каналам данной конфигурации входных каналов, чтобы преобразовывать ее в выходные каналы данной конфигурации выходных каналов. Поскольку набор правил ассоциирован с входными каналами, а не с конфигурацией входных каналов или с конкретной конфигурацией входных-выходных каналов, изобретательский подход может гибко использоваться для различных конфигураций входных каналов и различных конфигураций выходных каналов.

В вариантах осуществления изобретения, каналы представляют аудиоканалы, при этом каждый входной канал и каждый выходной канал имеют направление, в котором расположен ассоциированный громкоговоритель относительно центральной позиции слушателя.

Ниже описываются варианты осуществления настоящего изобретения относительно прилагаемых чертежей, на которых:

Фиг. 1 показывает общее представление трехмерного аудиокодера трехмерной аудиосистемы;

Фиг. 2 показывает общее представление трехмерного аудиодекодера трехмерной аудиосистемы;

Фиг. 3 показывает пример для реализации преобразователя форматов, который может реализовываться в трехмерном аудиодекодере по фиг. 2;

Фиг. 4 показывает схематичный вид сверху конфигурации громкоговорителей;

Фиг. 5 показывает схематичный вид сзади другой конфигурации громкоговорителей;

Фиг. 6a показывает блок-схему процессора сигналов для преобразования входных каналов из конфигурации входных каналов в выходные каналы из конфигурации выходных каналов;

Фиг. 6b показывает процессор сигналов согласно варианту осуществления изобретения;

Фиг. 7 показывает способ для преобразования входных каналов из конфигурации входных каналов в выходные каналы из конфигурации выходных каналов; и

Фиг. 8 подробнее показывает пример этапа преобразования.

Перед подробным описанием вариантов осуществления изобретательского подхода, приводится краткое представление системы трехмерных аудиокодеков, в которой может реализовываться изобретательский подход.

Фиг. 1 и 2 показывают алгоритмические блоки трехмерной аудиосистемы в соответствии с вариантами осуществления. Более конкретно, фиг. 1 показывает общее представление трехмерного аудиокодера 100. Аудиокодер 100 принимает в схеме 102 модуля предварительного рендеринга/микшера, которая необязательно может быть предоставлена, входные сигналы, более конкретно множество входных каналов, предоставляющих в аудиокодер 100 множество сигналов 104 каналов, множество сигналов 106 объектов и соответствующих метаданных 108 объектов. Сигналы 106 объектов, обработанные посредством модуля 102 предварительного рендеринга/микшера (см. сигналы 110), может предоставляться в SAOC-кодер 112 (SAOC – пространственное кодирование аудиообъектов). SAOC-кодер 112 формирует транспортные SAOC-каналы 114, предоставленные для входов USAC-кодера 116 (USAC – стандартизированное кодирование речи и аудио). Помимо этого, SAOC-SI 118 сигналов (SAOC-SI – вспомогательная информация SAOC) также предоставляется во входы USAC-кодера 116. USAC-кодер 116 дополнительно принимает сигналы 120 объектов непосредственно из модуля предварительного рендеринга/микшера, а также сигналы каналов и предварительно подготовленные посредством рендеринга сигналы 122 объектов. Информация 108 метаданных объектов применяется к OAM-кодеру 124 (OAM – метаданные объектов), предоставляющему сжатую информацию 126 метаданных объектов в USAC-кодер. USAC-кодер 116, на основе вышеуказанных входных сигналов, формирует сжатый выходной сигнал MP4, как показано на 128.

Фиг. 2 показывает общее представление трехмерного аудиодекодера 200 трехмерной аудиосистемы. Кодированный сигнал 128 (MP4), сформированный посредством аудиокодера 100 по фиг. 1, принимается в аудиодекодере 200, более конкретно в USAC-декодере 202. USAC-декодер 202 декодирует принимаемый сигнал 128 в сигналы 204 каналов, предварительно подготовленные посредством рендеринга сигналы 206 объектов, сигналы 208 объектов и сигналы 210 транспортных SAOC-каналов. Дополнительно, сжатая информация 212 метаданных объектов и SAOC-SI 214 сигналов выводится посредством USAC-декодера. Сигналы 208 объектов предоставляются в модуль 216 рендеринга объектов, выводящий подготовленные посредством рендеринга сигналы 218 объектов. Сигналы 210 транспортных SAOC-каналов предоставляются в SAOC-декодер 220, выводящий подготовленные посредством рендеринга сигналы 222 объектов. Сжатая метаинформация 212 объектов предоставляется в OAM-декодер 224, выводящий соответствующие управляющие сигналы в модуль 216 рендеринга объектов и SAOC-декодер 220 для формирования подготовленных посредством рендеринга сигналов 218 объектов и подготовленных посредством рендеринга сигналов 222 объектов. Декодер дополнительно содержит микшер 226, принимающий, как показано на фиг. 2, входные сигналы 204, 206, 218 и 222 для вывода сигналов 228 каналов. Сигналы каналов могут непосредственно выводиться в громкоговоритель, например, 32-канальный громкоговоритель, как указано на 230. Альтернативно, сигналы 228 могут предоставляться в схему 232 преобразования форматов, принимающую в качестве управляющего ввода сигнал схемы размещения для воспроизведения, указывающий способ, которым должны преобразовываться сигналы 228 каналов. В варианте осуществления, проиллюстрированном на фиг. 2, предполагается, что преобразование должно выполняться таким образом, что сигналы могут предоставляться в акустическую 5.1-систему, как указано на 234. Кроме того, сигналы 228 каналов предоставляются в модуль 236 бинаурального рендеринга, формирующий два выходных сигнала, например, для наушника, как указано на 238.

Система кодирования/декодирования, проиллюстрированная на фиг. 1 и 2, может быть основана на MPEG-D USAC-кодеке для кодирования сигналов каналов и объектов (см. сигналы 104 и 106). Чтобы повышать эффективность для кодирования большого количества объектов, может использоваться MPEG SAOC-технология. Три типа модулей рендеринга могут выполнять задачи рендеринга объектов в каналы, рендеринга каналов в наушники или рендеринга каналов в другую компоновку громкоговорителей (см. фиг. 2, ссылки с номерами 230, 234 и 238). Когда сигналы объектов явно передаются или параметрически кодируются с использованием SAOC, соответствующая информация 108 метаданных объектов сжимается (см. сигнал 126) и мультиплексируется в трехмерный поток 128 аудиобитов.

Фиг. 1 и 2 показывают алгоритмические блоки для полной трехмерной аудиосистемы, которая подробнее описывается ниже.

Модуль 102 предварительного рендеринга/микшер необязательно может быть предоставлен для того, чтобы преобразовывать сцену ввода каналов плюс объектов в сцену каналов перед кодированием. Функционально, он является идентичным модулю рендеринга объектов/микшеру, который подробно описывается ниже. Предварительный рендеринг объектов может требоваться для того, чтобы обеспечивать детерминированную энтропию сигналов на входе кодера, которая по существу является независимой от числа одновременно активных сигналов объектов. При предварительном рендеринге объектов, не требуется передача метаданных объектов. Сигналы дискретных объектов подготовлены посредством рендеринга в схему размещения каналов, которую кодер выполнен с возможностью использовать. Весовые коэффициенты объектов для каждого канала получаются из ассоциированных метаданных объектов (OAM).

USAC-кодер 116 представляет собой базовый кодек для сигналов каналов громкоговорителя, сигналов дискретных объектов, сигналов понижающего микширования объектов и предварительно подготовленных посредством рендеринга сигналов. Он основан на MPEG-D USAC-технологии. Он обрабатывает кодирование вышеуказанных сигналов посредством создания информации преобразования каналов и объектов на основе геометрической и семантической информации назначения входных каналов и объектов. Эта информация преобразования описывает то, как входные каналы и объекты преобразуются в USAC-канальные элементы, такие как элементы канальных пар (CPE), одноканальные элементы (SCE), низкочастотные эффекты (LFE) и элементы канальных четверок (QCE), и CPE, SCE и LFE и соответствующая информация передается в декодер. Все дополнительные SAOC-данные 114, 118 в форме рабочих данных или метаданные 126 объектов рассматриваются при управлении скоростью кодеров. Кодирование объектов является возможным различными способами, в зависимости от требований по искажению в зависимости от скорости передачи и требований по интерактивности для модуля рендеринга. В соответствии с вариантами осуществления, возможны следующие варианты кодирования объектов:

Предварительно подготовленные посредством рендеринга объекты: Сигналы объектов подготавливаются посредством рендеринга и сводятся в 22.2-канальные сигналы перед кодированием. Последующая цепочка кодирования видит 22.2-канальные сигналы.

Формы сигналов дискретных объектов: Объекты предоставляются в качестве монофонических форм сигнала в кодер. Кодер использует одноканальные элементы (SCE), чтобы передавать объекты в дополнение к сигналам каналов. Декодированные объекты подготавливаются посредством рендеринга и сводятся на стороне приемного устройства. Сжатая информация метаданных объектов передается в приемное устройство/модуль рендеринга.

Формы сигналов параметрических объектов: Свойства объектов и их взаимосвязь между собой описываются посредством SAOC-параметров. Понижающее микширование сигналов объектов кодируется с помощью USAC. Параметрическая информация передается совместно. Число каналов понижающего микширования выбирается в зависимости от числа объектов и полной скорости передачи данных. Сжатая информация метаданных объектов передается в модуль SAOC-рендеринга.

SAOC-кодер 112 и SAOC-декодер 220 для сигналов объектов могут быть основаны на MPEG SAOC-технологии. Система допускает повторное создание, модификацию и рендеринг определенного числа аудиообъектов на основе меньшего числа передаваемых каналов и дополнительных параметрических данных, таких как OLD, IOC (межобъектная когерентность), DMG (усиления при понижающем микшировании). Дополнительные параметрические данные демонстрируют значительно более низкую скорость передачи данных, чем требуется для передачи всех объектов по отдельности, что делает кодирование очень эффективным. SAOC-кодер 112 принимает в качестве ввода сигналы объектов/каналов в качестве монофонических форм сигнала и выводит параметрическую информацию (которая пакетирована в трехмерный поток 128 аудиобитов) и транспортные SAOC-каналы (которые кодируются с использованием одноканальных элементов и передаются). SAOC-декодер 220 восстанавливает сигналы объектов/каналов из декодированных транспортных SAOC-каналов 210 и параметрической информации 214 и формирует выходную аудиосцену на основе схемы размещения для воспроизведения, распакованной информации метаданных объектов и необязательно на основе информации пользовательского взаимодействия.

Кодек метаданных объектов (см. OAM-кодер 124 и OAM-декодер 224) предоставляется таким образом, что для каждого объекта, ассоциированные метаданные, которые указывают геометрическую позицию и объем объектов в трехмерном пространстве, эффективно кодируются посредством квантования свойств объектов во времени и пространстве. Сжатые метаданные 126 объектов (cOAM) передаются в приемное устройство 200 в качестве вспомогательной информации.

Модуль 216 рендеринга объектов использует сжатые метаданные объектов для того, чтобы формировать формы сигналов объектов согласно данному формату воспроизведения. Каждый объект подготавливается посредством рендеринга в определенный выходной канал 218 согласно своим метаданным. Вывод этого блока получается в результате суммы частичных результатов. Если декодируются как канальный контент, так и дискретные/параметрические объекты, канальные формы сигналов и подготовленные посредством рендеринга формы сигналов объектов сводятся посредством микшера 226 перед выводом результирующих форм 228 сигналов или перед их подачей в модуль постпроцессора, такой как модуль 236 бинаурального рендеринга или модуль 232 рендеринга громкоговорителей.

Модуль 236 бинаурального рендеринга формирует бинауральное понижающее микширование многоканального аудиоматериала таким образом, что каждый входной канал представлен посредством виртуального источника звука. Обработка осуществляется покадрово в области QMF (гребенки квадратурных зеркальных фильтров), и бинаурализация основана на измеренных бинауральных импульсных характеристиках в помещении.

Модуль 232 рендеринга громкоговорителей преобразует между конфигурацией 228 передаваемых каналов и требуемым форматом воспроизведения. Он также может называться "преобразователем форматов". Преобразователь форматов выполняет преобразования в меньшие числа выходных каналов, т.е. он создает понижающие микширования.

Возможная реализация преобразователя 232 форматов показана на фиг. 3. В вариантах осуществления изобретения, процессор сигналов представляет собой такой преобразователь форматов. Преобразователь 232 форматов, также называемый "модулем рендеринга громкоговорителей", преобразует между конфигурацией каналов передающего устройства и требуемым форматом воспроизведения посредством преобразования (входных) каналов передающего устройства из конфигурации (входных) каналов передающего устройства в (выходные) каналы требуемого формата воспроизведения (конфигурации выходных каналов). Преобразователь 232 форматов, в общем, выполняет преобразования в меньшее число выходных каналов, т.е. он выполняет процесс 240 понижающего микширования (DMX). Понижающий микшер 240, который предпочтительно работает в QMF-области, принимает выходные сигналы 228 микшера и выводит сигналы 234 громкоговорителей. Может предоставляться конфигуратор 242, также называемый "контроллером", который принимает, в качестве управляющего ввода, сигнал 246, указывающий схему размещения выходов микшера (конфигурацию входных каналов), т.е. схему размещения, для которой определяются данные, представленные посредством выходного сигнала 228 микшера, и сигнал 248, указывающий требуемую схему размещения для воспроизведения (конфигурацию выходных каналов). На основе этой информации, контроллер 242, предпочтительно автоматически, формирует матрицы понижающего микширования для данной комбинации форматов ввода и вывода и применяет эти матрицы к понижающему микшеру 240. Преобразователь 232 форматов обеспечивает возможность стандартных конфигураций громкоговорителей, а также случайных конфигураций с нестандартными позициями громкоговорителей.

Варианты осуществления настоящего изобретения относятся к реализации модуля 232 рендеринга громкоговорителей, т.е. к способам и процессорам сигналов для реализации функциональности модуля 232 рендеринга громкоговорителей.

Теперь следует обратиться к фиг. 4 и 5. Фиг. 4 показывает конфигурацию громкоговорителей, представляющую 5.1-формат, содержащий шесть громкоговорителей, представляющих левый канал LC, центральный канал CC, правый канал RC, левый канал LSC объемного звучания, правый канал LRC объемного звучания и канал LFC улучшения низких частот. Фиг. 5 показывает другую конфигурацию громкоговорителей, содержащую громкоговорители, представляющие левый канал LC, центральный канал CC, правый канал RC и приподнятый центральный канал ECC.

Далее, канал улучшения низких частот не рассматривается, поскольку точная позиция громкоговорителя (сабвуфера), ассоциированного с каналом улучшения низких частот, не является важной.

Каналы размещаются в конкретных направлениях относительно центральной позиции P слушателя. Направление каждого канала задается посредством азимутального угла α и угла β подъема, см. фиг. 5. Азимутальный угол представляет угол канала в горизонтальной плоскости 300 слушателя и может представлять направление соответствующего канала относительно переднего центрального направления 302. Как можно видеть на фиг. 4, переднее центральное направление 302 может задаваться как предполагаемое направление просмотра слушателя, расположенного в центральной позиции P слушателя. Заднее центральное направление 304 содержит азимутальный угол 180° относительно переднего центрального направления 300. Все азимутальные углы слева от переднего центрального направления между передним центральным направлением и задним центральным направлением находятся на левой стороне переднего центрального направления, и все азимутальные углы справа от переднего центрального направления между передним центральным направлением и задним центральным направлением находятся на правой стороне переднего центрального направления. Громкоговорители, расположенные перед виртуальной линией 306, которая является ортогональной к переднему центральному направлению 302 и проходит центральную позицию слушателя, являются передними громкоговорителями, и громкоговорители, расположенные позади виртуальной линии 306, являются задними громкоговорителями. В 5.1-формате, азимутальный угол α канала LC составляет 30° влево, α CC составляет 0°, α RC составляет 30° вправо, α LSC составляет 110° влево, и α RSC составляет 110° вправо.

Угол β подъема канала задает угол между горизонтальной плоскостью 300 слушателя и направлением виртуальной соединительной линии между центральной позицией слушателя и громкоговорителем, ассоциированным с каналом. В конфигурации, показанной на фиг. 4, все громкоговорители размещаются в горизонтальной плоскости 300 слушателя, и в силу этого все углы подъема являются нулевыми. На фиг. 5, угол β подъема канала ECC может составлять 30°. Громкоговоритель, расположенный строго выше центральной позиции слушателя, должен иметь угол подъема в 90°. Громкоговорители, размещаемые ниже горизонтальной плоскости 300 слушателя, имеют отрицательный угол подъема.

Позиция конкретного канала в пространстве, т.е. позиция громкоговорителя, ассоциированная с конкретным каналом, задается посредством азимутального угла, угла подъема и расстояния громкоговорителя от центральной позиции слушателя.

Варианты применения для понижающего микширования подготавливают посредством рендеринга набор входных каналов в набор выходных каналов, причем число входных каналов, в общем, превышает число выходных каналов. Один или более входных каналов могут сводиться вместе в идентичный выходной канал. Одновременно, один или более входных каналов могут быть подготовлены посредством рендеринга более чем для одного выходного канала. Это преобразование из входных каналов в выходной канал определяется посредством набора коэффициентов понижающего микширования или альтернативно формулируется в качестве матрицы понижающего микширования. Выбор коэффициентов понижающего микширования значительно влияет на достижимое качество выводимого звука при понижающем микшировании. Плохие варианты выбора могут приводить к несбалансированному сведению или плохому пространственному воспроизведению входной звуковой сцены.

Чтобы получать хорошие коэффициенты понижающего микширования, эксперт (например, инженер звукозаписи) может вручную настраивать коэффициенты, с учетом своих экспертных знаний. Тем не менее имеется несколько причин для возражения против настройки вручную в некоторых вариантах применения. Число конфигураций каналов (компоновок каналов) на рынке увеличивается, что требует новых усилий по настройке для каждой новой конфигурации. Вследствие растущего числа конфигураций отдельная оптимизация вручную DMX-матриц для каждой возможной комбинации конфигураций входных и выходных каналов становится практически неосуществимой. Новые конфигурации возникают на стороне формирования, что требует новых DMX-матриц из/в существующие конфигурации или другие новые конфигурации. Новые конфигурации могут возникать после того, как вариант применения для понижающего микширования развернут, так что настройка вручную больше невозможна. В типичных сценариях применения (например, прослушивание громкоговорителей в гостиной), совместимые со стандартом компоновки громкоговорителей (например, со стандартом объемного 5.1-звучания согласно ITU-R BS 775) являются скорее исключениями, чем правилом. DMX-матрицы для таких нестандартных компоновок громкоговорителей не могут быть оптимизированы вручную, поскольку они являются неизвестными в ходе проектирования системы.

Существующие или ранее предложенные системы для определения DMX-матриц содержат использование настроенных вручную матриц понижающего микширования во многих вариантах применения для понижающего микширования. Коэффициенты понижающего микширования этих матриц не извлекаются автоматически, а оптимизированы инженером звукозаписи таким образом, чтобы предоставлять наилучшее качество понижающего микширования. Инженер звукозаписи может учитывать различные свойства различных входных каналов в ходе проектирования DMX-коэффициентов (например, различную обработку для центрального канала, для каналов объемного звучания и т.д.). Тем не менее, как указано выше, извлечение вручную коэффициентов понижающего микширования для каждой возможной комбинации конфигураций входных-выходных каналов является практически неосуществимым и даже невозможным, если новые входные и/или выходные конфигурации добавляются на последующей стадии после процесса проектирования.

Другой простой вариант для того, чтобы автоматически извлекать коэффициенты понижающего микширования для данной комбинации входных и выходных конфигураций, состоит в том, чтобы трактовать каждый входной канал как виртуальный источник звука, позиция которого в пространстве задается посредством позиции в пространстве, ассоциированной с конкретным каналом, т.е. позиции громкоговорителя, ассоциированной с конкретным входным каналом. Каждый виртуальный источник может воспроизводиться посредством общего алгоритма панорамирования, такого как панорамирование по теореме тангенсов в двумерном случае или векторное амплитудное панорамирование в трехмерном случае, см работу V. Pulkki: "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of the Audio Engineering Society, издание 45, стр. 456-466, 1997 год. Панорамирующие усиления применяемой теоремы для панорамирования в силу этого определяют усиления, которые применяются при преобразовании входных каналов в выходные каналы, т.е. панорамирующие усиления являются требуемыми коэффициентами понижающего микширования. Хотя общие алгоритмы панорамирования дают возможность автоматически извлекать DMX-матрицы, полученное качество звука при понижающем микшировании обычно является низким вследствие различных причин:

- Панорамирование применяется для каждой позиции входного канала, которая не присутствует в выходной конфигурации. Это приводит к ситуации, когда входные сигналы очень часто когерентно распределены по определенному числу выходных каналов. Это нежелательно, поскольку это ухудшает воспроизведение огибающих звуков, таких как реверберация. Также для дискретных звуковых компонентов во входном сигнале воспроизведение в качестве фантомных источников вызывает нежелательные изменения исходной ширины и окрашивания.

- Общее панорамирование не учитывает различные свойства различных каналов, например, оно не дает возможность оптимизировать коэффициенты понижающего микширования для центрального канала по-другому из других каналов. Оптимизация понижающего микширования по-разному для различных каналов согласно семантике каналов, в общем, должна обеспечивать возможность более высокого качества выходного сигнала.

- Общее панорамирование не учитывает психоакустические знания, что требует различных алгоритмов панорамирования для фронтальных каналов, боковых каналов и т.д. Кроме того, общее панорамирование приводит к панорамирующим усилениям для рендеринга на широко разнесенных громкоговорителях, что не обеспечивает в результате корректное воспроизведение пространственной звуковой сцены в выходной конфигурации.

- Общее панорамирование, включающее в себя панорамирование по вертикально разнесенным громкоговорителям, не приводит к хорошим результатам, поскольку оно не учитывает психоакустические эффекты (вертикальные сигнальные метки пространственного восприятия отличаются от горизонтальных сигнальных меток).

- Общее панорамирование не учитывает то, что слушатели преимущественно поворачивают голову в предпочтительном направлении ("переднем", к экрану), так что это обеспечивает субоптимальные результаты.

Другой проект для математического (т.е. автоматического) извлечения DMX-коэффициентов для данной комбинации конфигураций входных и выходных каналов приведен в работе автора A. Ando: "Conversion of Multichannel Sound Signal Maintaining Physical Properties of Sound in Reproduced Sound Field", IEEE Transactions on Audio, Speech and Language Processing, издание 19, номер 6, август 2011 года. Это извлечение также основано на математической формулировке, которая не учитывает семантику конфигурации входных и выходных каналов. Таким образом, он испытывает те же проблемы, что и подход на основе панорамирования по теореме тангенсов или VBAP-панорамирования.

Варианты осуществления изобретения предоставляют новый подход для преобразования формата между различными конфигурациями каналов громкоговорителей, которое может выполняться в качестве процесса понижающего микширования, который преобразует определенное число входных каналов в определенное число выходных каналов, причем число выходных каналов, в общем, меньше числа входных каналов, и причем позиции выходных каналов могут отличаться от позиций входных каналов. Варианты осуществления изобретения направлены на новые подходы, с тем чтобы повышать производительность таких реализаций понижающего микширования.

Хотя варианты осуществления изобретения описываются в связи с кодированием аудио, следует отметить, что описанные новые связанные с понижающее микшированием подходы также могут применяться к вариантам применения для понижающего микширования в общем, т.е. к вариантам применения, которые, например, не заключают в себе кодирование аудио.

Варианты осуществления изобретения относятся к способу и процессору сигналов (системе) для автоматического формирования DMX-коэффициентов или DMX-матриц, которые могут применяться в варианте применения для понижающего микширования, например, для процесса понижающего микширования, описанного выше со ссылкой на фиг. 1-3. DMX-коэффициенты извлекаются в зависимости от конфигураций входных и выходных каналов. Конфигурация входных каналов и конфигурация выходных каналов могут рассматриваться в качестве входных данных, и оптимизированные DMX-коэффициенты (или оптимизированная DMX-матрица) могут извлекаться из входных данных. В нижеприведенном описании, термин "коэффициенты понижающего микширования" связан со статическими коэффициентами понижающего микширования, т.е. коэффициентами понижающего микширования, которые не зависят от форм входных аудиосигналов. В варианте применения для понижающего микширования, дополнительные коэффициенты (например, динамические, изменяющиеся во времени усиления) могут применяться, например, чтобы сохранять мощность входных сигналов (так называемая технология активного понижающего микширования). Варианты осуществления раскрывают, что система для автоматического формирования DMX-матриц предоставляет возможность высококачественных выходных DMX-сигналов для данных конфигураций входных и выходных каналов.

В вариантах осуществления изобретения, преобразование входного канала в один или более выходных каналов включает в себя извлечение, по меньшей мере, одного коэффициента, который должен применяться к входному каналу, для каждого выходного канала, в который преобразуется входной канал. По меньшей мере, один коэффициент может включать в себя коэффициент усиления, т.е. значение усиления, которое должно применяться к входному сигналу, ассоциированному с входным каналом, и/или коэффициент задержки, т.е. значение задержки, которое должно применяться к входному сигналу, ассоциированному с входным каналом. В вариантах осуществления изобретения, преобразование может включать в себя извлечение частотно-избирательных коэффициентов, т.е. различных коэффициентов для различных полос частот входных каналов. В вариантах осуществления изобретения, преобразование входных каналов в выходные каналы включает в себя формирование одной или более матриц коэффициентов из коэффициентов. Каждая матрица задает коэффициент, который должен применяться к каждому входному каналу из конфигурации входных каналов для каждого выходного канала из конфигурации выходных каналов. Для выходных каналов, в которые не преобразуется входной канал, соответствующий коэффициент в матрице коэффициентов является нулевым. В вариантах осуществления изобретения, могут формироваться отдельные матрицы коэффициентов для коэффициентов усиления и коэффициентов