Устройство и способ масштабирования центрального сигнала и улучшения стереофонии на основе отношения сигнал-понижающее микширование

Иллюстрации

Показать все

Изобретение относится к средствам для масштабирования центрального сигнала. Технический результат заключается в повышении разборчивости речи. Генерируют информацию сигнала с помощью комбинирования спектральных значений каждого из двух или более входных аудиоканалов первым способом. Генерируют информацию понижающего микширования путем комбинирования спектральных значений каждого из упомянутых двух или более входных аудиоканалов вторым способом, отличным от первого способа. Генерируют информацию сигнал-понижающего микширования путем комбинирования информации сигнала и информации понижающего микширования. Ослабляют упомянутые два или более входных аудиоканала в зависимости от информации сигнал-понижающего микширования для получения двух или более модифицированных аудиоканалов. 4 н. и 10 з.п. ф-лы, 22 ил.

Реферат

Настоящее изобретение относится к обработке аудиосигналов и, в частности, к масштабированию центрального сигнала и улучшению стереофонии, основываясь на отношении сигнал-понижающее микширование.

В общем случае, аудиосигналы представляют собой смесь прямых звуков и фоновых (или рассеянных) звуков. Прямые сигналы испускаются источниками звука, например, музыкальным инструментом, вокалистом или громкоговорителем, и достигают приемника, например, уха слушателя или микрофона, по наиболее короткому из возможных путей. При прослушивании прямого звукового сигнала он воспринимается как идущий по направлению от источника звука. Релевантными звуковыми ориентирами для локализации и для других пространственных свойств звука являются интерауральная разность уровней (ILD), интерауральная разница во времени (ITD) и интерауральная когерентность. Прямые звуковые волны, вызывающие идентичные ILD и ITD, воспринимаются как идущие с одного и того же направления. В отсутствие фоновых звуков, сигналы, достигающие правого и левого уха или любого другого набора пространственно-разнесенных датчиков, являются когерентными.

Фоновые звуки, напротив, испускаются множеством пространственно-разнесенных источников звука или звукоотражающих границ, давая вклад в тот же самый звуковой сигнал. Когда звуковая волна достигает стены комнаты, часть ее отражается, и суперпозиция всех отражений в комнате, реверберация, представляет собой очень хороший пример фоновых звуков. В качестве других примеров можно указать аплодисменты, журчание или невнятную речь и шум ветра. Фоновые звуки воспринимаются как рассеянные, нелокализуемые и вызывающие ощущение окруженности ими (погруженности в них) слушателя. При захвате поля фонового звука с использованием набора пространственно-разнесенных датчиков, записанные сигналы являются, по меньшей мере частично, некогерентными.

Релевантный уровень техники, относящийся к разделению, декомпозиции или масштабированию включает в себя либо информацию панорамирования, т.е. межканальную разность уровней (ICLD) и межканальную временную разность (ICTD), или включает в себя сигнальные характеристики прямого и фонового звуков. К способам, использующим ICLD при двухканальной стереофонической записи, относятся способ повышающего микширования, описанный в [7], алгоритм разрешения по азимуту и ресинтеза (ADRess) [8], повышающее микширование двухканальных входных сигналов в три канала, предложенное Викерсом [9], и способ выделения центрального сигнала, описанный в [10].

Технология оценки деградации при разделении (DUET) [11, 12] основана на кластеризации бинов время-частота в группы с одинаковой ICLD и ICTD. Ограничение оригинального способа заключается в том, что максимальная частота, которая может быть обработана, составляет половину скорости звука на максимальное расстояние между микрофонами. Производительность данного способа снижается, если источники перекрываются в домене время-частота, и в случае усиления реверберации. Другие способы, основанные на ICLD и ICTD, представляют собой алгоритм модифицированного ADRess [14], который расширяет алгоритм ADRess [8] для обработки записей с пространственно-разнесенных микрофонов, причем упомянутый способ основан на корреляции время-частота (AD-TIFCORR) [15] для смесей с задержкой по времени, оценку направления матрицы смешивания (DEMIX) для безэховых смесей [16], которая включает в себя меру достоверности того, что только один источник активен в конкретном бине время-частота, разделение и локализация источников с максимизацией ожидания на основе модели (MESSL) [17], а также методы имитации механизма человеческого бинауральные слуха, как, например, в [18, 19].

Помимо упомянутых выше способов слепого разделения источников (BSS), используя пространственные признаки компонентов прямого сигнала, к настоящему способу также относится выделение и ослабление фоновых сигналов. Способы, основанные на межканальной когерентности (ICC) в двухканальных сигналах описаны в [22, 7, 23]. Применение адаптивной фильтрации было предложено в [24] с обоснованием, заключающемся в том, что прямые сигналы могут быть предсказаны по каналам, тогда как диффузные звуки получаются из ошибки прогнозирования.

Способ повышающего микширования двухканальных стереофонических сигналов, основанный на многоканальной фильтрации Винера, выполняет оценку как ICLD прямых звуковых сигналов, так и спектральную плотность мощности (PSD) прямых и фоновых компонентов сигнала [25].

Подходы к выделению фоновых сигналов из одноканальных записей включают в себя использование факторизации неотрицательной матрицы частотно-временного представления входного сигнала, где фоновый сигнал получают из остатка этого приближения [26], извлечение низкоуровневых признаков и контролируемое обучение [27], а также оценку импульсной характеристики системы реверберации и инверсную фильтрацию в частотной области [28].

Задачей настоящего изобретения является предоставление улучшенных концепций обработки аудиосигнала. Задача настоящего изобретения решается с помощью устройства по п. 1, системы по п. 12, способа по п. 13 и машиночитаемого носителя по п. 14 формулы изобретения.

Предоставляется устройство для генерации модифицированного аудиосигнала, содержащего два или более модифицированных аудиоканалов, из входного аудиосигнала, включающего в себя два или более входных аудиоканалов. Устройство содержит генератор информации для генерации информации сигнал-понижающее микширование. Генератор информации выполнен с возможностью генерации информации сигнала путем комбинирования спектральных значений каждого из упомянутых двух или более входных аудиоканалов первым способом. Помимо этого, генератор информации выполнен с возможностью генерации информации понижающего микширования путем комбинирования спектральных значений каждого из упомянутых двух или более входных аудиоканалов вторым способом, отличным от первого способа. Дополнительно, генератор информации выполнен с возможностью комбинирования информации сигнала и информации понижающего микширования для получения информации сигнал-понижающее микширование. Помимо этого, устройство содержит аттенюатор сигнала для ослабления двух или более входных аудиоканалов в зависимости от информации сигнал-понижающее микширование для получения упомянутых двух или более модифицированных аудиоканалов.

В частном варианте осуществления устройство может, например, быть выполнено с возможностью генерации модифицированного аудиосигнала, содержащего три или более модифицированных аудиоканалов, из входного аудиосигнала, содержащего три или более входных аудиоканалов.

В одном из вариантов осуществления количество модифицированных аудиоканалов меньше или равно количеству входных аудиоканалов, или количество модифицированных аудиоканалов меньше, чем количество входных аудиоканалов. Например, в соответствии с одним из вариантов осуществления устройство может быть выполнено с возможностью генерации модифицированного аудиосигнала, содержащего два или более модифицированных аудиоканалов, из входного аудиосигнала, содержащего два или более входных аудиоканалов.

Предложены варианты осуществления изобретения, предоставляющие новые концепции масштабирования уровня виртуального центра в аудиосигналах. Входные сигналы обрабатываются в частотно-временной области таким образом, что компоненты прямых звуковых сигналов, имеющие приблизительно равную энергию во всех каналах усиливаются или ослабляются. Вещественные спектральные веса получаются из отношения суммы спектральных плотностей мощности всех сигналов входных каналов и спектральной плотности мощности суммарного сигнала. Представленные концепции могут использоваться при повышающем микшировании двухканальных стереофонических записей для воспроизведения с помощью устройства генерации объемного звука, улучшении стереофонического эффекта, улучшении разборчивости диалога, а также в качестве первичной обработки для семантического аудиоанализа.

Варианты осуществления обеспечивают новые концепции для усиления или ослабления центрального сигнала в аудиосигнале. В отличие от предыдущих концепций, учитываются как боковое смещение, так и диффузность компонентов сигнала. Кроме того, обсуждается использование семантически значимых параметров в целях поддержки пользователя при использовании вариантов осуществления упомянутых концепций.

В некоторых вариантах осуществления делается акцент на масштабировании центрального сигнала, т.е. усилении или ослаблении центральных сигналов аудиозаписей. Центральный сигнал определяется в настоящем документе, например, как сумма всех компонентов прямых сигналов, имеющих приблизительно равную интенсивность во всех каналах и незначительные временные различия между каналами.

Масштабирование центрального сигнала может быть использовано в различных приложениях для обработки и воспроизведения аудиосигнала, например, в повышающем микшировании, улучшении разборчивости диалога и семантическом аудиоанализе.

Повышающее микширование представляет собой способ создания выходного сигнала при наличии входного сигнала с меньшим количеством каналов. Его основным применением является воспроизведение двухканальных сигналов с использованием устройства генерации объемного звука, как, например, описано [1]. Исследование субъективного качества пространственного звука [2] указывает, что наличие точного местоположения [3], локализация и ширина представляют собой хорошие характеристические атрибуты звука. Результаты субъективной оценки алгоритмов повышающего микширования 2-в-5 [4] показали, что использование дополнительного центрального громкоговорителя может сузить стереофонический образ. В основе представленной работы лежит предположение о том, что наличие точного местоположения [3], локализация и ширина могут быть сохранены или даже улучшены, когда дополнительный центральный громкоговоритель воспроизводит в основном прямые компоненты сигнала, которые панорамированы в центре, и когда эти компоненты сигнала ослабляются в смещенных от центра сигналах громкоговорителей.

Улучшение разборчивости диалога относится к улучшению разборчивости речи, например при вещании и при звуковом сопровождении кинофильмов, и часто является желательным, когда фоновые звуки слишком громкие по отношению к диалогу [5]. Это относится, в частности, к лицам, которые имеют проблемы со слухом, слушателям, не являющимся носителями языка, шумной обстановке, или когда бинауральная разность уровня маскировки снижается из-за близкого размещения громкоговорителей. Способы, реализующие упомянутые концепции могут быть применены для обработки входных сигналов, где диалог панорамирован в районе центра для того, чтобы ослабить фоновые звуки и, таким образом, улучшить разборчивость речи.

Семантический аудиоанализ (или аудио контент-анализ) включает в себя способы получения значимых дескрипторов из звуковых сигналов, например, отслеживание ритма или транскрибирование ведущей мелодии. Производительность вычислительных методов часто ухудшается, когда представляющие интерес звуки наложены на фоновые звуки; смотри, например, [6]. Поскольку панорамирование в центре источников представляющего интерес звука (например, ведущие инструменты и певцы) является обычной практикой в аудио индустрии, выделение центрального сигнала может быть использовано в качестве этапа предварительной обработки для ослабления фоновых звуков и реверберации.

В соответствии с одним из вариантов осуществления генератор информации может быть выполнен с возможностью комбинирования информации сигнала и информации понижающего микширования таким образом, что информация сигнал-понижающее микширование указывает на отношение информации сигнала и информации понижающего микширования.

В одном из вариантов осуществления генератор информации может быть выполнен с возможностью обработки спектрального значения каждого из двух или более входных аудиоканалов для получения двух или более обработанных значений, где генератор информации может быть выполнен с возможностью комбинирования двух или более обработанных значений для получения информации сигнала. Помимо этого, генератор информации может быть выполнен с возможностью комбинирования спектральных значений каждого из двух или более входных аудиоканалов для получения комбинированного значения, где генератор информации может быть выполнен с возможностью обработки комбинированного значения для получения информации понижающего микширования.

В соответствии с одним из вариантов осуществления генератор информации может быть выполнен с возможностью обработки спектральных значений каждого из двух или более входных аудиоканалов путем умножения упомянутого спектрального значения на комплексно сопряженное упомянутое спектральное значение для получения автоспектральной плотности мощности упомянутого спектрального значения для каждого из упомянутых двух или более входных аудиоканалов.

В одном из вариантов осуществления генератор информации может быть выполнен с возможностью обработки комбинированного значения путем определения спектральной плотности мощности комбинированного значения.

В одном из вариантов осуществления, генератор информации может быть выполнен с возможностью генерации информации сигнала s (m, k, β) по формуле:

,

где N обозначает количество входных аудиоканалов входного аудиосигнала, указывает автоспектральную плотность мощности спектрального значения i-го аудиоканала сигнала, β является вещественным числом, и β>0, m указывает на индекс времени, и k указывает индекс частоты. Например, в соответствии с одним из вариантов осуществления β≥1.

В одном из вариантов осуществления, генератор информации может быть выполнен с возможностью определения отношения сигнал-понижающее микширование в виде информации сигнал-понижающее микширование в соответствии с формулой R(m, k, β)

,

где обозначает спектральную плотность мощности комбинированного значения, и обозначает информацию понижающего микширования.

В соответствии с одним из вариантов осуществления генератор информации может быть выполнен с возможностью генерации информации сигнала в соответствии с формулой

,

причем генератор информации выполнен с возможностью генерации информации понижающего микширования в соответствии с формулой

,

и генератор информации выполнен с возможностью генерации отношение сигнал-понижающее микширование в виде информации сигнал-понижающее микширование Rg(m, k, β) в соответствии с формулой

,

где X(m, k) обозначает входной аудиосигнал,

,

в котором N указывает количество входных звуковых каналов входного аудиосигнала, где М указывает временной индекс, и в котором k обозначает индекс частоты, где X1(m, k) указывает первый звуковой входной канал, в котором XN(m, k) указывает на N-й аудио входной канал, где V указывает на матрицу или вектор, в котором W указывает на матрицу или вектор, где Н указывает сопряженное транспонирование матрицы или вектора, в котором ожидание операции, в которой β представляет собой вещественное число, и β>0, и в котором tr{} является следом матрицы. Например, в соответствии с одним из частных вариантов осуществления β≥1.

В одном из вариантов осуществления V может представлять собой вектор-строку длиной N, чьи элементы равны единице, и W может представлять собой единичную матрицу размера N×N.

В соответствии с одним из вариантов осуществления V = [1, 1], W = [1, -1] и N=2.

В одном из вариантов осуществления аттенюатор сигнала может быть выполнен с возможностью ослабления двух или более входных аудиоканалов в зависимости от функции усиления G(m, k) в соответствии с формулой

,

где функция усиления G(m, k) зависит от информации сигнал-понижающее микширование, причем функция усиления G(m, k) является монотонно возрастающей функцией сигнала информации сигнал-понижающее микширование или монотонно убывающей функцией информации сигнал-понижающее микширование,

где X(m, k) обозначает входной аудиосигнал, Y(m, k) обозначает модифицированный аудиосигнал, m обозначает временной индекс, и k обозначает индекс частоты.

В соответствии с одним из вариантов осуществления функция усиления G(m, k) может представлять собой первую функцию, вторую функцию , третью функцию или четвертую функцию ,

где

,

где

,

где

,

где

,

причем β представляет собой вещественное число, и β>0,

причем γ представляет собой вещественное число, и γ>0,

причем Rmin обозначает минимум R.

Помимо этого, предоставляется система. Система содержит фазовый компенсатор для генерации компенсированного по фазе аудиосигнала, содержащего два или более компенсированных по фазе аудиоканалов, из необработанного аудиосигнала, содержащего два или более необработанных аудиоканалов. Кроме того, система содержит устройство согласно одному из вышеописанных вариантов осуществления для приема компенсированного по фазе аудиосигнала в качестве входного аудиосигнала и для генерации модифицированного аудиосигнала, содержащего два или более модифицированных аудиоканалов, из входного аудиосигнала, содержащего два или более компенсированных по фазе аудиоканалов, в качестве двух или более входных аудиоканалов. Один из упомянутых двух или более необработанных аудиоканалов является опорным каналом. Фазовый компенсатор выполнен с возможностью оценки для каждого необработанного аудиоканала из упомянутых двух или более необработанных аудиоканалов, который не является опорным каналом, функции передачи фазы между упомянутыми необработанным аудиоканалом и опорным каналом. Кроме того, фазовый компенсатор выполнен с возможностью генерации компенсированного по фазе аудиосигнала с помощью модификации каждого необработанного аудиоканала из упомянутых необработанных аудиоканалов, который не является опорным каналом, в зависимости от функции передачи фазы упомянутого необработанного аудиоканала.

Помимо этого, предоставляется способ генерации модифицированного аудиосигнала, содержащего два или более модифицированных аудиоканалов, из входного аудиосигнала, включающего в себя два или более входных аудиоканалов.

Способ содержит:

- Генерацию сигнала информации с помощью комбинирования спектральных значений каждого из упомянутых двух или более входных аудиоканалов первым способом.

- Генерацию информации понижающего микширования путем комбинирования спектральных значений каждого из упомянутых двух или более входных аудиоканалов вторым способом, отличным от первого способа.

- Генерацию информации сигнал-понижающее микширование путем комбинирования информации сигнала и информации понижающего микширования и:

Ослабление упомянутых двух или более входных аудиоканалов в зависимости от информации сигнал-понижающее микширование для получения двух или более модифицированных аудиоканалов.

Кроме того, предоставляется компьютерная программа для реализации описанного выше способа при ее выполнении на компьютере или аттенюаторе сигналов.

В дальнейшем, варианты осуществления настоящего изобретения описаны более подробно со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1 иллюстрирует устройство согласно одному из вариантов осуществления.

Фиг. 2 иллюстрирует отношение сигнал-понижающее микширование как функцию межканальной разности уровней и как функцию межканальной когерентности в соответствии с одним из вариантов осуществления.

Фиг. 3 иллюстрирует спектральные веса как функцию межканальной когерентности и межканальной разности уровней в соответствии с одним из вариантов осуществления.

Фиг. 4 иллюстрирует спектральные веса как функцию межканальной когерентности и межканальной разности уровней в соответствии с другим вариантом осуществления.

Фиг. 5 иллюстрирует спектральные веса как функцию межканальной когерентности и межканальной разности уровней в соответствии с еще одним вариантом осуществления.

Фиг. 6A-E иллюстрируют спектрограммы источников прямых звуковых сигналов источника и сигналы левого и правого каналов смешанного сигнала.

Фиг. 7 иллюстрирует входной сигнал и выходной сигнал для выделения центрального сигнала в соответствии с одним из вариантов осуществления.

Фиг. 8 иллюстрирует спектрограммы выходного сигнала в соответствии с одним из вариантов осуществления.

Фиг. 9 иллюстрирует входной сигнал и выходной сигнал для ослабления центрального сигнала в соответствии с другим вариантом осуществления.

Фиг. 10 иллюстрирует спектрограммы выходного сигнала в соответствии с одним из вариантов осуществления.

Фиг. 11A-D иллюстрируют два речевых сигнала, которые были смешаны для получения входных сигналов с и без межканальной временной разности,

Фиг. 12A-C иллюстрируют спектральные веса, вычисленные из функции усиления в соответствии с одним из вариантов осуществления, и

Фиг. 13 иллюстрирует систему в соответствии с одним из вариантов осуществления.

Фиг.1 иллюстрирует устройство для генерации модифицированного аудиосигнала, содержащего два или более модифицированных аудиоканалов, из входного аудиосигнала, включающего в себя два или более входных аудиоканалов, в соответствии с одним из вариантов осуществления.

Устройство содержит генератор 110 информации для генерации информации сигнал-понижающее микширование.

Генератор 110 информации выполнен с возможностью генерации информации сигнала путем комбинирования спектральных значений каждого из упомянутых двух или более входных аудиоканалов первым способом. Помимо этого, генератор 110 информации выполнен с возможностью генерации информации понижающего микширования путем комбинирования спектральных значений каждого из упомянутых двух или более входных аудиоканалов вторым способом, отличным от первого способа.

Дополнительно, генератор 110 информации выполнен с возможностью комбинирования информации сигнала и информации понижающего микширования для получения информации сигнал-понижающее микширование. Например, информация сигнал-понижающее микширование может представлять собой отношение сигнал-понижающее микширование, например, значение сигнал-понижающее микширование.

Помимо этого, устройство содержит аттенюатор 120 сигнала для ослабления двух или более входных аудиоканалов в зависимости от информации сигнал-понижающее микширование для получения двух или более модифицированных аудиоканалов.

В соответствии с одним из вариантов осуществления генератор информации может быть выполнен с возможностью комбинирования информации сигнала и информации понижающего микширования таким образом, что информация сигнал-понижающее микширование будет указывать на отношение информации сигнала и информации понижающего микширования. Например, информация сигнала может представлять собой первое значение, и информация понижающего микширования может представлять собой второе значение, а информация сигнал-понижающее микширование указывает на отношение значения сигнала и значения понижающего микширования. Например, информация сигнал-понижающее микширование может представлять собой результат деления первого значения на второе значение. Либо, например, если первое значение и второе значение представляют собой логарифмические значения, информация сигнал-понижающее микширование может представлять собой результат вычитания второго значения из первого значения.

В дальнейшем, базовая модель сигнала и концепции описаны и проанализированы для случая входного сигнала, реализующего стереофонию на основе разности амплитуд.

Обоснованием такого подхода является вычисление и применение вещественно-значных спектральных весов как функции диффузности и бокового расположения прямых источников. Обработка, как показано в настоящем документе, применяется в области STFT, однако она не ограничена конкретным банком фильтров. N-канальный входной сигнал обозначается

(1),

где n обозначает дискретный временной индекс. Предполагается, что входной сигнал представляет собой аддитивную смесь прямых сигналов si[n] и фоновых звуковых сигналов ai[n]

(2),

где P представляет собой количество источников звука, di,j[n] обозначает импульсные отклики прямых путей i-го источника в l-й канал длиной Li,j сэмплов, а компоненты фонового сигнала не коррелируют или слабо коррелируют. В нижеследующем описании предполагается, что модель сигнала соответствует стереофонии с амплитудно-разностной стереофонии, т.е. Li,j = 1, .

Представление x[n] в частотно-временной области дается в виде

(3)

с временным индексом m и частотным индексом k. Выходные сигналы обозначаются

(4)

и получаются посредством спектрального взвешивания

(5)

с вещественно-значными весами G(m, k). Выходные сигналы во временной области рассчитываются путем применения обратной обработки банка фильтров. Для вычисления спектральных весов суммарный сигнал, далее обозначаемый как сигнал понижающего микширования, вычисляется как

(6)

Матрица PSD входного сигнала, содержащая оценки (авто)PSD на главной диагонали, в то время как недиагональные элементы представляют собой оценки кросс-PSD, дается в виде

(7)

где X* обозначает комплексное сопряжение X, и представляет собой операцию вычисления математического ожидания по отношению к оси времени. В представленных вариантах моделирования значения ожидания оцениваются с использованием однополюсного рекурсивного усреднения,

(8)

где коэффициент фильтрации α представляет собой время интегрирования. Помимо этого, количество R(m, k; β) определено следующим образом

(9),

где представляет собой сигнал понижающего микширования, а β представляет собой параметр который обсуждается ниже. Величина R(m, k; 1) представляет собой отношение сигнал-понижающее микширование (SDR), т.е. отношение полной PSD и PSD сигнала понижающего микширования. Показатель степени гарантирует, что диапазон R(m, k; β) независим от β.

Генератор 110 информации может быть выполнен с возможностью определения отношения сигнал-понижающее микширование в соответствии с уравнением (9).

Согласно уравнению (9) информация сигнала s(m, k, β), которая может быть определена с помощью генератора 110 информации определяется как

Как можно видеть из приведенного выше, Φi,j(m,k) определяется как Φi,i(m,k) = {Xi(m,k) Xi*(m,k)}. Таким образом, для определения информации сигнала s(m, k, β) спектральные величины Xi(m,k) каждого из двух или более входных аудиоканалов обрабатывается для получения обработанного значение Φi,j(m,k)β для каждого из двух или более входных аудиоканалов, и полученные обработанные значения Φi,j(m,k)β затем комбинируются, например, как в уравнении (9), путем суммирования полученных обработанных значений Φi,j(m,k)β.

Таким образом, генератор 110 информации может быть выполнен с возможностью обработки спектрального величины Xi(m,k) каждого из двух или более входных аудиоканалов для получения двух или более обработанных значений Φi,j(m,k)β, и генератор 110 информации может быть выполнен с возможностью комбинирования двух или более обработанных значений для получения информации сигнала s(m, k, β). В более общем случае, генератор 110 информации выполнен с возможностью генерации информации сигнала s(m, k, β) путем комбинирования спектральных значений Xi(m,k) каждого из двух или более входных звуковых каналов первым способом.

Помимо этого, согласно уравнению (9) информация понижающего микширования d(m, k, β), которая может быть определена с помощью генератора 110 информации определяется как

.

Для получения Φd(m,k) сначала получают Xd(m,k) согласно приведенному выше уравнению(6):

.

Как можно видеть, во-первых, спектральное значение Xi(m,k) каждого из двух или более входных аудиоканалов комбинируется для получения комбинированного значения Xd(m,k), например, как в уравнении (6), путем суммирования спектральных значений Xi(m,k) каждого из двух или более входных аудиоканалов.

Затем, для получения Φd(m,k) получают спектральную плотность мощности для Xd(m,k) например, в соответствии с

и затем может быть определено Φd(m,k)β. В более общем смысле, полученное комбинированное значение Xd(m,k) было обработано для получения информации понижающего микширования d(m, k, β) =Φd(m,k)β.

Таким образом, генератор 110 информации может быть выполнен с возможностью комбинирования спектральных значений Xi(m,k) каждого из двух или более входных аудиоканалов для получения комбинированного значения, и генератор 110 информации может быть выполнен с возможностью обработки комбинированного значения для получения информации понижающего микширования d(m, k, β). В более общем случае, генератор 110 информации выполнен с возможностью генерации информации понижающего микширования d(m, k, β), комбинируя спектральные значения Xi(m,k) каждого из двух или более входных звуковых каналов вторым способом. Способ, с помощью которого генерируется информация понижающего микширования ("второй способ") отличается от способа, каким генерируется информация сигнала ("первый способ") и, таким образом, второй способ отличается от первого способа.

Генератор 110 информации выполнен с возможностью генерации информации сигнала путем комбинирования спектральных значений каждого из упомянутых двух или более входных аудиоканалов первым способом. Помимо этого, генератор 110 информации выполнен с возможностью генерации информации понижающего микширования путем комбинирования спектральных значений каждого из упомянутых двух или более входных аудиоканалов вторым способом, отличным от первого способа.

На верхнем графике Фиг. 2 показано отношение сигнал-понижающее микширование R(m, k; 1) для N=2 как функция ICLD , показанная для ∈ {0, 0,2, 0,4, 0,6, 0,8, 1}. На нижнем графике Фиг. 2 показано отношение сигнал-понижающее микширование R(m, k; 1) для N=2 как функция ICC и ICLD в виде 2D графика с цветовой кодировкой.

В частности, на фиг. 2 показано SDR для N=2 как функция ICC и ICLD , с

(10)

и

(11)

Фиг. 2 демонстрирует, что SDR имеет следующие свойства:

1. SDR монотонно по отношению как к так и .

2. Для диффузных входных сигналов, т.е. , SDR принимает максимальное значение R(m, k; 1)=1.

3. Для прямых звуковых сигналов панорамированных в центр, т.е. , SDR принимает его минимальное значение Rmin, где Rmin=0,5 для N=2.

Благодаря этим свойствам, соответствующие спектральные веса для масштабирования центрального сигнала могут быть вычислены из SDR с помощью монотонно убывающих функций для выделения центральных сигналов и монотонно возрастающих функций для ослабления центральных сигналов.

Для выделения центрального сигнала подходящими функциями R(m, k; β) являются, например,

(12)

и

(13),

где введен параметр управления максимальным ослаблением.

Для ослабления центрального сигнала подходящими функции R(m, k; β) являются, например,

(14)

и

(15)

Фиг. 3 и 4 иллюстрируют функции усиления (13) и (15), соответственно, для β=1, γ=3. Спектральные веса постоянны для . Максимальное ослабление γ 6 дБ, что также относится к функциям усиления (12) и (14).

В частности, на фиг. 3 показаны спектральные веса Gc2(m, k; 1, 3) в дБ как функция ICC и ICLD .

Помимо этого, на фиг. 4 показаны спектральные веса Gc2(m, k; 1, 3) в дБ как функция ICC и ICLD .

Далее, на фиг. 5 показаны спектральные веса Gc2(m, k; 2, 3) в дБ как функция ICC и ICLD .

Влияние параметра β показано на Фиг. 5 для функции усиления согласно уравнению (13) с β=2, γ=3. При больших значениях β, влияние Ψ на спектральные веса уменьшается, тогда как влияние возрастает. При сравнении с функцией усиления на фиг. 3 видно, что это приводит к более высокому уровню проникновения диффузных компонентов сигнала в выходной сигнал и к более сильному ослаблению прямых компонентов сигнала панорамированных со смещением от центра.

Пост-обработка спектральных весов: До спектрального взвешивания, веса G(m, k; β, γ) могут быть дополнительно обработаны посредством сглаживания. Низкочастотная фильтрация с нулевой фазой по оси частот уменьшает артефакты круговой свертки, которые могут возникнуть, например, если дополнение нулями при вычислении STFT слишком короткое или применяется прямоугольное окно синтеза. Низкочастотная фильтрация по оси частот может уменьшить артефакты обработки, особенно в случае небольшой постоянной времени для оценки PSD.

Ниже описаны обобщенные спектральные веса.

Более общие спектральные веса получаются при перезаписи уравнения (9) следующим образом

(16)