Способ и устройство для разложения стереофонической записи с использованием обработки в частотной области, применяющей генератор спектральных весов

Иллюстрации

Показать все

Изобретение относится к средствам для формирования стереофонического бокового сигнала из стереофонического входного сигнала. Технический результат заключается в обеспечении возможности формирования дополнительных каналов из стереофонического входного сигнала. Устройство содержит генератор информации об изменении для формирования информации об изменении на основании информации о среднем/боковом сигнале. Кроме того, устройство содержит блок манипулирования сигналами, выполненный с возможностью манипулирования первым входным каналом на основании информации об изменении для получения первого бокового канала, и выполненный с возможностью манипулирования вторым входным каналом на основании информации об изменении для получения второго бокового канала. Генератор информации об изменении содержит генератор спектральных весов для формирования информации об изменении путем формирования первого спектрального весового коэффициента на основании монофонического среднего сигнала и монофонического бокового сигнала в стереофоническом входном сигнале. 7 н. и 9 з.п. ф-лы, 24 ил., 1 табл.

Реферат

Настоящее изобретение относится к обработке звуковых сигналов и в частности к способу и устройству для разложения стереофонической записи с использованием обработки в частотной области.

В обработке звуковых сигналов достигнут прогресс во многих отношениях. В частности, системы объемного звучания становятся все более и более важными. Однако большинство музыкальных записей по-прежнему кодируется и передается в виде стереофонического сигнала, а не в виде многоканального сигнала. Поскольку системы объемного звучания содержат множество громкоговорителей, например четыре или пять динамиков, предметом многих исследований стало то, какие сигналы следует подавать во множество громкоговорителей, когда доступно только два входных сигнала.

В этом смысле важную роль играет преобразование формата стереофонических сигналов для воспроизведения с использованием систем объемного звучания, то есть повышающее микширование. Термин «повышающее микширование m в n» описывает преобразование m-канального звукового сигнала в звуковой сигнал с n каналами, где n>m. Широко известны два подхода к повышающему микшированию: повышающее микширование с дополнительной информацией, управляющей процессом повышающего микширования, и неуправляемое («слепое») повышающее микширование без использования какой-либо дополнительной информации, которому здесь уделяется внимание.

В литературе описаны два разных подхода к процессу повышающего микширования. Этими идеями является прямой/основанный на окружении подход и «внутриполосный» подход. Основной составляющей прямых/основанных на окружении методик является извлечение окружающего сигнала, который подается в тыловые каналы многоканального сигнала объемного звучания. Окружающие звуки являются звуками, формирующими ощущение (виртуальной) среды прослушивания, включая реверберацию в помещении, зрительские звуки (например, аплодисменты), звуки окружающей среды (например, дождь), звуки для художественных эффектов (например, потрескивание винила) и фоновый шум. Воспроизведение окружения с использованием тыловых каналов вызывает у слушателя ощущение «обволакивания» («погружения в звук»). Кроме того, источники прямого звука распределяются по передним каналам в соответствии с их положением в стереофонической панораме.

«Внутриполосный» подход направлен на размещение всех звуков (прямой звук, а также окружающие звуки) вокруг слушателя с использованием всех доступных громкоговорителей. Положения источников звука, воспринимаемые при воспроизведении формата повышающего микширования, в идеале зависят от их воспринимаемых положений в стереофоническом входном сигнале. Этот подход может быть реализован с использованием предложенной обработки сигналов.

Ранее разработаны различные подходы к повышающему микшированию в частотной области [9, 10]. Они предпринимают попытку разложения входного сигнала на составляющую прямого и окружающего сигнала и разложения на основании пространственных положений источников звука. Составляющие окружающего сигнала идентифицируются на основании показателей межканальной когерентности между левым и правым каналом. Основанное на направлении разложение достигается на основании подобия величин спектральных коэффициентов. Заявка на патент US 2009/0080666 описывает способ извлечения окружающего сигнала с использованием спектрального взвешивания.

US 2010/0030563 описывает способ извлечения окружающего сигнала для применения повышающего микширования. Этот способ использует спектральное вычитание. Представление частотно-временной области получают из разности представления частотно-временной области у входного сигнала и его сжатой версии, предпочтительно вычисленной с использованием неотрицательной матричной факторизации.

US 2010/0296672 описывает способ повышающего микширования в частотной области, использующий векторное разложение сигнала. Это разложение направлено на извлечение центрированного канала в отличие от разложения прямого/окружающего сигнала [13]. Вычисляется выходной сигнал для центрального канала, который содержит всю информацию, общую для сигналов левого и правого входных каналов. Разностный сигнал у входных сигналов и сигналов центрального канала вычисляется для сигналов левого и правого выходных каналов.

Задача настоящего изобретения состоит в создании усовершенствованных концепций формирования дополнительных каналов из стереофонического входного сигнала, содержащего первый входной канал и второй входной канал. Задача настоящего изобретения решается устройством для формирования стереофонического бокового сигнала по п. 1 формулы, устройством для формирования стереофонического среднего сигнала по пункту 10 формулы, способом формирования стереофонического бокового сигнала по п. 12 формулы, способом формирования стереофонического среднего сигнала по п. 13 формулы и компьютерной программой по п. 15 формулы.

Предложено устройство для формирования стереофонического бокового сигнала, содержащего первый боковой канал и второй боковой канал, из стереофонического входного сигнала, содержащего первый входной канал и второй входной канал. Устройство содержит генератор информации об изменении для формирования информации об изменении на основании информации о среднем/боковом сигнале. Кроме того, устройство содержит блок манипулирования сигналами, выполненный с возможностью манипулирования первым входным каналом на основании информации об изменении для получения первого бокового канала, и выполненный с возможностью манипулирования вторым входным каналом на основании информации об изменении для получения второго бокового канала.

Генератор информации об изменении может содержать спектральный вычитатель для формирования информации об изменении путем формирования значения разности, указывающего разность между монофоническим средним сигналом или монофоническим боковым сигналом и первым или вторым входным каналом. Либо генератор информации об изменении может содержать генератор спектральных весов для формирования информации об изменении путем формирования первого спектрального весового коэффициента на основании монофонического среднего сигнала и монофонического бокового сигнала в стереофоническом входном сигнале.

Информация о среднем/боковом сигнале может быть монофоническим средним сигналом в стереофоническом входном сигнале, монофоническим боковым сигналом в стереофоническом входном сигнале и/или отношением между монофоническим средним сигналом и монофоническим боковым сигналом в стереофоническом входном сигнале. В варианте осуществления генератор информации об изменении выполнен с возможностью формирования информации об изменении на основании монофонического среднего сигнала в стереофоническом входном сигнале или на основании монофонического бокового сигнала в стереофоническом входном сигнале в качестве информации о среднем/боковом сигнале.

В соответствии с вариантом осуществления стереофоническая запись раскладывается на боковой и средний сигнал, которые, в отличие от обычного среднебокового (M-S) разложения, являются стереофоническими сигналами. Может применяться разделение сигналов, использующее фазовую нейтрализацию как в обычной M-S-обработке, совместно с обработкой в частотной области, а именно спектральным вычитанием или спектральным взвешиванием. Выведенные сигналы могут применяться для воспроизведения звуковых сигналов с дополнительными каналами воспроизведения.

Устройство в соответствии с вариантом осуществления раскладывает 2-канальную стереофоническую запись на стереофонический боковой сигнал и стереофонический средний сигнал. Стереофонический боковой сигнал обладает двумя основными характеристиками. Во-первых, он содержит все составляющие сигнала за исключением тех, которые панорамированы в центр. В этой связи он аналогичен боковому сигналу, который известен из среднебоковой обработки стереофонических сигналов. Фактически, он содержит такие же составляющие сигнала, как и боковой сигнал, выведенный посредством обычного M-S-разложения.

Важное отличие между предложенным стереофоническим боковым сигналом и обычным боковым сигналом описывается стереофоническим свойством: стереофонический боковой сигнал является 2-канальным стереофоническим сигналом в отличие от традиционного бокового сигнала, который является монофоническим. Левый канал стереофонического бокового сигнала содержит все составляющие сигнала, которые панорамированы к левой стороне во входном сигнале. Правый канал стереофонического сигнала содержит все составляющие сигнала, которые панорамированы к правой стороне.

Стереофонический средний сигнал является стереофоническим сигналом, который содержит все составляющие, которые существуют в обоих входных каналах. Он является 2-канальным стереофоническим сигналом и содержит меньше стереофонической информации по сравнению с входным сигналом и по сравнению со стереофоническим боковым сигналом, но он не является монофоническим сигналом, как традиционный средний сигнал. Он содержит такие же составляющие сигнала, как и традиционный средний сигнал, но вместе с исходной стереофонической информацией.

В соответствии с вариантом осуществления генератор информации об изменении содержит спектральный вычитатель. Спектральный вычитатель может быть выполнен с возможностью формирования информации об изменении путем вычитания значения величины или взвешенного значения величины первого или второго входного канала из значения величины или взвешенного значения величины монофонического среднего сигнала или монофонического бокового сигнала в стереофоническом входном сигнале. Либо спектральный вычитатель может быть выполнен с возможностью формирования информации об изменении путем вычитания значения величины или взвешенного значения величины монофонического среднего сигнала или монофонического бокового сигнала в стереофоническом входном сигнале из значения величины или взвешенного значения величины первого или второго входного канала.

Кроме того, генератор информации об изменении может содержать определитель величины. Определитель величины может быть выполнен с возможностью приема по меньшей мере одного из первого входного канала, второго входного канала, монофонического среднего сигнала или монофонического бокового сигнала, представляемых в спектральной области, в качестве принятого входного сигнала величины. Кроме того, определитель величины может быть выполнен с возможностью определения по меньшей мере одного значения величины у каждого принятого входного сигнала величины и может быть выполнен с возможностью передачи по меньшей мере одного значения величины у каждого принятого входного сигнала величины в спектральный вычитатель.

В варианте осуществления спектральный вычитатель содержит первый блок спектрального вычитания и второй блок спектрального вычитания, причем определитель величины выполнен с возможностью приема первого и второго входного канала и монофонического среднего сигнала, причем определитель величины выполнен с возможностью определения первого значения величины у первого входного канала, второго значения величины у второго входного канала и третьего значения величины у монофонического среднего сигнала, причем определитель величины выполнен с возможностью передачи первого, второго и третьего значения величины в спектральный вычитатель. Первый блок спектрального вычитания может быть выполнен с возможностью осуществления первого спектрального вычитания на основании первого значения величины у первого входного канала и третьего значения величины у монофонического среднего сигнала, чтобы получить первое стереофоническое боковое значение величины у первого стереофонического бокового сигнала, и причем второй блок спектрального вычитания выполнен с возможностью осуществления второго спектрального вычитания на основании второго значения величины у второго входного канала и третьего значения величины у монофонического среднего сигнала, чтобы получить второе стереофоническое боковое значение величины у второго стереофонического бокового сигнала.

Первый блок спектрального вычитания может быть выполнен с возможностью осуществления первого спектрального вычитания путем применения формулы:

где указывает первый стереофонический боковой спектр величины, когда результат спектрального вычитания положительный, причем |Xl(f)| указывает первый спектр величины у первого входного канала, причем |M1(f)| указывает третий спектр величины у монофонического среднего сигнала, и причем w указывает скалярный множитель в диапазоне 0≤w≤1. Второй блок спектрального вычитания может быть выполнен с возможностью осуществления второго спектрального вычитания путем применения формулы:

причем указывает второй стереофонической боковой спектр величины, когда результат спектрального вычитания положительный, причем |Xr(f)| указывает второй спектр величины у первого входного канала, причем |M1(f)| указывает третий спектр величины у монофонического среднего сигнала, и причем w указывает скалярный множитель в диапазоне 0≤w≤1.

В варианте осуществления блок манипулирования сигналами может содержать блок извлечения фазы и объединитель. Блок извлечения фазы может быть выполнен с возможностью приема первого входного канала и второго входного канала, причем блок извлечения фазы выполнен с возможностью определения первого значения фазы у первого входного канала в качестве первого стереофонического бокового значения фазы и второго значения фазы у второго входного канала в качестве второго стереофонического бокового значения фазы. Блок извлечения фазы может быть выполнен с возможностью передачи первого стереофонического бокового значения фазы и второго стереофонического бокового значения фазы в объединитель, причем первый блок спектрального вычитания выполнен с возможностью передачи первого стереофонического бокового значения величины в объединитель, причем второй блок спектрального вычитания выполнен с возможностью передачи второго стереофонического бокового значения фазы в объединитель. Объединитель может быть выполнен с возможностью объединения первого стереофонического бокового значения величины и первого стереофонического бокового значения фазы, чтобы получить первый комплексный коэффициент первого спектра первого бокового канала. Кроме того, объединитель может быть выполнен с возможностью объединения второго стереофонического бокового значения величины и второго стереофонического бокового значения фазы, чтобы получить второй комплексный коэффициент второго спектра второго бокового канала.

В соответствии с вариантом осуществления генератор информации об изменении содержит генератор спектральных весов для формирования информации об изменении путем формирования первого спектрального весового коэффициента, причем первый спектральный весовой коэффициент зависит от монофонического среднего сигнала и монофонического бокового сигнала в стереофоническом входном сигнале.

Генератор информации об изменении может дополнительно содержать определитель величины. Определитель величины может быть выполнен с возможностью приема монофонического среднего сигнала, представляемого в спектральной области. Определитель величины может быть выполнен с возможностью приема монофонического бокового сигнала, представляемого в спектральной области, причем определитель величины выполнен с возможностью определения значения величины у монофонического бокового сигнала в качестве бокового значения величины, и при этом определитель величины выполнен с возможностью определения значения величины у монофонического среднего сигнала в качестве среднего значения величины. Определитель величины может быть выполнен с возможностью передачи бокового значения величины и среднего значения величины в генератор спектральных весов. Генератор спектральных весов может быть выполнен с возможностью формирования первого спектрального весового коэффициента на основании отношения первого числа ко второму числу, причем первое число зависит от бокового значения величины, и причем второе число зависит от среднего значения величины и бокового значения величины.

В дополнительном варианте осуществления генератор спектральных весов выполнен с возможностью формирования коэффициента изменения в соответствии с формулой

причем |S(f)| указывает значение величины у монофонического бокового сигнала, причем |M(f)| указывает значение величины у монофонического среднего сигнала, и причем α, β, γ и δ являются скалярными множителями. В варианте осуществления α и β больше 0 (α>0; β>0); а γ и δ выбраны так, что 0≤γ≤1 и 0≤δ≤1. Предпочтительно, чтобы 4≥α>0 и 4≥β>0.

Кроме того, генератор спектральных весов может быть выполнен с возможностью формирования коэффициента модификации в соответствии с формулой:

либо при этом генератор спектральных весов выполнен с возможностью формирования коэффициента модификации в соответствии с формулой:

при

причем |S(f)| указывает спектр величины у монофонического бокового сигнала, причем |M(f)| указывает спектр величины у монофонического бокового сигнала, причем |Xl(f)| указывает спектр величины у первого входного канала, причем |Xr(f)| указывает спектр величины у первого входного канала, где M(f) указывает монофонический средний сигнал, и причем α, β, γ, δ и η являются скалярными множителями.

В соответствии с вариантом осуществления генератор информации об изменении выполнен с возможностью формирования информации об изменении на основании монофонического среднего сигнала в стереофоническом входном сигнале или на основании монофонического бокового сигнала в стереофоническом входном сигнале в качестве информации о среднем/боковом сигнале. Монофонический средний сигнал может зависеть от суммарного сигнала, получающегося в результате сложения первого и второго входного канала. Монофонический боковой сигнал может зависеть от разностного сигнала, получающегося в результате вычитания второго входного канала из первого входного канала.

Кроме того, устройство может дополнительно содержать генератор канала, причем генератор канала выполнен с возможностью формирования монофонического среднего сигнала или монофонического бокового сигнала на основании первого и второго входного канала.

Кроме того, устройство может дополнительно содержать блок преобразования для преобразования первого и второго входного канала в стереофоническом входном сигнале из временной области в спектральную область и блок обратного преобразования. Блок манипулирования сигналами может быть выполнен с возможностью манипулирования первым входным каналом, представляемым в спектральной области, и вторым входным каналом, представляемым в спектральной области, чтобы получить стереофонический боковой сигнал, представляемый в спектральной области. Блок обратного преобразования может быть выполнен с возможностью преобразования стереофонического бокового сигнала, представляемого в спектральной области, из спектральной области во временную область.

В варианте осуществления устройство может быть выполнено с возможностью формирования стереофонического среднего сигнала, содержащего первый средний канал и второй средний канал. Первый средний канал может формироваться на основании разности между первым стереофоническим входным каналом и первым боковым каналом. Второй средний канал может формироваться на основании разности между вторым стереофоническим входным каналом и вторым боковым каналом.

В соответствии с другим вариантом осуществления предоставляется устройство для формирования стереофонического среднего сигнала, содержащего первый средний канал и второй средний канал, из стереофонического входного сигнала, содержащего первый входной канал и второй входной канал. Устройство содержит генератор информации об изменении для формирования информации об изменении на основании информации о среднем/боковом сигнале и блок манипулирования сигналами, приспосабливаемый для манипулирования первым входным каналом на основании информации об изменении, чтобы получить первый средний канал, и приспосабливаемый для манипулирования вторым входным каналом на основании информации об изменении, чтобы получить второй средний канал.

В соответствии с вариантом осуществления генератор информации об изменении может содержать генератор спектральных весов для формирования информации об изменении путем формирования первого спектрального весового коэффициента. Первый спектральный весовой коэффициент может зависеть от монофонического среднего сигнала и монофонического бокового сигнала в стереофоническом входном сигнале. Генератор информации об изменении может дополнительно содержать определитель величины, причем определитель величины выполнен с возможностью определения значения величины у монофонического бокового сигнала, представляемого в спектральной области, в качестве бокового значения величины, и при этом определитель величины выполнен с возможностью определения значения величины у монофонического среднего сигнала, представляемого в спектральной области, в качестве среднего значения величины. Определитель величины может быть выполнен с возможностью передачи бокового значения величины и среднего значения величины в генератор спектральных весов. Генератор спектральных весов может быть выполнен с возможностью формирования первого спектрального весового коэффициента на основании отношения первого числа ко второму числу, причем первое число зависит от бокового значения величины, и причем второе число зависит от среднего значения величины и бокового значения величины.

Генератор спектральных весов может быть выполнен с возможностью формирования коэффициента модификации в соответствии с формулой

причем |M(f)| указывает спектр величины у монофонического среднего сигнала, где |S(f)| указывает спектр величины у монофонического бокового сигнала, и где α, β, γ и δ являются скалярными множителями. В варианте осуществления α и β больше 0 (α>0; β>0); а γ и δ выбираются так, что 0≤γ≤1 и 0≤δ≤1. Предпочтительно, чтобы 4≥α>0 и 4≥β>0.

Варианты осуществления настоящего изобретения объясняются со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1 иллюстрирует устройство для формирования стереофонического бокового сигнала в соответствии с вариантом осуществления,

Фиг. 1a иллюстрирует устройство для формирования стереофонического бокового сигнала в соответствии с вариантом осуществления, в котором генератор информации о манипуляции содержит спектральный вычитатель,

Фиг. 1b иллюстрирует устройство для формирования стереофонического бокового сигнала в соответствии с вариантом осуществления, в котором генератор информации об изменении содержит генератор спектральных весов,

Фиг. 2 иллюстрирует спектральный вычитатель в соответствии с вариантом осуществления,

Фиг. 3 иллюстрирует генератор информации об изменении в соответствии с вариантом осуществления,

Фиг. 4 иллюстрирует устройство для формирования стереофонического бокового сигнала и стереофонического среднего сигнала для осуществления спектрального вычитания в соответствии с вариантом осуществления,

Фиг. 5 иллюстрирует устройство для формирования стереофонического бокового сигнала и стереофонического среднего сигнала в соответствии с другим вариантом осуществления,

Фиг. 6 иллюстрирует устройство для формирования стереофонического бокового сигнала, причем устройство содержит генератор спектральных весов в соответствии с вариантом осуществления,

Фиг. 7 иллюстрирует устройство для формирования стереофонического бокового сигнала, причем устройство содержит генератор спектральных весов в соответствии с другим вариантом осуществления,

Фиг. 8 иллюстрирует устройство для формирования стереофонического бокового сигнала, причем устройство содержит генератор спектральных весов в соответствии с дополнительным вариантом осуществления,

Фиг. 9 иллюстрирует генератор информации об изменении, причем устройство содержит генератор спектральных весов и генератор величины в соответствии с вариантом осуществления,

Фиг. 10 иллюстрирует устройство для формирования стереофонического среднего сигнала в соответствии с вариантом осуществления,

Фиг. 10a иллюстрирует устройство для формирования стереофонического среднего сигнала в соответствии с вариантом осуществления, в котором генератор информации о манипуляции содержит спектральный вычитатель,

Фиг. 10b иллюстрирует устройство для формирования стереофонического среднего сигнала в соответствии с вариантом осуществления, в котором генератор информации об изменении содержит генератор спектральных весов,

Фиг. 11 иллюстрирует примерные усиления для стереофонических боковых сигналов и стереофонических средних сигналов,

Фиг. 12 иллюстрирует результаты спектрального взвешивания для стереофонических боковых сигналов и стереофонических средних сигналов,

Фиг. 13 иллюстрирует устройство для формирования стереофонического бокового сигнала в соответствии с дополнительным вариантом осуществления,

Фиг. 14 иллюстрирует устройство для формирования стереофонического бокового сигнала в соответствии с дополнительным вариантом осуществления,

Фиг. 15 иллюстрирует устройство повышающего микширования в соответствии с вариантом осуществления,

Фиг. 16 иллюстрирует примерную квадрафоническую систему воспроизведения, использующую результаты предложенной обработки сигналов,

Фиг. 17 изображает блок-схему, иллюстрирующую обработку для формирования многоканального сигнала, подходящего для воспроизведения с помощью 5 каналов,

Фиг. 18 изображает блок-схему M-S-разложения,

Фиг. 19 изображает блок-схему, иллюстрирующую спектральное взвешивание, и

Фиг. 20 иллюстрирует типичные спектральные веса, которые используются в коррекции речевых сигналов.

УРОВЕНЬ ТЕХНИКИ

Перед описанием предпочтительных вариантов осуществления настоящего изобретения будут описаны соответствующие идеи, в частности будет объяснена M-S-обработка, основные положения спектрального вычитания и спектрального взвешивания.

Сначала будет более подробно описана среднебоковая обработка. Чтобы объяснить, каким образом вычисляются стереофонические боковые и средние сигналы, кратко рассматриваются основы обычной M-S-обработки. 2-канальный стереофонический сигнал x(t) можно представить двумя сигналами xl(t) и xr(t) соответственно для левого и правого канала с указателем t времени. Термины «левый» и «правый» указывают, что в конечном счете эти сигналы подаются соответственно в левое и правое ухо (используя громкоговорители или наушники) либо воспроизводятся соответственно левым и правым каналом в системе воспроизведения звука.

Предполагая, что стереофонический сигнал является смесью N сигналов zi источника, i=1, …, N, xl(t) и xr(t) можно переписать в виде

где hli(t), hri(t) являются передаточными функциями, описывающими то, как источники смешиваются в стереофонический сигнал, * является операцией свертывания, а nl(t), nr(t) являются некоррелированными окружающими сигналами. В случае микширования с использованием только амплитудного панорамирования, что часто имеет место для студийных записей, hli(t) и hri(t) являются скалярными. Результатом этого процесса микширования является то, что в литературе известно как мгновенные смеси, в отличие от свернутых смесей (в случаях, когда hli(t) и hri(t) имеют длину больше единицы). Отбрасывая окружающие элементы nl(t), nr(t), модель сигналов для мгновенного микширования можно переписать в виде

при этом коэффициент 0≤ai(t)≤1 микширования определяет воспринимаемое направление сигналов источника и смеси.

Та же информация, что содержится в сигнале x(t)=[xl(t) xr(t)], обеспечивается при использовании M-S-представления сигнала, причем средний сигнал m1(t) (также называемый суммарным сигналом) и боковой сигнал s1(t) (также называемый разностным сигналом) вычисляются из xl(t) и xr(t) в соответствии с:

Нижние индексы 1 используются для обозначения, что эти сигналы являются монофоническими. Такой M-S-сигнал полезен для различных применений, причем боковой и средний сигнал обрабатываются, кодируются или передаются отдельно. Такими применениями являются звукозапись, искусственное улучшение стереофонического образа, кодирование звука для воспроизведения на виртуальных громкоговорителях, воспроизведения с бинауральным эффектом в громкоговорителях и квадрафонического воспроизведения.

С учетом M-S-представления сигналы xl(t) и xr(t) могут вычисляться в соответствии с:

На фиг. 18 иллюстрируется M-S-разложение.

Оба представления содержат одинаковую информацию. Отметим, что нормализующие веса 0,5 в уравнениях (5) и (6) являются необязательными, и возможны другие веса, но показанный здесь вес гарантирует, что применение уравнений с (5) по (8) приведет к сигналам, которые идентичны входным сигналам. Использование других весов может привести к аналогичным или масштабированным сигналам.

Из модели сигналов и уравнений (3) и (4) следует, что сигнал s1(t) содержит только составляющие сигнала, которые панорамированы со смещением от центра (некоторые из них с отрицательной фазой), и является монофоническим сигналом. Средний сигнал m1(t) содержит все сигналы за исключением сигналов в s1(t). Описывая словами Майкла Герзона (Michael Gerzon), «M является сигналом, содержащим информацию о среднем сигнале из стереофонической сцены, тогда как S содержит только информацию о боковых сигналах». Оба являются монофоническими сигналами. Хотя амплитудно-панорамированные прямые звуки затухают в боковом сигнале в зависимости от их положения в стереофонической панораме, некоррелированные составляющие сигнала типа реверберации и других окружающих сигналов затухают в среднем сигнале на 3 дБ (для нулевой корреляции). Эти затухания обусловлены фазовой нейтрализацией между боковыми составляющими в левом и правом канале.

Ниже подробнее объясняется спектральное вычитание и спектральное взвешивание.

Спектральное вычитание является широко известным способом для коррекции речевых сигналов и шумоподавления. Оно было предложено (возможно, первоначально) Боллом (Boll) для уменьшения воздействий аддитивного шума в речевой связи [2]. Обработка выполняется в частотной области, где обрабатываются спектры коротких кадров последовательных (возможно, совпадающих) частей входного сигнала.

Основной принцип состоит в вычитании оценки спектра величины мешающего шумового сигнала из спектров величин входных сигналов, которые предполагаются смесью нужного речевого сигнала и мешающего шумового сигнала.

Спектральное взвешивание (или Краткосрочное спектральное затухание [3]) широко используется в различных применениях обработки звуковых сигналов, например в Коррекции речевых сигналов [4] и Слепом разделении источников. Как и в спектральном вычитании, целью этой обработки является отделение нужного сигнала d(t) или ослабление мешающего сигнала n(t), причем входной сигнал x(t) является аддитивной смесью d(t) и n(t),

Эта обработка иллюстрируется на фиг. 19. Обработка сигналов выполняется в частотной области. Поэтому входной сигнал x(t) преобразуется с использованием Оконного преобразования Фурье (STFT), гребенки фильтров или любого другого средства для выведения представления сигнала с несколькими полосами X(f, k) частот, с индексом f полосы частот и указателем k времени. Представление входных сигналов в частотной области обрабатывается так, что сигналы поддиапазонов масштабируются с помощью изменяющихся во времени весов G(f, k),

Веса вычисляются из представления X(f, k) входного сигнала так, что они имеют большие величины для высоких отношений сигнал-шум (SNR) и низкие значения для небольших SNR. Для вычисления весов G(f, k) необходима оценка обычно зависящего от времени и частоты SNR, или N(f, k) или S(f, k). В применениях по обработке речевых сигналов оценка шума вычисляется во время отсутствия речевой активности [2, 5], или с использованием минимальных статистик [6], то есть на основании отслеживания локальных минимумов в каждом поддиапазоне, или с использованием второго микрофона рядом с источником шума.

Результатом операции взвешивания Y(f, k) является представление выходного сигнала в частотной области. Выходной временной сигнал y(t) вычисляется с использованием обратной обработки к преобразованию в частотной области, например, Обратного STFT.

Часто веса G(f, k) выбираются вещественнозначными, что приводит к выходным спектрам Y, имеющим такую же информацию о фазе, что и X. Существуют различные правила получения, например, как вычисляются веса G(f, k), например, выводятся из спектрального вычитания и фильтрации Винера. Ниже будут описываться разные способы для выведения спектральных весов. Предполагается, что s и n взаимно ортогональны, то есть

Ниже подробнее объясняется фильтрация Винера. С учетом оценок спектральных плотностей мощности (PSD) (например, выведенных из коэффициентов STFT) у нужного сигнала Pdd и мешающего сигнала Pnn спектральные веса выводятся путем минимизации среднеквадратической ошибки

Теперь объясняется спектральное вычитание, использующее спектральное взвешивание.

Спектральные веса вычисляются так, что Pyy=Pxx-Pnn, то есть

В качестве альтернативы можно вывести вещественнозначные спектральные веса, которые приводят к |Y|=|X|-|N|, часто называемому спектральным вычитанием величины, с весами

|D| является спектром величины у d(t). |N| является спектром величины у n(t). Теперь объясняется обобщение правила спектрального взвешивания. Обобщенная формулировка фильтра STSA выводится путем введения трех параметров α, β и γ, причем α и β являются экспонентами, управляющими силой затухания, а γ является коэффициентом переоценки шума.

Уравнение (15) является обобщенной формулировкой описанных выше правил подавления шумов, причем α=2, β=2 соответствует спектральному вычитанию, а α=2, β=1 соответствует фильтрации Винера. Спектральное вычитание величины (вместо энергий) реализуется путем задания α=1, β=1. Параметр γ управляет количеством шума и учитывает возможные отклонения способа оценки шума. Он может выбираться связанным с оцененным SNR или с индексом частоты.

На фиг. 20 типичные спектральные