Устройство и способ для разложения входного сигнала с использованием понижающего микшера

Иллюстрации

Показать все

Изобретение относится к аудиообработке и, в частности, к разложению аудиосигналов на различные компоненты. Технический результат - повышение точности воспроизведения стереофонического звука. Для этого устройство для разложения входного сигнала, имеющего, по меньшей мере, три входных канала, содержит понижающий микшер для понижающего микширования входного сигнала, чтобы получать микшированный с понижением сигнал, имеющий меньшее число каналов, анализатор для анализа микшированного с понижением сигнала, чтобы выводить результат анализа, который перенаправляется в процессор сигналов для обработки входного сигнала или сигнала, выведенного из входного сигнала, чтобы получать разложенный сигнал. 3 н. и 12 н.п. ф-лы, 16 ил.

Реферат

Настоящее изобретение относится к аудиообработке и, в частности, к разложению аудиосигналов на различные компоненты, к примеру различные по восприятию компоненты.

Слуховая система человека воспринимает звук со всех направлений. Воспринимаемое слуховое (прилагательное "слуховой" обозначает то, что воспринимается, в то время как слово "звук" используется для того, чтобы описывать физические явления) окружение создает впечатление от акустических свойств окружающего пространства и возникающих звуковых событий. Слуховое впечатление, воспринимаемое в конкретном звуковом поле, может (по меньшей мере, частично) моделироваться с учетом трех различных типов сигналов на входах в уши: прямой звук, ранние отражения и рассеянные отражения. Эти сигналы способствуют формированию воспринимаемого слухового пространственного изображения.

Прямой звук обозначает волны каждого звукового события, которые первыми достигают слушателя непосредственно из источника звука без искажений. Это является характеристикой для источника звука и предоставляет наименее компрометируемую информацию относительно направления падения звукового события. Первичными метками для оценки направления источника звука в горизонтальной плоскости являются разности между входными сигналами в левое и правое ухо, а именно интерауральные разности времен (ITD) и интерауральные разности уровней (ILD). Затем множество отражений прямого звука поступают в уши из различных направлений и с различными относительными временными задержками и уровнями. С увеличением временной задержки, относительно прямого звука, плотность отражений возрастает до тех пор, пока они не составляют статистическую помеху.

Отраженный звук способствует восприятию расстояния и слуховому пространственному впечатлению, которое состоит, по меньшей мере, из двух компонентов: кажущаяся ширина источника (ASW) (другим общеупотребительным термином для ASW является объемность слышимости) и круговое охватывание слушателя (LEV). ASW задается как расширение кажущейся ширины источника звука и определяется главным образом посредством ранних латеральных отражений. LEV означает чувство охватывания звуком у слушателя и определяется главным образом посредством поздно поступающих отражений. Цель воспроизведения электроакустического стереофонического звука состоит в том, чтобы вызывать восприятие приятного слухового пространственного изображения. Это может иметь естественную или архитектурную природу (например, запись концерта в зале), либо это может быть звуковое поле, которое не является существующим в реальности (например, электроакустическая музыка).

Из области техники акустики концертных залов известно, что для того, чтобы получать субъективно приятное звуковое поле, важным является сильное чувство слухового пространственного впечатления, неотъемлемой частью которого является LEV. Интерес представляет способность компоновок громкоговорителей воспроизводить охватывающее звуковое поле посредством воспроизведения рассеянного звукового поля. В синтетическом звуковом поле невозможно воспроизводить все естественные отражения с использованием специализированных преобразователей. Это является, в частности, истинным для рассеянных поздних отражений. Свойства тактирования и уровней рассеянных отражений могут быть моделированы посредством использования "реверберированных" сигналов в качестве входных сигналов громкоговорителей. Если они достаточно декоррелированы, число и местоположение громкоговорителей, используемых для воспроизведения, определяет то, воспринимается или нет звуковое поле как рассеянное. Цель состоит в том, чтобы вызывать восприятие непрерывного, рассеянного звукового поля с использованием только дискретного числа преобразователей. Иными словами, создаются звуковые поля, где ни одно направление поступления звука не может быть оценено, и, в частности, не может быть локализован ни один преобразователь. Субъективная рассеянность синтетических звуковых полей может быть оценена в субъективных тестах.

Воспроизведение стереофонического звука нацелено на вызывание восприятия непрерывного звукового поля с использованием только дискретного числа преобразователей. Характеристиками, требуемыми в наибольшей степени, являются направленная устойчивость локализованных источников и реалистичное воспроизведение окружающего слухового окружения. Большая часть форматов, используемых сегодня для того, чтобы сохранять или транспортировать стереофонические записи, основана на канале. Каждый канал передает сигнал, который предназначен для воспроизведения по ассоциированному громкоговорителю в конкретной позиции. Конкретное слуховое изображение рассчитывается во время процесса записи или микширования. Это изображение точно воссоздается, если компоновка громкоговорителей, используемая для воспроизведения, напоминает целевую компоновку, для которой рассчитана запись.

Число подходящих каналов передачи и воспроизведения постоянно растет, и при появлении каждого нового формата звуковоспроизведения возникает потребность выполнять воспроизведение контента в традиционном формате в фактической системе воспроизведения. Алгоритмы повышающего микширования (с увеличением числа каналов) представляют собой решение для осуществления этой потребности за счет вычисления сигнала с большим числом каналов из традиционного сигнала. Ряд алгоритмов повышающего стереомикширования предложен в литературе, например, в работах Carlos Avendano и Jean-Marc Jot "A frequency-domain approach to multichannel upmix", Journal of the Audio Engineering Society, издание 52, № 7/8, стр. 740-749, 2004 год; Christof Faller "Multiple-loudspeaker playback of stereo signals", Journal of the Audio Engineering Society, издание 54, № 11, стр. 1051-1064, ноябрь 2006 года; John Usherand Jacob Benesty "Enhancement of spatial sound quality: A new reverberation-extraction audio upmixer", IEEE Transactions on Audio, Speech and Language Processing, издание 15, № 7, стр. 2141-2150, сентябрь 2007 года. Большинство этих алгоритмов основано на разложении на прямые/окружающие сигналы с последующим воспроизведением, адаптированным к целевой компоновке громкоговорителей.

Описанные разложения на прямые/окружающие сигналы не являются легко применимыми к многоканальным сигналам объемного звучания. Непросто сформулировать модель для сигналов и фильтрацию для того, чтобы получать из N аудиоканалов соответствующие N прямых звуковых и N окружающих звуковых каналов. Простая модель для сигналов, используемая в стереослучае (см., например, работу Christof Faller, "Multiple-loudspeaker playback of stereo signals", Journal of the Audio Engineering Society, издание 54, № 11, стр. 1051-1064, ноябрь 2006 года), при условии что прямой звук, который должен быть коррелирован между всеми каналами, не охватывает отношений разнесения между каналами, которые могут существовать между каналами сигналов объемного звучания.

Общая цель воспроизведения стереофонического звука состоит в том, чтобы вызывать восприятие непрерывного звукового поля с использованием только ограниченного числа каналов передачи и преобразователей. Два громкоговорителя являются минимальным требованием для пространственного воспроизведения звука. Современные потребительские системы зачастую предлагают большее число каналов воспроизведения. По существу, стереофонические сигналы (независимые от числа каналов) записываются или смешиваются таким образом, что для каждого источника прямой звук становится когерентным (=зависимым от) с числом каналов с конкретными направленными метками, и отраженные независимые звуки становятся числом каналов, определяющих метки для кажущейся ширины источника и кругового охватывания слушателя. Корректное восприятие целевого слухового изображения обычно является возможным только в идеальной точке наблюдения в компоновке для воспроизведения, для которой предназначена запись. Добавление дополнительных динамиков в данную компоновку громкоговорителей обычно обеспечивает более реалистичное восстановление/моделирование естественного звукового поля. Для того чтобы использовать в полной мере расширенную компоновку громкоговорителей, если входные сигналы предоставляются в другом формате, либо для того, чтобы обрабатывать различно воспринимаемые части входного сигнала, они должны быть отдельно доступными. Это подробное описание поясняет способ, чтобы разделять зависимые и независимые компоненты стереофонических записей, содержащих произвольное число нижеуказанных входных каналов.

Разложение аудиосигналов на различно воспринимаемые компоненты необходимо для высококачественной модификации сигналов, улучшения, адаптивного воспроизведения и перцепционного кодирования. Недавно предложен ряд способов, которые дают возможность обработки и/или извлечения различных по восприятию компонентов сигнала из двухканальных входных сигналов. Поскольку входные сигналы более чем с двумя каналами становятся все более распространенными, описанные обработки требуются также для многоканальных входных сигналов. Тем не менее, большинство принципов, описанных для двухканального входного сигнала, не могут быть легко переложены на работу с входными сигналами с произвольным числом каналов.

Если требуется выполнять анализ сигналов для прямых и окружающих частей, например, с помощью 5.1-канального сигнала объемного звучания, имеющего левый канал, центральный канал, правый канал, левый канал объемного звучания, правый канал объемного звучания и улучшение низких частот (сабвуфер), совсем не очевидно, как следует применять анализ прямых/окружающих сигналов. Можно вспомнить о сравнении каждой пары из шести каналов, приводящих к иерархической обработке, которая имеет, в конечном счете, до 15 различных операций сравнения. Затем, когда выполнены все из этих 15 операций сравнения, в которых каждый канал сравнивается с каждым другим каналом, следует определять то, как необходимо оценивать 15 результатов. Это отнимает много времени, результаты с трудом поддаются интерпретации и вследствие значительного объема ресурсов обработки не применимы, например, для вариантов применения для разделения на прямые/окружающие сигналы в реальном времени или, в общем, для разложений сигналов, которые могут быть, например, использованы в контексте повышающего микширования или любых других операций аудиообработки.

В работе M. M. Goodwin и J. M. Jot "Primary-ambient signal decomposition and vector-based localization for spatial audio coding and enhancement", в Proc. Of ICASSP 2007, 2007 год, анализ главных компонентов применяется к сигналам входного канала с тем, чтобы выполнять разложение на первичные (=прямые) и окружающие сигналы.

Модели, используемые в работах Christof Faller "Multiple-loudspeaker playback of stereo signals", Journal of the Audio Engineering Society, издание 54, № 11, стр. 1051-1064, ноябрь 2006 года, и C. Faller "A highly directive 2-capsule based microphone system", в Preprint 123rd Conv. Aud. Eng. Soc., октябрь 2007 года, предполагают декоррелированный или частично коррелированный рассеянный звук в стереосигналах и сигналах микрофонов соответственно. Они выводят фильтры для извлечения рассеянного/окружающего сигнала с учетом этого допущения. Эти подходы ограничены одно- и двухканальными аудиосигналами.

Дополнительным ссылочным материалом является C. Avendano и J.-M. Jot "A frequency-domain approach to multichannel upmix", Journal of the Audio Engineering Society, издание 52, № 7/8, стр. 740-749, 2004 год. Ссылочный материал M. M. Goodwin и J. M. Jot "Primary-ambient signal decomposition and vector-based localization for spatial audio coding and enhancement", в Proc. Of ICASSP 2007, 2007 год, содержит следующие комментарии по ссылочному материалу Avendano, Jot. Ссылочный материал предоставляет подход, который заключает в себе создание частотно-временной маски для того, чтобы извлекать окружающую часть из входного стереосигнала. Тем не менее, маска основана на взаимной корреляции между сигналами левого и правого каналов, так что этот подход не является сразу применимым к проблеме извлечения окружающей части из произвольного многоканального входного сигнала. Использование любого такого способа на основе корреляции для этого случая высшего порядка должно приводить к необходимости иерархического попарного корреляционного анализа, что влечет за собой значительные вычислительные затраты или некоторое альтернативное измерение многоканальной корреляции.

Пространственное воспроизведение на основе импульсной характеристики (SIRR) (работа Juha Merimaa и Ville Pulkki "Spatial impulse response rendering", в Proc. of the 7th Int. Conf. on Digital Audio Effects (DAFx'04), 2004 год) оценивает прямой звук с направлением и рассеянный звук в импульсных характеристиках в B-формате. Во многом аналогично SIRR, направленное кодирование аудио (DirAC) (работа Ville Pulkki "Spatial sound reproduction with directional audio coding", Journal of the Audio Engineering Society, издание 55, № 6, стр. 503-516, июнь 2007 года), реализует аналогичный анализ прямого и рассеянного звука для непрерывных аудиосигналов в B-формате.

Подход, представленный в работе Julia Jakka "Binaural to Multichannel Audio Upmix", Ph.D. thesis, Master's Thesis, Helsinki University of Technology, 2005 год, описывает повышающее микширование с использованием бинауральных сигналов в качестве входного сигнала.

Ссылочный материал Boaz Rafaely "Spatially Optimal Wiener Filtering in the Reverberant Sound Field", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics 2001, 21-24 октября 2001 года, New Paltz, Нью-Йорк, описывает выведение фильтров Винера, которые являются пространственно оптимальными для реверберирующих звуковых полей. Обеспечивается применение к подавлению шумов в компоновке с двумя микрофонами в реверберационных помещениях. Оптимальные фильтры, которые выведены из пространственной корреляции рассеянных звуковых полей, захватывают локальный характер звуковых полей и, следовательно, имеют низший порядок и потенциально большую пространственную надежность, чем традиционные адаптивные фильтры подавления шумов в реверберационных помещениях. Представляются формулы для неограниченных и причинно ограниченных оптимальных фильтров, и примерное применение к улучшению речи с двумя микрофонами демонстрируется с использованием компьютерного моделирования.

Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованный принцип для разложения входного сигнала.

Эта цель достигается посредством устройства для разложения входного сигнала по п. 1, способа разложения входного сигнала по п. 14 или компьютерной программы по п. 15.

Настоящее изобретение основано на том факте, что для разложения многоканального сигнала преимущественным является подход с условием не выполнять анализ относительно различных компонентов сигнала для самого входного сигнала, т.е. для сигнала, имеющего, по меньшей мере, три входных канала. Вместо этого многоканальный входной сигнал, имеющий, по меньшей мере, три входных канала, обрабатывается посредством понижающего микшера для понижающего микширования входного сигнала, чтобы получать микшированный с понижением сигнал. Микшированный с понижением сигнал имеет число каналов понижающего микширования, которое меньше числа входных каналов и предпочтительно равняется двум. Затем выполняется анализ входного сигнала для микшированного с понижением сигнала, а не для самого входного сигнала, и анализ приводит к получению результата анализа. Тем не менее, этот результат анализа не применяется к микшированному с понижением сигналу, а применяется к входному сигналу или, альтернативно, к сигналу, выведенному из входного сигнала, причем этот сигнал, выведенный из входного сигнала, может быть сигналом повышающего микширования или, в зависимости от числа каналов входных сигналов, также сигналом понижающего микширования, но этот сигнал, выведенный из входного сигнала, должен отличаться от микшированного с понижением сигнала, для которого выполнен анализ. Когда, например, рассматривается случай, в котором входной сигнал является 5.1-канальным сигналом, то сигнал понижающего микширования, для которого выполняется анализ, может быть понижающим стереомикшированием, имеющим два канала. Результаты анализа затем применяются непосредственно к входному сигналу 5.1, к более высокому повышающему микшированию, такому как выходной сигнал 7.1, или к многоканальному понижающему микшированию входного сигнала, имеющего, например, только три канала, которые представляют собой левый канал, центральный канал и правый канал, когда под рукой только трехканальное устройство для воспроизведения аудио. Тем не менее, в любом случае сигнал, для которого применяются результаты анализа посредством процессора сигналов, отличается от микшированного с понижением сигнала, для которого выполнен анализ, и типично имеет больше каналов, чем микшированный с понижением сигнал, для которого выполняется анализ относительно компонентов сигнала.

Так называемый "косвенный" анализ/обработка является возможным вследствие того факта, что можно предположить, что любые компоненты сигнала в отдельных входных каналах также возникают в микшированных с понижением каналах, поскольку понижающее микширование типично состоит из суммирования входных каналов различными способами. Одно простое понижающее микширование, например, заключается в том, что отдельные входные каналы взвешиваются по мере необходимости посредством правила понижающего микширования или матрицы понижающего микширования и затем суммируются после взвешивания. Альтернативное понижающее микширование состоит из фильтрации входных каналов с помощью определенных фильтров, таких как HRTF-фильтры, и понижающее микширование выполняется посредством использования фильтрованных сигналов, т.е. сигналов, фильтруемых посредством HRTF-фильтров, как известно в данной области техники. Для пятиканального входного сигнала требуется 10 HRTF-фильтров, и выходные сигналы HRTF-фильтров для левой части/левого уха суммируются, а выходные сигналы HRTF-фильтров для фильтров правых каналов суммируются для правого уха. Альтернативные понижающие микширования могут применяться для того, чтобы уменьшать число каналов, которые должны быть обработаны в анализаторе сигналов.

Следовательно, варианты осуществления настоящего изобретения описывают новый принцип для того, чтобы извлекать различные по восприятию компоненты из произвольных входных сигналов, посредством рассмотрения анализируемого сигнала в то время, когда результат анализа применяется к входному сигналу. Такой анализируемый сигнал может быть получен, например, посредством рассмотрения модели распространения сигналов каналов или громкоговорителей в уши. Это частично обусловлено тем фактом, что слуховая система человека также использует исключительно два сенсора (левое и правое ухо) для того, чтобы оценивать звуковые поля. Таким образом, извлечение различных по восприятию компонентов, по существу, сводится к рассмотрению анализируемого сигнала, который обозначается далее как понижающее микширование. В этом документе термин "понижающее микширование" используется для любой предварительной обработки многоканального сигнала, приводящей в результате к анализируемому сигналу (она может включать в себя, например, модель распространения, HRTF, BRIR, простое понижающее микширование на основе перекрестных коэффициентов).

Зная формат предоставленного входного сигнала и требуемых характеристик сигнала, который должен быть извлечен, могут быть заданы идеальные межканальные взаимосвязи для микшированного с понижением формата, и по сути, анализ этого анализируемого сигнала является достаточным для того, чтобы формировать весовую маску (или несколько весовых масок) для разложения многоканальных сигналов.

В варианте осуществления, многоканальная проблема упрощается посредством использования понижающего стереомикширования сигнала объемного звучания и применения анализа прямых/окружающих сигналов к понижающему микшированию. На основе результата, т.е. кратковременных оценок спектров мощности прямых и окружающих звуков, фильтры выводятся для разложения N-канального сигнала на N прямых звуковых и N окружающих звуковых каналов.

Настоящее изобретение является выгодным вследствие того факта, что анализ сигналов применяется для меньшего числа каналов, что существенно сокращает требуемое время обработки, так что идея изобретения может быть применена даже в вариантах применения для повышающего микширования или понижающего микширования либо любой другой операции обработки сигналов в реальном времени, при которой требуются различные компоненты, к примеру различные по восприятию компоненты сигнала.

Дополнительный полезный эффект настоящего изобретения состоит в том, что хотя выполняется понижающее микширование, выяснено, что это не ухудшает обнаруживаемость различных по восприятию компонентов во входном сигнале. Другими словами, даже когда микшируются с понижением входные каналы, тем не менее, отдельные компоненты сигнала могут быть разделены в значительной степени. Кроме того, понижающее микширование работает как некоторый "сбор" всех компонентов сигналов всех входных каналов в двух каналах, и один анализ, применяемый для этих "собранных" микшированных с понижением сигналов, предоставляет уникальный результат, который не должен более интерпретироваться и может непосредственно использоваться для обработки сигналов.

В предпочтительном варианте осуществления конкретная эффективность в целях разложения сигналов достигается, когда анализ сигналов выполняется на основе заранее вычисленной частотно-зависимой кривой подобия в качестве эталонной кривой. Термин "подобие" включает в себя корреляцию и когерентность, при этом, в строгом математическом смысле, корреляция вычисляется между двумя сигналами без дополнительного сдвига по времени, и когерентность вычисляется посредством сдвига двух сигналов по времени/фазе, так что сигналы имеют максимальную корреляцию, и фактическая корреляция по частоте затем вычисляется с применяемым сдвигом по времени/фазе. В этом тексте считается, что подобие, корреляция и когерентность означают одно и то же, т.е. количественную степень подобия между двумя сигналами, к примеру, когда более высокое абсолютное значение подобия означает, что два сигнала являются в большей степени подобными, а более низкое абсолютное значение подобия означает, что два сигнала являются в меньшей степени подобными.

Показано, что использование такой корреляционной кривой в качестве эталонной кривой обеспечивает очень эффективно реализуемый анализ, поскольку кривая может использоваться для простых операций сравнения и/или вычислений весовых коэффициентов. Использование заранее вычисленной частотно-зависимой корреляционной кривой позволяет выполнять только простые вычисления, а не более сложные операции фильтрации Винера. Кроме того, применение частотно-зависимой корреляционной кривой является в известной степени выгодным вследствие того факта, что проблема разрешается не со статистической точки зрения, а разрешается более аналитическим способом, поскольку вводится максимально возможный объем информации из текущей компоновки с тем, чтобы получать решение проблемы. Дополнительно, гибкость этой процедуры является очень высокой, поскольку эталонная кривая может быть получена посредством множества различных способов. Один способ заключается в том, чтобы фактически измерять два или более сигнала в определенной компоновке и затем вычислять корреляционную кривую по частоте из измеренных сигналов. Следовательно, можно излучать независимые сигналы из различных динамиков или сигналы, имеющие определенную степень зависимости, которая является заранее известной.

Другая предпочтительная альтернатива заключается в том, чтобы просто вычислять корреляционную кривую в соответствии с допущением относительно независимых сигналов. В этом случае сигналы фактически вообще не являются обязательными, поскольку результат является независимым от сигнала.

Разложение сигналов с использованием эталонной кривой для анализа сигналов может применяться для стереообработки, т.е. для разложения стереосигнала. Альтернативно, эта процедура также может быть реализована с помощью понижающего микшера для разложения многоканальных сигналов. Альтернативно, эта процедура также может быть реализована для многоканальных сигналов без использования понижающего микшера, когда предусмотрена попарная оценка сигналов иерархическим способом.

Предпочтительные варианты осуществления настоящего изобретения описаны далее со ссылками на прилагаемые чертежи, на которых:

Фиг.1 является блок-схемой для иллюстрации устройства для разложения входного сигнала с использованием понижающего микшера;

Фиг.2 является блок-схемой, иллюстрирующей реализацию устройства для разложения сигнала, имеющего, по меньшей мере, три входных канала, с использованием анализатора с заранее вычисленной частотно-зависимой корреляционной кривой в соответствии с дополнительным аспектом изобретения;

Фиг.3 иллюстрирует дополнительную предпочтительную реализацию настоящего изобретения при обработке в частотной области для понижающего микширования, анализа и обработки сигналов;

Фиг.4 иллюстрирует примерную заранее вычисленную частотно-зависимую корреляционную кривую для эталонной кривой для анализа, указываемой на фиг.1 или фиг.2;

Фиг.5 иллюстрирует блок-схему, иллюстрирующую последующую обработку для того, чтобы извлекать независимые компоненты;

Фиг.6 иллюстрирует дополнительную реализацию блок-схемы для последующей обработки, в которой извлекаются независимые рассеянные, независимые прямые и прямые компоненты;

Фиг.7 иллюстрирует блок-схему, реализующую понижающий микшер в качестве формирователя анализируемых сигналов;

Фиг.8 иллюстрирует блок-схему последовательности операций способа для указания предпочтительного способа обработки в анализаторе сигналов по фиг.1 или фиг.2;

Фиг.9А-9Е иллюстрируют различные заранее вычисленные частотно-зависимые корреляционные кривые, которые могут быть использованы в качестве эталонных кривых для нескольких различных компоновок с различными числами и позициями источников звука (к примеру, громкоговорителей);

Фиг.10 иллюстрирует блок-схему для иллюстрации другого варианта осуществления для оценки рассеянности, в котором рассеянные компоненты являются компонентами, которые должны быть разложены; и

Фиг.11A и 11B иллюстрируют примерные уравнения для применения анализа сигналов без частотно-зависимой корреляционной кривой, но с базированием на подходе на основе фильтрации Винера.

Фиг.1 иллюстрирует устройство для разложения входного сигнала 10, имеющего, по меньшей мере, три входных канала или, в общем, N входных каналов. Эти входные каналы вводятся в понижающий микшер 12 для понижающего микширования входного сигнала, чтобы получать микшированный с понижением сигнал 14, при этом понижающий микшер 12 выполнен с возможностью понижающего микширования так, что число каналов понижающего микширования микшированного с понижением сигнала 14, которое указывается посредством "m", составляет, по меньшей мере, два и меньше числа входных каналов входного сигнала 10. m каналов понижающего микширования вводятся в анализатор 16 для анализа микшированного с понижением сигнала, чтобы выводить результат 18 анализа. Результат 18 анализа вводится в процессор 20 сигналов, причем процессор сигналов выполнен с возможностью обработки входного сигнала 10 или сигнала, выведенного из входного сигнала посредством модуля 22 выведения сигналов с использованием результата анализа, при этом процессор 20 сигналов выполнен с возможностью применения результатов анализа к входным каналам или к каналам сигнала 24, выведенного из входного сигнала, чтобы получать разложенный сигнал 26.

В варианте осуществления, проиллюстрированном на фиг.1, число входных каналов составляет n, число каналов понижающего микширования составляет m, число выведенных каналов составляет l и число выходных каналов равно l, когда выведенный сигнал, а не входной сигнал обрабатывается посредством процессора сигналов. Альтернативно, когда модуля 22 выведения сигналов не существует, то входной сигнал обрабатывается непосредственно процессором сигналов, и в таком случае число каналов разложенного сигнала 26, указываемое посредством "l" на фиг.1, равно n. Следовательно, фиг.1 иллюстрирует два различных примера. Один пример не имеет модуля 22 выведения сигналов, и входной сигнал непосредственно применяется к процессору 20 сигналов. Другой пример заключается в том, что реализуется модуль 22 выведения сигналов, и после этого выведенный сигнал 24, а не входной сигнал 10 обрабатывается посредством процессора 20 сигналов. Модуль выведения сигналов, например, может быть микшером аудиоканалов, таким как повышающий микшер для формирования дополнительных выходных каналов. В этом случае l должно превышать n. В другом варианте осуществления модуль выведения сигналов может быть другим аудиопроцессором, который выполняет взвешивание, задержку или какую-либо еще обработку для входных каналов, и в этом случае число выходных каналов l модуля 22 выведения сигналов должно быть равно числу n входных каналов. В дополнительной реализации модуль выведения сигналов может быть понижающим микшером, который уменьшает число каналов от входного сигнала до выведенного сигнала. В этой реализации предпочтительно, чтобы число l по-прежнему превышало число m микшированных с понижением каналов, чтобы иметь одно из преимуществ настоящего изобретения, т.е. то, что анализ сигналов применяется к меньшему числу канальных сигналов.

Анализатор выполнен с возможностью анализировать микшированный с понижением сигнал относительно различных по восприятию компонентов. Эти различные по восприятию компоненты могут быть независимыми компонентами в отдельных каналах, с одной стороны, и зависимыми компонентами, с другой стороны. Альтернативные компоненты сигнала, которые должны быть проанализированы посредством настоящего изобретения, являются прямыми компонентами, с одной стороны, и окружающими компонентами, с другой стороны. Существует множество других компонентов, которые могут отделяться посредством настоящего изобретения, таких как речевые компоненты от музыкальных компонентов, компоненты шума от речевых компонентов, компоненты шума от музыкальных компонентов, компоненты высокочастотного шума относительно компонентов низкочастотного шума, в сигналах с несколькими высотами тона, компоненты, предоставляемые посредством различных инструментов, и т.д. Это обусловлено тем фактом, что существуют мощные инструментальные средства анализа, такие как фильтрация Винера, как пояснено в контексте фиг.11A, 11B, или другие процедуры анализа, такие как использование частотно-зависимой корреляционной кривой, как пояснено в контексте, например, фиг.8 в соответствии с настоящим изобретением.

Фиг.2 иллюстрирует другой аспект, в котором анализатор реализуется для использования заранее вычисленной частотно-зависимой корреляционной кривой 16. Таким образом, устройство для разложения сигнала 28, имеющего множество каналов, содержит анализатор 16 для анализа корреляции между двумя каналами анализируемого сигнала, идентичного входному сигналу или связанного с входным сигналом, например, посредством операции понижающего микширования, как проиллюстрировано в контексте фиг.1. Анализируемый сигнал, проанализированный посредством анализатора 16, имеет, по меньшей мере, два анализируемых канала, и анализатор 16 выполнен с возможностью использования заранее вычисленной частотно-зависимой корреляционной кривой в качестве эталонной кривой для того, чтобы определять результат 18 анализа. Процессор 20 сигналов может работать аналогично тому, что пояснено в контексте фиг.1, и выполнен с возможностью обработки анализируемого сигнала или сигнала, выведенного из анализируемого сигнала посредством модуля 22 выведения сигналов, причем модуль 22 выведения сигналов может быть реализован аналогично тому, что пояснено в контексте модуля 22 выведения сигналов по фиг.1. Альтернативно, процессор сигналов может обрабатывать сигнал, из которого выведен анализируемый сигнал, и обработка сигналов использует результат анализа для того, чтобы получать разложенный сигнал. Следовательно, в варианте осуществления по фиг.2 входной сигнал может быть идентичным анализируемому сигналу, и в этом случае анализируемый сигнал также может быть стереосигналом, имеющим всего два канала, как проиллюстрировано на фиг.2. Альтернативно, анализируемый сигнал может быть выведен из входного сигнала посредством любого вида обработки, такой как понижающее микширование, как описано в контексте фиг.1, либо посредством любой другой обработки, такой как повышающее микширование и т.п. Дополнительно, процессор 20 сигналов может быть полезным с целью применять обработку сигналов к сигналу, идентичному сигналу, введенному в анализатор, или процессор сигналов может применять обработку сигналов к сигналу, из которого выведен анализируемый сигнал, к примеру, как указано в контексте фиг.1, или процессор сигналов может применять обработку сигналов к сигналу, который выведен из анализируемого сигнала, к примеру, посредством повышающего микширования и т.п.

Следовательно, для процессора сигналов существуют различные возможности, и все эти возможности являются выгодными вследствие уникальной операции анализатора с использованием заранее вычисленной частотно-зависимой корреляционной кривой в качестве эталонной кривой для того, чтобы определять результат анализа.

Далее поясняются дополнительные варианты осуществления. Следует отметить, что, как пояснено в контексте фиг.2, рассматривается даже использование двухканального анализируемого сигнала (без понижающего микширования). Следовательно, настоящее изобретение, как пояснено в различных аспектах в контексте фиг.1 и фиг.2, которые могут быть использованы совместно или в качестве отдельных аспектов, понижающее микширование может быть обработано посредством анализатора, либо двухканальный сигнал, который, вероятно, не сформирован посредством понижающего микширования, может быть обработан посредством анализатора сигналов с использованием заранее вычисленной эталонной кривой. В этом контексте следует отметить, что последующее описание аспектов реализации может применяться к обоим аспектам, схематично проиллюстрированным на фиг.1 и фиг.2, даже когда некоторые признаки описываются только для одного аспекта, а не для обоих. Если, например, рассматривается фиг.3, становится очевидным, что признаки частотной области по фиг.3 описываются в контексте аспекта, проиллюстрированного на фиг.1, но очевидно, что частотно-временное преобразование, как описано ниже относительно фиг.3, и обратное преобразование также может применяться к реализации на фиг.2, которая не имеет понижающего микшера, но которая имеет указанный анализатор, который использует заранее вычисленную частотно-зависимую корреляционную кривую.

В частности, частотно-временной преобразователь должен быть размещен с возможностью преобразовывать анализируемый сигнал до того, как анализируемый сигнал вводится в анализатор, и преобразователь частота/время должен быть размещен на выходе процессора сигналов, чтобы преобразовывать обработанный сигнал обратно во временную область. Когда имеется модуль выведения сигналов, частотно-временной преобразователь может быть размещен на входе модуля выведения сигналов, так что модуль выведения сигналов, анализатор и процессор сигналов работают в частотной/поддиапазонной области. В этом контексте, частота и поддиапазон частот по существу означают часть в частоте частотного представления.

Кроме того, очевидно, что анализатор на фиг.1 может быть реализован многими различными способами, но этот анализатор в одном варианте осуществления также реализуется в качестве анализатора, поясненного на фиг.2, т.е. в качестве анализатора, который использует заранее вычисленную частотно-зависимую корреляционную кривую в качестве альтернативы фильтрации Винера или любому другому аналитическому способу.

Вариант осуществления по фиг.3 применяет процедуру понижающего микширования к произвольному входному сигналу, чтобы получать двухканальное представление. Выполняется анализ в частотно-временной области, и вычисляются весовые маски, которые умножаются на частотно-временное представление входного сигнала, как проиллюстрировано на фиг.3.

На чертеже T/F об