2537044 - Устройство для формирования выходного пространственного многоканального аудио сигнала

Устройство для формирования выходного пространственного многоканального аудио сигнала

Иллюстрации

Показать все

Изобретение относится к средствам формирования выходного пространственного многоканального аудиосигнала на основе входного аудиосигнала и входного параметра. Технический результат заключается в уменьшении вычислительных затрат процесса декодирования/рендеринга. Раскладывают входной аудио сигнал на основе входного параметра для получения первой компоненты сигнала и второй компоненты сигнала, отличающихся друг от друга. Выполняют рендеринг первой компоненты сигнала для получения первого представления сигнала с первым семантическим свойством и выполняют рендеринг второй компоненты сигнала для получения второго представления сигнала с вторым семантическим свойством, отличающимся от первого семантического свойства. Обрабатывают первое представление сигнала и второе представление сигнала для получения выходного пространственного многоканального звукового сигнала. 3 н. и 12 з.п. ф-лы, 8 ил.

Реферат

Настоящее изобретение относится к области аудиообработки, особенно обработки пространственных свойств аудио.

Аудиообработка и/или кодирование усовершенствовались во многих отношениях. Все большим спросом пользуются создаваемые пространственные аудиоприложения. Во многих приложениях обработка аудиосигнала используется для декорелляции или рендеринга сигналов. Такие приложения могут, к примеру, осуществить преобразования моно в стерео, моно/стерео в многоканальный звук, создавать эффекты искусственной реверберации, расширения стерео (Stereo widening) или пользовательские интерактивные эффекты смешивания/рендеринга.

Для некоторых классов сигналов, например шумоподобных сигналов, таких как сигналы, похожие на аплодисменты, обычные методы и системы имеют недостатки, либо неудовлетворительное качество восприятия, или, если используется объектно-ориентированный подход, высокую вычислительную сложность из-за большого количества акустических событий, которые необходимо моделировать или обработать. Другой пример аудиоматериала, который является проблематичным, это обычно материал окружения, такой как шумы, создаваемые стаей птиц, у морского побережья, скачущей лошадью, подразделением солдат на марше и т.д.

При обычных подходах используют, например, параметрическое стерео или кодирование MPEG-окружения (MPEG=Экспертная группа по вопросам движущегося изображения). На Фиг.6 изображено обычное применение декорреляции для преобразования моносигнала в стерео. На фиг.6 изображен входной моносигнал, подаваемый на декоррелятор 610, который обеспечивает декорреляцию входного сигнала на выходе. На смешивающую матрицу 620 подается входной сигнал вместе с сигналом с декоррелятора. В зависимости от параметров управления смешивающей матрицей 630 формируется выходной стереосигнал. Декореллятор сигнала 610 генерирует декоррелированный сигнал D, поступающий на уровень смешивающей матрицы 620 вместе с чистым моносигналом М. Внутри смешивающей матрицы 620 формируются стереоканалы L (L=левый стереоканал) и R (R=правый стереоканал) в соответствии со смешивающей матрицей Н. Коэффициенты матрицы Н могут быть фиксированы, зависеть от сигнала или находиться под контролем пользователя.

Кроме того, матрица может управляться сторонней информацией, передаваемой с сигналом, содержащей параметрическое описание того, как смешать сигналы для создания желаемого многоканального выходного сигнала. Эта информация обычно генерируется кодировщиком сигнала до процесса преобразования.

Обычно это делается в пространственном параметрическом аудиокодировании, как, например, в параметрическом стерео, см. J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, "High-Quality Parametric Spatial Audio Coding at Low Bitrates" in AES 116^th Convention, Berlin, Preprint 6072, May 2004 и в MPEG Surround, cf. J. Herre, K. Kjörling, J. Breebaart, et al., "MPEG Surround - the ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding" in Proceedings of the 122^nd AES Convention, Vienna, Austria, May 2007. Типичная структура параметрического стереодекодера показана на фиг.7. В этом примере процесс декорреляции выполняется с преобразованным сигналом, сформированным анализирующим банком фильтров 710, который преобразует входной моносигнал в другое представление, например представление в виде ряда частотных диапазонов в частотной области.

В частотной области декоррелятор 720 генерирует соответствующий декореллированный сигнал, который преобразуется в смешивающей матрице 730. Смешивающая матрица 730 управляется параметрами, которые обеспечиваются блоком модификации параметров 740, который в свою очередь получает их с пространственными входными параметрами и объединяет с параметрами уровня контроля 750. В примере, показанном на фиг.7, пространственные параметры могут изменяться пользователем или дополнительными средствами, как, например, постобработка для стереорендеринга/презентации. В этом случае параметры смешивания могут быть объединены с параметрами стереофильтров, чтобы сформировать входные параметры для смешивающей матрицы 730. Измерение параметров может осуществляться блоком изменения параметров 740. Выход смешивающей матрицы 730 соединен с синтезирующим банком фильтров 760, который формирует выходной стереосигнал.

Как описано выше, выходной сигнал L/R смешивающей матрицы H может быть вычислен из входного моносигнала M и декоррелированного сигнала D, например, в соответствии с выражением

[ L R ] = [ h 11 h 12 h 21 h 22 ] [ M D ] .

Декоррелированный звук на выходе матрицы смешивания может управляться на основе передаваемых параметров, таких как ICC (ICC=Межканальная корреляция), и/или смешанных или определяемых пользователем параметров.

Еще один традиционный подход основан на методе временных перестановок. Специальный метод декорреляции таких сигналов, как сигналы, похожие на аплодисменты, можно найти, например, в Gerard Hotho, Steven van de Par, Jeroen Breebaart, "Multichannel Coding of Applause Signals," in EURASIP Journal on Advances in Signal Processing, Vol.1, Art.10, 2008. Здесь монофонический аудиосигнал сегментируется с использованием перекрывающихся временных сегментов, которые временно перестанавливаются псевдослучайным образом в пределах «супер»-блока, чтобы сформировать декоррелированные выходные каналы. Перестановки являются взаимно независимыми для n выходных каналов.

Другой подход - чередующееся переключение оригинальных и задержанных копий каналов, чтобы получить декоррелированный сигнал, см. Немецкий патент 102007018032.4-55. В некоторых известных объектно-ориентированных системах, например, см. Wagner, Andreas; Walther, Andreas; Melchoir, Frank; Strauβ, Michael; "Generation of Highly Immersive Atmospheres for Wave Field Synthesis Reproduction" at 116^th International EAS Convention, Berlin, 2004, описывается, как создать эффекты, создающие эффект присутствия, для многих объектов, таких как один хлопок, с применением синтеза поля волн.

Еще одним подходом является так называемое «направленное аудиокодирование» (DirAC), которое является методом рендеринга звука и применимо для различных систем воспроизведения звука, см. Pulkki, Ville, "Spatial Sound Reproduction with Directional Audio Coding" in J. Audio Eng. Soc., Vol.55, No.6, 2007. В части анализа в одном месте оцениваются диффузия и направление прибытия звука, зависящие от времени и частоты. В части синтеза сигналы от микрофонов делятся сначала на диффузные и не диффузные части и затем воспроизводятся с помощью различных методов.

Традиционные подходы имеют ряд недостатков. К примеру, управляемое или неуправляемое смешивание аудиосигналов, таких как аплодисменты, может потребовать сильную декорреляцию. Следовательно, с одной стороны, сильная декорреляция необходима для восстановления атмосферы присутствия, к примеру, в концертном зале. С другой стороны, подходящие декоррелирующие фильтры, как, например, фазовые фильтры, снижают качество воспроизведения переходных событий, таких как один хлопок, путем создания эффектов временного смазывания, таких как пре- и постэхо, и звон фильтра. Кроме того, пространственное расположение событий одиночных хлопков должно быть сделано на временной сетке с хорошим разрешением, в то время как декоррелированное окружение должно быть квазистационарным во времени.

Современные системы согласно J.Breebaart, S. van de Par, A.Kohlrausch, E.Schuijers, "High-Quality Parametric Spatial Audio Coding at Low Bitrates" in AES 116^th Convention, Berlin, Preprint 6072, May 2004 and J.Herre, K.Kjörling, J.Breebaart, et. al., "MPEG Surround - the ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding" in Proceedings of the 122^nd AES Convention, Vienna, Austria, May 2007 представляют собой компромисс между временным разрешением и атмосферой устойчивости, между ухудшением качества переходных процессов и атмосферой декорреляции.

Например, если в системе используется метод временных перестановок, будет чувствоваться ухудшение восприятия звука из-за определенных повторяющихся эффектов выходного аудиосигнала. Это объясняется тем фактом, что один и тот же сегмент входного сигнала появляется не измененным в каждом выходном канале, хотя и в другой момент времени. Более того, чтобы избежать увеличения плотности аплодисментов, некоторые оригинальные каналы не используются при смешивании, и, таким образом, могут быть пропущены некоторые важные события в аудитории.

В известных объектно-ориентированных системах такие звуковые события создаются большой группой распределенных точечных источников, что приводит к реализации сложных вычислительных алгоритмов.

Объектом настоящего изобретения является улучшение концепции пространственной обработки аудио. Это достигается с использованием устройства по п.1 и способа по п.14 формулы изобретения.

В предлагаемом изобретении показано, что звуковой сигнал может быть разложен на несколько компонент, которые обеспечивают пространственный рендеринг, например, с точки зрения декорреляции или с точки зрения пространственного распределения амплитуд. Другими словами, настоящее изобретение основано на обосновании того, что, например, в сценарии с несколькими источниками звука источники переднего плана и фона можно разделить и представить или декоррелировать по-разному. Как правило, можно выделить различные пространственные глубины и/или протяженности аудиообъектов.

Одним из ключевых пунктов настоящего изобретения является разложение сигналов, таких как звук приветствия аудитории, стаи птиц, морского побережья, скачущей лошади, подразделения солдат на марше и т.д., на сигналы переднего плана и заднего плана, где сигналы переднего плана содержат отдельные акустические события, создаваемые, например, близко расположенными источниками и источниками на заднем плане, создающими окружающий фон распределенных вдали событий. До окончательного смешивания эти две части сигнала обрабатываются отдельно, например, для того, чтобы синтезировать корреляции, сформировать пространственное распределение аудиосигнала и т.д.

Предложенные решения не ограничены различением только частей сигнала переднего плана и заднего плана, они могут отличить нескольких различных аудиочастей, которые могут быть представлены или декоррелированы по-разному.

В общем случае аудиосигналы могут быть разбиты на n различных семантических компонент, которые обрабатываются отдельно. Процесс разложения/разделения различных семантических компонент может быть реализован во временной и/или в частотной области.

Предложенное решение может обеспечить наилучшее качество восприятия звука при умеренных вычислительных затратах. Предложенное решение обеспечивает новый метод декорреляции/рендеринга, который обеспечивает высокое качество восприятия по умеренным ценам, особенно при обработке сигналов, похожих на аплодисменты, как критического аудиоматериала или других аналогичных, создающих фон, таких как, например, шум, создаваемый стаей птиц, морским побережьем, скачущей лошадью, подразделением солдат на марше и т.д.

Воплощения настоящего изобретения будут подробно рассмотрены с помощью сопровождающих чертежей, на которых

Фиг.1A показывает воплощение устройства для определения пространственного многоканального аудиосигнала;

Фиг.1B показывает блок-схему другого решения;

Фиг.2 показывает решение, иллюстрирующее множество сигналов разложения;

Фиг.3 иллюстрирует решение с семантическим разложением сигналов переднего плана и фона;

Фиг.4 иллюстрирует пример метода для получения компонент сигнала фона;

Фиг.5 иллюстрирует синтез источников звука, имеющих большую протяженность;

Фиг.6 иллюстрирует одно применение декоррелятора во временной области в преобразователе моносигнала в стерео; и

Фиг.7 показывает другое применение декоррелятора в частотной области в преобразователе моносигнала в стерео.

На фиг.1 представлено устройство 100 для определения выходного пространственного многоканального аудиосигнала, основанного на входном звуковом сигнале. В некоторых вариантах устройство может быть выполнено с возможностью формирования выходного пространственного многоканального аудиосигнала на базе входного параметра. Входной параметр может быть создан локально или обеспечиваться вместе с входным аудиосигналом, например, как внешняя информация.

В решении, изображенном на фиг.1, устройство 100 включает в себя декомпозитор 110 для разложения входного аудио и получения первой компоненты сигнала с первым семантическим свойством и второй компоненты сигнала со вторым семантическим свойством, отличающимся от первого семантического свойства.

Устройство 100 далее включает в себя блок рендеринга 120 для рендеринга первой компоненты сигнала с помощью первой характеристики рендеринга для получения первого сигнала рендеринга, имеющего первое семантическое свойство, и для рендеринга второй компоненты сигнала с помощью второй характеристики рендеринга для получения второго сигнала рендеринга, имеющего второе семантическое свойство.

Семантическое свойство может соответствовать пространственному свойству, такому как близко или далеко, сосредоточено или распределено, и/или динамическому свойству, как например, является ли сигнал тональным, постоянным или переходным, и/или свойству доминирования, как например, является ли сигнал сигналом переднего плана или фоном, и мера этого соответственно.

Кроме того, в решении устройство 100 включает процессор 130 для того, чтобы обработать первый предоставленный сигнал и второй предоставленный сигнал и получить выходной пространственный многоканальный аудиосигнал.

Другими словами, декомпозитор 110 выполнен с возможностью разложения аудиосигнала, в некоторых решениях, работа декомпозитора основана на входном параметре. Разложение аудиосигнала основано на семантических, например пространственных, свойствах различных частей аудиосигнала. Кроме того, рендеринг, осуществляемый в блоке рендеринга 120, в соответствии с первой и второй характеристиками рендеринга может также быть выполнен с возможностью учета пространственных свойств, которые позволяют, например, в сценарии, где первая компонента сигнала соответствует фону аудиосигнала и вторая компонента сигнала соответствует основному аудиосигналу, использовать другой рендеринг или декорреляторы. Далее термин «переднего плана» понимается как ссылка на объект аудио, доминирующей в аудиосреде так, что потенциальный слушатель может заметить объект аудио переднего плана. Аудиообъект переднего плана или источник может быть различен или дифференцирован от фонового звука (звука заднего плана) объекта или источника. Фоновый звук объекта или источника не может быть заметен для потенциального слушателя в аудиосреде, как менее доминирующий, чем аудиообъект или источник переднего плана. Воплощение изобретения на ограничено аудиообъектами или источниками переднего плана, такими как точечный источник звука, где аудиообъектам или источникам заднего плана могут соответствовать пространственно более протяженные аудиообъекты или источники. Другими словами, в воплощении изобретения первая характеристика рендеринга может быть основана или соответствовать первому семантическому свойству и вторая характеристика рендеринга может быть основана или соответствовать второму семантическому свойству. В одном решении первое семантическое свойство и первая характеристика рендеринга соответствуют аудиоисточнику или объекту на переднем плане, и блок рендеринга 120 может быть выполнен с возможностью использования пространственного распределения амплитуд первой компоненты сигнала. Блок рендеринга 120 может быть далее выполнен с возможностью обеспечения в качестве первого сигнала рендеринга двухамплитудной версии первой компоненты сигнала. В этом решении, второму семантическому свойству и второй характеристике рендеринга соответствует множество аудиоисточников или объектов фона, и блок рендеринга 120 может быть выполнен с возможностью применения декорреляции ко второй компоненте сигнала и обеспечения в качестве второго сигнала рендеринга второй компоненты сигнала и его декоррелированной версии. В решении блок рендеринга 120 можно далее приспособить для рендеринга первой компоненты сигнала, так что первая характеристика рендеринга не имеет особенности введения задержки. Другими словами, может не быть декорреляции первой компоненты сигнала. В другом решении первая характеристика рендеринга может иметь задержку, характеризующуюся величиной первой задержки, и вторая характеристика рендеринга может иметь вторую величину задержки, вторая величина задержки, больше, чем первая величина задержки. Другими словами, в этом решении как первая компонента сигнала, так и вторая компонента сигнала могут быть декоррелированы, однако уровень декорреляции может масштабироваться в соответствии с величинами задержек соответствующих компонент сигналов. Поэтому декорреляция может быть сильнее для второй компоненты сигнала, чем для первой компоненты сигнала. В решении первая компонента сигнала и вторая компонента сигнала могут перекрываться и/или могут быть синхронны во времени. Другими словами, обработка сигналов может осуществляться блочным методом, где один блок образцов входного аудиосигнала может разделяться декомпозитором 110 на ряд блоков компонент сигнала. В решении ряд компонент сигнала может, по крайней мере, частично перекрываться во временной области, то есть компоненты могут представлять собой перекрытие образцов во временной области. Другими словами, компоненты сигнала могут соответствовать частям входного аудиосигнала, которые перекрываются, то есть которые представляют, по крайней мере, частично одновременные аудиосигналы. В решении первая и вторая компоненты сигнала могут представлять отфильтрованные или преобразованные версии первоначального входного сигнала. Например, они могут представлять части сигнала, извлеченные из составного пространственного сигнала, например, соответствующие близкому источнику звука или более отдаленному источнику звука. В другом решении они могут соответствовать переходной и стационарной компонентам сигнала и т.д.

В решении блок рендеринга 120 может подразделяться на первый блок рендеринга и второй блок рендеринга, где первый блок рендеринга может быть выполнен с возможностью рендеринга первой компоненты сигнала и второй блок рендеринга может быть выполнен с возможностью рендеринга второй компоненты сигнала. В решении блок рендеринга 120 может осуществляться в виде программного обеспечения, например, как программы, хранящиеся в памяти для выполнения процессором или цифровым сигнальным процессором, который в свою очередь выполнен с возможностью для рендеринга компонент сигнала последовательно.

Блок рендеринга 120 может быть выполнен с возможностью декорреляции первой компоненты сигнала для получения первого декоррелированного сигнала и/или декорреляции второй компоненты сигнала для получения второго декоррелированного сигнала. Другими словами, блок рендеринга 120 может быть выполнен с возможностью декорреляции обеих компонент сигнала, однако с использованием различных характеристик декорреляции или рендеринга. В решении блок рендеринга 120 может быть выполнен с возможностью использования распределения амплитуд одной из первой или второй компонент сигнала вместо или в дополнение к декорреляции.

Блок рендеринга 120 может быть выполнен с возможностью рендеринга первого и второго сигналов, каждый из которых имеет столько компонент сколько каналов в пространственном многоканальном аудиосигнале, и процессор 130 может быть выполнен с возможностью объединения компонент из первого и второго представлений сигналов для получения выходного пространственного многоканального звукового сигнала. В других решениях блок рендеринга 120 может быть выполнен с возможностью рендеринга первого и второго сигналов, каждый из которых имеет меньше компонент, чем выходной пространственный многоканальный звуковой сигнал, и где процессор 130 может быть выполнен с возможностью смешивания компонент первого и второго представлений сигналов для получения выходного пространственного многоканального звукового сигнала.

Фиг.1B иллюстрирует еще одно воплощение устройства 100, включающее аналогичные компоненты, которые были введены с помощью фиг.1A. Однако фиг.1B иллюстрирует решение, имеющее больше деталей. На фиг.1B изображен декомпозитор 110 для получения аудиосигнала и, при необходимости, входного параметра. Как видно из фиг.1B, декомпозитор выполнен с возможностью формирования первой и второй компонент сигнала для блока рендеринга 120, который обозначен пунктирной линией. В решении, иллюстрированном на фиг.1B, предполагается, что первая компонента сигнала соответствует точечному аудиоисточнику, как первому семантическому свойству, и что блок рендеринга 120 выполнен с возможностью выполнения пространственного распределения амплитуды, как первой характеристики рендеринга первой компоненты сигнала. В решении первая и вторая компоненты сигнала являются сменными, то есть в других решениях выполнение пространственного распределения амплитуды может применяться ко второй компоненте сигнала.

В решении на фиг.1B блока рендеринга 120 показаны два масштабируемых усилителя 121 и 122, расположенных на пути прохождения первой компоненты сигнала, усилители выполнены с возможностью усиления двух копий первой компоненты сигнала по-разному. Используемые в решении различные коэффициенты усиления определяются из входного параметра, в других воплощениях они могут быть определены из входного аудиосигнала, они могут быть предустановленны или сформированы локально, возможен также ввод данных пользователем. Выходные сигналы двух масштабируемых усилителей 121 и 122 подаются на процессор 130, информация относительно которого будет представлена ниже.

Как видно из фиг.1B, декомпозитор 110 формирует вторую компоненту сигнала для блока рендеринга 120, который осуществляет другой рендеринг на пути обработки второй компоненты сигнала. В других решениях первая компонента сигнала может быть обработана в соответствии с приведенным путем обработки второй компоненты сигнала или вместо второй компоненты сигнала. Первая и вторая компоненты сигнала могут меняться местами.

В решении на фиг.1B на пути обработки второй компоненты сигнала есть декоррелятор 123, следующий за блоком циклического сдвига или за блоком параметрического стерео, или за модулем смешения 124, как второй характеристики рендеринга. Декоррелятор 123 может быть выполнен с возможностью декорреляции второй компоненты сигнала X[k] и для формирования декоррелированной версии Q[k] второй компоненты сигнала для параметрического стерео или модуля смешения 124. На фиг.1B моносигнал X[k] поступает на блок декоррелятора "D" 123 и на модуль смешения 124. Блок декоррелятора 123 может формировать декоррелированную версию входного сигнала Q[k], имеющую аналогичные частотные характеристики и аналогичную среднюю энергию. Модуль смешения 124 может на базе пространственных параметров вычислять коэффициенты смешивающей матрицы и синтезировать выходные каналы Y₁[k] и Y₂[k]. Модуль смешения описывается выражением

[ Y 1 [ k ] Y 2 [ k ] ] = [ c l 0 0 c r ] [ cos ( α + β ) sin ( α + β ) cos ( − α + β ) sin ( − α + β ) ] [ X [ k ] Q [ k ] ] ;

где параметры c₁, с_r, α и β - константы, или переменные, зависящие от времени или частоты, адаптивно вычисляемые из входного сигнала X[k] или передаваемые как внешняя информация вместе с входным сигналом X[k], например, в формате параметров ILD (ILD=Inter channel Level Difference) и параметов ICC (ICC=Inter Channel Correlation). Сигнал X[k] - принимаемый моносигнал, G[k] - декоррелированный сигнал, являющийся декоррелированной версией сигнала X[k]. Y₁[k] и Y₂[k] - выходные сигналы.

Декоррелятор 123 может быть реализован как фильтр IIR (IIR=Infinite Impulse Response), произвольный FIR фильтр (FIR=Finite Impulse response) или специальный FIR фильтр, использующий одно подсоединение просто для задержки сигнала.

Параметры c₁, с_r, α и β могут быть определены различными путями. В некоторых решениях они просто определяются входными параметрами, которые могут быть обеспечены вместе с входным аудиосигналом, например с данными нижнего уровня как внешняя информация. В других решениях они могут формироваться локально или выводиться из свойств входного аудиосигнала.

В решении, представленном на фиг.1B, блок рендеринга 120 выполнен с возможностью рендеринга второго сигнала в виде двух выходных сигналов Y₁[k] и Y₂[k], формируемых модулем смешения 124 и подаваемых на процессор 130.

В соответствии с маршрутом обработки первой компоненты сигнала две версии пространственного распределения амплитуд первой компоненты сигнала, с выходов двух масштабируемых усилителей 121 и 122 также подаются на процессор 130. В других решениях масштабируемые усилители 121 и 122 могут присутствовать в процессоре 130, где только первая компонента сигнала и параметр пространственного распределения амплитуд (панорамирования) могут формироваться блоком рендеринга 120.

Как можно видеть на фиг. lB, процессор 130 может быть выполнен с возможностью обработки или объединения первого сигнала рендеринга и второго сигнала рендеринга в этом решении просто путем объединения выходов, чтобы обеспечить стереосигнал, имеющий левый канал L и правый канал R, соответствующие выходному пространственному многоканальному звуковому сигналу фиг. lA. B решении на фиг.lB для обоих маршрутов сигналов определены левый и правый каналы стереосигнала. На маршруте первой компоненты сигнала распределение амплитуд осуществляется двумя масштабируемыми усилителями 121 и 122, таким образом формируются две компоненты синфазных звуковых сигналов, которые масштабируются по-разному. Это создает впечатление точечного аудиоисточника как семантического свойства или характеристики рендеринга. На маршруте обработки второй компоненты сигнала выходные сигналы Y ₁ [k] и Y ₂ [k] подаются на процессор 130 и обеспечивают сигналы левого и правого каналов, определяемые в модуле смешения 124. Параметры с _l , с _r , α и β определяют пространственную протяженность соответствующего аудиоисточника. Другими словами, параметры с _l , с _r , α и β могут быть выбраны с использованием метода или в диапазоне так, что для R и L каналов любая корреляция между максимальной корреляцией и минимальной корреляцией может быть получена на втором маршруте обработки сигнала как вторая характеристика рендеринга. Более того, это можно осуществлять независимо для различных частотных полос. Другими словами, параметры с _l , с _r , α и β могут быть выбраны с использованием метода или в диапазоне так, что L и R каналы будут синфазные, при моделировании точечного аудиоисточника как семантического свойства.

Параметры с _l , с _r , α и β могут также быть выбраны с использованием метода или в диапазоне так, что каналы L и R на втором маршруте обработки сигнала будут декоррелированы при моделировании пространственно распределенного источника звука как семантического свойства, т.е. моделирование источника звука на заднем плане или пространственно протяженного. Фиг. 2 иллюстрирует другое решение, которое является более общим. На Фиг. 2 изображен блок семантического разложения 210, которому соответствует декомпозитор 110. Выход блока семантического разложения 210 является входом стадии рендеринга 220, которому соответствует блок рендеринга 120. Стадия рендеринга 220 состоит из ряда отдельных модулей рендеринга 221-22n, то есть блок семантического разложения 210 выполнен с возможностью разложения моно/стерео входного сигнала на n компонент сигнала, имеющих n семантических свойств. Разложение может осуществляться на основе параметров контроля разложения, которые могут быть предоставлены вместе с моно/стерео входным сигналом, быть предустановленны, создаваться локально или вводиться пользователем и т.д.

Другими словами, декомпозитор 110 может быть выполнен с возможностью семантического разложения аудиосигнала, основанного на дополнительном входном параметре и/или для определения входного параметра из аудиосигнала. Выходные данные декорреляции или стадии рендеринга 220 подаются затем на блок смешения 230, который формирует многоканальный выходной сигнал на основе декорреляции или рендеринга сигналов и, при необходимости, на основе параметров управления смешением.

Как правило, устройство может разделить звуковой материал на n различных семантических компонент и декоррелировать каждую компоненту отдельно с использованием декорреляторов, D¹-Dⁿ, изображенных на фиг.2. Другими словами, в решении характеристики рендеринга соответствуют семантическим свойствам компонент сигналов. Каждый из декорреляторов или блоков рендеринга может быть выполнен с возможностью учета семантически свойств соответствующей компоненты сигнала. Впоследствии обработанные компоненты могут быть смешаны для получения выходного многоканального сигнала. Различные компоненты могут, например, соответствовать моделируемым объектам переднего плана и фона.

Другими словами, блок рендеринга 110 может быть выполнен с возможностью объединения первой компоненты сигнала и первого декоррелированного сигнала для получения стерео или многоканального смешанного сигнала, как рендеринга первого сигнала и/или для объединения второй компоненты сигнала и второго декоррелированного сигнала для получения стерео смешанного сигнала как рендеринга второго сигнала.

Кроме того, блок рендеринга 120 может быть выполнен с возможностью рендеринга первой компоненты сигнала в соответствии с аудиохарактеристикой фона и/или для рендеринга второй компоненты сигнала в соответствии с основной характеристикой аудио или наоборот.

Поскольку, например, сигналы, похожие на аплодисменты, можно рассматривать как сигналы, состоящие из отдельных хлопков и шума, как атмосферы, с очень плотными далекими хлопками, подходящее разложение такого сигнала может быть получено путем разделения изолированных хлопков переднего плана, как одной из компонент, и фонового шума, как другой компоненты. Другими словами, в одном решении n=2. В таком решении, например, блок рендеринга 120 может быть выполнен с возможностью рендеринга первой компоненты сигнала путем обеспечения пространственного распределения амплитуд (амплитудного панорамирования) первой компоненты сигнала. Другими словами, корреляция или рендеринг хлопков переднего плана может в решении достигаться в ячейке D¹ амплитудного панорамирования на рассчитанное место каждого отдельного события.

В решении блок рендеринга 120 может быть выполнен с возможностью рендеринга первой и/или второй компоненты сигнала, например, с использованием фазовой фильтрации первой или второй компонент сигнала для получения первого или второго декоррелированного сигнала.

Другими словами, в решении фон может быть декоррелирован или подвергнут рендерингу с использованием m независимых друг от друга фазовых фильтров D 1 … m . 2 В решении фазовыми фильтрами может быть обработан только квазистационарный фон, эффектов временного запаздывания, возникающих при использовании традиционных методов, можно таким образом избежать. При применении амплитудного панорамирования к событиям, создаваемым объектом переднего плана, исходная плотность аплодисментов переднего плана может быть примерно восстановлена в отличие от существующих систем, представленных, например, в работах J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, "High-Quality Parametric Spatial Audio Coding at Low Bitrates" in AES 116^th Convention, Berlin, Preprint 6072, May 2004 and J.Herre, K.Kjorling, J.Breebaart, et al., "MPEG Surround - the ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding" in Proceedings of the 122^nd AES Convention, Vienna, Austria, May 2007.

Другими словами, в решении декомпозитор 110 может быть выполнен с возможностью разложения входного аудиосигнала семантически на базе входного параметра, где входной параметр может передаваться вместе с аудиосигналом, как, например, внешняя информация. В таком решении декомпозитор 110 может быть выполнен с возможностью определения входного параметра из аудиосигнала. В других решениях декомпозитор 110 может быть выполнен с возможностью определения входного параметра как параметра управления, независящего от входного аудиосигнала, который может быть создан локально, предустановлен или также может быть введен пользователем.

Конструкция блока рендеринга 120 может быть выполнена с возможностью получения пространственного распределения первого сигнала рендеринга или второго сигнала рендеринга путем применения широкополосного амплитудного панорамирования. Другими словами, в соответствии с описанием фиг.lB, данным выше, вместо создания точечного источника панорамированное местоположение источника может меняться во времени для того, чтобы создать аудиоисточник с определенным пространственным распределением. В решениях блок рендеринга 120 может быть выполнен с возможностью использования локально сформированного низкочастотного шума для амплитудного панорамирования, т.е. коэффициенты усиления амплитуды панорамирования, например, масштабируемых усилителей 121 и 122 на фиг.1B соответствуют значению локально созданного шума, то есть меняются во времени в определенной полосе частот.

Решения могут быть выполнены с возможностью эксплуатации в управляемом или неуправляемом режимах. Например, при управляемом режиме, например, см. блок, обведенный пунктирной линией на фиг. 2, декорреляция может быть достигнута путем применения стандартной технологии декорреляционных фильтров, управляемых на грубой временной сетке только для, например, фона или атмосферы, и может обеспечить корреляцию путем перераспределения каждого отдельного события в, например, области переднего плана с использованием переменного во времени пространственного позиционирования с помощью широкополосного амплитудного панорамирования на гораздо более точной временной сетке. Другими словами, в решении блок рендеринга 120 может быть выполнен с возможностью работы декорреляторов различных компонент сигналов на разных временных сетках, т.е. базирующихся на разных временных масштабах, которые могут выражаться в виде различных частот дискретизации или различных задержек для соответствующих декорреляторов. В одном решении разделения фона и переднего плана, для области на переднем плане может использоваться амплитудное панорамирование, где амплитуда меняется на гораздо более точной временной сетке, чем в операции декорреляции, связанной с обработкой фона.

Кроме того, отметим, что для декорреляции, например, сигналов, похожих на аплодисменты, то есть квазистационарных случайных сигналов, точное пространственное положение каждого одиночного хлопка на переднем плане не может иметь такого значения, как восстановление общего распределения множества хлопков. Решение может иметь преимущество благодаря этому факту и может работать в неуправляемом режиме. В таком режиме упомянут

Устройство для формирования выходного пространственного многоканального аудио сигнала

Патент 2537044