Гибридное извлечение аудиоканалов объемного звука посредством управляемого объединения компонент сигналов окружения и компонент матрично-декодируемых сигналов

Иллюстрации

Показать все

Изобретение относится к обработке аудиосигналов, в частности к получению компонент сигналов окружения из аудиосигналов источника, получению компонент матрично-декодированных сигналов из аудиосигналов источника и управляемому объединению компонент сигналов окружения с компонентами матрично-декодируемых сигналов. Техническим результатом является создание приятно слышимого многоканального сигнала из двухканального сигнала, который или матрично кодируется, или нематрично кодируется без необходимости слушателю переключать режимы. Указанный технический результат достигается тем, что способ получения двух аудиоканалов объемного звука из двух входных аудиосигналов, при этом аудиосигналы могут включать в себя компоненты, сформированные матричным кодированием, содержит этапы, на которых получают компоненты сигналов окружения из упомянутых аудиосигналов, получают компоненты матрично-декодированных сигналов из аудиосигналов и управляемо объединяют компоненты сигналов окружения и компоненты матрично-декодированных сигналов для обеспечения аудиоканалов объемного звука, при этом управляемое объединение включает в себя применение масштабных коэффициентов усиления. 3 н. и 20 з.п. ф-лы, 7 ил., 1 табл.

Реферат

Область техники

Изобретение относится к обработке аудиосигналов. Более конкретно оно относится к получению компонент сигналов окружения из аудиосигналов источника, получению компонент матрично-декодированных сигналов из аудиосигналов источника и управляемому объединению компонент сигналов окружения с компонентами матрично-декодируемых сигналов.

Включение посредством ссылки

Следующие ссылки включаются сюда посредством ссылки, каждая в полном объеме.

[1] C. Avendano and Jean-Marc Jot, "Frequency Domain Techniques for Stereo to Multichannel Upmix", AES 22<nd> Int. Conf. on Virtual, Synthetic Entertainment Audio.

[2] E. Zwicker, H. Fasti, "Psycho-acoustics", Second Edition, Springer, 1990, Germany.

[3] B. Crockett, "Improved Transient Pie-Noise Performance of Low Bit Rate Audio Coders Using Time Scaling Synthesis", Paper No. 6184, 117th AES Conference, San Francisco, Oct. 2004.

[4] Заявка на американский патент за номером № 10/478,538, PCT, поданная 26 февраля 2002 г., опубликованная как US 2004/0165730 A1 26 августа 2004 г., «Segmenting Audio Signals into Auditory Events», Brett G. Crockett.

[5] A. Seefeldt, M. Vinton, C. Robinson, "New Techniques in Spatial Audio Coding", Paper No. 6587, 119th AES Conference, New York, Oct 2005.

[6] Заявка на американский патент за номером № 10/474,387, PCT, поданная 12 февраля 2002 г., опубликованная как US 2004/0122662 A1 24 июня 2004 г., «High Quality Time-Scaling and Pitch-Scaling of Audio Signals», Brett Graham Crockett.

[7] Заявка на американский патент за номером № 10/476,347, PCT, поданная April 25, 2002, опубликованная как US 2004/0133423 A1 8 июля 2004 г., «Transient Performance of Low Bit Rate Audio Coding Systems by Reducing Pre-Noise», Brett Graham Crockett.

[8] Заявка на американский патент за номером № 10/478,397, PCT, поданная February 22, 2002, опубликованная как US 2004/0172240 A1 8 июля 2004 г., «Comparing Audio Using Characterizations Based on Auditory Events», Brett G. Crockett et al.

[9] Заявка на американский патент за номером № 10/478,398, PCT, поданная February 25, 2002, опубликованная как US 2004/0148159 A1 29 июля 2004 г., «Method for Time Aligning Audio Signals Using Characterizations Based on Auditory Events», Brett G. Crockett et al.

[10] Заявка на американский патент за номером № 10/91 1,404, PCT, поданная 3 августа 2004 г., опубликованная как US 2006/0029239 A1 9 февраля 2006 г., «Method for Combining Audio Signals Using Auditory Scene Analysis», Michael John Smithers.

[11] Международная заявка, опубликованная по Договору о патентной кооперации, PCT/US2006/020882, дата международной подачи 26 мая 2006 г., назначенная Соединенными Штатами, опубликованная как WO 2006/132857 A2 and A3 14 декабря 2006 г., «Channel Reconfiguration With Side Information», Alan Jeffrey Seefeldt, et al.

[12] Международная заявка, опубликованная по Договору о патентной кооперации, PCT/US2006/028874, дата международной подачи 24 июля 2006 г., назначенная Соединенными Штатами, опубликованная как WO 2007/016107 A2 8 февраля 2007 г., «Controlling Spatial Audio Coding Parameters as a Function of Auditory Events», Alan Jeffrey Seefeldt, et al.

[13] Международная заявка, опубликованная по Договору о патентной кооперации, PCT/US2007/004904, дата международной подачи 22 февраля 2007, назначенная Соединенными Штатами, опубликованная как WO 2007/106234 A1 20 сентября 2007 г., "Rendering Center Channel Audio", Mark Stuart Vinton.

[14] Международная заявка, опубликованная по Договору о патентной кооперации, PCT/US2007/008313, дата международной подачи 30 марта 2007 г., назначенная Соединенными Штатами, опубликованная как WO 2007/127023 8 ноября 2007 г., "Audio Gain Control Using Specific Loudness-Based Auditory Event Detection", Brett G. Crockett, et al.

Уровень техники

Создание многоканального аудиоматериала или стандартного матрично-кодированного двухканального стереофонического материала (в котором каналы часто обозначаются как «Lt» и «Rt») или нематрично-кодированного двухканального стереофонического материала (в котором каналы часто обозначаются «Lo» и «Ro») усиливается посредством извлечений объемных каналов. Однако роль объемных каналов для каждого типа сигналов (матрично- и нематрично-кодированного материала) полностью различается. Для нематрично-кодированного материала использование объемных каналов для подчеркивания окружения начального материала часто создает приятно слышимые результаты. Однако для матрично-кодированного материала желательно восстанавливать или аппроксимировать панорамированные звуковые изображения начальных объемных каналов. Кроме того, желательно обеспечить структуру, которая автоматически обрабатывает объемные каналы большинством соответствующих способов, не смотря на входной тип (или нематрично- или матрично-кодированный), без необходимости слушателю выбирать режим декодирования.

В настоящее время есть много методов повышающего микширования двух каналов во множество каналов. Такие методы классифицируются от просто фиксированных или пассивных матричных декодеров до активных матричных декодеров, а также методов выделения окружения для извлечения объемных каналов. Позднее методы выделения окружения частотной области для извлечения объемных каналов (см., например, ссылку [1]) показали перспективу создания приятных многоканальных опытов. Однако такие методы не воспроизводят повторно изображения объемных каналов из матрично-декодированного (LtRt) материала, так как они изначально предназначены для нематрично-декодированного (LoRo) материала. Альтернативно, пассивные и активные матричные декодеры делают достаточно хорошую работу изоляции объемно-панорамированных изображений для матрично-кодированного материала. Однако методы выделения окружения обеспечивают лучшую производительность для нематрично-кодированного материала, чем делает матричное декодирование.

С текущим формированием восходящих микшеров слушателю часто требуется переключение системы восходящего микширования для выбора одного, который наилучше соответствует входному аудиоматериалу. Поэтому объектом настоящего изобретения является создание сигналов объемных каналов, которые являются приятно слышимыми как для матрично-, так и нематрично-кодированного материала без какой-либо необходимости для пользователя переключать между режимами декодирования работы.

Сущность изобретения

В соответствии с аспектами настоящего изобретения способ получения двух аудиоканалов объемного звука из двух входных аудиосигналов, при этом аудиосигналы могут включать в себя компоненты, сформированные матричным кодированием, содержит получение компонент сигналов окружения из аудиосигналов, получение компонент матрично-декодированных сигналов из аудиосигналов и управляемое объединение компонент сигналов окружения и компонент матрично-декодированных сигналов для обеспечения аудиоканалов объемного звука. Получение компонент сигналов окружения может включать в себя применение масштабного коэффициента усиления компонент динамически изменяемых сигналов окружения. Масштабный коэффициент усиления компонент сигналов окружения может быть функцией величины кросс-корреляции входных аудиосигналов, в которой, например, масштабный коэффициент усиления компонент сигналов окружения увеличивается по мере того, как степень кросс-корреляции увеличивается, и наоборот. Величина кросс-корреляции может временно выравниваться и, например, величина кросс-корреляции может временно выравниваться посредством использования зависимого от сигнала квазиинтегратора или, альтернативно, посредством использования скользящего среднего. Временное выравнивание может быть сигнально-адаптивным, например временное выравнивание адаптируется в ответ на изменения в спектральном распределении.

В соответствии с аспектами настоящего изобретения получение компонент сигналов окружения может включать в себя применение, по меньшей мере, одной последовательности фильтра декорреляции. Одна и та же последовательность фильтра декорреляции может применяться к каждому из входных аудиосигналов или, альтернативно, разная последовательность фильтра декорреляции может применяться к каждому из входных аудиосигналов.

В соответствии с другими аспектами настоящего изобретения получение компонент матрично-декодированных сигналов может включать в себя применение матричного декодирования для входных аудиосигналов, при этом матричное декодирование адаптируется для обеспечения первого и второго аудиосигналов, каждый из которых связан с задним направлением объемного звука.

Управляемое объединение может включать в себя применение масштабных коэффициентов усиления. Масштабные коэффициенты усиления могут включать в себя масштабный коэффициент усиления компонент динамически изменяемых сигналов окружения, примененный для получения компонент сигналов окружения. Масштабные коэффициенты усиления могут также включать в себя масштабный коэффициент усиления компонент динамически изменяемых матрично-декодированных сигналов, примененный к каждому из первого и второго аудиосигналов, связанных с задним направлением объемного звука. Масштабный коэффициент усиления компонент матрично-декодированных сигналов может быть функцией величины кросс-корреляции входных аудиосигналов, при этом, например, масштабный коэффициент усиления компонент динамически изменяемых матрично-декодированных сигналов увеличивается по мере того, как степень кросс-корреляции увеличивается, и уменьшается по мере того, как степень кросс-корреляции уменьшается. Масштабный коэффициент усиления компонент динамически изменяемых матрично-декодированных сигналов и масштабный коэффициент усиления компонент динамически изменяемых сигналов окружения могут увеличиваться и уменьшаться по отношению друг к другу таким образом, что сберегается объединенная энергия компонент матрично-декодированных сигналов и компонент сигналов окружения. Масштабные коэффициенты усиления могут дополнительно включать в себя масштабный коэффициент усиления динамически изменяемых аудиоканалов объемного звука для дополнительного управления усилением аудиоканалов объемного звука. Масштабный коэффициент усиления аудиоканалов объемного звука может быть функцией величины кросс-корреляции входных аудиосигналов, в которой, например, функция побуждает масштабный коэффициент усиления аудиоканалов объемного звука увеличиваться по мере того, как величина кросс-корреляции уменьшается до значения, ниже которого масштабный коэффициент усиления аудиоканалов объемного звука уменьшается.

Различные аспекты настоящего изобретения могут выполняться в частотно-временной области, при этом, например, аспекты изобретения могут выполняться в одном или более частотных диапазонах в частотно-временной области.

Повышающее микширование или матрично-кодированного двухканального аудиоматериала, или нематрично-кодированного двухканального материала обычно требует формирование объемных каналов. Хорошо известные системы матричного декодирования работают хорошо для матрично-кодированного материала, хотя методы «выделения» окружения также работают хорошо для нематрично-кодированного материала. Для избегания необходимости слушателю переключаться между двумя режимами повышающего микширования аспекты настоящего изобретения переменно смешиваются между матричным декодированием и выделением окружения для автоматического обеспечения соответствующего повышающего микширования для данного типа входных сигналов. Для этого достижения величина кросс-корреляции между начальными входными каналами управляет частью компонент прямых сигналов из отдельного матричного декодера («отдельный» в том смысле, что матричный декодер только необходим для декодирования объемных каналов) и компонент сигналов окружения. Если два входных канала сильно коррелированы, то больше компонент прямых сигналов, чем компонент сигналов окружения, применяются к каналам объемных каналов. С другой стороны, если два входных канала декоррелируются, тогда больше компонент сигналов окружения, чем компонент прямого сигнала, применяются к каналам объемных каналов.

Методы выделения окружения, которые описаны в ссылке [1], удаляют аудиокомпоненты окружения из начальных передних каналов и панорамируют их к объемным каналам, которые могут усиливать ширину передних каналов и улучшать восприятие окружения. Однако методы выделения окружения не панорамируют дискретные изображения к объемным каналам. С другой стороны, методы матричного декодирования делают относительно хорошую работу панорамирования прямых изображений («прямой» в смысле звук, имеющий прямой путь от источника к местоположению слушателя, в противоположность отражающему или окружающему звуку, который отражается, или «непрямой») к объемным каналам и, следовательно, способны восстанавливать матрично-декодированный материал более точно. Для получения преимущества от эффективности как систем декодирования гибрид выделения окружения и матричного декодирования является аспектом настоящего изобретения.

Задачей изобретения является создание приятно слышимого многоканального сигнала из двухканального сигнала, который или матрично кодируется, или нематрично кодируется без необходимости слушателю переключать режимы. Для ясности изобретение описывается в контексте четырехканальной системы, использующей левый, правый, левый объемный и правый объемный каналы. Изобретение, однако, может предполагаться для пяти каналов или более. Хотя любой из разных известных методов для обеспечения центрального канала, а также пяти каналов может использоваться, особенно полезен метод, который описывается в международной заявке, опубликованной по Договору о патентной кооперации, WO 2007/106324, поданной 22 февраля 2007 г. и опубликованной 20 сентября 2007 г., названной «Rendering Center Channel Audio», автор Mark Stuart Viniton. Упомянутая публикация WO 2007/106324 A1 включена сюда посредством ссылки полностью.

Описание чертежей

Фиг.1 показывает схематичную функциональную блок-схему устройства и процесса извлечения двух аудиоканалов объемного звука из двух входных аудиосигналов в соответствии с аспектами настоящего изобретения.

Фиг.2 показывает схематичную функциональную блок-схему повышающего аудиомикшера или процесса, повышающего микширование, в соответствии с аспектами настоящего изобретения, в котором обработка выполняется в частотно-временной области. Часть структуры фиг.2 включает в себя вариант осуществления частотно-временной области устройства или процесса на фиг.1.

Фиг.3 изображает соответствующую пару окон анализа/синтеза для временных блоков двух последовательных кратковременных дискретных преобразований (STDFT) Фурье, используемых в частотно-временном преобразовании, которое может использоваться в конкретных аспектах настоящего изобретения.

Фиг.4 показывает график центральной частоты каждого диапазона в герцах для эталонной скорости в 44100 Гц, которая может использоваться в конкретных аспектах настоящего изобретения, в котором масштабные коэффициенты усиления применяются к соответствующим коэффициентам в спектральных диапазонах, каждый из которых равен приблизительно половине ширины критического диапазона.

Фиг.5 показывает график Коэффициента Выравнивания (вертикальная ось) в зависимости от номера преобразования Блока (горизонтальная ось), примерный отклик альфа-параметра, зависимого от сигнала квазиинтегратора, который может использоваться в качестве блока оценки, используемого для уменьшения временного изменения величины кросс-корреляции в конкретных аспектах настоящего изобретения. Наличие границы события аудитории показывается в виде резкого понижения Коэффициента Выравнивания на границе блока только до Блока 20.

Фиг.6 показывает схематичную функциональную блок-схему части получения объемного звука повышающего аудиомикшера или процесса повышающего микширования на фиг.2 в соответствии с аспектами настоящего изобретения. Для ясности представления фиг.6 показывает схематично поток сигналов в одном из множества частотных диапазонов, что делает понятным, что объединенные действия во всех множествах частотных диапазонах создают аудиоканалы LS и RS объемного звука.

Фиг.7 показывает график масштабных коэффициентов и усиления (вертикальная ось) в зависимости от коэффициента корреляции (p LR (m,b)) (горизонтальная ось).

Наилучший вариант выполнения изобретения

Фиг.1 показывает схематичную функциональную блок-схему устройства или процесса извлечения двух аудиоканалов объемного звука из двух входных аудиосигналов в соответствии с аспектами настоящего изобретения. Входные аудиосигналы могут включать в себя компоненты, сформированные матричным кодированием. Входные аудиосигналы могут быть двумя стереофоническими аудиоканалами, обычно представляющими левое и правое направления звука. Как указано выше, для стандартного матрично-кодированного двухканального стереофонического материала каналы часто обозначаются «Lt» и «Rt» и для нематрично-кодированного двухканального стереофонического материала каналы часто обозначаются «Lo» и «Ro». Таким образом, для указания, что входные аудиосигналы могут матрично кодироваться в одно время и нематрично кодироваться в другое время, входы обозначаются «Lo/Lt» и «Ro/Rt» на фиг.1.

Оба входных аудиосигнала в примере на фиг.1 применяются к отдельному матричному декодеру или функции декодирования («Отдельный Матричный Декодер») 2, который формирует компоненты матрично-декодированных сигналов в ответ на пару входных аудиосигналов. Компоненты матрично-декодированных сигналов получаются из двух входных аудиосигналов. В частности, Отдельный Матричный Декодер 2 выполнен с возможностью обеспечения первого и второго аудиосигналов, каждый из которых связан с задним направлением объемного звука (таким как левое объемное и правое объемное). Таким образом, например, Отдельный Матричный Декодер 2 может реализовываться как часть объемных каналов в 2:4 матричном декодере или функции декодирования (т.е. «отдельный» матричный декодер или функция декодирования). Матричный декодер может быть пассивным или активным. Отдельный Матричный Декодер 2 может характеризоваться как «тракт прямого сигнала (или тракты)» (где «прямой» используется в смысле, объясненном выше) (см. фиг.6, описанную ниже).

На фиг.1 оба входа также применяются к Окружению 4, которое может быть любым разнообразием хорошо известных устройств или функций, формирующих, извлекающих или выделяющих окружение, которые функционируют в ответ на один или два входных аудиосигнала для обеспечения одного или двух выходов компонент сигналов окружения. Компоненты сигналов окружения получаются из двух входных аудиосигналов. Окружение 4 может включать в себя устройства и функции [1], в которых окружение может характеризоваться как «выделенное» из входного сигнала(ов) (как, например, из устройства выделения окружения Хафлерра 1950, в котором один или более разные сигналы (L-R, R-L) извлекаются из Левого и Правого стереофонических сигналов, или современного устройства выделения окружения частотно-временной области, как в ссылках [1] и [2], в которых окружение может характеризоваться как «добавленное» к или «сформированное» в ответ на входной сигнал(ы) (как, например, из цифрового (линия задержки, конвольвер и т.д.) или аналогового (камера, плата, ключ, линия задержка и т.д.) отражателя).

В современных устройствах выделения окружения частотной области выделение окружения может достигаться посредством контроля кросс-корреляции между входными каналами и выделения компонент сигнала во времени и/или частоты, которые декоррелируют (имеют небольшой коэффициент корреляции, близкий к нулю). Для дополнительного увеличения выделения окружения декорреляция может применяться в тракте сигнала окружения для улучшения восприятия переднего/обратного отделения. Такая декорреляция не будет смешиваться с компонентами выделенных декоррелирующих сигналов, или процессов, или устройств, используемых для выделения их. Целью такой декорреляции является уменьшение любой остаточной корреляции между передними каналами и полученными объемными каналами. Смотри заголовок ниже «Декорреляторы для объемных каналов».

В случае одного входного аудиосигнала и двух выходных сигналов окружения, два входных аудиосигнала могут объединяться или только один из них используется. В случае двух входов и одного выхода, один выход может использоваться для обоих выходов сигналов окружения. В случае двух входов и двух выходов, устройство или функция могут функционировать независимо от каждого входа так, что каждый выход сигнала окружения может реагировать только на один конкретный вход или, альтернативно, два выхода могут реагировать и зависеть от обоих входов. Окружение 4 может характеризоваться как «тракт сигнала окружения (или тракты)».

На примере фиг.1 компоненты сигналов окружения и компоненты матрично-декодированных сигналов управляемо объединяются для обеспечения двух аудиоканалов объемного звука. Это может сопровождаться, таким образом, как показано на фиг.1, или аналогичным образом. На примере фиг.1 масштабный коэффициент усиления компонент динамически изменяемых матрично-декодированных сигналов применяется к обоим выходам Отдельного Матричного Декодера 2. Это показывается как применение одного масштабного коэффициента «Усиления Прямого Тракта» к каждым двум умножителям 6 и 8, каждый в выходном тракте Отдельного Матричного Декодера 2. Масштабный коэффициент усиления компонент динамически изменяемых сигналов окружения применяется к обоим выходам Окружения 4. Это показывается как применение одного масштабного коэффициента «Усиления Окружающего Тракта» к каждому из двух умножителей 10 и 12, каждый в выходе Окружения 4. Выход матричного декодера с динамически регулируемым усилением умножителя 6 суммируется с выходом окружения с динамически регулируемым усилением умножителя 10 в аддитивном объединителе 14 (показан как символ ∑ суммирования) для создания одного из выходов объемного звука. Выход матричного декодера с динамически регулируемым усилением умножителя 8 суммируется с выходом окружения с динамически регулируемым усилением умножителя 12 в аддитивном объединителе 16 (показано как символ ∑ суммирования) для создания другого одного из выходов объемного звука. Для обеспечения левого объемного (LS) выхода из объединителя 14 сигнал отдельного матричного декодера с регулируемым усилением из умножителя 6 будет получаться из левого объемного выхода Отдельного Матричного Декодера 2, и сигнал окружения с регулируемым усилением из умножителя 10 будет получаться из выхода Окружения 4, заданного для левого объемного выхода. Аналогично для обеспечения правого объемного (RS) выхода из объединителя 16 сигнал отдельного матричного декодера с регулируемым усилением из умножителя 8 будет получаться из правого объемного выхода Отдельного Матричного Декодера 2, и сигнал окружения с регулируемым усилением из умножителя 12 будет получаться из выхода Окружения 4, предназначенного для правого объемного выхода.

Применение масштабных коэффициентов с динамически изменяемым усилением к сигналу, который подает выход объемного звука, может характеризоваться как «панорамирование» этого сигнала в и из такого выхода объемного звука.

Тракт прямого сигнала и тракт сигнала окружения регулируются с усилением для обеспечения соответствующего количества прямого аудиосигнала и аудиосигнала окружения на основе входящего сигнала. Если входные сигналы хорошо коррелируются, то большая часть тракта прямого сигнала будет представляться в конечных сигналах объемных каналов. Альтернативно, если входные сигналы существенно декоррелируются, то большая часть тракта сигнала окружения будет представляться в конечных сигналах объемных каналов.

Так как некоторые из звуковой энергии входных сигналов проходят по объемным каналам, может быть желательно, кроме того, регулировать усиления передних каналов с тем, чтобы давление конечного воспроизведенного звука существенно не менялось. Смотрите пример на фиг.2.

Следует отметить, что, когда используются методы выделения окружения частотно-временной области, как в ссылке 1, выделение окружения может сопровождаться применением соответствующего масштабного коэффициента усиления компонент динамически изменяемых сигналов окружения к каждому входному аудиосигналу. В этом случае блок Окружения 4 может рассматриваться для включения умножителей 10 и 12 таким образом, что масштабный коэффициент Усиления Окружающих Трактов применяется к каждому из входных аудиосигналов Lo/Lt и Ro/Rt независимо.

В этих широких аспектах изобретение, которое охарактеризовано в примере на фиг.1, может реализоваться (1) в частотно-временной области или частотной области, (2) на широкополосной или диапазонной основе (ссылка на частотные диапазоны) и (3) в аналоговом, цифровом или смешанном аналого/цифровом способе.

Хотя метод кросс-смешивания отдельного матричного декодируемого аудиоматериала с сигналами окружения для создания объемных каналов можно сделать широкополосным способом, производительность может быть улучшена посредством вычисления желаемых объемных каналов в каждом из множества частотных диапазонов. Один возможный способ извлечения желаемых объемных каналов в частотных диапазонах использует перекрывающее кратковременное дискретное преобразование Фурье как для анализа начальных двухканальных сигналов, так и конечного синтеза многоканального сигнала. Однако имеется много хорошо известных методов, которые позволяют сегментацию сигнала как по времени и частоте для анализа, так и синтеза (например, фильтр-банки, квадратурные зеркальные фильтры и т.д.).

Фиг.2 показывает схематичную функциональную блок-схему повышающего аудиомикшера или процесса, повышающего микширование, в соответствии с аспектами настоящего изобретения, в котором обработка выполняется в частотно-временной области. Часть структуры фиг.2 включает в себя вариант осуществления частотно-временной области устройства или процесса на фиг.1. Пара стереофонических входных сигналов Lo/Lt и Ro/Rt используется в восходящем микшере или процессе восходящего микширования. В примере фиг.2 и других примерах здесь, в которых обработка выполняется в частотно-временной области, масштабные коэффициенты усиления могут динамически обновляться каждый раз по скорости блока преобразования или по скорости выровненного по времени блока.

Хотя, в принципе, аспекты изобретения могут использоваться аналоговыми, цифровыми или гибридными аналого/цифровыми вариантами осуществления, пример на фиг.2 и другие примеры, обсужденные ниже, являются цифровыми вариантами осуществления. Таким образом, входные сигналы могут быть временными отсчетами, которые могут быть извлечены из аналоговых аудиосигналов. Временные отсчеты могут кодироваться в качестве сигналов линейной импульсно-кодовой модуляции (PCM). Каждый входной аудиосигнал линейной PCM может обрабатываться функцией фильтр-банка или устройства, имеющего как синфазный, так и квадратурный выход, такой как 2048 контактов, обрабатывающий методом окна кратковременное дискретное преобразование Фурье (STDFT).

Таким образом, двухканальные стереофонические входные сигналы могут преобразовываться в частотную область, используя устройство или процесс кратковременного дискретного преобразования Фурье (STDFT) («Частотно-временное Преобразование) 20, и группируются в диапазоны (группирование не показано). Каждый диапазон может обрабатываться независимо. Тракт управления вычисляет в устройстве или функции («Вычисление Обратного/Переднего Усиления») 22 отношения передних/обратных масштабных коэффициентов усиления (G F и G B) (см. Уравнения 12 и 13 и фиг.7 и их описание ниже). Для четырехканальной системы два входных сигнала могут умножаться на масштабный коэффициент G F усиления (показан как символы 24 и 26 умножителя) и проходить через обратное преобразование или процесс преобразования («Частотно-Временное Преобразование») 28 для обеспечения левого и правого выходных каналов L'o/L't и R'o/R't, которые могут отличаться по уровню от входных сигналов из-за масштабирования усиления G F. Сигналы LS и RS объемных каналов, полученные из варианта частотно-временной области устройства или процесса на фиг.1 («Формирование Объемного Канала») 30, который представляет переменное смешивание аудиокомпонент окружения и матрично-декодированных аудиокомпонент, умножаются на обратный масштабный коэффициент G B усиления (показано как символы 32 и 34 умножителя) до инверсного преобразования или процесса преобразования («Частотно-временное Преобразование») 36.

Частотно-временное преобразование 20

Частотно-Временное Преобразование 20, используемое для формирования двух объемных каналов из входных двухканальных сигналов, может основываться на хорошо известном кратковременном дискретном преобразовании Фурье (STDFT). Для минимизации эффектов циклической свертки 75% перекрытие может использоваться как для анализа, так и синтеза. С подходящим выбором окон анализа и синтеза перекрывающееся STDFT может использоваться для минимизации слышимых эффектов циклической свертки, несмотря на обеспечение способности применения величины и фазовых модификаций к спектру. Хотя пара отдельных окон не является критической, фиг.3 изображает подходящую пару окон анализа/синтеза для двух соответствующих временных блоков STDFT.

Окно анализа назначается так, чтобы сумма перекрытых окон анализа равнялась целому числу для выбранного перекрывающего интервала. Площадь Кайзер-Базель-Извлеченного (KBD) окна может использоваться, хотя использование этого отдельного окна не является существенным для изобретения. С таким окном анализа может прекрасно синтезироваться анализированный сигнал с несинтезированным окном, если модификации были сделаны для перекрывающихся STDFT. Однако в зависимости от примененных изменений величин и последовательностей декорреляции, используемых в этом примерном варианте осуществления, желательно сузить окно синтеза для предотвращения слышимых разрывов блоков. Параметры окон, используемые в примерной системе пространственного аудиокодирования, перечисляются ниже.

STDFT Длина: 2048

Длина Основной Доли Окна Анализа (AWML): 1024

Размер скачка (HS): 512

Ведущее дополнение нулями (ZPlead): 256

Отстающее дополнение нулями (ZPlag): 768

Сужение Окна Синтеза (SWT): 128

Полосовое сжатие

Примерный вариант осуществления повышающего микширования в соответствии с аспектами настоящего изобретения вычисляет и применяет масштабные коэффициенты усиления к соответствующим коэффициентам в спектральных диапазонах с приблизительно половинной шириной критического диапазона (см., например, ссылку [2]). Фиг.4 показывает график центральной частоты каждого диапазона в герцах для эталонной скорости в 44100 Гц, и таблица дает центральную частоту для каждого диапазона для эталонной скорости в 44100 Гц.

Центральная частота каждого диапазона в герцах для эталонной скорости в 44100 Гц
Номер диапазона Центральная частота (Гц) Номер диапазона Центральная частота (Гц)
1234567891011121314151617181920212223 3365129221289356409488553618684749835922100810831203131114071515165517941955 2425262728293031323334353637383940414243444546 20952288249227282985325335753939434847985301585965147190796388209807109001216213616153151733119957

Сигнальный Адаптивный Квазиинтегратор

В примерной структуре повышающего микширования в соответствии с аспектами изобретения каждая статистика и переменная сначала вычисляется по спектральному диапазону и затем выравнивается по времени. Временное выравнивание каждой переменной сначала легко упорядочивается IIR, как показано в Уравнении 1. Однако альфа-параметр предпочтительно адаптируется по времени. Если детектируется событие аудитории (см., например, ссылку [3] или ссылку [4]), альфа-параметр уменьшается до нижнего значения и затем он восстанавливается до верхнего значения по времени. Таким образом, система обновляется более быстро во время изменений в аудио.

Событие аудитории может определяться как мгновенное изменение в аудиосигнале, например изменение сигнала инструмента или появление голоса говорящего. Таким образом, создается восприятие повышающего микширования для быстрого изменения его статистических оценок около точки детектирования события. Кроме того, система человеческой аудитории менее чувствительна во время возникновения переходных режимов/событий, так что моменты в аудиосегменте могут использоваться для скрытия отсутствия системных оценок статистических отсчетов. Событие может детектироваться посредством изменений в спектральном распределении между двумя смежными блоками по времени.

Фиг.5 показывает примерный отклик альфа-параметра (см. Уравнение 1, только ниже) в диапазоне, когда детектируется появление события аудитории (граница события аудитории только до блока 20 преобразования в примере на фиг.5). Уравнение 1 описывает зависимый от сигнала квазиинтегратор, который может использоваться в качестве блока оценки, используемого для уменьшения временного изменения величины кросс-корреляции (см. также обсуждение Уравнения 4 ниже).

C'(n,b)=αC'(n-1,b)+(1-α)C(n,b), (1)

где C(n,b) - переменная, вычисленная по спектральному диапазону b в блоке n, и C'(n,b) - переменная после временного выравнивания в блоке n.

Вычисления Объемных Каналов

Фиг.6 показывает более подробно схематичную функциональную блок-схему части получения объемного звука повышающего аудиомикшера или процесса, повышающего микширование, на фиг.2 в соответствии с аспектами настоящего изобретения. Для простоты представления фиг.6 показывает схематично поток сигналов в одном из множества частотных диапазонов, будет понятно, что объединенные действия во всех диапазонах множества частот создают аудиоканалы LS и RS объемного звука.

Как показано на фиг.6, каждый из входных сигналов (Lo/Lt и Ro/Rt) разделяется на три тракта. Первый тракт является «Трактом Управления» 40, который, в этом примере, вычисляет масштабные коэффициенты (G F и G B) усиления переднего/обратного отношения и масштабные коэффициенты (G D и G A) усиления прямого/окружающего отношения в компьютере или функции вычисления («Вычисление Управления для Диапазона») 42, который включает в себя устройство или процесс (не показано) для обеспечения величины кросс-корреляции входных сигналов. Другие два тракта являются «Трактом Прямого Сигнала» 44 и Трактом 46 Сигнала Окружения, выходы которых управляемо смешиваются совместно под управлением масштабных коэффициентов усиления G D и G A для обеспечения пары сигналов LS и RS объемных каналов. Тракт прямого сигнала включает в себя пассивный матричный декодер или процесс декодирования («Пассивный Матричный Декодер») 48. Альтернативно, активный матричный декодер может использоваться взамен пассивного матричного декодера для улучшения разделения объемных каналов под определенными условиями сигналов. Многие такие активные и пассивные матричные декодеры и функции декодирования хорошо известны из уровня техники, и использование любого такого конкретного одного устройства или процесса не является существенным для изобретения.

Необязательно для дополнительного улучшения эффекта разработки, созданного посредством панорамирования компонент окружающих сигналов для объемных каналов посредством применения масштабного коэффициента усиления G A, компоненты сигналов окружения из левого и правого входных сигналов могут применяться к соответствующему декоррелятору или умножаться на соответствующую последовательность фильтра декорреляции («Декоррелятор») 50 до смешивания с аудиокомпонентами прямого изображения из матричного декодера 48. Хотя декорреляторы 50 могут быть идентичными друг другу, некоторые слушатели могут предпочитать производительность, обеспеченную, когда они не являются идентичными. Хотя любой из множества типов декорреляторов может использоваться для тракта сигнала окружения, должна применяться осторожность для минимизации эффектов слышимого объединенного фильтра, которые могут вызывать микширование декоррелирующего аудиоматериала с недекоррелирующим сигналом. Конкретно эффективный декоррелятор описывается ниже, хотя его использование не существенно для изобретения.

Тракт 44 Прямого Сигнала может характеризоваться как включающий в себя соответствующие умножители 52 и 54, в которых масштабные коэффициенты G D усиления компонент прямого си