Аудиокодирование с использованием повышающего микширования

Иллюстрации

Показать все

Изобретение относится к аудиокодерам, использующим повышающее микширование аудиосигналов. Техническим результатом является возможность разделения отдельных аудиообъектов при микшировании аудиосигналов с понижением количества каналов и с повышением количества каналов. Указанный результат достигается тем, что аудиодекодер для декодирования многообъектного аудиосигнала содержит модуль для вычисления коэффициента предсказания матрицы С, состоящей из коэффициентов предсказания на основе информации о разности уровней объектов (OLD); а также средство для повышающего микширования на основе коэффициентов предсказания для получения первого upmix аудиосигнала, стремящегося к аудиосигналу первого типа, и/или второго upmix аудиосигнала, стремящегося к аудиосигналу второго типа. При этом многообъектный аудиосигнал содержит закодированные аудиосигналы первого типа и второго типа; многоканальный аудиосигнал состоит из downmix сигнала 112 и служебной информации, служебная информация содержит информацию об уровне аудиосигнала первого типа и аудиосигнала второго типа в первом предопределенном частотно-временном разрешении. 3 н. и 17 з.п. ф-лы, 24 ил.

Реферат

Настоящее изобретение относится к аудиокодерам, использующим повышающее микширование аудиосигналов.

Многие алгоритмы аудиокодирования предлагают эффективное кодирование или сжатие аудиоданных одного канала, т.е. монофонических сигналов. На основе теории восприятия звука аудиопотоки разделяются на фрагменты, сжимаются или устраняются в случае их нерелевантности, например в РСМ-кодировании аудиосигналов; дублированные фрагменты устраняются.

В качестве следующего шага в кодировании/сжатии стереофонического сигнала используется сходство между его левым и правым каналами.

Однако современные приложения предъявляют новые требования к алгоритмам кодирования аудиосигнала. Например, в телеконференциях, компьютерных играх, музыкальных приложениях и т.д., где несколько частично или полностью не связанных аудиосигналов передаются одновременно. Для обеспечения требуемого низкого битрейта кодирования, а также с целью обеспечения совместимости с низкоскоростными приложениями до последнего времени использовались аудиокодеки, которые выполняли микширование с повышением многоканального аудисигнала в стерео- или даже монофонический сигнал. Например, стандарт MPEG Surround микширует аудиосигналы на входе в кодированный сигнал понижающего микширования (downmix сигнал) методом, установленным данным стандартом. Понижающее микширование выполняется посредством так называемых ОТТ и ТТТ-блоков, которые выполняют микширование двух сигналов в один или трех сигналов в два соответственно. Для микширования более чем трех сигналов используется иерархическая структура из этих блоков. Каждый ОТТ-блок выдает, кроме монофонического downmix сигнала, информацию об уровневой разности между двумя входными каналами, а также параметры межканальной когерентности/взаимной корреляции, определяющие когерентность или кросс-корреляцию между двумя входными каналами. Параметры выдаются вместе с downmix сигналом кодера MPEG Surround в пределах потока данных MPEG Surround. Также каждый ТТТ-блок передает канальные коэффициенты предсказания, обеспечивая восстановление трех входных каналов из результирующего стерео downmix сигнала. Канальные коэффициенты предсказания также передаются как служебная информация в пределах потока данных MPEG Surround. Декодер MPEG Surround выполняет микширование с повышением downmix сигнала с помощью передаваемой служебной информации и восстанавливает исходные каналы, поступившие в кодер MPEG Surround.

Стандарт MPEG Surround не работает со всеми возможными конфигурациями аудиосигналов. Например, декодер MPEG Surround предназначен для восстановления downmix сигнала кодера MPEG Surround таким образом, что входные каналы кодера MPEG Surround восстанавливаются в том виде, как есть. Другими словами, аудиосигнал в стандарте MPEG Surround воспроизводится в той же конфигурации, как он был закодирован.

Однако в некоторых случаях требуется, чтобы конфигурация аудиосигнала была изменена на этапе декодирования.

В связи с этим в настоящий момент разрабатывается стандарт кодирования пространственных аудиообъектов (SAOC). Каждый канал обрабатывается как отдельный объект, после чего все его объекты микшируются в downmix сигнал. Отдельные объекты могут дополнительно содержать индивидуальные звуковые источники, например инструментальные или вокальные треки. В отличие от декодера MPEG Surround SAOC-декодер способен отдельно микшировать downmix сигнал для воспроизведения отдельных объектов в любой акустической конфигурации. Для того чтобы дать возможность SAOC-декодеру восстановить отдельные объекты, закодированные в потоке данных SAOC, внутри битового потока SAOC передается служебная информация о разности уровней объектов и параметрах межобъектной кросс-корреляции (для объектов, формирующих вместе стерео- или многоканальный сигнал). Кроме этого декодер/транскодер SAOC располагает информацией, показывающей, как отдельные объекты микшированы в downmix сигнал. Таким образом, на этапе декодирования возможно восстановление отдельных SAOC-каналов и воспроизведение этих сигналов в любой акустической конфигурации, используя определяемые пользователем параметры воспроизведения.

Несмотря на то, что SAOC-кодек был разработан для индивидуальной обработки аудиообъектов, он не соответствует требованиям некоторых приложений. Например, приложения Караоке требуют полного отделения аудиосигналов заднего плана от аудиосигналов переднего плана. Наоборот, в режиме Соло объекты переднего плана должны быть отделены от объектов заднего плана. Вследствие одинаковой обработки аудиообъектов в стандарте SAOC невозможно полностью удалить объекты заднего плана или объекты переднего плана из downmix сигнала.

Таким образом, задача настоящего изобретения - создать аудиокодек, производящий микширование аудиосигналов с понижением количества каналов и микширование с повышением количества каналов так, чтобы производилось разделение отдельных аудиообъектов, таких как, например, в режимах Караоке/Соло.

Эта задача реализуется при помощи аудиодекодера согласно п.1, метода декодирования согласно п.19 и программы согласно п.20.

Варианты осуществления изобретения показаны на следующих чертежах:

фиг.1 показывает структурную схему устройства SAOC-кодера/декодера, в котором могут быть реализованы варианты настоящего изобретения;

фиг.2 показывает схематическую и иллюстративную диаграмму спектрального изображения монофонического сигнала;

фиг.3 показывает структурную схему аудиодекодера, соответствующего варианту настоящего изобретения;

фиг.4 показывает структурную схему аудиокодера, соответствующего варианту настоящего изобретения;

фиг.5 показывает структурную схему устройства аудиокодера/декодера для применения в режиме Караоке/Соло, дополнительный вариант;

фиг.6 показывает структурную схему устройства аудиокодера/декодера для применения в режиме Караоке/Соло согласно основному варианту настоящего изобретения;

фиг.7а показывает структурную схему аудиокодера для применения в режиме Караоке/Соло согласно дополнительному варианту изобретения;

фиг.7b показывает структурную схему аудиокодера для применения в режиме Караоке/Соло согласно основному варианту настоящего изобретения;

фиг.8а и b показывает график результатов измерения качества;

фиг.9 показывает структурную схему устройства аудиокодера/декодера для применения в режиме Караоке/Соло для сравнительных целей;

фиг.10 показывает структурную схему устройства аудиокодера/декодера для применения в режиме Караоке/Соло согласно основному варианту настоящего изобретения;

фиг.11 показывает структурную схему устройства аудиокодера/декодера для применения в режиме Караоке/Соло согласно усовершенствованному варианту настоящего изобретения;

фиг.12 показывает структурную схему устройства аудиокодера/декодера для применения в режиме Караоке/Соло согласно усовершенствованному варианту настоящего изобретения;

фиг.13а по h показывают таблицы, отражающие возможную структуру битового SAOC-потока, согласно варианту настоящего изобретения;

фиг.14 показывает структурную схему аудиодекодера для применения в режиме Караоке/Соло согласно основному варианту настоящего изобретения;

фиг.15 показывает таблицу, отражающую возможную структуру битового потока SAOC, согласно основному варианту настоящего изобретения.

Для понимания описываемых далее вариантов настоящего изобретения ниже приводится описание SAOC-кодека и передаваемых в битовом SAOC-потоке параметров.

Фиг.1 показывает общую структуру SAOC-кодера 10 и SAOC-декодера 12. SAOC-кодер принимает N входных объектов, т.е. аудиосигналов 141-14N. В частности, кодер 10 содержит модуль, производящий микширование с понижением, 16, который принимает аудиосигналы с 141-14N и микширует их в downmix сигнал 18. На фиг.1 downmix сигнал представлен как стерео downmix сигнал, однако возможен также моно downmix сигнал. Каналы стерео downmix сигнала 18 обозначаются как L0 и R0, в случае моно downmix сигнала - L0. Для того чтобы обеспечить возможность SAOC-декодеру 12 восстановить отдельные объекты 141-14N, модуль 16 передает SAOC-декодеру 12 служебную информацию, содержащую такие SAOC-параметры, как разность уровней объектов (OLD), параметры межобъектной кросс-корреляции (IOC), значения downmix усиления (DMG) и разность уровней downmix каналов (DCLD). Служебная информация 20, содержащая SAOC-параметры, вместе с downmix сигналом 18 формирует выходной поток данных, принимаемый SAOC-декодером 12.

SAOC-декодер 12 содержит модуль повышающего микширования (далее upmix-модуль) 22, который принимает downmix сигнал 18 и служебную информацию 20, с целью восстановления и воспроизведения аудиосигналов 141-14N на определяемой пользователем группе каналов 241-24N, с учетом информации о воспроизведении, переданной в SAOC-декодер 12.

Аудиосигналы 141-14N могут быть переданы в downmix модуль 16 в любой кодируемой области, временной или спектральной. В случае, если аудиосигналы 141-14N передаются в downmix модуль 16 во временной области, например в формате РСМ, downmix модуль 16 использует для увеличения частотного разрешения блок фильтров, например, гибридный QMF-блок (комплекс экспоненциально модулированных фильтров с расширением Найквиста для нижнего частотного диапазона). Это необходимо для того, чтобы передавать сигналы в спектральную область, где аудиосигналы представлены в нескольких поддиапазонах, соответствующих разным спектральным областям, при определенном разрешении блока фильтров. Если аудиосигналы 141-14N уже представлены форматом, ожидаемым модулем понижающего микширования (downmix модулем) 16, нет необходимости выполнять спектральную декомпозицию.

На фиг.2 показан аудиосигнал в указанной выше спектральной области. Как видим, аудиосигнал представлен как множество сигналов различных поддиапазонов. Каждый поддиапазонный сигнал 301-30P состоит из последовательности значений поддиапазонов, которые отображаются модулем 32. Значения поддиапазонов для сигналов 301-30P синхронизированы таким образом, что для каждого последовательного временного слота 34 в блоке фильтров существует значение 32 для каждого поддиапазона.

При отображении на частотной шкале 36 поддиапазонные сигналы 301-30P соотносятся с различными частотными областями, при отображении на временной шкале 38 временные слоты блока фильтров 34 выстраиваются во временную последовательность.

Downmix модуль 16 вычисляет SAOC-параметры входных сигналов 141-14N. Downmix модуль 16 производит данные вычисления в частотно-временном разрешении, которое может быть уменьшено по отношению к исходному частотно-временному разрешению, установленному временными слотами блока фильтров 34 и декомпозицией поддиапазонов. Результаты указываются в служебной информации соответствующими синтаксическими элементами bsFrameLength и bsFreqRes. Например, группы последовательных временных слотов блока 34 могут формировать фрейм 40. Иными словами, аудиосигнал может быть разделен на фреймы, пересекающиеся во времени или следующие друг за другом. В этом случае bsFrameLength определяет количество временных слотов 41, т.е. временной промежуток, в котором SAOC-параметры OLD и IOC вычисляются во фрейме 40; и bsFreqRes определяет количество обрабатываемых частотных диапазонов, для которых вычисляются SAOC-параметры. При таком подходе каждый фрейм разделен на частотно-временные области, показанные на фиг.2 пунктирной линией 42.

Downmix модуль 16 вычисляет SAOC-параметры по следующим формулам. В частности, downmix модуль 16 вычисляет параметр OLD для каждого объекта i следующим образом:

где величина n и индексы k применяются во временных слотах 34, во всех поддиапазонах 30, которые принадлежат определенной частотно-временной области 42. Таким образом, энергии всех значений поддиапазона xi аудиосигнала или объекта суммируются и нормализуются до максимального значения энергии этой области среди всех элементов аудиосигнала.

Далее downmix модуль 16 вычисляет сходные показатели соответствующих частотно-временных областей пары различных входных сигналов 14i-14N. Наряду с тем, что downmix модуль 16 производит вычисления сходных показателей любой пары входных сигналов 14i-14N, он имеет возможность подавлять передачу сходного показателя или ограничивать вычисление сходных показателей аудиосигналов 14i-14N, которые формируют левый и правый каналы общего стереосигнала. Сходным показателем является параметр межобъектной кросс-корреляции IOCij, который вычисляется по формуле:

Индексы n и k применяются ко всем значениям поддиапазонов, принадлежащих к определенной частотно-временной области 42, i и j обозначают пару аудиосигналов 14i-14N.

Downmix модуль 16 микширует сигналы 14i-14N с помощью коэффициентов усиления, которые применяются к каждому сигналу 14i-14N, то есть, коэффициент усиления Di применяется к сигналу i, а затем все взвешенные сигналы 14i-14N суммируются для получения микшированного моно downmix сигнала. В случае стерео downmix сигнала, который показан на фиг.1, коэффициент усиления D1,i применяется к сигналу i, а затем все взвешенные сигналы суммируются для получения левого downmix канала L0; коэффициент усиления D2,i применяется к сигналу i, а затем все взвешенные сигналы суммируются для получения правого downmix канала R0.

Настройки микширования передаются в декодер параметрами downmix усиления DMGi; в случае стерео downmix сигнала - параметрами DCLDi (разность уровней downmix каналов).

Параметры downmix усиления вычисляются по формуле:

DMGi=20log10(Di+ε) для моносигнала

для стереосигнала

где ε - число порядка 10-9.

Для вычисления параметров DCLD применяется формула:

В обычном режиме downmix модуль 16 формирует микшированный сигнал в соответствии с формулой:

для моносигнала

или

для стереосигнала

Таким образом, в вышеуказанных формулах параметры OLD и IOC являются функциями аудиосигналов, а параметры DMG и DCLD - функциями величины D. При этом необходимо отметить, что D может изменяться во времени.

В обычном режиме downmix модуль 16 микширует все сигналы 14i-14N без предпочтений, то есть обрабатывает все объекты одинаково. Upmix-модуль 22 одним вычислением выполняет обратную процедуру и добавляет информацию о воспроизведении, представленной матрицей А, а именно:

где матрица Е - это функция параметров OLD и IOC. Другими словами, в обычном режиме не проводится классификация объектов 14i-14N на BGO-объекты заднего плана и FGO-объекты переднего плана. Информация о том, какой объект будет представлен на выходе upmix-модуля 22 предоставляется матрицей воспроизведения А. Например, если объект с индексом 1 является левым каналом стереообъекта, объект 2 - правым каналом, объект с индексом 3 - объектом переднего плана матрица воспроизведения А будет следующая:

для выходного сигнала типа Караоке

Однако, как указывалось выше, передача FGO-объектов переднего плана и BGO-объектов заднего плана в обычном режиме SAOC-кодека не дает приемлемых результатов.

На фиг.3 и 4 представлен вариант настоящего изобретения, который устраняет указанные недостатки. Кодер и декодер, показанные на фиг.3 и 4, обеспечивают функционирование дополнительного, так называемого «усовершенствованного» режима, в который может переключаться SAOC-кодек на фиг.1.

На фиг.3 представлен декодер 50. Декодер 50 содержит модуль 52 для вычисления коэффициентов предсказания и upmix-модуль 54 для восстановления downmix сигнала.

Аудиодекодер 50 на фиг.3 используется для декодирования многоканального аудиосигнала, состоящего из аудиосигнала первого типа и аудиосигнала второго типа. Аудиосигнал первого типа и аудиосигнал второго типа могут быть моно- или стереосигналами соответственно. Например, аудиосигнал первого типа - это объект заднего плана, а аудиосигнал второго типа - это объект переднего плана. Таким образом, варианты изобретения на фиг.3 и фиг.4 не ограничиваются режимами Караоке/Соло. Наоборот, декодер на фиг.3 и кодер на фиг.4 могут успешно применяться в различных приложениях.

Многоканальный аудиосигнал состоит из downmix сигнала 56 и служебной информации 58. Служебная информация 58 содержит информацию об уровне 60, показывающую, например, спектральную энергию аудиосигнала первого типа и аудиосигнала второго типа, например, в первом частотно-временном разрешении 42. В частности, информация об уровне 60 может содержать скалярное значение нормализованной спектральной энергии для каждого объекта и частотно-временной области. Нормализация соотносится с максимальным значением спектральной энергии среди аудиосигналов первого и второго типов в соответствующей частотно-временной области. В результате формируются параметры OLD, содержащие информацию об уровне. Несмотря на то, что указанные ниже варианты изобретения используют параметры OLD, они могут использовать нормализованную спектральную энергию, представленную другими способами.

Служебная информация 58 при необходимости содержит разностный сигнал 62, указывающий на значение разностного уровня во втором частотно-временном разрешении, которое может быть эквивалентным или отличаться от первого частотно-временного разрешения.

Модуль 52 для вычисления коэффициента предсказания функционирует на основе информации об уровне 60. Кроме этого модуль 52 может вычислять коэффициент предсказания далее на основе информации о взаимной корреляции, которая содержится в служебной информации 58. Далее модуль 52 использует информацию об изменяющихся настройках понижающего микширования для последующего вычисления коэффициента предсказания. Коэффициенты предсказания, полученные с помощью модуля 52, необходимы для извлечения или микширования исходных аудиообъектов или аудиосигналов из downmix сигналов 56.

Соответственно, upmix-модуль 54 используется для микширования downmix сигнала 56 на основе коэффициентов предсказания 64, полученных от модуля 52, и при необходимости на основе разностного сигнала 62. При использовании разностного сигнала 62 декодер 50 более эффективно подавляет взаимное влияние каналов разных типов. Upmix-модуль 54 может использовать для микширования изменяющиеся downmix настройки. Upmix-модуль 54 может использовать заданные пользователем входные данные 66 для определения того, какой из восстановленных из downmix сигнала 56 аудиосигнал должен быть передан на выход 68 и в каком объеме. В одном случае пользовательские данные 66 могут сообщить upmix-модулю 54 передать на выход первый сигнал повышающего микширования (upmix-сигнал), который по параметрам приближается к аудиосигналу первого типа. В другом (противоположном) случае, upmix-модуль 54 выдает только второй upmix-сигнал, который приближается к аудиосигналу второго типа. Промежуточные варианты характеризуются смешением обоих upmix-сигналов, которые выводятся на модуль 68.

Фиг.4 показывает вариант аудиокодера, предназначенного для создания многоканального аудиосигнала, декодируемого декодером, представленным на фиг.3. Кодер на фиг.4, который обозначен указателем 80, может содержать модуль 82 для спектрального разложения в случае, если предназначенные для кодирования аудиосигналы 84 находятся за пределами спектральной области. Среди аудиосигналов, в свою очередь, существуют, как минимум, один сигнал первого типа, и, как минимум, один сигнал второго типа. Модуль спектральной декомпозиции 82 сконфигурирован таким образом, чтобы выполнить спектральное разложение каждого сигнала 84, как показано на фиг.2, то есть модуль спектральной декомпозиции 82 раскладывает сигналы 84 с предопределенным частотно-временным разрешением. Модуль 82 может содержать блок фильтров, такой как гибридный QMF блок.

Аудиокодер 80 содержит модуль 86 для вычисления информации об уровне, модуль понижающего микширования (далее downmix модуль) 88, модуль вычисления коэффициентов предсказания 90 (при необходимости), а также модуль определения разностного сигнала 92. Дополнительно кодер 80 может содержать модуль вычисления параметров взаимной корреляции 94. Модуль 86 вычисляет данные об уровне, характеризующие уровень выдаваемых модулем 82 аудиосигналов первого типа и аудиосигналов второго типа в первом частотно-временном разрешении. Downmix модуль 88 микширует аудиосигналы аналогичным образом.

Модуль 88 выдает downmix сигнал 56, а модуль 86 выдает данные об уровне. Модуль вычисления коэффициентов предсказания 90 функционирует аналогично модулю 52, т.е. модуль 90 вычисляет коэффициенты предсказания на основе информации об уровне 60 и выдает коэффициенты предсказания 64 в модуль 92. Модуль 92, в свою очередь, устанавливает разностный сигнал 62 на основе downmix сигнала 56, коэффициентов предсказания 64 и исходных аудиосигналов во втором частотно-временном разрешении, так что результатом восстановления downmix сигнала 56 на основе коэффициентов предсказания 64 и разностного сигнала 62 является первый upmix-сигнал, который приближается по своим характеристикам к аудиосигналу первого типа, и второй аудиосигнал, который приближается к аудиосигналу второго типа. Приближение считается положительным при отсутствии разностного сигнала.

Разностный сигнал 62 (если присутствует) и данные об уровне 60 содержатся в служебной информации 58, которая наряду с downmix сигналом 56 формирует многоканальный аудиосигнал, который декодируется декодером на фиг.3.

Как показано на фиг.4, аналогично фиг.3 модуль 90 (если присутствует) может дополнительно использовать информацию о взаимной корреляции, формируемую модулем 94, и/или изменяющиеся настройки понижающего микширования модулем 88 для вычисления коэффициента предсказания 64. Далее модуль 92, определяющий разностный сигнал 62 (если он присутствует), для его корректного определения может дополнительно использовать выдаваемые модулем 88 изменяющиеся во времени настройки понижающего микширования.

Как отмечалось раннее, аудиосигнал первого типа может быть моно- или стереосигналом. Это касается и аудиосигнала второго типа. Наличие разностного сигнала 62 необязательно. Однако при его наличии он передается в составе служебной информации в том же частотно-временном разрешении, которое использовалось, например, для вычисления информации об уровне либо в другом частотно-временном разрешении. Возможна ситуация, когда передача разностного сигнала может быть ограничена фрагментом спектрального диапазона частотно-временной области 42, для которой передается информация об уровне. Например, частотно-временное разрешение, в котором передается разностный сигнал, может быть представлено в служебной информации 58 посредством синтаксических элементов bsResidualBands и bsResidualFramesPerSAOCFrame. Эти синтаксические элементы могут определять другое сегментирование фрейма на частотно-временные области, чем то, которое приводит к частотно-временной области 42.

Как упоминалось выше, разностный сигнал 62 либо отражает, либо не отражает потерю информации в результате использования внутреннего кодера 96, который иногда используется для кодирования downmix сигнала кодером 80. Как показано на фиг.4, модуль 92 определяет разностный сигнал 62 на основе downmix сигнала, восстанавливаемого из данных на выходе внутреннего кодера 96 или на основе данных на входе кодера 96'. Аналогичным образом аудиодекодер 50 может иметь внутренний декодер 98 для декодирования или декомпрессии downmix сигнала 56.

Способность устанавливать частотно-временное разрешение для вычисления разностного сигнала 62 внутри многоканального аудиосигнала, отличного от частотно-временного разрешения, используемого для вычисления информации об уровне 60, позволяет достичь приемлемого компромисса между качеством аудиосигнала, с одной стороны, и степенью сжатия многоканального сигнала, с другой стороны. В любом случае разностный сигнал 62 позволяет улучшить подавление взаимного влияния одного аудиосигнала на другой внутри первого и второго upmix-сигналов, которые передаются на выход 68 в соответствии с пользовательской информацией 66.

Как будет показано в следующем варианте изобретения, в составе служебной информации может быть передано более одного разностного сигнала 62 в случае, если закодированы более чем один объект переднего плана или аудиосигнал второго типа. Содержание служебной информации позволяет принимать индивидуальное решение о том, передавать ли разностный сигнал 62 для определенного аудиосигнала второго типа или нет. Таким образом, количество разностных сигналов 62 может варьироваться от одного до общего количества аудиосигналов второго типа.

В аудиодекодере на фиг.3 модуль 54 может быть сконфигурирован для вычисления коэффициента предсказания матрицы С, состоящей из коэффициентов предсказания на основе информации об уровне (OLD), а модуль 56 - для извлечения первого upmix-сигнала S1 и/или второго upmix-сигнала S2 из downmix сигнала d в соответствии с формулой

где «1» обозначает - в зависимости от количества каналов downmix сигнала d - скалярную величину или единичную матрицу, D-1 - матрица, определенная содержащимися в служебной информации настройками понижающего микширования, согласно которым аудиосигнал первого типа и аудиосигнал второго типа микшируются в downmix сигнал. Н - величина независимая от d, но зависимая от разностного сигнала, если он присутствует.

Как указано выше, настройки понижающего микширования могут варьироваться по времени и/или по спектральным параметрам. Если аудиосигнал первого типа - это стереосигнал, имеющий первый (L) и второй (R) входные каналы, информация об уровне характеризует нормализованные спектральные энергии первого (L) и второго (R) входных каналов, аудиосигнал второго типа в частотно-временном разрешении 42.

Вышеупомянутые вычисления, согласно которым upmix-модуль 56 производит микширование, представлены формулой:

где - 1-ый канал первого upmix-сигнала, стремящийся к L, - второй канал первого upmix-сигнала, стремящийся к R; 1 - скалярная величина, если d - моносигнал, или единичная 2×2 матрица, если d - стереосигнал. Если downmix сигнал 56 - это стереоаудиосигнал, имеющий первый (L0) и второй (R0) выходные каналы, вычисления, согласно которым upmix-модуль 56 выполняет микширование, представлены формулой:

Поскольку величина Н зависит от разностного сигнала res, upmix-модуль 56 выполняет микширование согласно формуле:

Многоканальный аудиосигнал может содержать множество аудиосигналов второго типа, служебная информация может содержать один разностный сигнал для каждого аудиосигнала второго типа. Параметр разностного разрешения может присутствовать в служебной информации, определяя спектральный диапазон, в котором передается разностный сигнал в составе служебной информации. Он может определять нижнюю и верхнюю границы спектрального диапазона.

Многоканальный аудиосигнал может содержать информацию пространственного воспроизведения для воспроизведения сигнала первого типа в предопределенной конфигурации акустической системы. Иными словами, аудиосигнал первого типа может быть многоканальным MPEG Surround сигналом, смикшированным в стереосигнал.

В дальнейшем будут описаны варианты изобретения, которые используют вышеуказанную передачу разностного сигнала. Необходимо отметить, что термин «объект» часто имеет двойственное значение. Иногда объект обозначает отдельный моно-аудиосигнал. Таким образом, стереообъект может содержать моно-аудиосигнал, который является каналом стереосигнала. Однако в других случаях стереообъект может, на самом деле, обозначать два объекта, а именно правый и левый каналы стереосигнала. Значение термина становится ясным в контексте.

Причиной разработки следующего варианта изобретения послужили недостатки основной технологии стандарта SAOC, выбранного в качестве опорной модели 0 (RM0) в 2007 г. RM0 допускала отдельные манипуляции над звуковыми объектами в части панорамного позиционирования и усиления/ослабления. Особый сценарий был представлен в контексте Караоке-приложений.

В этом случае

- моно-, стерео- или объемная фоновая сцена (далее называемая «фоновый объект», BGO) передается серией определенных SAOC-объектов, которые воспроизводятся без изменений, т.е. каждый входной сигнал воспроизводится через тот же выходной канал без изменения уровня;

- отдельный объект (далее называемый «объект переднего плана», FGO) (чаще всего это ведущий вокал) воспроизводится с изменениями. (FGO обычно находится в середине звуковой сцены и может быть подавлен, т.е. значительно ослаблен для режима Караоке).

Как показывает практика и лежащий в основе технологии принцип, изменение позиции объекта ведет к улучшению качества звука. Манипуляции с уровнем объекта являются более сложными. Как правило, чем выше дополнительное усиление/ослабление сигнала, тем выше вероятность появления побочных эффектов. В этом смысле режим Караоке технически сложен, так как необходимо максимальное (в идеале полное) ослабление FGO-объекта.

Второй вариант использования технологии заключается в способности воспроизводить только FGO-объект без объектов заднего плана/МВО, далее называемый режим «Соло».

Уже отмечалось, что в случае использования режима Surround Background, он обозначается как мультиканальный объект заднего плана (МВО). Обработка МВО, как показано на фиг.5, происходит следующим образом:

- МВО кодируется с помощью стандартного 5-2-5 MPEG Surround кодера 102. В результате получается стерео МВО downmix сигнал 104 и поток служебной информации МВО MPS;

- МВО downmix сигнал кодируется далее SAOC-кодером 108 как стереообъект (два параметра уровневой разности и параметры межканальной корреляции) совместно с FGO 110 (иногда с несколькими FGO). В итоге получается общий downmix сигнал 112 и поток служебной SAOC-информации 114.

В транскодере 116 предварительно обрабатывается downmix сигнал 112, SAOC- и MPS-потоки служебной информации 106 и 114 преобразовываются в единый выходной MPS-поток служебной информации 118. При этом происходит либо полное подавление FGO- (одного или нескольких), либо подавление МВО-объектов. В итоге полученный downmix сигнал 120 и служебная информация 118 воспроизводятся MPEG Surround декодером 122.

На фиг.5 МВО downmix сигнал 104 и контролируемый сигнал (сигналы) 110 объединены в один стерео downmix сигнал 112. Присутствие аудиосигнала 110 в downmix сигнале затрудняет получение Караоке-версии с высоким качеством звука. Предлагается следующее решение данной проблемы.

Рассмотрим пример использования варианта изобретения на фиг.6. Допустим, что имеется один FGO-объект (например, один ведущий вокал). SAOC downmix сигнал представляет собой комбинацию BGO и FGO сигналов, т.е. три аудиосигнала смикшированы и переданы с помощью двух downmix каналов. В идеале эти сигналы должны быть разделены в транскодере для того, чтобы получился чистый Караоке-сигнал (т.е. необходимо удалить FGO-сигнал) или воспроизвести чистый Соло-сигнал (т.е. необходимо удалить BGO-сигнал). Эта задача решается с помощью варианта изобретения на фиг.6 при использовании блока кодера «три-в-два» (ТТТ-1) 124, известного в стандарте MPEG Surround, в SAOC-кодере 108 для совмещения BGO- и FGO-сигналов в один SAOC downmix сигнал.

Здесь FGO является источником «центрального» канала блока ТТТ-1 124, а BGO 104 - источником «правого/левого» каналов блока ТТТ-1. Транскодер 116 может производить аппроксимацию BGO-объектов 104 с помощью декодирующего блока «два-в-три» (ТТТ) 126, известного в стандарте MPEG Surround, т.е. выходные «левый/правый» элементы ТТТ L/R выполняют аппроксимацию BGO, в то время как «центральный» выход ТТТ выполняет аппроксимацию FGO 110.

При сравнении варианта на фиг.6 с вариантом кодера и декодера на фиг.3 и 4 указатель 104 соответствует аудиосигналу первого типа из множества аудиосигналов 84, модуль 82 содержит MPS-кодер 102, указатель 110 соответствует аудиосигналам второго типа из множества аудиосигналов 84, блок ТТТ-1 124 выполняет функции модулей 88-92, в то время как функциональные возможности модулей 86 и 94 обеспечиваются SAOC-кодером 108; указатель 112 соответствует указателю 56; указатель 114 соответствует служебной информации 58 за исключением разностного сигнала 62; ТТТ-блок 126 выполняет функции модулей 52 и 54, при этом модуль 54 выполняет функции блока микширования 128. Сигнал 120 соответствует сигналу на выходе модуля 68. Фиг.6 также показывает тракт 131 для передачи downmix сигнала из SAOC-кодера 108 в SAOC-транскодер 116. Тракт 131 внутренних кодера/декодера соответствует опциональным внутренним кодеру 96 и декодеру 98. Как показано на фиг.6, тракт 131 внутренних кодера/декодера также может кодировать/сжимать сигнал служебной информации, передаваемой от кодера 108 в транскодер 116.

Преимущества введения ТТТ-блока на фиг.6 объясняются следующим:

- при передаче выходных каналов «левый/правый» L/R ТТТ-блока в MPS-микшер 120 (передача битового потока МВО MPS 106 в поток 118) финальным MPS-декодером воспроизводится только МВО-объект. Это соответствует режиму «Караоке»;

- при передаче выходого канала «центральный» С ТТТ-блока в левый и правый MPS downmix сигналы 120 (получение обычного битового MPS-потока, который воспроизводит FGO с необходимым уровнем и позицией), финальным MPS-декодером 122 воспроизводится только FGO-объект. Это соответствует режиму «Соло».

Обработка трех выходных сигналов L.R.C ТТТ-блока осуществляется в блоке микширования 128 SAOC-транскодера 116.

Структура процесса, представленная на фиг.6, обеспечивает ряд очевидных преимуществ по сравнению с фиг.5:

- принцип работы обеспечивает структурное разделение МВО(100)- и PGO(110)-сигналов;

- структура ТТТ-блока 126 обеспечивает наилучшее восстановление трех сигналов L.R.C. на основе формы сигнала. Таким образом, окончательные выходные MPS-сигналы 130 сформированы на основе не только энергетического взвешивания (и декорреляции) downmix сигналов, но также становятся ближе по форме сигнала, благодаря ТТТ-обработке;

- в связи с применением MPEG Surround ТТТ-блока становится возможным повышение точности восстановления при использовании разностного кодирования. Таким образом, значительное улучшение качества восстановления может достигаться увеличением ширины полосы и битовой скорости разностного сигнала 132, формируемого на выходе ТТТ-1-блока и используемого ТТТ-блоком для микширования. В идеальном случае интерференция между объектами заднего и объектами переднего планов может быть полностью исключена.

Структура процесса, представленная на фиг.6, имеет следующие характеристики:

- Двойственность Караоке/Соло режима: Подход, представленный на фиг.6, позволяет реализовать как режим Караоке, так и режим Соло с применением тех же технических средств. SAOC параметры могут применяться в обоих режимах.

- Улучшение качества: Качество Караоке/Соло сигнала может быть при необходимости улучшено посредством управления количеством разностной информации о кодировании, используемой в ТТТ-блоке. Например, могут быть использованы параметры bsResidualSamplingFrequencyIndex, bsResidualBands и bsResidualFramesPerSAOCFrame.

- Позиционирование FGO-объектов в downmix сигнале: При использовании ТТТ-блока в соответствии со спецификацией MPEG Surround FGO всегда размещается в средней позиции между левым и правым downmix каналами. Для большей гибкости в выборе местоположения применяется обобщенный ТТТ-блок, который допускает асимметричное расположение относительно центра между входным и выходным каналами;

- Множественные FGO-объекты: В описанной выше конфигурации присутствовал только один FGO-объект (что соответствует основному случаю применения). Однако предлагаемая методика позволяет совместить несколько FGO-объектов, при этом необходимо использовать одну или комбинацию следующих схем:

- сгруппированные FGO: