Выделение аудиообъекта из сигнала микширования с использованием характерных для объекта временно-частотных разрешений
Иллюстрации
Показать всеИзобретение относится к обработке аудиосигнала и предназначено для кодирования аудиообъектов с применением адаптируемого к аудиообъекту индивидуального временно-частотного разрешения. Технический результат – повышение качества воспроизводимого аудиосигнала. Аудиодекодер декодирует многообъектный аудиосигнал, состоящий из сигнала X понижающего микширования и дополнительной информации PSI. Дополнительная информация содержит дополнительную информацию PSIi для аудиообъекта si во временно-частотной области R(tR,fR) и информацию TFRIi, указывающую временно-частотное разрешение TFRh дополнительной информации для аудиообъекта si во временно-частотной области R(tR,fR). Аудиодекодер содержит блок определения временно-частотного разрешения, выполненный с возможностью определения информации TFRIi временно-частотного разрешения из дополнительной информации PSI для аудиообъекта si., блок выделения объекта, выполненный с возможностью выделения аудиообъекта si из сигнала X понижающего микширования с использованием дополнительной информации в соответствии с временно-частотным разрешением TFRIi. 11 н. и 11 з.п. ф-лы, 14 ил.
Реферат
Настоящее изобретение относится к обработке аудиосигнала и, в частности, к декодеру, кодеру, системе, способам и компьютерной программе для кодирования аудиообъектов с применением адаптируемого к аудиообъекту индивидуального временно-частотного разрешения.
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Варианты осуществления согласно изобретению относятся к аудиодекодеру для декодирования многообъектного аудиосигнала, состоящего из сигнала понижающего микширования и связанной с объектом параметрической дополнительной информации (PSI). Дополнительные варианты осуществления согласно изобретению относятся к аудиодекодеру для обеспечения представления сигнала повышающего микширования в зависимости от представления сигнала понижающего микширования и связанной с объектом PSI. Дополнительные варианты осуществления изобретения относятся к способу декодирования многообъектного аудиосигнала, состоящего из сигнала понижающего микширования и соответствующей PSI. Дополнительные варианты осуществления согласно изобретению относятся к способу обеспечения представления сигнала повышающего микширования в зависимости от представления сигнала понижающего микширования и связанной с объектом PSI.
Дополнительные варианты осуществления изобретения относятся к аудиокодеру для кодирования множества сигналов аудиообъекта в сигнал понижающего микширования и PSI. Дополнительные варианты осуществления изобретения относятся к способу кодирования множества сигналов аудиообъекта в сигнал понижающего микширования и PSI.
Дополнительные варианты осуществления согласно изобретению относятся к компьютерной программе, соответствующей способу(ам) декодирования, кодирования и/или обеспечения сигнала повышающего микширования.
Дополнительные варианты осуществления изобретения относятся к переключению адаптируемого к аудиообъекту индивидуального временно-частотного разрешения для манипулирования смесью сигналов.
УРОВЕНЬ ТЕХНИКИ
В современных цифровых аудиосистемах, основной тенденцией является обеспечение возможности внесения модификаций, связанных с аудиообъектом, передаваемого контента на стороне приемника. Эти модификации включают в себя изменение коэффициента усиления выбранных частей аудиосигнала и/или изменение положения в пространстве конкретных аудиообъектов в случае многоканального воспроизведения посредством пространственно распределенных громкоговорителей. Этого можно добиться путем индивидуальной доставки разных частей аудиоконтента на разные громкоговорители.
Другими словами, в области обработки аудиосигнала, передачи аудиосигнала и хранения аудиосигнала, наблюдается растущая потребность в обеспечении взаимодействия с пользователем при воспроизведении объектно-ориентированного аудиоконтента, а также потребность в использовании расширенных возможностей многоканального воспроизведения для индивидуального воспроизведения аудиоконтента или его частей для улучшения слухового впечатления. Таким образом, использование многоканального аудиоконтента способствует значительным усовершенствованиям для пользователя. Например, можно получить трехмерное слуховое впечатление, которое способствует повышению удовлетворенности пользователя в развлекательных приложениях. Однако многоканальный аудиоконтент также полезен в профессиональных окружениях, например, в приложениях телефонной конференцсвязи, поскольку разборчивость речи можно повысить с использованием воспроизведения многоканального аудиосигнала. Другим возможным применением является предложение слушателю музыкального произведения индивидуально регулировать уровень воспроизведения и/или пространственное положение разных частей (также именуемых “аудиообъектами”) или дорожек, например, вокальной партии или разных инструментов. Пользователь может осуществлять такую регулировку по причинам личного вкуса, для упрощения транскрибирования одной или более частей из музыкального произведения, в образовательных целях, караоке, репетиции и т.д.
Непосредственная дискретная передача всего цифрового многоканального или многообъектного аудиоконтента, например, в форме данных импульсно-кодовой модуляции (ИКМ) или даже в форматах сжатого аудиосигнала, требует очень высоких битовых скоростей. Однако желательно также передавать и сохранять аудиоданные эффективно с точки зрения битовой скорости. Поэтому может быть желателен разумный компромисс между качеством аудиосигнала и требованиям к битовой скорости во избежание чрезмерного расходования ресурсов, обусловленного многоканальными/многообъектными приложениями.
Недавно, в области аудиокодирования, были предложены, например, Экспертной группой по вопросам движущегося изображения (MPEG) и другими, параметрические методы эффективные с точки зрения битовой скорости передачи/хранения многоканальных/многообъектных аудиосигналов. Одним примером является MPEG Surround (MPS) в качестве канально-ориентированного подхода [MPS, BCC] или пространственное кодирование аудиообъектов (SAOC) MPEG в качестве объектно-ориентированного подхода [JSC, SAOC, SAOC1, SAOC2]. Другой объектно-ориентированный подход именуется “informed source separation” [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Эти методы ставят своей целью реконструкцию желаемой выходной аудиосцены или желаемого объекта источника аудиосигнала на основе понижающего микширования каналов/объектов и дополнительной дополнительной информации, описывающей передаваемую/сохраненную аудиосцену и/или объекты источника аудиосигнала в аудиосцене.
Оценивание и применение дополнительной информации, связанной с каналом/объектом в таких системах осуществляется избирательно по времени и частоте. Поэтому такие системы применяют частотно-временные преобразования, например дискретное преобразование Фурье (DFT), кратковременное преобразование Фурье (STFT) или наборы фильтров наподобие наборов квадратурных зеркальных фильтров (QMF) и т.д. Основной принцип таких систем изображен на фиг. 1 на примере MPEG SAOC.
В случае STFT, временное измерение представлено количеством временных блоков и спектральное измерение захватывается количеством спектральных коэффициентов (“бинов”). В случае QMF, временное измерение представлено количеством временных слотов, и спектральное измерение захватывается количеством субполос. Если спектральное разрешение QMF повышается за счет последующего применения второго каскада фильтров, весь набор фильтров именуется гибридным QMF, и субполосы высокого разрешения именуются гибридными субполосами.
Как упомянуто выше, в SAOC общая обработка осуществляется избирательно по времени и частоте и может быть описана следующим образом в каждой полосе частот:
- осуществляется понижающее микширование N входных сигналов аудиообъектов s1 … sN в P каналах x1 … xP как часть обработки кодера с использованием матрицы понижающего микширования, состоящей из элементов d1,1 … dN,P. Кроме того, кодер извлекает дополнительную информацию, описывающую характеристики входных аудиообъектов (модуль оценивания дополнительной информации (SIE)). Для MPEG SAOC, соотношения мощностей объектов относительно друг друга являются наиболее основной формой такой дополнительной информации.
- передаются/сохраняются сигнал(ы) понижающего микширования и дополнительная информация. Для этого, аудиосигнал(ы) понижающего микширования можно сжимать, например, с использованием общеизвестных перцептивных аудиокодеров, например, MPEG-1/2 уровня II или III (иначе называемый .mp3), MPEG-2/4 Advanced Audio Coding (AAC) и т.д.
- На принимающей стороне, декодер, в принципе, пытается восстановить сигналы исходного объекта (“разделение объекта”) из (декодированных) сигналов понижающего микширования, с использованием передаваемой дополнительной информации. Затем эти приближенные сигналы ŝ1 … ŝN объекта микшируются в целевую сцену, представленную M выходными аудиоканалами ŷ1 … ŷM с использованием матрицы воспроизведения, описанной коэффициентами r1,1 … rN,M на фиг. 1. Желаемая целевая сцена, в предельном случае, может воспроизводить сигнал только одного источника из смеси (сценарий разделения источников), а также из любой другой произвольной акустической сцены, состоящей из передаваемых объектов. Например, выходом может быть одноканальной, 2-канальной стереофонической или многоканальной 5,1 целевой сценой.
Временно-частотные системы могут использовать временно-частотное (t/f) преобразование с постоянным временным и частотным разрешением. Выбор определенной сетки фиксированных t/f-разрешений обычно предусматривает компромисс между временным и частотным разрешением.
Эффект фиксированного t/f-разрешения можно продемонстрировать на примере типичных сигналов объектов в смеси аудиосигналов. Например, спектры тональных звуков демонстрируют гармонически связанную структуру с основной частотой и несколькими обертонами. Энергия таких сигналов концентрируется в определенных частотных областях. Для таких сигналов, высокое частотное разрешение используемого t/f-представления полезно для выделения узкополосных тональных спектральных областей из смеси сигналов. Напротив, переходные сигналы, например звуки барабанов, часто имеют другую временную структуру: существенная энергия присутствует только в течение коротких периодов времени и распределяется по широкому диапазону частот. Для этих сигналов, высокое временное разрешение используемого t/f-представления имеет преимущество для выделения участка переходного сигнала из смеси сигналов.
Желательно учитывать различные потребности аудиообъектов различных типов в отношении их представления во временно-частотной области при генерации и/или оценивании характерной для объекта дополнительной информации на стороне кодера или на стороне декодера, соответственно.
Это желание и/или другие желания удовлетворяются аудиодекодером для декодирования многообъектного аудиосигнала, аудиокодером для кодирования множества сигналов аудиообъекта в сигнал понижающего микширования и дополнительную информацию, способом декодирования многообъектного аудиосигнала, способом кодирования множества сигналов аудиообъекта или соответствующей компьютерной программой, которые заданы в независимых пунктах формулы изобретения.
Согласно, по меньшей мере, некоторым вариантам осуществления, предусмотрен аудиодекодер для декодирования многообъектного сигнала. Многообъектный аудиосигнал состоит из сигнала понижающего микширования и дополнительной информации. Дополнительная информация содержит характерную для объекта дополнительную информацию для, по меньшей мере, одного аудиообъекта в, по меньшей мере, одной временно-частотной области. Дополнительная информация дополнительно содержит информацию характерного для объекта временно-частотного разрешения, указывающую характерное для объекта временно-частотное разрешение характерной для объекта дополнительной информации для, по меньшей мере, одного аудиообъекта в, по меньшей мере, одной временно-частотной области. Аудиодекодер содержит блок определения характерного для объекта временно-частотного разрешения, выполненный с возможностью определения информации характерного для объекта временно-частотного разрешения из дополнительной информации для, по меньшей мере, одного аудиообъекта. Аудиодекодер дополнительно содержит блок выделения объекта, выполненный с возможностью выделения, по меньшей мере, одного аудиообъекта из сигнала понижающего микширования с использованием характерной для объекта дополнительной информации в соответствии с характерным для объекта временно-частотным разрешением.
Дополнительные варианты осуществления предусматривают аудиокодер для кодирования множества аудиообъектов в сигнал понижающего микширования и дополнительную информацию. Аудиокодер содержит временно-частотный преобразователь, выполненный с возможностью преобразования множества аудиообъектов, по меньшей мере, в первое множество соответствующих преобразований с использованием первого временно-частотного разрешения и во второе множество соответствующих преобразований с использованием второго временно-частотного разрешения. Аудиокодер дополнительно содержит блок определения дополнительной информации, выполненный с возможностью определения, по меньшей мере, первой дополнительной информации для первого множества соответствующих преобразований и второй дополнительной информации для второго множества соответствующих преобразований. Первая и вторая дополнительная информация указывают соотношение множества аудиообъектов друг с другом в первом и втором временно-частотных разрешениях, соответственно, во временно-частотной области. Аудиокодер также содержит блок выбора дополнительной информации, выполненный с возможностью выбора, для, по меньшей мере, одного аудиообъекта множества аудиообъектов, одной характерной для объекта дополнительной информации из, по меньшей мере, первой и второй дополнительной информации на основании критерия пригодности. Критерий пригодности указывает пригодность, по меньшей мере, первого или второго временно-частотного разрешения для представления аудиообъекта во временно-частотной области. Выбранная характерная для объекта дополнительная информация вставляется в дополнительную информацию, выводимую аудиокодером.
Дополнительные варианты осуществления настоящего изобретения предусматривают способ декодирования многообъектного аудиосигнала, состоящего из сигнала понижающего микширования и дополнительной информации. Дополнительная информация содержит характерную для объекта дополнительную информацию для, по меньшей мере, одного аудиообъекта в, по меньшей мере, одной временно-частотной области, и информацию характерного для объекта временно-частотного разрешения, указывающую характерное для объекта временно-частотное разрешение характерной для объекта дополнительной информации для, по меньшей мере, одного аудиообъекта в, по меньшей мере, одной временно-частотной области. Способ содержит определение информации характерного для объекта временно-частотного разрешения из дополнительной информации для, по меньшей мере, одного аудиообъекта. Способ дополнительно содержит выделение, по меньшей мере, одного аудиообъекта из сигнала понижающего микширования с использованием характерной для объекта дополнительной информации в соответствии с характерным для объекта временно-частотным разрешением.
Дополнительные варианты осуществления настоящего изобретения предусматривают способ кодирования множества аудиообъектов в сигнал понижающего микширования и дополнительную информацию. Способ содержит преобразование множества аудиообъектов, по меньшей мере, в первое множество соответствующих преобразований с использованием первого временно-частотного разрешения и во второе множество соответствующих преобразований с использованием второго временно-частотного разрешения. Способ дополнительно содержит определение, по меньшей мере, первой дополнительной информации для первого множества соответствующих преобразований и второй дополнительной информации для второго множества соответствующих преобразований. Первая и вторая дополнительная информация указывают соотношение множества аудиообъектов друг с другом в первом и втором временно-частотных разрешениях, соответственно, во временно-частотной области. Способ дополнительно содержит выбор, для, по меньшей мере, одного аудиообъекта множества аудиообъектов, одной характерной для объекта дополнительной информации из, по меньшей мере, первой и второй дополнительной информации на основании критерия пригодности. Критерий пригодности указывает пригодность, по меньшей мере, первого или второго временно-частотного разрешения для представления аудиообъекта во временно-частотной области. Характерная для объекта дополнительная информация вставляется в дополнительную информацию, выводимую аудиокодером.
Производительность выделения аудиообъекта обычно снижается, если используемое t/f-представление не согласуется с временными и/или спектральными характеристиками аудиообъекта, подлежащего выделению из смеси. Недостаточная производительность может приводить к перекрестным помехам между выделенными объектами. Упомянутые перекрестные помехи воспринимаются как опережающие или запаздывающие эхо-сигналы, изменения тембра или, в случае человеческого голоса, так называемого удвоения речи. Варианты осуществления изобретения предлагают несколько альтернативных t/f-представлений, из которых наиболее подходящее t/f-представление можно выбирать для данного аудиообъекта и данной временно-частотной области при определении дополнительной информации на стороне кодера или при использовании дополнительной информации на стороне декодера. Это обеспечивает повышенную производительность выделения для выделения аудиообъектов и повышенное субъективное качество воспроизведенного выходного сигнала по сравнению с уровнем техники.
По сравнению с другими схемами кодирования/декодирования пространственных аудиообъектов, объем дополнительной информации может быть, по существу, таким же или немного выше. Согласно вариантам осуществления изобретения, дополнительная информация используется столь же эффективно, как если бы она применялась в зависимости от объекта с учетом характерных для объекта свойств данного аудиообъекта в отношении его временной и спектральной структуры. Другими словами, t/f-представление дополнительной информации адаптируется к различным аудиообъектам.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Далее будут описаны варианты осуществления согласно изобретению со ссылкой на прилагаемые чертежи, в которых:
фиг. 1 демонстрирует упрощенную блок-схему принципиального обзора системы SAOC;
фиг. 2 демонстрирует схематическую и иллюстративную диаграмму спектрально-временного представления одноканального аудиосигнала;
фиг. 3 демонстрирует упрощенную блок-схему избирательного по времени и частоте вычисления дополнительной информации в кодере SAOC;
фиг. 4 схематически демонстрирует принцип улучшенного блока оценивания дополнительной информации согласно некоторым вариантам осуществления;
фиг. 5 схематически демонстрирует t/f-область R(tR,fR), представленную различными t/f-представлениями;
фиг. 6 – упрощенная блок-схема модуля вычисления и выбора дополнительной информации согласно вариантам осуществления;
фиг. 7 схематически демонстрирует декодирование SAOC, содержащее улучшенный (виртуальный) модуль выделения объекта (E-OS);
фиг. 8 демонстрирует упрощенную блок-схему улучшенного модуля выделение объекта (модуля EOS);
фиг. 9 – упрощенная блок-схема аудиодекодера согласно вариантам осуществления;
фиг. 10 – упрощенная блок-схема аудиодекодера, который декодирует H альтернативных t/f-представлений и затем выбирает характерные для объекта, согласно относительно простому варианту осуществления;
фиг. 11 схематически демонстрирует t/f-область R(tR,fR), представленную в различных t/f-представлениях, и их влияние на определение оцененной ковариационной матрицы E в t/f-области;
фиг. 12 схематически демонстрирует принцип выделения аудиообъекта с использованием преобразования масштабирования для осуществления выделения аудиообъекта в масштабированном временно-частотном представлении;
фиг. 13 демонстрирует упрощенную блок-схему операций способа декодирования сигнала понижающего микширования с соответствующей дополнительной информацией; и
фиг. 14 демонстрирует упрощенную блок-схему операций способа кодирования множества аудиообъектов в сигнал понижающего микширования и соответствующую дополнительную информацию.
ПОДРОБНОЕ ОПИСАНИЕ
Фиг. 1 демонстрирует общую конфигурацию кодера 10 SAOC и декодера 12 SAOC. Кодер 10 SAOC принимает в качестве входного сигнала N объектов, т.е. аудиосигналы с s1 по sN. В частности, кодер 10 содержит понижающий микшер 16, который принимает аудиосигналы с s1 по sN и осуществляет их понижающее микширование с образованием сигнала 18 понижающего микширования. Альтернативно, понижающее микширование может обеспечиваться извне (“художественное понижающее микширование”), и система оценивает дополнительную дополнительную информацию для согласования обеспеченного понижающего микширования с расчетным понижающим микшированием. На фиг. 1, сигнал понижающего микширования показан как P-канальный сигнал. Таким образом, допустима любая конфигурация монофонического (P=1), стереофонического (P=2) или многоканального (P>=2) сигнала понижающего микширования.
В случае стереофонического понижающего микширования, каналы сигнала 18 понижающего микширования обозначаются L0 и R0, в случае монофонического понижающего микширования канал обозначается просто L0. Чтобы декодер 12 SAOC мог восстанавливать отдельные объекты с s1 по sN, блок 17 оценивания дополнительной информации снабжает декодер 12 SAOC дополнительной информацией, включающей в себя параметры SAOC. Например, в случае стереофонического понижающего микширования, параметры SAOC содержат разности уровней объектов (OLD), межобъектные корреляции (IOC) (параметры межобъектной кросс-корреляции), значения коэффициента усиления при понижающем микшировании (DMG) и разности уровней каналов понижающего микширования (DCLD). Дополнительная информация 20, включающая в себя параметры SAOC, совместно с сигналом 18 понижающего микширования, образует выходной поток данных SAOC принимаемый декодером 12 SAOC.
Декодер 12 SAOC содержит повышающий микшер, который принимает сигнал 18 понижающего микширования, а также дополнительную информацию 20 для восстановления и воспроизведения аудиосигналов ŝ1 и ŝN в любой выбранный пользователем набор каналов с ŷ1 по ŷM, причем воспроизведение предписано информацией 26 воспроизведения, поступающей на декодер 12 SAOC.
Аудиосигналы с s1 по sN могут поступать на кодер 10 в любой области кодирования, например, во временной или спектральной области. В случае, когда аудиосигналы с s1 по sN поступают на кодер 10 во временной области, например ИКМ-кодированные, кодер 10 может использовать набор фильтров, например набор гибридных QMF, для преобразования сигналов в спектральную область, в которой аудиосигналы представлены в нескольких субполосах, связанных с разными спектральными участками, с конкретным разрешением набора фильтров. Если аудиосигналы с s1 по sN уже находятся в представлении, ожидаемом кодером 10, ему не нужно осуществлять спектральное разложение.
Фиг. 2 демонстрирует аудиосигнал в вышеупомянутой спектральной области. Как можно видеть, аудиосигнал представлен в виде множества субполосных сигналов. Каждый субполосный сигнал с 301 по 30K состоит из временной последовательности значений субполосы, указанных малыми прямоугольниками 32. Как можно видеть, значения 32 субполосы субполосных сигналов с 301 по 30K синхронизируются друг с другом по времени таким образом, что, для каждого из последовательных временных слотов 34 набора фильтров, каждая субполоса с 301 по 30K содержит в точности одно значение 32 субполосы. Как показано на частотной оси 36, субполосные сигналы с 301 по 30K связаны с разными частотными областями, и как показано на временной оси 38, временные слоты 34 набора фильтров последовательно размещены по времени.
Как указано выше, блок 17 извлечения дополнительной информации вычисляет параметры SAOC из входных аудиосигналов с s1 по sN. вычисляет параметры SAOC из входных аудиосигналов с s1 по sN. Согласно реализованному в настоящее время стандарту SAOC, кодер 10 осуществляет это вычисление с временным/частотным разрешением, которое может уменьшаться относительно исходного временного/частотного разрешения, которое определяется временными слотами 34 набора фильтров и разложением на субполосы, на определенную величину, причем эта определенная величина сигнализируется стороне декодера с дополнительной информацией 20. Группы последовательных временных слотов 34 набора фильтров могут образовывать кадр 41 SAOC. Количество диапазонов параметра в кадре 41 SAOC также переносится с дополнительной информацией 20. Следовательно, временно-частотная область делится на временно-частотные плитки, представленные на фиг. 2 пунктирными линиями 42. На фиг. 2 диапазоны параметра распределены одинаково в различных изображенных кадрах 41 SAOC таким образом, что получается правильное размещение временно-частотных плиток. Однако в общем случае диапазоны параметра могут изменяться от одного кадра 41 SAOC к следующему, в зависимости от разных потребностей в спектральном разрешении в соответствующих кадрах 41 SAOC. Кроме того, длина кадров 41 SAOC также может изменяться. В результате, размещение временно-частотных плиток может быть неправильным. Тем не менее, временно-частотные плитки в конкретном кадре 41 SAOC обычно имеют одинаковую длительность и выровнены во временном направлении, т.е. все t/f-плитки в упомянутом кадре 41 SAOC начинаются в начале данного кадра 41 SAOC и заканчиваются в конце упомянутого кадра 41 SAOC.
Блок 17 извлечения дополнительной информации вычисляет параметры SAOC согласно следующим формулам. В частности, блок 17 извлечения дополнительной информации вычисляет разности уровней объектов для каждого объекта i как
где суммы и индексы n и k, соответственно, пробегают по всем временным индексам 34, и все спектральные индексы 30, которые принадлежат определенной временно-частотной плитке 42, указаны индексами l для кадра SAOC (или временного слота обработки) и m для диапазона параметра. Таким образом, энергии всех значений субполосы xi аудиосигнала или объекта i суммируются и нормализуются к наивысшему значению энергии этой плитки из всех объектов или аудиосигналов.
Кроме того, блок 17 извлечения дополнительной информации SAOC способен вычислять меру подобия соответствующих временно-частотных плиток пар разных входных объектов с s1 по sN. Хотя понижающий микшер 16 SAOC может вычислять меру подобия между всеми парами входных объектов с s1 по sN, понижающий микшер 16 также может подавлять сигнализацию мер подобия или ограничивать вычисление мер подобия аудиообъектами с s1 по sN, которые формируют левый или правый каналы общего стереоканала. В любом случае, мера подобия называется параметром межобъектной кросс-корреляции . Вычисление осуществляется следующим образом
где индексы n и k, опять же, пробегают по всем значениям субполосы, принадлежащим определенной временно-частотной плитке 42, и i и j обозначают определенную пару аудиообъектов с s1 по sN.
Понижающий микшер 16 осуществляет понижающее микширование объектов с s1 по sN с использованием коэффициентов усиления, применяемых к каждому объекту с s1 по sN. Таким образом, коэффициент усиления Di применяется к объекту i и затем все взвешенные таким образом объекты с s1 по sN суммируются для получения монофонического сигнала понижающего микширования, который представлен на фиг. 1, если P=1. В другом примерном случае двухканального сигнала понижающего микширования, изображенного на фиг. 3, если P=2, коэффициент усиления D1,i применяется к объекту i, и затем все такие объекты, усиленные с коэффициентом усиления, суммируются для получения левого канала понижающего микширования L0, и коэффициенты усиления D2,i применяются к объекту i и затем усиленные таким образом с коэффициентом усиления объекты суммируются для получения правого канала понижающего микширования R0. Обработка, аналогичная вышеописанной, подлежит применению в случае многоканального понижающего микширования (P>=2).
Это предписание понижающего микширования сигнализируется стороне декодера посредством коэффициентов DMGi усиления понижающего микширования и, в случае стереосигнала понижающего микширования, разностей DCLDi уровней каналов понижающего микширования.
Коэффициенты усиления понижающего микширования вычисляются согласно:
, (монофоническое понижающее микширование),
, (стереофоническое понижающее микширование),
где - малая величина, например 10-9.
Для DCLD применяется следующая формула:
.
В нормальном режиме, понижающий микшер 16 генерирует сигнал понижающего микширования, согласно:
для монофонического понижающего микширования, или
для стереофонического понижающего микширования, соответственно.
Таким образом, в вышеупомянутых формулах, параметры OLD и IOC являются функцией аудиосигналов, и параметры DMG и DCLD являются функцией D. Между прочим, заметим, что D может изменяться по времени и частоте.
Таким образом, в нормальном режиме, понижающий микшер 16 микширует все объекты с s1 по sN без предпочтений, т.е. одинаково манипулируя всеми объектами с s1 по sN.
На стороне декодера, повышающий микшер осуществляет процедуру, обратную понижающему микшированию и реализует “информацию воспроизведения” 26, представленную матрицей R (в литературе иногда также именуемый A) на одном этапе вычисления, а именно, в случае двухканального понижающего микширования
,
Матрица E является оцененной ковариационной матрицей аудиообъектов с s1 по sN. В современных реализациях SAOC, вычисление оцененной ковариационной матрицы E обычно осуществляется в спектральном/временном разрешении параметров SAOC, т.е. для каждого (l,m), таким образом, что оцененную ковариационную матрицу можно записать как El,m. Оцененная ковариационная матрица El,m имеет размер N x N, и ее коэффициенты заданы как
.
Таким образом, матрица El,m, где
имеет по диагонали разности уровней объектов, т.е. для i=j, поскольку и для i=j. Вне диагонали оцененная ковариационная матрица E имеет коэффициенты матрицы, представляющие среднее геометрическое разностей уровней объектов объектов i и j, соответственно, взвешенных мерой межобъектной кросс-корреляции .
Фиг. 3 демонстрирует один возможный принцип реализации на примере блока оценки дополнительной информации (SIE) как часть кодера 10 SAOC. Кодер 10 SAOC содержит микшер 16 и блок 17 оценки дополнительной информации (SIE). SIE, в принципе, состоит из двух модулей: один модуль для вычисления t/f-представления на кратковременной основе (например, STFT или QMF) каждого сигнала. Вычисленное кратковременное t/f-представление поступает на второй модуль, модуль t/f-избирательной оценки дополнительной информации (t/f-SIE). Модуль 46 t/f-SIE вычисляет дополнительную информацию для каждой t/f-плитки. В современных реализациях SAOC, преобразование времени/частоты является фиксированным и одинаковым для всех аудиообъектов с s1 по sN. Кроме того, параметры SAOC определяются по кадрам SAOC, которые одинаковы для всех аудиообъектов и имеют одинаковое временное/частотное разрешение для всех аудиообъектов с s1 по sN, таким образом, невзирая на объектно-специфические потребности в высоком временном разрешении в ряде случаев или высоком спектральном разрешении в других случаях.
Ниже описаны некоторые ограничения принципа SAOC в нынешнем его виде: чтобы объем данных, связанных с дополнительной информацией, оставался сравнительно малым, дополнительная информация для разных аудиообъектов предпочтительно определять грубым образом для временно-частотных областей, которые занимают несколько временных слотов и несколько (гибридных) субполос входных сигналов, соответствующих аудиообъектам. Как указано выше, производительность выделения, наблюдаемая на стороне декодера, может быть близка к оптимальному, если используемое t/f-представление не адаптировано к временным или спектральным характеристикам сигнала объекта, подлежащего выделению из сигнала микширования (сигнала понижающего микширования) в каждом блоке обработки (т.е. t/f-области или t/f-плитке). Дополнительная информация для тональных частей аудиообъекта и переходных частей аудиообъекта определяются и применяется на одной и той же временно-частотной плиточной структуре, независимо от текущих характеристик объекта. Это обычно приводит к тому, что дополнительная информация для, в основном, тональных частей аудиообъекта определяется с несколько пониженным спектральным разрешением, и также дополнительная информация для, в основном, переходных частей аудиообъекта определяется с несколько пониженным временным разрешением. Аналогично, применение этой неадаптированной дополнительной информации на декодере приводит к тому, что близкие к оптимальным результаты выделения объекта ухудшаются за счет перекрестных помех объектов в форме, например, огрубления спектра и/или слышимых опережающих и запаздывающих эхо-сигналов.
Для повышения производительности выделения на стороне декодера, желательно дать возможность декодеру или соответствующему способу декодирования индивидуально адаптировать t/f-представление, используемое для обработки входных сигналов декодера (“дополнительной информации и понижающего микширования”) согласно характеристикам нужного целевого сигнала, подлежащего выделению. Для каждого целевого сигнала (объекта) наиболее подходящее t/f-представление индивидуально выбирается для обработки и выделения, например, из данного набора доступных представлений. Таким образом, декодер возбуждается дополнительной информацией, которая сигнализирует t/f-представление, подлежащее использованию для каждого индивидуального объекта в данный слот времени и данной спектральной области. Эта информация вычисляется на кодере и переносится помимо дополнительной информации уже переданной в SAOC.
- Изобретение относится к улучшенному блоку оценивания дополнительной информации (E-SIE) на кодере для вычисления дополнительной информации, обогащенной информацией, которая указывает наиболее подходящее индивидуальное t/f-представление для каждого из сигналов объектов.
- Изобретение дополнительно относится к (виртуальному) улучшенному блоку выделения объекта (E-OS) на принимающей стороне. E-OS использует дополнительную информацию, которая сигнализируют фактическое t/f-представление, которое затем применяется для оценки каждого объекта.
E-SIE может содержать два модуля. Один модуль вычисляет для каждого сигнала объекта вплоть до H t/f-представлений, отличающихся временным и спектральным разрешением и отвечающих следующему требованию: временно-частотные области R(tR,fR) могут быть заданы таким образом, чтобы контент сигнала в этих областях можно было описать любым из H t/f-представлений. Фиг. 5 демонстрирует этот принцип на примере H t/f-представлений и демонстрирует t/f-область R(tR,fR), представленную двумя различными t/f-представлениями. Контент сигнала в t/f-области R(tR,fR) можно представить с высоким спектральным разрешением, но низким временным разрешением (t/f-представление #1), с высоким временным разрешением, но низким спектральным р