2452043 - Аудиокодирование с использованием понижающего микширования

Аудиокодирование с использованием понижающего микширования

Иллюстрации

Показать все

Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении эффективного разделения индивидуальных объектов в многообъектном звуковом сигнале. Звуковой декодер для декодирования многообъектного звукового сигнала имеет звуковой сигнал первого типа и звуковой сигнал второго типа, закодированные в нем; многообъектный звуковой сигнал состоит из сигнала понижающего микширования и дополнительной информации; дополнительная информация включает информацию об уровне звукового сигнала первого типа и звукового сигнала второго типа в первом предопределенном временном/частотном разрешении, и остаточный сигнал определяет величины остаточного уровня во втором предопределенном временном/частотном разрешении, включает средство для вычисления коэффициентов предсказания, основанное на информации об уровне; и средство для повышающего микширования сигнала понижающего микширования, основанное на коэффициентах предсказания и остаточном сигнале, для получения первого звукового сигнала повышающего микширования, приближающегося к звуковому сигналу первого типа и/или второго звукового сигнала повышающего микширования, приближающегося к звуковому сигналу второго типа. 7 н. и 18 з.п. ф-лы, 24 ил.

Реферат

Данная заявка имеет отношение к звуковому кодированию, использующему понижающее микширование сигналов.

Было предложено много алгоритмов звукового кодирования, чтобы эффективно закодировать или сжать звуковые данные одного канала, то есть монозвуковые сигналы. Используя психоакустику, звуковые образцы соответственно масштабированы, квантованы или даже установлены на ноль, чтобы удалить ненужное из, например, РСМ (импульсно-кодовая модуляция) закодированного звукового сигнала. Выполняется также удаление избыточности.

В качестве следующего шага используется подобие между левым и правым каналом звуковых стереосигналов, чтобы эффективно кодировать/сжимать звуковые стереосигналы.

Однако поступающие заявки излагают дальнейшие требования к алгоритмам звукового кодирования. Например, в телеконференциях, компьютерных играх, исполнении музыки и т.п. несколько звуковых сигналов, которые частично или даже полностью некоррелированные, должны быть переданы параллельно. Чтобы поддерживать необходимую скорость передачи битов для кодирования этих звуковых сигналов достаточно низкой, чтобы соответствовать требованиям низкоскоростной битовой передачи, недавно были предложены звуковые кодер-декодеры, которые микшируют с понижением многократные входные звуковые сигналы в сигнал понижающего микширования, такой как стерео- или даже моносигнал понижающего микширования. Например, MPEG (Экспертная группа по кинематографии) Стандарт объемного звучания микширует с понижением входные каналы в сигнал понижающего микширования способом, предписанным стандартом. Понижающее микширование выполняется при помощи так называемого ОТТ^-1 (один-к-двум) и ТТТ^-1 (два-к-трем) блока для понижающего микширования двух сигналов в один и трех сигналов в два соответственно. Чтобы микшировать с понижением более трех сигналов, используется иерархическая структура этих блоков. Каждый блок ОТТ^-1, помимо моносигнала понижающего микширования, выводит разность уровней каналов между двумя входными каналами, так же как межканальные параметры когерентной/взаимной корреляции, представляющие когерентную или взаимную корреляцию между двумя входными каналами. Параметры выводятся наряду с сигналом понижающего микширования MPEG кодера объемного звучания в пределах MPEG объемного потока данных. Точно так же каждый блок ТТТ^-1 передает коэффициенты предсказания канала, позволяющие восстановить три входных канала из получающегося стереосигнала понижающего микширования. Коэффициенты предсказания канала также передаются как дополнительная информация в пределах MPEG объемного потока данных. MPEG декодер объемного звучания микширует с повышением сигнал понижающего микширования при помощи переданной дополнительной информации и восстанавливает его; оригинальные каналы входят в MPEG кодирующее устройство объемного звучания.

Однако MPEG объемное звучание, к сожалению, не отвечает всем требованиям, изложенным во многих заявках. Например, MPEG декодер объемного звучания предназначен для повышающего микширования сигнала понижающего микширования MPEG кодирующего устройства объемного звучания таким образом, что входные каналы MPEG кодирующего устройства объемного звучания восстанавливаются, как они есть. Другими словами, MPEG объемный поток данных предназначен для его воспроизведения при помощи конфигурации громкоговорителя, используемой для кодирования.

Однако согласно некоторым выводам было бы полезно, если бы конфигурация громкоговорителя могла бы быть изменена на стороне декодера.

Чтобы соответствовать последним требованиям, в настоящее время разрабатывается кодирующий стандарт пространственного звукового объекта (SAOC). Каждый канал рассматривается как индивидуальный объект, и все объекты микшируются с понижением в сигнал понижающего микширования. Однако, кроме того, индивидуальные объекты могут также включать индивидуальные звуковые источники, например инструменты или речевые каналы. Однако в отличие от MPEG декодера объемного звучания декодер SAOC способен индивидуально микшировать с повышением сигнал понижающего микширования, чтобы воспроизводить индивидуальные объекты на любой конфигурации громкоговорителя. Чтобы позволить декодеру SAOC восстанавливать закодированные индивидуальные объекты в потоке данных SAOC, различия уровней объекта и для объектов, создающих вместе стерео (или многоканальный) сигнал, параметры межобъектной взаимной корреляции передаются как дополнительная информация в пределах SAOC битового потока. Помимо этого, SAOC декодер/транскодер обеспечивается информацией о том, как индивидуальные объекты были понижающее микшированы в сигнал понижающего микширования. Таким образом, на стороне декодера можно восстанавливать индивидуальные каналы SAOC и выводить эти сигналы на любую конфигурацию громкоговорителя, используя предоставляемую информацию, контролируемую пользователем.

Однако, хотя кодер-декодер SAOC был разработан для индивидуального управления звуковыми объектами, некоторые заявки предъявляют более высокие требования. Например, применение для режима Караоке требует полного отделения фонового звукового сигнала от звукового сигнала переднего плана или звуковых сигналов переднего плана. Наоборот, в сольном режиме объекты переднего плана должны быть отделены от фоновых объектов. Однако вследствие равной обработки индивидуальных звуковых объектов было невозможно полностью удалить фоновые объекты или объекты переднего плана соответственно из сигнала понижающего микширования.

Таким образом, цель данного изобретения - обеспечить звуковой кодер-декодер, используя понижающее микширование звуковых сигналов таким образом, чтобы достигнуть наилучшего разделения индивидуальных объектов, таких как, например, применимые в режиме Караоке/соло.

Эта цель достигается посредством звукового декодера по п.1, звукового кодирующего устройства по п.18, способа декодирования по п.20, способа кодирования по п.21 и многообъектного звукового сигнала по п.23.

Со ссылкой на чертежи предпочтительные осуществления данного применения описаны более подробно.

Фиг.1 показывает блок-схему компоновки кодирующего устройства/декодера SAOC, в которой могут быть реализованы осуществления данного изобретения;

Фиг.2 показывает схематическую и иллюстративную диаграмму спектрального представления монозвукового сигнала;

Фиг.3 показывает блок-схему звукового декодера согласно осуществлению данного изобретения;

Фиг.4 показывает блок-схему звукового кодирующего устройства согласно осуществлению данного изобретения;

Фиг.5 показывает блок-схему компоновки звукового кодирующего устройства/декодера для использования в режиме Караоке/соло, как сравнительное осуществление;

Фиг.6 показывает блок-схему компоновки звукового кодирующего устройства/декодера для применения в режиме Караоке/соло согласно осуществлению;

Фиг.7а показывает блок-схему звукового кодирующего устройства для применения в режиме Караоке/соло согласно сравнительному осуществлению;

Фиг.7b показывает блок-схему звукового кодирующего устройства для применения в режиме Караоке/соло согласно осуществлению;

Фиг.8а и b показывают графики результатов качественных измерений;

Фиг.9 показывает блок-схему компоновки звукового кодирующего устройства /декодера для применения в режиме Караоке/соло в целях сравнения;

Фиг.10 показывает блок-схему компоновки звукового кодирующего устройства/декодера для применения в режиме Караоке/соло согласно осуществлению;

Фиг.11 показывает блок-схему компоновки звукового кодирующего устройства/декодера для применения в режиме Караоке/соло согласно дальнейшему осуществлению;

Фиг.12 показывает блок-схему компоновки звукового кодирующего устройства/декодера для применения в режиме Караоке/соло согласно дальнейшему осуществлению;

Фиг.13a-h показывает таблицы, отражающие возможный синтаксис для SOAC битового потока согласно осуществлению данного изобретения;

Фиг.14 показывает блок-схему звукового декодера для применения в режиме Караоке/соло согласно осуществлению; и

Фиг.15 показывает таблицу, отражающую возможный синтаксис для передачи информации о количестве данных, потраченных на передачу остаточного сигнала.

Прежде чем осуществления данного изобретения будут описаны более подробно, предоставляются кодер-декодер SAOC и параметры SAOC, переданные в SAOC битовый поток, чтобы облегчить понимание определенных осуществлений, более детально обрисованных в дальнейшем.

Фиг.1 показывает общую компоновку кодирующего устройства SAOC 10 и декодера SAOC 12. Кодирующее устройство SAOC 10 получает в качестве входа N объекты, то есть звуковые сигналы 14₁-14_N. В частности, кодирующее устройство 10 включает понижающий микшер 16, который получает звуковые сигналы 14₁-14_N и микширует с понижением их же до сигнала понижающего микширования 18. На фиг.1 сигнал понижающего микширования, например, показан как стереосигнал понижающего микширования. Однако возможен также моносигнал понижающего микширования. Каналы стереосигнала понижающего микширования 18 обозначены L0 и R0, в случае монопонижающего микширования то же самое обозначается просто L0. Чтобы обеспечить декодеру SAOC 12 возможность восстанавливать индивидуальные объекты 14₁-14_N, понижающий микшер 16 предоставляет декодеру SAOC 12 дополнительную информацию, включая SAOC-параметры, в том числе разности уровней объекта (OLD), параметры межобъектной взаимной корреляции (IOC), коэффициенты усиления понижающего микширования (DMG) и разности уровней канала понижающего микширования (DCLD). Дополнительная информация 20, включая SAOC-параметры, наряду с сигналом понижающего микширования 18 формирует выходной поток данных SAOC, полученный декодером SAOC 12.

Декодер SAOC 12 включает повышающий микшер 22, который получает сигнал понижающего микширования 18, а также и дополнительную информацию 20, чтобы восстанавливать и передавать звуковые сигналы 14₁ и 14_N на любой выбранный пользователем ряд каналов 24₁-24_M с предоставлением предписанной предоставляемой информации 26, вводимой в декодер SAOC 12.

Звуковые сигналы 14₁-14_N могут быть введены в понижающий микшер 16 в любую кодирующую область, такую как, например, временная или спектральная область. В случае, если звуковые сигналы 14₁-14_N подаются в понижающий микшер 16 во временную область, такую как закодированный РСМ, понижающий микшер 16 использует блок фильтров, такой как гибридный блок QMF (квадратурный зеркальный фильтр), то есть блок комплексных экспоненциально смодулированных фильтров с расширением фильтра по Найквисту для самых низких частотных диапазонов, чтобы увеличить там частотное разрешение, чтобы передавать сигналы в спектральную область, в которой звуковые сигналы представлены в нескольких поддиапазонах, связанных с различными спектральными частями, при определенном разрешении блока фильтров. Если звуковые сигналы 14₁-14_Nуже находятся в представлении, ожидаемом понижающим микшером 16, спектральное разложение не должно выполняться.

Фиг.2 показывает звуковой сигнал в только что упомянутой спектральной области. Можно заметить, что звуковой сигнал представлен как множество сигналов поддиапазона. Каждый сигнал поддиапазона 30₁-30_P состоит из последовательности значений поддиапазонов, обозначенных маленькими прямоугольниками 32. Как видно, значения поддиапазонов 32 сигналов поддиапазонов 30₁-30_P синхронизированы друг с другом во времени так, чтобы для каждой последовательной временной области блока фильтров 34 каждый поддиапазон 30₁-30_P включал одно точное значение поддиапазона 32. Как показано посредством частотной оси 36, сигналы поддиапазонов 30₁-30_P связаны с различными частотными областями и, как показано посредством временной оси 38, временные области блока фильтров 34 последовательно организованы во времени.

Как в общих чертах обрисовано выше, понижающий микшер 16 вычисляет SAOC-параметры из входных звуковых сигналов 14₁-14_N. Понижающий микшер 16 выполняет это вычисление в частотном/временном разрешении, которое может быть уменьшено относительно оригинального частотного/временного разрешения, как определено временными областями блока фильтров 34 и разложением поддиапазона, на определенную величину, при этом эта определенная величина передается на декодер в рамках дополнительной информации 20 посредством соответствующих элементов синтаксиса bsFrameLength и bsFreqRes. Например, группы последовательных временных областей блока фильтров 34 могут сформировать структуру 40. Другими словами, звуковой сигнал может быть разделен на структуры, накладывающиеся во времени или являющиеся непосредственно смежными во времени, например. В этом случае bsFrameLength может определять число параметрических временных областей 41, то есть единиц времени, в которых параметры SAOC, такие как OLD и IOC, вычисляются в SAOC структуре 40, а bsFreqRes может определять число оперативных частотных диапазонов, для которых вычисляются SAOC параметры. Посредством этого каждая структура разделяется на частотные/временные элементы, проиллюстрированные на фиг.2 пунктирными линиями 42.

Понижающий микшер 16 вычисляет параметры SAOC в соответствии со следующими формулами. В частности, понижающий микшер 16 вычисляет разности уровней объекта для каждого объекта i как

где суммы и индексы n и k соответственно проходят через все временные области блока фильтров 34, и все поддиапазоны блока фильтров 30, которые принадлежат определенному частотному/временному элементу 42. Таким образом, энергии всех значений поддиапазона x_i звукового сигнала или объекта i суммируются и нормализуются до самого высокого значения энергии этого элемента среди всех объектов или звуковых сигналов.

Далее, SAOC понижающий микшер 16 может вычислять меру подобия соответствующих частотных/временных элементов пар различных входных объектов 14₁-14_N. Хотя SAOC понижающий микшер 16 может вычислять меру подобия между всеми парами входных объектов 14₁-14_N, понижающий микшер 16 может также подавлять передачу сигналов меры подобия или ограничивать вычисление мер подобия для звуковых объектов 14₁-14_N, которые формируют левый или правый каналы общего стереоканала. В любом случае, мерой подобия называется параметр межобъектной взаимной корреляции IOC_i,j. Вычисление выглядит следующим образом

где снова индексы n и k проходят через все значения поддиапазонов, принадлежащих определенному частотному/временному элементу 42, а i и j обозначают определенную пару звуковых объектов 14₁-14_N.

Понижающий микшер 16 микширует с понижением объекты 14₁-14_N при помощи коэффициентов усиления, применяемых к каждому объекту 14₁-14_N. Таким образом, коэффициент усиления D_i применяется к объекту i и затем все взвешенные таким образом объекты 14₁-14_N суммируются, чтобы получить моносигнал понижающего микширования. В случае стереосигнала понижающего микширования, как показано на фиг.1, коэффициент усиления D_{1, i} применяется к объекту i, и затем все такие усиленные объекты суммируются, чтобы получить левый канал понижающего микширования L0, а коэффициенты усиления D_2,i, применяется к объекту i, и затем усиленные таким образом объекты суммируются, чтобы получить правый канал понижающего микширования R0.

Это предписание понижающего микширования сообщается декодеру посредством коэффициентов усиления понижающего микширования DMG_i, а в случае понижающего микширования стереосигнала посредством разности уровней каналов понижающего микширования DCLDi.

Коэффициенты усиления понижающего микширования вычисляются согласно:

DMG_i=20log₁₀ (D_i+ε), (монопонижающее микширование),

, (стереопонижающее микширование),

где ε - маленькое число, такое как 10^-9.

Для DCLD_s применяется следующая формула:

В нормальном режиме понижающий микшер 16 производит сигнал понижающего микширования согласно:

для монопонижающего микширования или

для стереопонижающего микширования соответственно.

Таким образом, в вышеупомянутых формулах параметры OLD и IOC являются функцией звуковых сигналов, а параметры DMG и DCLD - функция D. Между прочим, замечено, что D может изменяться во времени.

Таким образом, в нормальном режиме понижающий микшер 16 смешивает все объекты 14₁-14_N без предпочтения, то есть с одинаковой обработкой всех объектов 14₁-14_N.

Повышающий микшер 22 выполняет инверсию процедуры понижающего микширования и реализует «предоставляемую информацию», представленную матрицей А в одном этапе вычисления, а именно

где матрица Е является функцией параметров OLD и IOC.

Другими словами, в нормальном режиме не выполняется никакая классификация объектов 14₁-14_N на BGO, то есть фоновый объект, или FGO, то есть объект переднего плана. Информация, относительно которой объект должен быть представлен на выходе повышающего микшера 22, должна предоставляться передающей матрицей А. Если, например, объект с индексом 1 - левый канал фонового стерео объекта, объект с индексом 2 - его правый канал, а объект с индексом 3 - объект переднего плана, то передающая матрица А будет

чтобы произвести выходной сигнал типа караоке.

Однако, как уже было указано выше, передавая BGO и FGO при помощи этого нормального режима, кодер-декодер SAOC не достигает приемлемых результатов.

Фиг.3 и 4 описывают осуществление данного изобретения, которое преодолевает только что описанный недостаток. Декодер и кодирующее устройство, описанное на этих Фиг., и связанные с ними функциональные возможности могут представлять дополнительный режим, такой как «расширенный режим», в который кодер-декодер SAOC фиг.1 может быть переключен. Примеры последней возможности будут представлены в дальнейшем.

Фиг.3 показывает декодер 50. Декодер 50 включает средство 52 для вычисления коэффициентов предсказания и средство 54 для повышающего микширования сигнала понижающего микширования.

Звуковой декодер 50 фиг.3 предназначен для декодирования многообъектного звукового сигнала, имеющего звуковой сигнал первого типа и звуковой сигнал второго типа, закодированные в нем. Звуковой сигнал первого типа и звуковой сигнал второго типа могут быть соответственно моно- или стереозвуковым сигналом. Звуковой сигнал первого типа, например фоновый объект, тогда как звуковой сигнал второго типа - объект переднего плана. Таким образом, осуществление фиг.3 и фиг.4 не обязательно ограничено применением в режиме Караоке/соло. Скорее декодер фиг.3 и кодирующее устройство фиг.4 могут преимущественно использоваться в где-то еще.

Многообъектный звуковой сигнал состоит из сигнала понижающего микширования 56 и дополнительной информации 58. Дополнительная информация 58 включает информацию об уровне 60, описывающую, например, спектральные энергии звукового сигнала первого типа и звукового сигнала второго типа в первом предопределенном частотном/временном разрешении, таком как, например, частотное/временное разрешение 42. В частности, информация об уровне 60 может включать нормализованное спектральное скалярное значение энергии на объект и временной/частотный элемент. Нормализация может быть связана с самым высоким спектральным значением энергии среди звуковых сигналов первого и второго типа в соответствующем временном/частотном элементе. Последняя возможность приводит к OLDs для предоставления информации об уровне, здесь также называемой информацией о разности уровней. Хотя следующие осуществления используют OLDs, они могут, хотя это не однозначно установлено, использовать иначе нормализованное спектральное представление энергии.

Дополнительная информация 58 включает также остаточный сигнал 62, определяющий остаточные значения уровня во втором предопределенном временном/частотном разрешении, которое может быть равным или может отличаться от первого предопределенного временного/частотного разрешения.

Средство 52 для вычисления коэффициентов предсказания формируется для вычисления коэффициентов предсказания на основе информации об уровне 60. Дополнительно, средство 52 может вычислять коэффициенты предсказания, далее основанные на информации о межкорреляции, также состоящей из дополнительной информации 58. Далее, средство 52 может использовать предписанную информацию о зависящем от времени понижающем микшировании, состоящую из дополнительной информации 58, чтобы вычислять коэффициенты предсказания. Коэффициенты предсказания, вычисленные средством 52, необходимы для поиска или повышающего микширования оригинальных звуковых объектов или звуковых сигналов из сигнала понижающего микширования 56.

Соответственно, средство 54 для повышающего микширования формируется для выполнения повышающего микширования сигнала понижающего микширования 56 на основе коэффициентов предсказания 64, полученных из средства 52 и остаточного сигнала 62. Используя остаточный сигнал 62, декодер 50 может лучше подавлять передачу ненужных данных от звукового сигнала одного типа к звуковому сигналу другого типа. В дополнение к остаточному сигналу 62 средство 54 может использовать зависящее от времени понижающее микширование, чтобы микшировать с повышением сигнал понижающего микширования. Далее, средство 54 для повышающего микширования может использовать пользовательский вход 66, чтобы решить, какой из звуковых сигналов восстановлен из сигнала понижающего микширования 56, который будет фактически произведен на выходе 68, или до какой степени. В качестве первого экстремального значения пользовательский вход 66 может указывать средству 54 производить только первый сигнал повышающего микширования, приближающийся к звуковому сигналу первого типа. Противоположное верно для второго экстремального значения согласно тому, какое из средств 54 должно произвести только второй сигнал повышающего микширования, приближающийся к звуковому сигналу второго типа. Возможны также промежуточные варианты согласно которым смесь обоих сигналов повышающего микширования предоставляет выход на выходе 68.

Фиг.4 показывает осуществление для звукового кодирующего устройства для производства многообъектного звукового сигнала, расшифрованного декодером фиг.3. Кодирующее устройство фиг.4, которое обозначено ссылочным номером 80, может включать средство 82 для спектрального разложения в случае, если звуковые сигналы 84 должны быть закодированы, не находятся в пределах спектральной области. Среди звуковых сигналов 84, в свою очередь, имеется, по крайней мере, один звуковой сигнал первого типа и, по крайней мере, один звуковой сигнал второго типа. Средство 82 для спектрального разложения формируется, чтобы спектрально разложить каждый из этих сигналов 84 в представлении, как показано на фиг.2, например. Таким образом, средство 82 для спектрального разложения спектрально разлагает звуковой сигнал 84 в предопределенном временном/частотном разрешении. Средство 82 может включать блок фильтров, такой как гибридный блок QMF.

Звуковое кодирующее устройство 80 далее включает средство 86 для вычисления информации об уровне, средство 88 для понижающего микширования, средство 90 для вычисления коэффициентов предсказания и средство 92 для регулирования остаточного сигнала. Дополнительно, звуковое кодирующее устройство 80 может включать средство для вычисления информации о межкорреляции, а именно средство 94. Средство 86 вычисляет информацию об уровне, описывающую уровень звукового сигнала первого типа и звукового сигнала второго типа в первом предопределенном временном/частотном разрешении из звукового сигнала как произвольно произведенное средством 82. Точно так же средство 88 микширует с понижением звуковые сигналы. Средство 88, таким образом, производит сигнал понижающего микширования 56. Средство 86 также производит информацию об уровне 60. Средство 90 для вычисления коэффициентов предсказания действует так же, как средство 52. Таким образом, средство 90 вычисляет коэффициенты предсказания из информации об уровне 60 и производит коэффициенты предсказания 64 для средства 92. Средство 92, в свою очередь, устанавливает остаточный сигнал 62, основанный на сигнале понижающего микширования 56, коэффициентах предсказания 64 и оригинальных звуковых сигналах во втором предопределенном временном/частотном разрешении таким образом, что повышающее микширование сигнала понижающего микширования 56, основанное и на коэффициентах предсказания 64 и на остаточном сигнале 62, приводит к первому звуковому сигналу повышающего микширования, приближенному к звуковому сигналу первого типа, и ко второму звуковому сигналу повышающего микширования, приближенному к звуковому сигналу второго типа; согласованное приближение сравнимо с отсутствием остаточного сигнала 62.

Остаточный сигнал 62 и информация об уровне 60 состоят из дополнительной информации 58, которая формирует, наряду с сигналом понижающего микширования 56 многообъектный звуковой сигнал, подлежащий расшифровке декодером фиг.3.

Как показано на фиг.4 и аналогично описанию фиг.3, средство 90 может дополнительно использовать информацию о межкорреляции, произведенную средством 94, и/или зависящее от времени предписание понижающего микширования, произведенное средством 88, чтобы вычислить коэффициент предсказания 64. Далее, средство 92 для регулирования остаточного сигнала 62 может дополнительно использовать зависящее от времени предписание понижающего микширования, произведенное средством 88, чтобы надлежащим образом установить остаточный сигнал 62.

Следует снова отметить, что звуковой сигнал первого типа может быть моно- или стереозвуковым сигналом. То же самое касается звукового сигнала второго типа. Остаточный сигнал 62 может быть передан в рамках дополнительной информации в том же самом временном/частотном разрешении, поскольку параметр временного/частотного разрешения используется для вычисления, например, информации об уровне, или может использовать другое временное/частотное разрешение. Далее, вполне возможно, что передача остаточного сигнала ограничена подчастью спектрального диапазона, занятого временными/частотными элементами 42, для которых передается информация об уровне. Например, временное/частотное разрешение, в котором передается остаточный сигнал, может быть обозначено в рамках дополнительной информации 58 при помощи элементов синтаксиса bsResidualBands и bsResidualFramesPerSAOCFrame. Эти два элемента синтаксиса могут определить другое подразделение структуры на элементы времени/частоты, чем подразделение, имеющее результатом элементы 42.

Между прочим, следует заметить, что остаточный сигнал 62 может отражать, а может и не отражать потерю информации в результате потенциально используемого основного кодирующего устройства 96, используемого по выбору для кодирования сигнала понижающего микширования 56 звуковым кодирующим устройством 80. Как показано на фиг.4, средство 92 может выполнять регулирование остаточного сигнала 62 на основе версии сигнала понижающего микширования, реконструируемого из выхода основного кодирующего устройства 96 или версии из входа в основное кодирующее устройство 96'. Точно так же звуковой декодер 50 может включать основной декодер 98 для расшифровки или разворачивания сигнала понижающего микширования 56.

Способность устанавливать в пределах многообъектного звукового сигнала временное/частотное разрешение, используемое для вычисления остаточного сигнала 62, отличающегося от временного/частотного разрешения, используемого для вычисления информации об уровне 60, позволяет достигнуть хорошего компромисса между качеством звука с одной стороны и степенью сжатия многообъектного звукового сигнала с другой стороны. В любом случае, остаточный сигнал 62 позволяет обеспечить лучшее подавление выдачи ненужных данных от одного звукового сигнала до другого в пределах первого и второго сигналов повышающего микширования, которые будут произведены на выходе 68 в соответствии с пользовательским входом 66.

Как станет ясным из следующего осуществления, более одного остаточного сигнала 62 может быть передано в рамках дополнительной информации в случае, если закодировано более одного объекта переднего плана или звуковой сигнал второго типа. Дополнительная информация может учитывать индивидуальное решение относительно того, передавать ли остаточный сигнал 62 для определенного звукового сигнала второго типа или нет. Таким образом, число остаточных сигналов 62 может меняться от одного до нескольких звуковых сигналов второго типа.

В звуковом декодере Фиг.3 средство 54 для вычисления может формироваться, чтобы вычислять матрицу коэффициента предсказания С, состоящую из коэффициентов предсказания, основанных на информации об уровне (OLD), а средство 56 может формироваться, чтобы выдать первый сигнал повышающего микширования S₁, и/или второй сигнал повышающего микширования S2 из сигнала понижающего микширования d согласно вычислению, представленному здесь

где эти "1" обозначает - в зависимости от числа каналов d-скаляр, или матрицу идентичности, и D^-1-матрица, однозначно определенная в соответствии с предписанием понижающего микширования, согласно которому звуковой сигнал первого типа и звуковой сигнал второго типа микшируются с понижением в сигнал понижающего микширования и который также состоит из дополнительной информации, и Н-член, являющийся независимым от d, но зависящий от остаточного сигнала.

Как отмечено выше и будет описано ниже, предписание понижающего микширования может изменяться во времени и/или может спектрально изменяться в рамках дополнительной информации. Если звуковой сигнал первого типа является стерео звуковым сигналом, имеющим первый (L) и второй входной канал (R), информация об уровне, например, описывает нормализованные спектральные энергии первого входного канала (L), второго входного канала (R) и звуковой сигнал второго типа, соответственно, при временном/частотном разрешении 42.

Вышеупомянутое вычисление, согласно которому средство 56 для повышающего микширования выполняет повышающее микширование, может даже быть представлено следующим образом

где - первый канал первого сигнала повышающего микширования, приближающийся к L, и -второй канал первого сигнала повышающего микширования, приближающийся к R, и «1» - скаляр в случае, если d моно, и 2×2 матрица идентичности в случае, если d - стерео. Если сигнал понижающего микширования 56 является стерео звуковым сигналом, имеющим первый (L0) и второй выходной канал (R0), и вычисление, согласно которому средство 56 для повышающего микширования выполняет повышающее микширование, может быть представлено следующим образом

Так как член Н, зависящий от остаточного сигнала, связан с res, вычисление, согласно которому средство 56 для повышающего микширования выполняет повышающее микширование, может быть представлено следующим образом

Многообъектный звуковой сигнал может даже включать множество звуковых сигналов второго типа, а дополнительная информация может включать один остаточный сигнал на звуковой сигнал второго типа. Параметр остаточного разрешения может присутствовать в дополнительной информации, определяющей спектральный диапазон, по которому остаточный сигнал передается в рамках дополнительной информации. Он может даже определять нижний и верхний предел спектрального диапазона.

Далее, многообъектный звуковой сигнал может также включать пространственную предоставляемую информацию для пространственной передачи звукового сигнала первого типа на предопределенную конфигурацию громкоговорителя. Другими словами, звуковой сигнал первого типа может быть многоканальным (больше чем два канала) MPEG Объемное звучание сигналом, смикшированным с понижением до стерео.

В дальнейшем будут описаны осуществления, которые используют вышеупомянутую передачу остаточного сигнала. Однако следует заметить, что термин «объект» часто используется в двойном смысле. Иногда объект обозначает индивидуальный монозвуковой сигнал. Таким образом, стереообъект может иметь монозвуковой сигнал, формирующий один канал стереосигнала. Однако в других ситуациях стереообъект может обозначать фактически два объекта, а именно объект относительно правого канала и далее объект относительно левого канала стерео объекта. Фактический смысл станет очевидным из контекста.

Прежде чем описать следующее осуществление, следует сказать, что то же самое мотивируется недостатками, реализованными посредством основной технологии стандарта SAOC, выбранного в качестве эталонной модели 0 (RM0) в 2007 г. RM0 позволил индивидуально управлять многими звуковыми объектами, исходя из их положения панорамирования и увеличения/ослабления. Был представлен специальный сценарий в контексте применения типа «Караоке». В этом случае

- моно, стерео или объемное звучание фонового окружения (в дальнейшем называемое Фоновым объектом, BGO) передается от ряда определенных объектов SAOC, которые воспроизводятся без изменения, то есть каждый сигнал входного канала воспроизводится через тот же самый выходной канал на неизмененном уровне, и

- определенный интересующий объект (в дальнейшем называемый Объектом переднего плана, FGO) (обычно ведущий голос), который воспроизводится с изменениями (FGO обычно размещается в середине звуковой стадии и может быть приглушен, то есть значительно уменьшен, чтобы дать возможность петь хором).

Как видно из процедур субъективной оценки и как можно было ожидать исходя из основного принципа технологии, манипулирование положением объекта приводит к высококачественным результатам, в то время как манипулирование уровнем объекта обычно является более перспективными. Как правило, чем выше дополнительное усиление/ослабление сигнала, тем больше возникает потенциальных артефактов. В этом смысле сценарий Караоке является чрезвычайно требовательным, так как необходимо предельное (идеально: общее) ослабление FGO.

Случай двойного использования - способность воспроизводить только FGO без фонового/МВО и называется в дальнейшем солорежимом.

Замечено, однако, что, если включено объемное фоновое окружение, это называется Многоканальным Фоновым Объектом (МВО). Обработка МВО включает следующее, как показано на Фиг.5:

- МВО кодируется с использованием регулярного дерева 5-2-5 MPEG, Объемное звучание 102. Это приводит к формированию стерео МВО сигнала понижающего микширования 104 и МВО MPS потока дополнительной информации 106.

- МВО понижающего микширования затем кодируется последующим кодирующим устройством SAOC 108 как стереообъект (то есть разность уровней двух объектов плюс межканальная корреляция) вместе с (или несколькими) FGO 110. Это приводит к общему сигналу понижающего микширования 112 и потоку дополнительной информации SAOC 114.

В транскодере 116 сигнал понижающего микширования 112 проходит предварительную обработку, а SAOC и MPS потоки дополнительной информации 106, 114 транскодируются в единый выходной поток дополнительной информации MPS 118. Это происходит прерывистым способом, то есть или обеспечивается только полное подавление FGO (s) или полное подавление МВО.

Наконец, результирующий сигнал понижающего микширования 120 и дополнительная информация MPS 118 предоставляются деко

Аудиокодирование с использованием понижающего микширования

Патент 2452043