2630754 - Эффективное кодирование звуковых сцен, содержащих звуковые объекты

Эффективное кодирование звуковых сцен, содержащих звуковые объекты

Иллюстрации

Показать все

Изобретение относится к средствам для кодирования и декодирования звука. Технический результат заключается в повышении качества восстановления звуковых объектов. Способ кодирования включает, среди прочего, вычисление М сигналов понижающего микширования путем формирования комбинаций N звуковых объектов, при этом M≤N, и вычисление параметров, позволяющих восстанавливать набор звуковых объектов, сформированный на основе N звуковых объектов, исходя из М сигналов понижающего микширования. Вычисление М сигналов понижающего микширования осуществляют в соответствии с критерием, не зависящим от какой-либо конфигурации громкоговорителей. 6 н. и 21 з.п. ф-лы, 11 ил.

Реферат

Перекрестная ссылка на родственные заявки

Настоящая заявка заявляет приоритет даты подачи предварительной заявки на патент США № 61/827246, поданной 24 мая 2013 г., предварительной заявки на патент США № 61/893770, поданной 21 октября 2013 г., и предварительной заявки на патент США № 61/973623, поданной 1 апреля 2014 г., каждая из которых ссылкой полностью включается в данное описание.

Область техники

Раскрытие данного описания в целом относится к кодированию звуковой сцены, содержащей звуковые объекты. В частности, оно относится к кодеру, декодеру и связанным с ними способам кодирования и декодирования звуковых объектов.

Предпосылки создания изобретения

Звуковая сцена в целом может содержать звуковые объекты и звуковые каналы. Звуковой объект представляет собой звуковой сигнал, обладающий связанным с ним пространственным положением, которое может изменяться во времени. Звуковой канал представляет собой звуковой сигнал, напрямую соответствующий каналу многоканальной конфигурации громкоговорителей, такой как так называемая конфигурация громкоговорителей 5.1 с тремя передними громкоговорителями, двумя окружающими громкоговорителями и громкоговорителем низкочастотных эффектов.

Так как количество звуковых объектов, как правило, может быть очень большим, например порядка сотен звуковых объектов, существует потребность в способах кодирования, позволяющих эффективно восстанавливать звуковые объекты на стороне декодера. Были предложения комбинировать звуковые объекты в многоканальное понижающее микширование (т.е. в множество звуковых каналов, соответствующее каналам определенной многоканальной конфигурации громкоговорителей, такой как конфигурация 5.1) на стороне кодера и параметрически восстанавливать звуковые объекты из многоканального понижающего микширования на стороне декодера.

Одним из преимуществ такого подхода является то, что унаследованный декодер, не поддерживающий восстановление звуковых объектов, может использовать многоканальное понижающее микширование непосредственно для воспроизведения на многоканальной конфигурации громкоговорителей. Например, понижающее микширование 5.1 можно воспроизводить непосредственно на громкоговорителях конфигурации 5.1.

Однако одним из недостатков данного подхода является то, что многоканальное понижающее микширование может не позволять достаточно хорошо восстанавливать звуковые объекты на стороне декодера. Например, рассмотрим два звуковых объекта, имеющих такое же горизонтальное положение, как и левый передний громкоговоритель конфигурации 5.1, но разное вертикальное положение. Эти звуковые объекты, как правило, скомбинированы в одном и том же канале понижающего микширования 5.1. Это может составить затруднительную ситуацию при восстановлении звукового объекта на стороне декодера, когда необходимо восстанавливать приближения двух звуковых объектов для одного и того же канала понижающего микширования — процесс, не способный обеспечить совершенное восстановление и иногда даже приводящий к слышимым артефактам.

Поэтому существует потребность в способах кодирования/декодирования, обеспечивающих эффективное и усовершенствованное восстановление звуковых объектов.

В ходе восстановления звуковых объектов, например, исходя из понижающего микширования, часто используют дополнительную информацию, или метаданные. Форма и контекст такой дополнительной информации могут, например, оказывать влияние на точность воспроизведения восстановленных звуковых объектов и/или на вычислительную сложность выполнения восстановления. Поэтому было бы желательно создать способы кодирования/декодирования с новым и альтернативным форматом дополнительной информации, позволяющим повысить точность воспроизведения восстановленных звуковых объектов и/или позволяющим снизить вычислительную сложность восстановления.

Краткое описание графических материалов

Далее приводится описание примерных вариантов осуществления со ссылками на прилагаемые графические материалы, на которых:

фиг. 1 — схематическая иллюстрация кодера согласно примерным вариантам осуществления;

фиг. 2 — схематическая иллюстрация декодера, поддерживающего восстановление звуковых объектов, согласно примерным вариантам осуществления;

фиг. 3 — схематическая иллюстрация декодера с низкой сложностью, не поддерживающего восстановление звуковых объектов, согласно примерным вариантам осуществления;

фиг. 4 — схематическая иллюстрация кодера, содержащего последовательно расположенный компонент кластеризации для упрощения звуковой сцены, согласно примерным вариантам осуществления;

фиг. 5 — схематическая иллюстрация кодера, содержащего компонент кластеризации, расположенный параллельно для упрощения звуковой сцены, согласно примерным вариантам осуществления;

на фиг. 6 проиллюстрирован типичный известный процесс вычисления матрицы представления для набора экземпляров метаданных;

на фиг. 7 проиллюстрировано получение кривой коэффициента, используемой при представлении звуковых сигналов;

на фиг. 8 проиллюстрирован способ интерполяции экземпляров метаданных согласно одному из примерных вариантов осуществления;

на фиг. 9 и 10 проиллюстрированы примеры введения добавочных экземпляров метаданных согласно примерным вариантам осуществления; и

на фиг. 11 проиллюстрирован способ интерполяции с применением схемы выборки и хранения с фильтром пропускания нижних частот согласно одному из примерных вариантов осуществления.

Все фигуры являются схематическими и, как правило, показывают лишь те части, которые необходимы для разъяснения изобретения; другие части могут быть опущены или просто подразумеваться. Если не указано иного, подобные части на разных фигурах обозначены подобными ссылочными позициями.

Подробное описание

Ввиду вышесказанного целью является, таким образом, создание кодера, декодера и связанных с ними способов, делающих возможным эффективное и усовершенствованное восстановление звуковых объектов, и/или позволяющих повысить точность воспроизведения восстановленных звуковых объектов, и/или позволяющих снизить вычислительную сложность восстановления.

I. Обзор — Кодер

Согласно первой особенности, предлагается способ кодирования, кодер и компьютерный программный продукт для кодирования звуковых объектов.

Согласно примерным вариантам осуществления, предлагается способ кодирования звуковых объектов в поток данных, включающий:

прием N звуковых объектов, при этом N>1;

вычисление М сигналов понижающего микширования, при этом M≤N, путем формирования комбинаций N звуковых объектов в соответствии с критерием, не зависящим от какой-либо конфигурации громкоговорителей;

вычисление дополнительной информации, содержащей параметры, позволяющие восстанавливать набор звуковых объектов, сформированный на основе N звуковых объектов, исходя из М сигналов понижающего микширования; и

включение М сигналов понижающего микширования и дополнительной информации в поток данных для передачи в декодер.

В приведенной выше схеме М сигналов понижающего микширования, таким образом, формируют из N звуковых объектов независимо от какой-либо конфигурации громкоговорителей. Это предполагает, что М сигналов понижающего микширования не ограничено звуковыми сигналами, пригодными для воспроизведения каналов из конфигурации громкоговорителей с М каналов. Вместо этого, М сигналов понижающего микширования можно более свободно выбирать в соответствии с некоторым критерием так, чтобы они, например, адаптировались к динамике N звуковых объектов и совершенствовали восстановление этих звуковых объектов на стороне декодера.

Возвращаясь к примеру с двумя звуковыми объектами, имеющими такое же горизонтальное положение, как и левый передний громкоговоритель конфигурации 5.1, но разное вертикальное положение, предлагаемый способ позволяет поместить первый звуковой объект в первый сигнал понижающего микширования, а второй звуковой объект — во второй сигнал понижающего микширования. Это делает возможным совершенное восстановление звуковых объектов в декодере. В целом, такое совершенное восстановление возможно до тех пор, пока количество активных звуковых объектов не превышает количество сигналов понижающего микширования. Если количество активных звуковых объектов выше, то предлагаемый способ позволяет выбрать звуковые объекты, которые необходимо смешать в один и тот же сигнал понижающего микширования так, чтобы возможные ошибки приближения, возникающие в восстановленном звуковом объекте в декодере, не оказывали или оказывали наименьшее возможное воспринимаемое воздействие на восстанавливаемую звуковую сцену.

Второе преимущество того, что М сигналов понижающего микширования являются адаптивными, является способность содержать определенные звуковые объекты строго отдельно от других звуковых объектов. Например, может быть преимущественным содержание какого-либо диалогового объекта отдельно от фоновых объектов с тем, чтобы обеспечить то, что диалог будет представлен точно в выражении пространственных признаков и будет допускать такую обработку объекта в декодере, как усиление диалога или увеличение громкости диалога, с целью повышения разборчивости. В других применениях (например, в караоке) может быть преимущественным обеспечение возможности полного приглушения одного или нескольких объектов, что также требует, чтобы такие объекты не были смешаны с другими объектами. Традиционные способы, использующие многоканальное понижающее микширование, соответствующее конкретной конфигурации громкоговорителей, не позволяют полностью заглушать звуковые объекты, присутствующие в микшировании с другими звуковыми объектами.

Термин «сигнал понижающего микширования» отражает то, что сигнал понижающего микширования представляет собой микширование, т.е. комбинацию, других сигналов. Термин «понижающее» указывает на то, что количество М сигналов понижающего микширования, как правило, меньше количества N звуковых объектов.

Согласно примерным вариантам осуществления, способ также может включать связывание каждого сигнала понижающего микширования с пространственным положением и включение пространственных положений сигналов понижающего микширования в поток данных как метаданных для сигналов понижающего микширования. Это является преимущественным в том, что позволяет использовать декодирование с низкой сложностью в случае унаследованной системы воспроизведения. Точнее, метаданные, связанные с сигналами понижающего микширования, можно использовать на стороне декодера для представления этих сигналов понижающего микширования в каналы унаследованной системы воспроизведения.

Согласно примерным вариантам осуществления, N звуковых объектов связаны с метаданными, содержащими пространственные положения N звуковых объектов, а пространственные положения, связанные с сигналами понижающего микширования, вычисляют на основе пространственных положений N звуковых объектов. Таким образом, сигналы понижающего микширования можно интерпретировать как звуковые объекты, имеющие пространственное положение, зависящее от пространственных положений N звуковых объектов.

Кроме того, пространственные положения N звуковых объектов и пространственные положения, связанные с М сигналов понижающего микширования, могут быть переменными по времени, т.е. они могут изменяться между временными кадрами звуковых данных. Иными словами, сигналы понижающего микширования можно интерпретировать как динамические звуковые объекты, имеющие связанное положение, изменяющееся между временными кадрами. Это представляет отличие от систем, известных из уровня техники, где сигналы понижающего микширования соответствуют фиксированным пространственным положениям громкоговорителей.

Как правило, дополнительная информация также является переменной по времени, посредством чего параметры управляют временным изменением восстановления звуковых объектов.

Для вычисления сигналов понижающего микширования кодер может применять различные критерии. Согласно примерным вариантам осуществления, в которых N звуковых объектов связаны с метаданными, содержащими пространственные положения N звуковых объектов, критерий вычисления М сигналов понижающего микширования может основываться на пространственной близости N звуковых объектов. Например, в один и тот же сигнал понижающего микширования можно скомбинировать звуковые объекты, близкие друг к другу.

Согласно примерным вариантам осуществления, в которых метаданные, связанные с N звуковых объектов, также содержат значения значимости, указывающие значимость N звуковых объектов относительно друг друга, критерий вычисления М сигналов понижающего микширования также может основываться на значениях значимости N звуковых объектов. Например, наиболее значимый (значимые) из N звуковых объектов может отображаться непосредственно в сигнал понижающего микширования, тогда как остальные звуковые объекты комбинируют для формирования остальных сигналов понижающего микширования.

В частности, согласно примерным вариантам осуществления, этап вычисления М сигналов понижающего микширования включает первую процедуру кластеризации, включающую связывание N звуковых объектов с М кластеров на основе пространственной близости и значений значимости, если необходимо, N звуковых объектов и вычисление сигнала понижающего микширования для каждого кластера путем формирования комбинации звуковых объектов, связанных с этим кластером. В некоторых случаях звуковой объект может образовывать часть самое большее одного кластера. В других случаях звуковой объект может образовывать часть нескольких кластеров. Таким образом, из звуковых объектов формируют различные группы, т.е. кластеры. В свою очередь, каждый кластер представлен сигналом понижающего микширования, который можно рассматривать как звуковой объект. Кластерный подход позволяет связывать каждый сигнал понижающего микширования с пространственным положением, вычисленным на основе пространственных положений звуковых объектов, связанных с кластером, соответствующим сигналу понижающего микширования. Поэтому в такой интерпретации первая процедура кластеризации гибким образом уменьшает размерность массива N звуковых объектов до М звуковых объектов.

Пространственное положение, связанное с каждым сигналом понижающего микширования, можно вычислить, например, как центроид или взвешенный центроид пространственных положений звуковых объектов, связанных с кластером, соответствующим сигналу понижающего микширования. Весовые коэффициенты могут быть основаны, например, на значениях значимости звуковых объектов.

Согласно примерным вариантам осуществления, N звуковых объектов связывают с М кластеров путем применения алгоритма обучения методом К-средних, содержащего пространственные положения N звуковых объектов в качестве ввода.

Так как звуковая сцена может содержать огромное количество звуковых объектов, в способе также можно предпринимать дальнейшие меры по уменьшению размерности массива звуковой сцены, посредством чего снижая вычислительную сложность на стороне декодера при восстановлении звуковых объектов. В частности, способ также может включать вторую процедуру кластеризации с целью уменьшения первого множества звуковых объектов до второго множества звуковых объектов.

Согласно одному из вариантов осуществления, вторую процедуру кластеризации выполняют перед вычислением М сигналов понижающего микширования. В этом варианте осуществления первое множество звуковых объектов, таким образом, соответствует первоначальным звуковым объектам звуковой сцены, а второе, уменьшенное, множество звуковых объектов соответствует N звуковых объектов, на основе которых вычисляют М сигналов понижающего микширования. Кроме того, в таком варианте осуществления набор звуковых объектов (подлежащих восстановлению в декодере), сформированный на основе N звуковых объектов, соответствует, т.е. равен, N звуковых объектов.

Согласно другому варианту осуществления, вторую процедуру кластеризации выполняют параллельно с вычислением М сигналов понижающего микширования. В таком варианте осуществления N звуковых объектов, на основе которых вычисляют М сигналов понижающего микширования, а также первое множество звуковых объектов, являющееся вводом во вторую процедуру кластеризации, соответствуют первоначальным звуковым объектам звуковой сцены. Кроме того, в таком варианте осуществления второму множеству звуковых объектов соответствует набор звуковых объектов (подлежащих восстановлению в декодере), сформированный на основе N звуковых объектов. При таком подходе М сигналов понижающего микширования, таким образом, вычисляют на основе первоначальных звуковых объектов звуковой сцены, а не на основе уменьшенного количества звуковых объектов.

Согласно примерным вариантам осуществления, вторая процедура кластеризации включает:

прием первого множества звуковых объектов и связанных с ними пространственных положений;

связывание первого множества звуковых объектов с по меньшей мере одним кластером на основе пространственной близости первого множества звуковых объектов;

генерирование второго множества звуковых объектов путем представления каждого из по меньшей мере одного кластера посредством звукового объекта, представляющего собой комбинацию звуковых объектов, связанных с кластером;

вычисление метаданных, содержащих пространственные положения для второго множества звуковых объектов, при этом пространственное положение каждого звукового объекта из второго множества звуковых объектов вычисляют на основе пространственных положений звуковых объектов, связанных с соответствующим кластером; и

включение метаданных для второго множества звуковых объектов в поток данных.

Иными словами, во второй процедуре кластеризации используют пространственную избыточность, присутствующую в звуковой сцене, такую как объекты, обладающие равными или очень похожими положениями. В дополнение, при генерировании второго множества звуковых объектов можно учитывать значения значимости звуковых объектов.

Как упоминалось выше, звуковая сцена также может содержать звуковые каналы. Такие звуковые каналы можно рассматривать как звуковой объект, связанный с постоянным положением, то есть с положением громкоговорителя, соответствующего звуковому каналу. Более подробно, вторая процедура кластеризации также может включать:

прием по меньшей мере одного звукового канала;

преобразование каждого из по меньшей мере одного звукового канала в звуковой объект, обладающий постоянным пространственным положением, соответствующим положению громкоговорителя этого звукового канала; и

включение преобразованного по меньшей мере одного звукового канала в первое множество звуковых объектов.

Таким образом, способ позволяет кодировать звуковую сцену, содержащую звуковые каналы, а также звуковые объекты.

Согласно примерным вариантам осуществления, предлагается компьютерный программный продукт, содержащий машиночитаемый носитель с командами для выполнения способа декодирования согласно примерным вариантам осуществления.

Согласно примерным вариантам осуществления, предлагается кодер для кодирования звуковых объектов в поток данных, содержащий:

компонент приема, сконфигурированный для приема N звуковых объектов, при этом N>1;

компонент понижающего микширования, сконфигурированный для вычисления М сигналов понижающего микширования, при этом M≤N, путем формирования комбинаций N звуковых объектов в соответствии с критерием, не зависящим от какой-либо конфигурации громкоговорителей;

компонент анализа, сконфигурированный для вычисления дополнительной информации, содержащей параметры, позволяющие восстанавливать набор звуковых объектов, сформированный на основе N звуковых объектов, исходя из М сигналов понижающего микширования; и

компонент уплотнения, сконфигурированный для включения М сигналов понижающего микширования и дополнительной информации в поток данных для передачи в декодер.

II. Обзор — Декодер

Согласно второй особенности, предлагается способ декодирования, декодер и компьютерный программный продукт для декодирования многоканального звукового содержимого.

Вторая особенность может в целом обладать такими же характерными признаками и преимуществами, как и первая особенность.

Согласно примерным вариантам осуществления, предлагается способ декодирования в декодере потока данных, содержащего кодированные звуковые объекты, включающий:

прием потока данных, содержащего М сигналов понижающего микширования, представляющих собой комбинации N звуковых объектов, вычисленные в соответствии с критерием, не зависящим от какой-либо конфигурации громкоговорителей, при этом M≤N, и дополнительную информацию, содержащую параметры, позволяющие восстанавливать набор звуковых объектов, сформированный на основе N звуковых объектов, исходя из М сигналов понижающего микширования; и

восстановление набора звуковых объектов, сформированного на основе N звуковых объектов, исходя из М сигналов понижающего микширования и дополнительной информации.

Согласно примерным вариантам осуществления, поток данных также содержит метаданные для М сигналов понижающего микширования, содержащие пространственные положения, связанные с М сигналов понижающего микширования, при этом способ также включает:

выполнение этапа восстановления набора звуковых объектов, сформированного на основе N звуковых объектов, исходя из М сигналов понижающего микширования и дополнительной информации, при условии, что декодер сконфигурирован для поддержки восстановления звуковых объектов; и

применение метаданных для М сигналов понижающего микширования для представления М сигналов понижающего микширования в выходные каналы системы воспроизведения, при условии, что декодер не сконфигурирован для поддержки восстановления звуковых объектов.

Согласно примерным вариантам осуществления, пространственные положения, связанные с М сигналов понижающего микширования, являются переменными по времени.

Согласно примерным вариантам осуществления, дополнительная информация является переменной по времени.

Согласно примерным вариантам осуществления, поток данных также содержит метаданные для набора звуковых объектов, сформированного на основе N звуковых объектов, в том числе пространственные положения набора звуковых объектов, сформированного на основе N звуковых объектов, при этом способ также включает:

применение метаданных для набора звуковых объектов, сформированного на основе N звуковых объектов, для представления восстановленного набора звуковых объектов, сформированного на основе N звуковых объектов, в выходные каналы системы воспроизведения.

Согласно примерным вариантам осуществления, набор звуковых объектов, сформированный на основе N звуковых объектов, равен N звуковых объектов.

Согласно примерным вариантам осуществления, набор звуковых объектов, сформированный на основе N звуковых объектов, содержит множество звуковых объектов, которые представляют собой комбинации N звуковых объектов, и количество которых меньше N.

Согласно примерным вариантам осуществления, предлагается декодер для декодирования потока данных, содержащего кодированные звуковые объекты, содержащий:

компонент приема, сконфигурированный для приема потока данных, содержащего М сигналов понижающего микширования, представляющих собой комбинации N звуковых объектов, вычисленные в соответствии с критерием, не зависящим от какой-либо конфигурации громкоговорителей, при этом M≤N, и дополнительную информацию, содержащую параметры, позволяющие восстанавливать набор звуковых объектов, сформированный на основе N звуковых объектов, исходя из М сигналов понижающего микширования; и

компонент восстановления, сконфигурированный для восстановления набора звуковых объектов, сформированного на основе N звуковых объектов, исходя из М сигналов понижающего микширования и дополнительной информации.

III. Обзор — Формат для дополнительной информации и метаданных

Согласно третьей особенности, предусмотрен способ кодирования, кодер и компьютерный программный продукт для кодирования звуковых объектов.

Способы, кодеры и компьютерные программные продукты согласно третьей особенности могут в целом обладать характерными признаками и преимуществами, общими со способами, кодерами и компьютерными программными продуктами согласно первой особенности.

Согласно примерным вариантам осуществления, предлагается способ кодирования звуковых объектов в поток данных. Этот способ включает:

прием N звуковых объектов, при этом N>1;

вычисление М сигналов понижающего микширования, при этом M≤N, путем формирования комбинаций N звуковых объектов;

вычисление изменяющейся во времени дополнительной информации, содержащей параметры, позволяющие восстанавливать набор звуковых объектов, сформированный на основе N звуковых объектов, исходя из М сигналов понижающего микширования; и

В настоящих примерных вариантах осуществления способ также включает включение в поток данных:

множества экземпляров дополнительной информации, определяющих соответствующие требуемые установки восстановления для восстановления набора звуковых объектов, сформированного на основе N звуковых объектов; и

данных перехода для каждого экземпляра дополнительной информации, содержащих две независимо присваиваемые части, которые в комбинации определяют момент времени для начала перехода от текущей установки восстановления к требуемой установке восстановления, определяемой экземпляром дополнительной информации, и момент времени для завершения перехода.

В этом примерном варианте осуществления дополнительная информация является изменяющейся во времени, например переменной по времени, допускающей изменение параметров, управляющих восстановлением звуковых объектов, относительно времени, что отражается присутствием экземпляров дополнительной информации. Используя формат дополнительной информации, содержащий данные перехода, определяющие моменты времени для начала и момент времени для завершения переходов от текущих установок восстановления к соответствующим требуемым установкам восстановления, экземпляры дополнительной информации делаются более независимыми друг от друга в том смысле, что интерполяцию можно выполнять на основе текущей установки восстановления и единственной требуемой установки восстановления, определяемой единственным экземпляром дополнительной информации, т.е. в отсутствие знания о каких-либо других экземплярах дополнительной информации. Предусматриваемый формат дополнительной информации, таким образом, содействует вычислению/введению добавочных экземпляров дополнительной информации между существующими экземплярами дополнительной информации. В частности, предусматриваемый формат дополнительной информации допускает вычисление/введение добавочных экземпляров дополнительной информации без воздействия на качество воспроизведения. В данном раскрытии процесс вычисления/введения новых экземпляров дополнительной информации между существующими экземплярами дополнительной информации именуется «передискретизацией» дополнительной информации. Передискретизация дополнительной информации часто требуется в ходе определенных задач обработки звуковых данных. Например, при редактировании звукового содержимого, например посредством вырезки/слияния/микширования, такие редакции могут происходить между экземплярами дополнительной информации. В этом случае может потребоваться передискретизация дополнительной информации. Другим таким случаем является случай, когда звуковые сигналы и связанную с ними дополнительную информацию кодируют звуковым кодеком на основе кадров. В этом случае желательно иметь по меньшей мере один экземпляр дополнительной информации для каждого кадра звукового кодека, предпочтительно с временной отметкой в начале такого кадра кодека, для повышения устойчивости к ошибкам потерь кадров при передаче. Например, звуковые сигналы/объекты могут составлять часть аудиовизуального сигнала, или мультимедийного сигнала, содержащего видеосодержимое. В таких применениях может быть желательно модифицировать частоту кадров звукового содержимого для согласования с частотой кадров видеосодержимого, в силу чего может быть необходима соответствующая передискретизация дополнительной информации.

Поток данных, в который заключают сигнал понижающего микширования и дополнительную информацию, может представлять собой, например, битовый поток, в частности сохраняемый или передаваемый битовый поток.

Следует понимать, что вычисление М сигналов понижающего микширования путем формирования комбинаций N звуковых объектов означает, что каждый из М сигналов понижающего микширования получают путем формирования комбинации, например линейной комбинации, звукового содержимого одного или нескольких из N звуковых объектов. Иными словами, каждый из N звуковых объектов необязательно вносит вклад в каждый из М сигналов понижающего микширования.

Термин «сигнал понижающего микширования» отражает то, что сигнал понижающего микширования представляет собой микширование, т.е. комбинацию, других сигналов. Сигнал понижающего микширования может, например, представлять собой аддитивное микширование других сигналов. Термин «понижающее» указывает на то, что количество М сигналов понижающего микширования, как правило, меньше количества N звуковых объектов.

Сигналы понижающего микширования можно вычислять, например, формируя комбинации N звуковых сигналов в соответствии с критерием, не зависящим от какой-либо конфигурации громкоговорителей, согласно любому из примерных вариантов осуществления в рамках первой особенности. В качестве альтернативы, сигналы понижающего микширования можно вычислять, например, формируя комбинации N звуковых сигналов так, чтобы сигналы понижающего микширования были пригодны для воспроизведения в каналах конфигурации громкоговорителей с М каналов, что в данном описании именуется «обратно совместимым понижающим микшированием».

Под данными перехода, содержащими две независимо присваиваемые части, подразумевается то, что две части являются присваиваемыми взаимонезависимо, то есть могут быть присвоены независимо одна от другой. Однако следует понимать, что части данных перехода могут, например, совпадать с частями данных перехода для дополнительной информации, или метаданных, других типов.

В этом примерном варианте осуществления две независимо присваиваемые части данных перехода в комбинации определяют момент времени для начала перехода и момент времени для завершения перехода, т.е. эти два момента времени можно получить, исходя их двух независимо присваиваемых частей данных перехода.

Согласно одному из примерных вариантов осуществления, способ может также включать процедуру кластеризации с целью уменьшения первого множества звуковых объектов до второго множества звуковых объектов, при этом N звуковых объектов составляют либо первое множество звуковых объектов, либо второе множество звуковых объектов, и при этом набор звуковых объектов, сформированный на основе N звуковых объектов, совпадает со вторым множеством звуковых объектов. В этом примерном варианте осуществления процедура кластеризации может включать:

вычисление изменяющихся во времени метаданных кластеров, содержащих пространственные положения для второго множества звуковых объектов; и

дальнейшее включение в поток данных для передачи в декодер:

множества экземпляров метаданных кластеров, определяющих соответствующие требуемые установки представления для представления второго набора звуковых объектов; и

данных перехода для каждого экземпляра метаданных кластеров, содержащих две независимо присваиваемые части, в комбинации определяющие момент времени для начала перехода от текущей установки представления к требуемой установке представления, определяемой экземпляром метаданных кластеров, и момент времени для завершения перехода к требуемой установке представления, определяемой экземпляром метаданных кластеров.

Так как звуковая сцена может содержать огромное количество звуковых объектов, в способе согласно этому примерному варианту осуществления предпринимают дальнейшие меры для уменьшения размерности массива звуковой сцены путем уменьшения первого множества звуковых объектов до второго множества звуковых объектов. В этом примерном варианте осуществления набор звуковых объектов, сформированный на основе N звуковых объектов и подлежащий восстановлению на стороне декодера на основе сигналов понижающего микширования и дополнительной информации, совпадает со вторым множеством звуковых объектов, соответствующим упрощению и/или представлению с пониженной размерностью массива звуковой сцены, представляемой первым множеством звуковых сигналов, а вычислительная сложность восстановления на стороне декодера снижается.

Включение метаданных кластеров в поток данных делает возможным представление второго набора звуковых сигналов на стороне декодера, например, после того, как второй набор звуковых сигналов был восстановлен на основе сигналов понижающего микширования и дополнительной информации.

Аналогично дополнительной информации метаданные кластеров в этом примерном варианте осуществления являются изменяющимися во времени, например переменными по времени, делая возможным изменение относительно времени параметров, управляющих представлением второго множества звуковых объектов. Формат для метаданных понижающего микширования может быть аналогичен формату дополнительной информации и может обладать такими же или соответствующими преимуществами. В частности, форма метаданных кластеров, предусматриваемая в этом примерном варианте осуществления, способствует передискретизации метаданных кластеров. Передискретизацию метаданных кластеров можно, например, использовать для создания общих моментов времени для начала и завершения соответствующих переходов, связанных с метаданными кластеров и дополнительной информацией, и/или для коррекции метаданных кластеров относительно частоты кадров связанных с ними звуковых сигналов.

Согласно одному из примерных вариантов осуществления, процедура кластеризации может также включать:

прием первого множества звуковых объектов и связанных с ними пространственных положений;

вычисление пространственного положения каждого звукового объекта из второго множества звуковых объектов на основе пространственных положений звуковых объектов, связанных с соответствующим кластером, т.е. с кластером, представляющим звуковой объект.

Иными словами, в процедуре кластеризации используется присутствующую в звуковой сцене пространственную избыточность, такую как объекты, имеющие равные или очень похожие местоположения. В дополнение, при генерировании втор

Эффективное кодирование звуковых сцен, содержащих звуковые объекты

Патент 2630754