Способы кодирования и декодирования звука, соответствующие машиночитаемые носители и соответствующие устройство кодирования и устройство декодирования звука
Иллюстрации
Показать всеИзобретение относится к кодированию и декодированию аудио сигналов. Технический результат – обеспечение возможности улучшения восстановления звукового объекта. Данная группа изобретений обеспечивает менее сложное и более гибкое регулирование внесенной в систему кодирования звука декорреляции. Согласно раскрытию это достигается посредством вычисления и применения двух весовых коэффициентов, одного для аппроксимированного звукового объекта и одного для декоррелированного звукового объекта, для внесения декорреляции звуковых объектов в систему кодирования звука. 6 н. и 22 з.п. ф-лы, 7 ил.
Реферат
Перекрестная ссылка на родственные заявки
Настоящая заявка заявляет приоритет предыдущей заявки на патент США № 61/827288, поданной 24 мая 2013 г., содержание которой включено в настоящий документ посредством ссылки во всей полноте.
Область техники изобретения
Раскрытие, описанное в настоящем документе, относится, как правило, к звуковому кодированию. В частности, оно относится к применению и вычислению весовых коэффициентов для декорреляции звуковых объектов в системе кодирования звука.
Настоящее раскрытие является родственным предварительной заявке на патент США № 61/827246, поданной в тот же день, что и настоящая заявка, под названием «Coding of Audio Scenes», с указанием в качестве авторов изобретения Heiko Purnhagen и др. Указанная заявка включена в полном объеме в настоящую заявку посредством ссылки.
Уровень техники
В общепринятых звуковых системах применяется подход на основе каналов. Каждый канал может, например, представлять содержимое одного громкоговорителя или одного массива громкоговорителей. Возможные схемы кодирования для таких систем включают дискретное многоканальное кодирование или параметрическое кодирование, такое как MPEG Surround.
Совсем недавно был разработан новый подход. Этот подход является объектно-ориентированным. В системах, использующих объектно-ориентированный подход, трехмерная звуковая сцена представлена звуковыми объектами и связанными с ними метаданными положения. Данные звуковые объекты перемещаются по трехмерной сцене во время воспроизведения звукового сигнала. Система может дополнительно включать так называемые каналы платформы, которые могут быть описаны как стационарные звуковые объекты, которые непосредственно отображаются в местоположениях громкоговорителей, например, общепринятой звуковой системы, как описано выше. На декодирующей стороне такой системы объекты/каналы платформы могут восстанавливаться с применением сигналов понижающего микширования и матрицы повышающего микширования или восстановления, в которой объекты/каналы платформы восстанавливаются посредством формирования линейной комбинации сигналов понижающего микширования на основе значения соответствующих элементов в матрице восстановления. Проблемой, которая может возникнуть в объектно-ориентированной звуковой системе, особенно при низких целевых скоростях цифрового потока, является то, что корреляция между декодированными объектами/каналами платформы может быть больше, чем она была для кодированных исходных объектов/каналов платформы. Общим подходом для решения таких проблем, а также улучшения восстановления звуковых объектов, например, как в MPEG SAOC, является введение декорреляторов в декодирующее устройство. В MPEG SAOC внесенная декорреляция направлена на восстановление правильной корреляции между звуковыми объектами с учетом конкретного представления звуковых объектов, т.е. в зависимости от того, какой тип устройства воспроизведения подключается к звуковой системе.
Однако известные способы для объектно-ориентированных звуковых систем чувствительны к количеству сигналов понижающего микширования и количеству объектов/каналов платформы и могут дополнительно быть сложной операцией, которая зависит от представления звуковых объектов. Следовательно, в таких системах существует потребность в простых и гибких способах регулирования величины вносимой в декодирующее устройство декорреляции, что обеспечивает возможность улучшения восстановления звукового объекта.
Краткое описание чертежей
Далее приводится описание примерных вариантов осуществления со ссылками на прилагаемые чертежи, на которых:
фиг. 1 представляет собой обобщенную блок-схему системы декодирования звука в соответствии с одним примерным вариантом осуществления;
фиг. 2 в качестве примера показывает формат, в котором системой декодирования звука, показанной на фиг. 1, принимаются матрица восстановления и весовой параметр;
фиг. 3 представляет собой обобщенную блок-схему звукового кодирующего устройства для формирования по меньшей мере одного весового параметра для применения в процессе декорреляции в системе декодирования звука;
фиг. 4 в качестве примера показывает обобщенную блок-схему части кодирующего устройства, приведенного на фиг. 3, для формирования по меньшей мере одного весового параметра;
фиг. 5a-5c в качестве примера показывают отображающие функции, применяемые в части кодирующего устройства, приведенного на фиг. 4.
Все фигуры являются схематическими и, как правило, показывают лишь те части, которые необходимы для разъяснения раскрытия; другие части могут быть упущены или просто подразумеваться. Если не указано иное, подобные части на разных фигурах обозначены подобными позициями.
Подробное описание
В свете вышесказанного целью является предложение кодирующего устройства и декодирующего устройства и связанных с ними способов, которые обеспечивают менее сложное и более гибкое регулирование внесенной декорреляции, благодаря чему обеспечивается возможность улучшения восстановления звуковых объектов.
I. Обзор: декодирующее устройство
Согласно первому аспекту примерные варианты осуществления предлагают способы декодирования, декодирующие устройства и компьютерные программные продукты для декодирования. Предлагаемые способы, декодирующие устройства и компьютерные программные продукты могут, как правило, иметь одни и те же признаки и преимущества.
Согласно примерным вариантам осуществления предлагается способ восстановления частотно-временной мозаики N звуковых объектов. Способ включает этапы: приема М сигналов понижающего микширования; приема матрицы восстановления, обеспечивающей возможность восстановления аппроксимации N звуковых объектов из M сигналов понижающего микширования; применения матрицы восстановления к M сигналам понижающего микширования с целью формирования N аппроксимированных звуковых объектов; подвергания процессу декорреляции по меньшей мере подмножества N аппроксимированных звуковых объектов с целью формирования по меньшей мере одного декоррелированного звукового объекта, на основании чего каждый из по меньшей мере одного декоррелированного звукового объекта соответствует одному из N аппроксимированных звуковых объектов; восстановления частотно-временной мозаики звукового объекта посредством аппроксимированного звукового объекта для каждого из N аппроксимированных звуковых объектов, не имеющих соответствующий декоррелированный звуковой объект; и восстановления частотно-временной мозаики звукового объекта для каждого из N аппроксимированных звуковых объектов, имеющих соответствующий декоррелированный звуковой объект, посредством: приема по меньшей мере одного весового параметра, представляющего первый весовой коэффициент и второй весовой коэффициент, взвешивания аппроксимированного звукового объекта посредством первого весового коэффициента, взвешивания декоррелированного звукового объекта, соответствующего аппроксимированному звуковому объекту, посредством второго весового коэффициента и комбинирования взвешенного аппроксимированного звукового объекта с соответствующим взвешенным декоррелированным звуковым объектом.
Системы кодирования/декодирования звука, как правило, делят частотно-временное пространство на частотно-временные мозаики, например, путем применения подходящих банков фильтров для входных звуковых сигналов. Под частотно-временной мозаикой, как правило, подразумевается часть частотно-временного пространства, соответствующая временному интервалу и частотному поддиапазону. Временной интервал может обычно соответствовать длительности временного кадра, используемого в системе кодирования/декодирования звука. Частотный поддиапазон может, как правило, соответствовать одному или нескольким соседним частотным поддиапазонам, определенным банком фильтров, применяемым в системе кодирования/декодирования. В случае, если частотный поддиапазон соответствует нескольким соседним частотным поддиапазонам, определенным банком фильтров, это позволяет иметь неравномерные частотные поддиапазоны в процессе декодирования звукового сигнала, например, более широкие частотные поддиапазоны для верхних частот звукового сигнала. В случае широкого диапазона частот, когда система кодирования/декодирования звука работает во всем диапазоне частот, частотный поддиапазон частотно-временной мозаики может соответствовать всему диапазону частот. Описанный выше способ раскрывает этапы восстановления такой частотно-временной мозаики N звуковых объектов. Тем не менее, следует понимать, что способ может быть повторен для каждой частотно-временной мозаики системы декодирования звука. Также следует понимать, что несколько частотно-временных мозаик могут быть кодированы одновременно. Как правило, соседние частотно-временные мозаики могут немного перекрываться по времени и/или частоте. Например, перекрытие по времени может быть эквивалентно линейной интерполяции элементов матрицы восстановления во времени, то есть от одного временного интервала до следующего. Тем не менее, это раскрытие предназначается для прочих частей системы кодирования/декодирования, и любое перекрытие по времени и/или частоте между соседними частотно-временными мозаиками остается для реализации специалистом.
В данном контексте сигнал понижающего микширования является сигналом, который представляет собой комбинацию одного или нескольких каналов платформы и/или звуковых объектов.
Описанный выше способ обеспечивает гибкий и простой способ восстановления частотно-временной мозаики N звуковых объектов, где уменьшается любая нежелательная корреляция между аппроксимированными N звуковыми объектами. При использовании двух весовых коэффициентов, одного для аппроксимированного звукового объекта и одного для декоррелированного звукового объекта, достигается простая параметризация, которая позволяет обеспечить гибкое регулирование величины вносимой декорреляции.
Кроме того, простая параметризация в способе не зависит от того, какому типу представления подвергаются восстановленные звуковое объекты. Преимущество этого заключается в том, что такой же способ используется независимо от того, какой блок воспроизведения подключен к системе декодирования звука, реализующей данный способ, что приводит к менее сложной системе декодирования звука.
В соответствии с вариантом осуществления для каждого из N аппроксимированных звуковых объектов, имеющих соответствующий декоррелированный звуковой объект, по меньшей мере один весовой параметр содержит единственный весовой параметр, из которого выводятся первый весовой коэффициент и второй весовой коэффициент.
Преимущество этого заключается в том, что предлагается простая параметризация для управления величиной, вносимой в систему декодирования звука декорреляции. Этот подход использует единственный параметр, описывающий смесь «сухих» (не декоррелированных) и «влажных» (декоррелированных) вкладов для каждого объекта и частотно-временной мозаики. При использовании единственного параметра необходимая скорость цифрового потока может быть снижена по сравнению с использованием нескольких параметров, например, одного, описывающего влажный вклад, и одного, описывающего сухой вклад.
В соответствии с вариантом осуществления сумма квадратов первого весового коэффициента и второго весового коэффициента равна единице. В этом случае, единственный весовой параметр содержит либо первый весовой коэффициент, либо второй весовой коэффициент. Это может быть простой способ реализации единственного весового параметра для описания смешивания сухих и влажных вкладов для каждого объекта и частотно-временной мозаики. Кроме того, это означает, что восстановленный объект будет иметь такую же энергию, что и аппроксимированный объект.
В соответствии с вариантом осуществления этап подвергания процессу декорреляции по меньшей мере подмножества N аппроксимированных звуковых объектов включает подвергание процессу декорреляции каждого из N аппроксимированных звуковых объектов, на основании чего каждый из N аппроксимированных звуковых объектов соответствует декоррелированному звуковому объекту. Это может еще больше снизить любую нежелательную корреляцию между восстановленными звуковыми объектами, поскольку все восстановленные звуковые объекты основываются как на декоррелированном звуковом объекте, так и на аппроксимированном звуковом объекте.
В соответствии с вариантом осуществления первый и второй весовые коэффициенты являются переменными во времени и по частоте. Следовательно, гибкость системы декодирования звука может увеличиваться по той причине, что для разных частотно-временных мозаик может вноситься разная величина декорреляции. Это также может дополнительно снижать любую нежелательную корреляцию между восстановленными звуковыми объектами и улучшать качество восстановленных звуковых объектов.
В соответствии с вариантом осуществления матрица восстановления является переменной во времени и по частоте. Таким образом, гибкость системы декодирования звука увеличивается по той причине, что параметры, используемые для восстановления или аппроксимации звуковых объектов из сигналов понижающего микширования, могут отличаться для разных частотно-временных мозаик.
Согласно другому варианту осуществления матрица восстановления и по меньшей мере один весовой параметр после получения располагаются в кадре. Матрица восстановления расположена в первом поле кадра с применением первого формата, и по меньшей мере один весовой параметр расположен во втором поле кадра с применением второго формата, тем самым обеспечивая возможность декодирующему устройству, которое поддерживает только первый формат, декодировать матрицу восстановления в первом поле и отбрасывать по меньшей мере один весовой параметр во втором поле. Таким образом, может достигаться совместимость с декодирующим устройством, которое не реализует декорреляцию.
В соответствии с вариантом осуществления способ может дополнительно включать прием L дополнительных сигналов, при этом матрица восстановления дополнительно обеспечивает возможность восстановления аппроксимации N звуковых объектов из M сигналов понижающего микширования и L дополнительных сигналов, и при этом способ дополнительно включает применение матрицы восстановления к M сигналам понижающего микширования и L дополнительным сигналам для формирования N аппроксимированных звуковых объектов. L дополнительных сигналов могут, например, включать по меньшей мере один L дополнительный сигнал, который равен одному из восстанавливаемых N звуковых объектов. Это может улучшить качество конкретного восстановленного звукового объекта. Это может быть предпочтительным в случае, когда один из восстанавливаемых N звуковых объектов представляет собой часть звукового сигнала, которая имеет особое значение, например, звуковой объект, представляющий голос диктора в документальном кинофильме. В соответствии с вариантом осуществления по меньшей мере один из L дополнительных сигналов представляет собой комбинацию по меньшей мере двух из восстанавливаемых N звуковых объектов, тем самым обеспечивая компромисс между скоростью цифрового потока и качеством.
В соответствии с вариантом осуществления M сигналов понижающего микширования охватывают гиперплоскость, и при этом по меньшей мере один из L дополнительных сигналов не лежит в гиперплоскости, охватываемой М сигналами понижающего микширования. Таким образом, один или несколько из L дополнительных сигналов могут представлять размеры сигнала, которые не включены в любой из M сигналов понижающего микширования. Следовательно, качество восстановленных звуковых объектов может увеличиваться. В одном из вариантов осуществления по меньшей мере один из L дополнительных сигналов ортогонален гиперплоскости, охватываемой М сигналами понижающего микширования. Таким образом, весь полный сигнал одного или нескольких из L дополнительных сигналов представляет части звукового сигнала, не включенные ни в один из M сигналов понижающего микширования. Это может повысить качество восстановленных звуковых объектов и в то же время уменьшить требуемую скорость цифрового потока, поскольку по меньшей мере один из L дополнительных сигналов не содержит любую информацию, уже присутствующую в любом из M сигналов понижающего микширования.
Согласно примерным вариантам осуществления предлагается машиночитаемый носитель, содержащий команды машинного кода, предназначенные для выполнения любого способа согласно первому аспекту при выполнении на устройстве, имеющем возможность обработки.
Согласно примерным вариантам осуществления предлагается устройство для восстановления частотно-временной мозаики N звуковых объектов, содержащее: первый принимающий компонент, выполненный с возможностью приема M сигналов понижающего микширования; второй принимающий компонент, выполненный с возможностью приема матрицы восстановления, обеспечивающей возможность восстановления аппроксимации N звуковых объектов из M сигналов понижающего микширования; компонент аппроксимации звукового объекта, расположенный ниже по потоку от первого и второго принимающих компонентов и выполненный с возможностью применения матрицы восстановления к M сигналам понижающего микширования с целью формирования N аппроксимированных звуковых объектов; компонент декорреляции, расположенный ниже по потоку от компонента аппроксимации звукового объекта и выполненный с возможностью подвергать процессу декорреляции по меньшей мере подмножество N аппроксимированных звуковых объектов для формирования по меньшей мере одного декоррелированного звукового объекта, на основании чего каждый из по меньшей мере одного декоррелированного звукового объекта соответствует одному из N аппроксимированных звуковых объектов; при этом второй принимающий компонент дополнительно выполнен с возможностью приема для каждого из N аппроксимированных звуковых объектов, имеющих соответствующий декоррелированный звуковой объект, по меньшей мере одного весового параметра, представляющего первый весовой коэффициент и второй весовой коэффициент; и компонент восстановления звукового объекта, расположенный ниже по потоку от компонента аппроксимации звукового объекта, компонента декорреляции и второго принимающего компонента и выполненный с возможностью восстановления частотно-временной мозаики звукового объекта посредством аппроксимированного звукового объекта для каждого из N аппроксимированных звуковых объектов, не имеющих соответствующий декоррелированный звуковой объект; и восстановления частотно-временной мозаики звукового объекта для каждого из N аппроксимированных звуковых объектов, имеющих соответствующий декоррелированный звуковой объект, посредством: взвешивания аппроксимированного звукового объекта с помощью первого весового коэффициента; взвешивания декоррелированного звукового объекта, соответствующего аппроксимированному звуковому объекту, с помощью второго весового коэффициента; и комбинирования взвешенного аппроксимированного звукового объекта с соответствующим взвешенным декоррелированным звуковым объектом.
II. Обзор: кодирующее устройство
Согласно второму аспекту примерные варианты осуществления предлагают способы кодирования, кодирующие устройства и компьютерные программные продукты для кодирования. Предлагаемые способы, кодирующие устройства и компьютерные программные продукты могут, как правило, иметь одни и те же признаки и преимущества.
Согласно примерным вариантам осуществления предложен способ в кодирующем устройстве для формирования по меньшей мере одного весового параметра, при этом по меньшей мере один весовой параметр подлежит применению в декодирующем устройстве при восстановлении частотно-временной мозаики конкретного звукового объекта посредством комбинирования взвешенной аппроксимации конкретного звукового объекта на декодирующей стороне с соответствующей взвешенной декоррелированной версией аппроксимированного конкретного звукового объекта на декодирующей стороне, при этом способ включает этапы: приема М сигналов понижающего микширования, являющихся комбинациями по меньшей мере N звуковых объектов, включая конкретный звуковой объект; приема конкретного звукового объекта; вычисления первой величины, указывающей на уровень энергии конкретного звукового объекта; вычисления второй величины, указывающей на уровень энергии, соответствующий уровню энергии аппроксимации конкретного звукового объекта на кодирующей стороне, при этом аппроксимация на кодирующей стороне является комбинацией M сигналов понижающего микширования; вычисления по меньшей мере одного весового параметра на основе первой и второй величины.
Вышеописанный способ раскрывает этапы формирования по меньшей мере одного весового параметра для конкретного звукового объекта в ходе одной частотно-временной мозаики. Тем не менее, следует понимать, что способ может быть повторен для каждой частотно-временной мозаики системы кодирования/декодирования звука и для каждого звукового объекта.
Следует отметить, что мозаичное размещение, т.е. деление звукового сигнала/объекта на частотно-временные мозаики, в системе кодирования звука не должно быть таким же, как мозаичное размещение в системе декодирования звука.
Кроме того, также следует отметить, что аппроксимация конкретного звукового объекта на декодирующей стороне и аппроксимация конкретного звукового объекта на кодирующей стороне могут быть разными аппроксимациями, или они могут быть одинаковыми аппроксимациями.
С целью уменьшения требуемой скорости цифрового потока и уменьшения сложности по меньшей мере один весовой параметр может содержать единственный весовой параметр, из которого выводятся первый весовой коэффициент и второй весовой коэффициент, первый весовой коэффициент для взвешивания аппроксимации конкретного звукового объекта на декодирующей стороне, а второй весовой коэффициент для взвешивания декоррелированной версии аппроксимированного звукового объекта на декодирующей стороне.
С целью предотвращения добавления энергии к восстановленному звуковому объекту на декодирующей стороне восстановленный звуковой объект содержит аппроксимацию конкретного звукового объекта на декодирующей стороне и декоррелированную версию аппроксимированного звукового объекта на декодирующей стороне, сумма квадратов первого весового коэффициента и второго весового коэффициента может быть равна единице. В этом случае единственный весовой параметр может содержать либо первый весовой коэффициент, либо второй весовой коэффициент.
В соответствии с вариантом осуществления этап вычисления по меньшей мере одного весового параметра включает сравнение первой величины и второй величины. Например, могут сравниваться энергия аппроксимированного конкретного звукового объекта и энергия конкретного звукового объекта.
В соответствии с примерными вариантами осуществления сравнение первой величины и второй величины включает вычисление отношения второй величины к первой величине, возведение отношения в степень α и применение отношения, возведенного в степень α, для вычисления весового параметра. Это может повысить гибкость кодирующего устройства. Параметр α может быть равен двум.
В соответствии с примерными вариантами осуществления отношение, возведенное в степень α, подвергается действию возрастающей функции, которая отображает отношение, возведенное в степень α, по меньшей мере на один весовой параметр.
В соответствии с примерными вариантами осуществления первый и второй весовые коэффициенты являются переменными во времени и по частоте.
В соответствии с примерными вариантами осуществления вторая величина, указывающая на уровень энергии, соответствует уровню энергии аппроксимации конкретного звукового объекта на кодирующей стороне, при этом аппроксимация на кодирующей стороне является линейной комбинацией M сигналов понижающего микширования и L дополнительных сигналов, при этом сигналы понижающего микширования и дополнительные сигналы формируются из N звуковых объектов. С целью улучшения восстановления звукового объекта на декодирующей стороне в систему кодирования/декодирования звука могут быть включены дополнительные сигналы.
В соответствии с примерным вариантом осуществления по меньшей мере один из L дополнительных сигналов может соответствовать особо важным звуковым объектам, таким как звуковой объект, представляющий диалог. Таким образом, по меньшей мере один из L дополнительных сигналов может быть равным одному из N звуковых объектов. В соответствии с дополнительными вариантами осуществления по меньшей мере один из L дополнительных сигналов представляет собой комбинацию по меньшей мере двух из N звуковых объектов.
В соответствии с вариантами осуществления M сигналов понижающего микширования охватывают гиперплоскость, и при этом по меньшей мере один из L дополнительных сигналов не лежит в гиперплоскости, охваченной М сигналами понижающего микширования. Это означает, что по меньшей мере один из L дополнительных сигналов представляет размеры сигнала звуковых объектов, которые пропали в процессе формирования M сигналов понижающего микширования, которые могут улучшить восстановление звукового объекта на декодирующей стороне. В соответствии с дополнительными вариантами осуществления по меньшей мере один из L дополнительных сигналов ортогонален гиперплоскости, охватываемой М сигналами понижающего микширования.
Согласно примерным вариантам осуществления предлагается машиночитаемый носитель, содержащий команды машинного кода, предназначенные для выполнения любого способа согласно второму аспекту при выполнении на устройстве, имеющем возможность обработки.
В соответствии с вариантом осуществления предлагается кодирующее устройство для формирования по меньшей мере одного весового параметра, при этом по меньшей мере один весовой параметр подлежит применению в декодирующем устройстве при восстановлении частотно-временной мозаики конкретного звукового объекта посредством комбинирования взвешенной аппроксимации конкретного звукового объекта на декодирующей стороне с соответствующей взвешенной декоррелированной версией аппроксимированного конкретного звукового объекта на декодирующей стороне, при этом устройство содержит: принимающий компонент, выполненный с возможностью приема M сигналов понижающего микширования, являющихся комбинациями по меньшей мере N звуковых объектов, включая конкретный звуковой объект, при этом принимающий компонент дополнительно выполнен с возможностью приема конкретного звукового объекта; вычислительный блок, выполненный с возможностью вычисления первой величины, указывающей на уровень энергии конкретного звукового объекта; вычисления второй величины, указывающей на уровень энергии, соответствующий уровню энергии аппроксимации конкретного звукового объекта на кодирующей стороне, при этом аппроксимация на кодирующей стороне является комбинацией M сигналов понижающего микширования; вычисления по меньшей мере одного весового параметра на основе первой и второй величины.
Примерные варианты осуществления
На фиг. 1 показана обобщенная блок-схема системы 100 декодирования звука для восстановления N звуковых объектов. Система 100 декодирования звука выполняет обработку с частотно-временным разрешением, что означает, что она выполняется на отдельных частотно-временных мозаиках для восстановления N звуковых объектов. Далее описывается работа системы 100 для восстановления одной частотно-временной мозаики N звуковых объектов. N звуковых объектов могут представлять собой один или несколько звуковых объектов.
Система 100 содержит первый принимающий компонент 102, выполненный с возможностью приема М сигналов 106 понижающего микширования. M сигналов понижающего микширования могут представлять собой один или несколько сигналов понижающего микширования. M сигналов 106 понижающего микширования, например, могут представлять собой окружающий сигнал конфигурации 5.1 или 7.1, который является обратно совместимым с существующими системами декодирования звука, такими как Dolby Digital Plus, MPEG или AAC. В других вариантах осуществления М сигналов 106 понижающего микширования не являются обратно совместимыми. Входной сигнал первого принимающего компонента 102 может представлять собой битовый поток 130, из которого принимающий компонент может извлекать М сигналов 106 понижающего микширования.
Система 100 дополнительно содержит второй принимающий компонент 112, выполненный с возможностью приема матрицы 104 восстановления, обеспечивающей возможность восстановления аппроксимации N звуковых объектов из M сигналов 106 понижающего микширования. Матрица 104 восстановления может также называться матрицей повышающего микширования. Входной сигнал 126 второго принимающего компонента 112 может представлять собой битовый поток 126, из которого принимающий компонент может извлекать матрицу 104 восстановления или ее элементы и дополнительную информацию, которая будет более подробно описана ниже. В некоторых вариантах осуществления системы 100 декодирования звука первый принимающий компонент 102 и второй принимающий компонент 112 объединены в один принимающий компонент. В некоторых вариантах осуществления входные сигналы 130, 126 объединены в единый входной сигнал, который может представлять собой битовый поток с форматом, обеспечивающим возможность принимающим компонентам 102, 112 извлекать разную информацию из одного единого входного сигнала.
Система 100 может дополнительно содержать компонент 108 аппроксимации звукового объекта, расположенный ниже по потоку от первого 102 и второго 112 принимающих компонентов и выполненный с возможностью применения матрицы 104 восстановления к M сигналам 106 понижающего микширования для формирования N аппроксимированных звуковых объектов 110. Более конкретно, компонент 108 аппроксимации звукового объекта может выполнять матричную операцию, в которой матрица 104 восстановления умножается на вектор, содержащий M сигналов понижающего микширования. Матрица 104 восстановления может быть переменной во времени и по частоте, то есть значение элементов в матрице 104 восстановления может отличаться для каждой частотно-временной мозаики. Таким образом, элементы матрицы 104 восстановления зависят от того, какая частотно-временная мозаика в настоящее время обрабатывается.
Аппроксимированный звуковой объект на частоте и временном интервале , т.е. частотно-временной мозаике, вычисляется, например, в компоненте 108 аппроксимации звукового объекта, например, посредством для всех частотных выборок в диапазоне частот где представляет собой коэффициент восстановления объекта в диапазоне частот и связан с каналом понижающего микширования . Следует отметить, что коэффициент восстановления предполагается фиксированным на частотно-временной мозаике, но в дополнительных вариантах осуществления коэффициент может изменяться в ходе частотно-временной мозаики.
Система 100 дополнительно содержит компонент 118 декорреляции, расположенный ниже по потоку от компонента 108 аппроксимации звукового объекта. Компонент 118 декорреляции выполнен с возможностью подвергания процессу декорреляции по меньшей мере подмножества 140 N аппроксимированных звуковых объектов 110 для формирования по меньшей мере одного декоррелированного звукового объекта 136. Другими словами, все или только некоторые из N аппроксимированных звуковых объектов 110 подвергаются процессу декорреляции. Каждый из по меньшей мере одного декоррелированного звукового объекта 136 соответствует одному из N аппроксимированных звуковых объектов 110. Точнее, множество декоррелированных звуковых объектов 136 соответствует множеству 140 аппроксимированных звуковых объектов, которое вводится в процессе 118 декорреляции. Назначение по меньшей мере одного декоррелированного звукового объекта 136 заключается в том, чтобы уменьшить нежелательную корреляцию между N аппроксимированными звуковыми объектами 110. Эта нежелательная корреляция может появиться, в частности, при низких целевых скоростях цифрового потока звуковой системы, включающей систему 100 декодирования звука. При низких целевых скоростях цифрового потока матрица восстановления может быть разреженной. Это означает, что многие из элементов в матрице восстановления могут быть равны нулю. В этом случае определенный аппроксимированный звуковой объект 110 может основываться на единственном сигнале понижающего микширования или небольшом числе сигналов понижающего микширования из M сигналов 106 понижающего микширования, увеличивая, таким образом, риск нежелательного внесения корреляции между аппроксимированными звуковыми объектами 110. В соответствии с некоторыми вариантами осуществления каждый из N аппроксимированных звуковых объектов 110 подвергается процессу декорреляции посредством компонента 118 декорреляции, на основании чего каждый из N аппроксимированных звуковых объектов 110 соответствует декоррелированному звуковому объекту 136.
Каждый из N аппроксимированных звуковых объектов 110, подвергаемый процессу декорреляции посредством компонента 118 декорреляции, может подвергаться другому процессу декорреляции, например, посредством применения фильтра белого шума к декоррелируемому аппроксимированному звуковому объекту или посредством применения любого другого подходящего процесса декорреляции, такого как широкополосная фильтрация.
Примеры дополнительных процессов декорреляции могут быть найдены в инструментальном средстве параметрического стереокодирования MPEG (используемого в HE-AAC v2, как описано в стандарте ISO/IEC 14496-3 и в статье: J. , H. Purnhagen, J. , L. Liljeryd, “Synthetic ambience in parametric stereo coding,” в AES 116th Convention, Berlin, DE, May 2004.), MPEG Surround (ISO/IEC 23003-1) и MPEG SAOC (ISO/IEC 23003-2).
Чтобы не вносить нежелательную корреляцию, различные процессы декорреляции взаимно декоррелируются. Согласно другим вариантам осуществления несколько или все аппроксимированные звуковые объекты 110 подвергаются такому же процессу декорреляции.
Система 100 дополнительно содержит компонент 128 восстановления звукового объекта. Компонент 128 восстановления объекта расположен ниже по потоку от компонента 108 аппроксимации звукового объекта, компонента 118 декорреляции и второго принимающего компонента 112. Компонент 128 восстановления объекта выполнен с возможностью восстановления частотно-временной мозаики звукового объекта 142 для каждого из N аппроксимированных звуковых объектов 138, не имеющих соответствующий декоррелированный звуковой объект 136, посредством аппроксимированного звукового объекта 138. Другими словами, если определенный аппроксимированный звуковой объект 138 не подвергался процессу декорреляции, то он просто восстанавливается как аппроксимированный звуковой объект 110, предусмотренный компонентом 108 аппроксимации звукового объекта. Компонент 128 восстановления объекта дополнительно выполнен с возмож