Кодирование звуковых сцен

Иллюстрации

Показать все

Изобретение относится к кодированию и декодированию звука. Технический результат – обеспечение менее сложного и более гибкого восстановления звуковых объектов. Примерные варианты осуществления предлагают способы кодирования и декодирования и соответствующие кодеры и декодеры для кодирования и декодирования звуковой сцены, которая содержит по меньшей мере один или несколько звуковых объектов. Кодер генерирует битовый поток, который содержит сигналы понижающего микширования и дополнительную информацию, которая содержит отдельные матричные элементы матрицы восстановления, которая обеспечивает возможность восстановления одного или нескольких звуковых объектов в декодере. 6 н. и 27 з.п. ф-лы, 9 ил.

Реферат

Перекрестная ссылка на родственные заявки

Данная заявка заявляет приоритет предварительной заявки на патент США № 61/827246, поданной 24 мая 2013 года, описание которой включено в настоящую заявку в полном объеме посредством ссылки.

Область изобретения

Изобретение, описанное в настоящей заявке, в целом относится к области кодирования и декодирования звука. В частности, оно относится к кодированию и декодированию звуковой сцены, содержащей звуковые объекты.

Предпосылки создания изобретения

Существуют системы кодирования звука для параметрического пространственного кодирования звука. Например, формат MPEG Surround описывает систему для параметрического пространственного кодирования многоканального звука. Формат MPEG SAOC (пространственное кодирование звуковых объектов) описывает систему для параметрического кодирования звуковых объектов.

На кодирующей стороне данные системы, как правило, низводят каналы/объекты в понижающее микширование, которое обычно является моно (один канал) или стерео (два канала) понижающим микшированием, и извлекают дополнительную информацию, описывающую свойства каналов/объектов посредством параметров, таких как разности уровней и взаимная корреляция. Затем понижающее микширование и дополнительная информация кодируются и отправляются на декодирующую сторону. На декодирующей стороне каналы/объекты восстанавливаются, т.е. аппроксимируются, из понижающего микширования под управлением параметров дополнительной информации.

Недостатком данных систем является то, что восстановление, как правило, является математически сложным и часто приходится полагаться на предположения о свойствах звукового содержимого, которое явно не описано параметрами, отправляемыми в качестве дополнительной информации. Такие предположения могут, например, заключаться в том, что каналы/объекты считаются некоррелированными, если параметр взаимной корреляции не отправлен, или в том, что понижающее микширование каналов/объектов генерируется определенным образом. К тому же математическая сложность и необходимость дополнительных предположений значительно увеличивают количество каналов понижающего микширования.

Кроме того, необходимые допущения, по существу, отражаются в алгоритмических деталях обработки, применяемой на декодирующей стороне. Это означает, что на декодирующей стороне должен содержаться довольно высокий уровень искусственного интеллекта. Это представляет собой недостаток, заключающийся в том, что может быть трудно обновить или изменить алгоритмы, когда декодеры используются, например, в бытовых устройствах, которые трудно или даже невозможно обновить.

Краткое описание графических материалов

В дальнейшем будут более подробно описаны примерные варианты осуществления со ссылками на прилагаемые графические материалы, на которых:

фиг. 1 представляет собой схематическое изображение системы кодирования/декодирования звука в соответствии с примерными вариантами осуществления;

фиг. 2 представляет собой схематическое изображение системы кодирования/декодирования звука, содержащей устаревший декодер согласно примерным вариантам осуществления;

фиг. 3 представляет собой схематическое изображение кодирующей стороны системы кодирования/декодирования звука согласно примерным вариантам осуществления;

фиг.4 представляет собой блок-схему способа кодирования согласно примерным вариантам осуществления;

фиг. 5 представляет собой схематическое изображение кодера согласно примерным вариантам осуществления;

фиг. 6 представляет собой схематическое изображение декодирующей стороны системы кодирования/декодирования звука согласно примерным вариантам осуществления;

фиг. 7 представляет собой блок-схему способа декодирования согласно примерным вариантам осуществления;

фиг. 8 представляет собой схематическое изображение декодирующей стороны системы кодирования/декодирования звука согласно примерным вариантам осуществления; и

фиг. 9 представляет собой схематическое изображение частотно-временных преобразований, выполняемых на декодирующей стороне системы кодирования/декодирования звука согласно примерным вариантам осуществления.

Все фигуры являются схематическими и в большинстве случаев на них показаны только те части, которые необходимы для объяснения изобретения, в то время как другие части могут быть опущены или только предполагаться. Если не указано иное, подобные части на разных фигурах обозначены подобными позициями.

Подробное описание

В свете вышесказанного целью настоящего изобретения является обеспечение кодера и декодера и связанных с ними способов, которые обеспечивают менее сложное и более гибкое восстановление звуковых объектов.

I. Обзор кодера

В соответствии с первым аспектом в примерных вариантах осуществления предложены способы кодирования, кодеры и компьютерные программные продукты для кодирования. Предлагаемые способы, кодеры и компьютерные программные продукты могут, как правило, иметь одни и те же признаки и преимущества.

В соответствии с примерными вариантами осуществления предложен способ кодирования частотно-временного мозаичного элемента звуковой сцены, которая содержит по меньшей мере N звуковых объектов. Способ включает: прием N звуковых объектов; генерирование M сигналов понижающего микширования на основе по меньшей мере N звуковых объектов; генерирование матрицы восстановления с матричными элементами, которые обеспечивают возможность восстановления по меньшей мере N звуковых объектов из M сигналов понижающего микширования; и генерирование битового потока, содержащего M сигналов понижающего микширования и по меньшей мере некоторые из матричных элементов матрицы восстановления.

Количество N звуковых объектов может быть равно или больше единицы. Количество M сигналов понижающего микширования может быть равно или больше единицы.

Таким образом, посредством данного способа генерируется битовый поток, который содержит M сигналов понижающего микширования и по меньшей мере некоторые из матричных элементов матрицы восстановления в качестве дополнительной информации. Благодаря включению отдельных матричных элементов матрицы восстановления в битовый поток на декодирующей стороне требуется очень небольшой уровень искусственного интеллекта. Например, на декодирующей стороне не нужно осуществлять сложное вычисление матрицы восстановления на основе переданных параметров объекта и дополнительных предположений. Таким образом, на декодирующей стороне существенно снижается математическая сложность. Кроме того, увеличивается гибкость в отношении количества сигналов понижающего микширования по сравнению со способами предыдущего уровня техники, поскольку сложность способа не зависит от количества используемых сигналов понижающего микширования.

В данном контексте термин «звуковая сцена», как правило, относится к трехмерной звуковой среде, которая содержит звуковые элементы, связанные с положениями в трехмерном пространстве, которые могут представляться при воспроизведении в звуковой системе.

В данном контексте термин «звуковой объект» относится к элементу звуковой сцены. Звуковой объект обычно содержит звуковой сигнал и дополнительную информацию, такую как положение объекта в трехмерном пространстве. Дополнительная информация обычно используется для оптимального представления звукового объекта в данной системе воспроизведения.

В данном контексте термин «сигнал понижающего микширования» относится к сигналу, который представляет собой комбинацию по меньшей мере из N звуковых объектов. Другие сигналы звуковой сцены, такие как основные каналы (которые будут описаны ниже), также могут комбинироваться в сигнале понижающего микширования. Например, M сигналов понижающего микширования могут соответствовать представлению звуковой сцены с заданной конфигурацией громкоговорителей, например стандартной конфигурацией 5.1. Количество сигналов понижающего микширования, обозначенных в данной заявке как М, обычно (но не обязательно) меньше, чем сумма количества звуковых объектов и основных каналов, что объясняет, почему M сигналов понижающего микширования называется понижающим микшированием.

Системы кодирования/декодирования звука, как правило, делят частотно-временное пространство на частотно-временные мозаичные элементы, например, путем применения подходящих банков фильтров для входных звуковых сигналов. Под частотно-временным мозаичным элементом, как правило, подразумевается часть частотно-временного пространства, соответствующая временному интервалу и частотному поддиапазону. Временной интервал может обычно соответствовать длительности временного кадра, используемого в системе кодирования/декодирования звука. Частотный поддиапазон может, как правило, соответствовать одному или нескольким соседним частотным поддиапазонам, определенных банком фильтров, используемым в системе кодирования/декодирования. В случае, если частотный поддиапазон соответствует нескольким соседним частотным поддиапазонам, определенным банком фильтров, это обеспечивает наличие неравномерных частотных поддиапазонов в процессе декодирования звукового сигнала, например, более широких частотных поддиапазонов для звукового сигнала верхних частот. В случае широкого диапазона частот, когда система кодирования/декодирования звука работает во всем диапазоне частот, частотный поддиапазон частотно-временного мозаичного элемента может соответствовать всему диапазону частот. В вышеописанном способе описаны этапы кодирования для кодирования звуковой сцены в течение одного такого частотно-временного мозаичного элемента. Тем не менее, следует понимать, что способ можно повторять для каждого частотно-временного мозаичного элемента системы кодирования/декодирования звука. Также следует понимать, что несколько частотно-временных мозаичных элементов могут кодироваться одновременно. Как правило, соседние частотно-временные мозаичные элементы могут немного перекрываться по времени и/или частоте. Например, перекрытие по времени может быть эквивалентно линейной интерполяции элементов матрицы восстановления во времени, то есть от одного интервала времени до следующего. Тем не менее, это раскрытие предназначено для прочих частей системы кодирования/декодирования, и любое перекрытие по времени и/или частоте между соседними частотно-временными мозаичными элементами остается для реализации специалистам.

Согласно примерным вариантам осуществления М сигналов понижающего микширования располагаются в первом поле битового потока с применением первого формата, а матричные элементы располагаются во втором поле битового потока с применением второго формата, тем самым обеспечивая возможность декодеру, который поддерживает только первый формат, декодировать и воспроизводить M сигналов понижающего микширования в первом поле и отбрасывать матричные элементы во втором поле. Это является предпочтительным в том, что M сигналов понижающего микширования в битовом потоке имеют обратную совместимость с существующими устаревшими декодерами, которые не осуществляют восстановление звуковых объектов. Другими словами, устаревшие декодеры все еще могут декодировать и воспроизводить М сигналов понижающего микширования битового потока, например, путем отображения каждого сигнала понижающего микширования на выходе канала декодера.

Согласно примерным вариантам осуществления способ может дополнительно включать этап приема данных о положении, соответствующих каждому из N звуковых объектов, при этом M сигналов понижающего микширования генерируются на основе данных о положении. Данные о положении, как правило, связывают каждый звуковой объект с положением в трехмерном пространстве. Положение звукового объекта может изменяться со временем. При применении данных о положении при понижающем микшировании звуковых объектов, звуковые объекты будут включаться в M сигналов понижающего микширования таким образом, что если M сигналов понижающего микширования, например, прослушиваются на системе с М выходными каналами, звуковые объекты будут звучать так, как если бы они были приблизительно размещены в их соответствующих положениях. Это, например, является предпочтительным, если M сигналов понижающего микширования должны быть обратно совместимыми с устаревшим декодером.

Согласно примерным вариантам осуществления матричные элементы матрицы восстановления являются переменными во времени и по частоте. Другими словами, матричные элементы матрицы восстановления могут отличаться для разных частотно-временных мозаичных элементов. Таким образом, достигается большая гибкость при восстановлении звуковых объектов.

Согласно примерным вариантам осуществления звуковая сцена дополнительно содержит множество основных каналов. Это, например, распространено в звуковых применениях кинематографии, где звуковое содержимое включает основные каналы в дополнение к звуковым объектам. В таких случаях M сигналов понижающего микширования могут быть сгенерированы на основе по меньшей мере N звуковых объектов и множества основных каналов. Под основным каналом, как правило, подразумевается звуковой сигнал, который соответствует фиксированному положению в трехмерном пространстве. Например, основной канал может соответствовать одному из выходных каналов системы кодирования/декодирования звука. Таким образом, основной канал следует понимать как звуковой объект, имеющий соответствующее положение в трехмерном пространстве, точно такое же, как и положение одного из выходных громкоговорителей системы кодирования/декодирования звука. Поэтому основной канал может связываться с меткой, которая указывает исключительно положение соответствующего выходного громкоговорителя.

Если звуковая сцена содержит основные каналы, матрица восстановления может содержать матричные элементы, которые обеспечивают возможность восстановления основных каналов из M сигналов понижающего микширования.

В некоторых ситуациях звуковые сцены могут содержать очень большое количество объектов. С целью уменьшения сложности и объема данных, требуемых для представления звуковой сцены, звуковая сцена может быть упрощена путем уменьшения количества звуковых объектов. Таким образом, если звуковая сцена изначально содержит K звуковых объектов, где K>N, способ может дополнительно включать этапы приема K звуковых объектов и уменьшения K звуковых объектов до N звуковых объектов посредством кластеризации K объектов в N кластеров и представления каждого кластера одним звуковым объектом.

С целью упрощения сцены способ может дополнительно включать этап приема данных о положении, соответствующих каждому из K звуковых объектов, при этом кластеризация K объектов в N кластеров основывается на пространственном расстоянии между K объектами, которое задано данными о положении K звуковых объектов. Например, звуковые объекты, которые расположены близко друг к другу с точки зрения положения в трехмерном пространстве, могут быть подвергнуты кластеризации вместе.

Как рассматривалось выше, примерные варианты осуществления способа являются гибкими в отношении количества применяемых сигналов понижающего микширования. В частности, способ может предпочтительно применяться при наличии более двух сигналов понижающего микширования, то есть когда М больше чем два. Например, могут применяться пять или семь сигналов понижающего микширования, соответствующих установкам с общепринятой конфигурацией звука 5.1 или 7.1. Это является предпочтительным, поскольку в отличие от систем предыдущего уровня техники математическая сложность предложенных принципов кодирования остается той же, независимо от количества применяемых сигналов понижающего микширования.

С целью дальнейшего обеспечения улучшения восстановления N звуковых объектов способ может дополнительно включать: формирование L дополнительных сигналов из N звуковых объектов; включение матричных элементов в матрицу восстановления, которые обеспечивают возможность восстановления по меньшей мере N звуковых объектов из M сигналов понижающего микширования и L дополнительных сигналов; и включение L дополнительных сигналов в битовый поток. Дополнительные сигналы, таким образом, служат в качестве вспомогательных сигналов, которые, например, могут захватывать аспекты звуковых объектов, которые трудно восстановить из сигналов понижающего микширования. Дополнительные сигналы также могут быть основаны на основных каналах. Количество дополнительных сигналов может быть равным или большим единицы.

Согласно одному примерному варианту осуществления дополнительные сигналы могут соответствовать особо важным звуковым объектам, таким как звуковой объект, представляющий диалог. Таким образом, по меньшей мере один из L дополнительных сигналов может быть равным одному из N звуковых объектов. Это обеспечивает возможность представления важных объектов в более высоком качестве, чем если бы они были восстановлены только из M каналов понижающего микширования. На практике некоторые из звуковых объектов могли быть приоритетными и/или помеченными создателем звукового содержимого в качестве звуковых объектов, которые в предпочтительном варианте отдельно включаются в качестве вспомогательных объектов. Кроме того, это делает изменения/обработку этих объектов перед представлением менее склонной к искажениям. В качестве компромисса между битовой скоростью и качеством, можно также отправлять микс из двух или более звуковых объектов в качестве дополнительного сигнала. Другими словами, по меньшей мере один из L дополнительных сигналов может быть сформирован в виде комбинации из по меньшей мере двух из N звуковых объектов.

Согласно одному примерному варианту осуществления дополнительные сигналы представляют размеры сигнала звуковых объектов, которые пропали в процессе генерирования M сигналов понижающего микширования, например, поскольку количество независимых объектов, как правило, выше, чем количество каналов понижающего микширования, или поскольку два объекта связаны с такими положениями, что они подвергаются микшированию в том же сигнале понижающего микширования. Примером последнего случая является ситуация, когда два объекта разделены только вертикально, но имеют одно и то же положение при проекции на горизонтальную плоскость, а это означает, что они, как правило, будут представлены в том же канале (каналах) понижающего микширования установки окружающих громкоговорителей стандартной конфигурации 5.1, где все громкоговорители находятся в одной горизонтальной плоскости. В частности, M сигналов понижающего микширования проходят в гиперплоскости в пространстве сигнала. При формировании линейных комбинаций M сигналов понижающего микширования могут быть восстановлены только звуковые сигналы, которые лежат в гиперплоскости. С целью улучшения восстановления могут быть включены дополнительные сигналы, которые не лежат в гиперплоскости, тем самым также обеспечивая возможность восстановления сигналов, которые не лежат в гиперплоскости. Другими словами, в соответствии с примерными вариантами осуществления, по меньшей мере один из множества дополнительных сигналов не лежит в гиперплоскости, в которой проходят М сигналов понижающего микширования. Например, по меньшей мере один из множества дополнительных сигналов может быть ортогональным относительно гиперплоскости, в которой проходят М сигналов понижающего микширования.

Согласно примерным вариантам осуществления предлагается машиночитаемый носитель, содержащий команды машинного кода, приспособленные для выполнения любого способа согласно первому аспекту при выполнении на устройстве, имеющем возможность обработки.

Согласно примерным вариантам осуществления предлагается кодер для кодирования частотно-временного мозаичного элемента звуковой сцены, которая содержит по меньшей мере N звуковых объектов, содержащий: принимающий компонент, выполненный с возможностью приема N звуковых объектов; компонент генерирования понижающего микширования, выполненный с возможностью приема N звуковых объектов от принимающего компонента и генерирования M сигналов понижающего микширования на основе по меньшей мере N звуковых объектов; анализирующий компонент, выполненный с возможностью генерирования матрицы восстановления с матричными элементами, которые обеспечивают восстановление по меньшей мере N звуковых объектов из M сигналов понижающего микширования; и компонент генерирования битового потока, выполненный с возможностью приема M сигналов понижающего микширования из компонента генерирования понижающего микширования и матрицы восстановления из анализирующего компонента и генерирования битового потока, содержащего M сигналов понижающего микширования и по меньшей мере некоторые из матричных элементов матрицы восстановления.

II. Обзор декодера

Согласно второму аспекту в примерных вариантах осуществления предложены способы декодирования, декодирующие устройства и компьютерные программные продукты для декодирования. Предлагаемые способы, устройства и компьютерные программные продукты могут, как правило, иметь одни и те же функции и преимущества.

Преимущества в отношении функций и установок, представленные в обзоре кодера выше, могут в большинстве случаев быть применимыми для соответствующих функций и установок для декодера.

Согласно примерным вариантам осуществления предлагается способ декодирования частотно-временного мозаичного элемента звуковой сцены, которая по меньшей мере содержит N звуковых объектов, при этом способ включает этапы: приема битового потока, содержащего М сигналов понижающего микширования и по меньшей мере некоторые матричные элементы матрицы восстановления; генерирования матрицы восстановления с применением матричных элементов; и восстановления N звуковых объектов из M сигналов понижающего микширования с применением матрицы восстановления.

Согласно примерным вариантам осуществления М сигналов понижающего микширования расположены в первом поле битового потока с применением первого формата, а матричные элементы расположены во втором поле битового потока с применением второго формата, тем самым обеспечивая возможность декодеру, который поддерживает только первый формат, декодировать и воспроизводить M сигналов понижающего микширования в первом поле и отбрасывать матричные элементы во втором поле.

Согласно примерным вариантам осуществления матричные элементы матрицы восстановления являются переменными во времени и по частоте.

Согласно примерным вариантам осуществления звуковая сцена дополнительно содержит множество основных каналов, причем способ дополнительно включает восстановление основных каналов из M сигналов понижающего микширования с применением матрицы восстановления.

Согласно примерным вариантам осуществления количество М сигналов понижающего микширования больше двух.

Согласно примерным вариантам осуществления способ дополнительно включает: прием L дополнительных сигналов, сформированных из N звуковых объектов; восстановление N звуковых объектов из M сигналов понижающего микширования и L дополнительных сигналов с применением матрицы восстановления, при этом матрица восстановления содержит матричные элементы, которые обеспечивают возможность восстановления по меньшей мере N звуковых объектов из M сигналов понижающего микширования и L дополнительных сигналов.

Согласно примерным вариантам осуществления по меньшей мере один из L дополнительных сигналов равен одному из N звуковых объектов.

Согласно примерным вариантам осуществления по меньшей мере один из L дополнительных сигналов представляет собой комбинацию из N звуковых объектов.

Согласно примерным вариантам осуществления M сигналов понижающего микширования проходят в гиперплоскости, и при этом по меньшей мере один из множества дополнительных сигналов не лежит в гиперплоскости, в которой проходят М сигналов понижающего микширования.

Согласно примерным вариантам осуществления по меньшей мере один из множества дополнительных сигналов, которые не лежат в гиперплоскости, ортогонален относительно гиперплоскости, в которой проходят М сигналов понижающего микширования.

Как было описано выше, системы кодирования/декодирования звука обычно работают в частотной области. Таким образом, системы кодирования/декодирования звука выполняют частотно-временное преобразование звуковых сигналов с применением банков фильтров. Могут применяться различные типы частотно-временного преобразования. Например, M сигналов понижающего микширования могут быть представлены по отношению к первой частотной области, а матрица восстановления может быть представлена по отношению ко второй частотной области. С целью уменьшения затрат вычислительных ресурсов в декодере целесообразно выбирать первую и вторую частотные области детально продуманным образом. Например, первая и вторая частотные области могут быть выбраны в качестве одной и той же частотной области, такой как область модифицированного дискретного косинусного преобразования (MDCT). Таким образом, можно избежать преобразования M сигналов понижающего микширования из первой частотной области во временную область с последующим преобразованием во вторую частотную область в декодере. В альтернативном варианте можно выбрать первую и вторую частотные области таким образом, что преобразование из первой частотной области во вторую частотную область может быть реализовано совместно, так что нет необходимости в прохождении всего пути через временную область между ними.

Способ может дополнительно включать прием данных о положении, соответствующих N звуковым объектам, и представление N звуковых объектов с применением данных о положении для создания по меньшей мере одного выходного звукового канала. Таким образом, N восстановленных звуковых объектов отображаются в выходных каналах системы кодирования/декодирования звука на основе их положения в трехмерном пространстве.

Представление данных предпочтительно осуществляют в частотной области. С целью уменьшения затрат вычислительных ресурсов в декодере частотная область представления предпочтительно выбирается детально продуманным образом по отношению к частотной области, в которой восстанавливаются звуковые объекты. Например, если матрица восстановления представлена по отношению ко второй частотной области, соответствующей второму банку фильтров, а представление выполняется в третьей частотной области, соответствующей третьему банку фильтров, то второй и третий банки фильтров предпочтительно выбирают таким образом, что они по меньшей мере частично являются одним и тем же банком фильтров. Например, второй и третий банки фильтров могут содержать область квадратурного зеркального фильтра (QMF). В альтернативном варианте вторая и третья частотные области могут содержать банк фильтров MDCT. Согласно примерному варианту осуществления третий банк фильтров может состоять из последовательности банков фильтров, таких как банк фильтров QMF с последующим банком фильтров Найквиста. В этом случае по меньшей мере один из банков фильтров последовательности (первый банк фильтров последовательности) является точно таким же, что и второй банк фильтров. Таким образом, второй и третий банки фильтров, можно сказать, по меньшей мере частично являются одним и тем же банком фильтров.

Согласно примерным вариантам осуществления предлагается машиночитаемый носитель, содержащий команды машинного кода, приспособленные для выполнения любого способа согласно второму аспекту при выполнении на устройстве, имеющем возможность обработки.

Согласно примерным вариантам осуществления предлагается декодер для декодирования частотно-временного мозаичного элемента звуковой сцены, которая содержит по меньшей мере N звуковых объектов, содержащий: принимающий компонент, выполненный с возможностью приема битового потока, содержащего М сигналов понижающего микширования и по меньшей мере некоторые матричные элементы матрицы восстановления; компонент генерирования матрицы восстановления, выполненный с возможностью приема матричных элементов из принимающего компонента и генерирования на их основе матрицы восстановления; и восстанавливающий компонент, выполненный с возможностью приема матрицы восстановления из компонента генерирования матрицы восстановления и восстановления N звуковых объектов из M сигналов понижающего микширования с применением матрицы восстановления.

III. Примерные варианты осуществления

На фиг. 1 представлена система 100 кодирования/декодирования для кодирования/декодирования звуковой сцены 102. Система 100 кодирования/декодирования содержит кодер 108, компонент 110 генерирования битового потока, компонент 118 декодирования битового потока, декодер 120 и устройство 122 представления данных.

Звуковая сцена 102 представлена одним или несколькими звуковыми объектами 106а, т.е. звуковыми сигналами, такими как N звуковых объектов. Звуковая сцена 102 может дополнительно содержать один или несколько основных каналов 106b, то есть сигналов, которые непосредственно соответствуют одному из выходных каналов устройства 122 представления данных. Звуковая сцена 102 дополнительно представлена метаданными, содержащими информацию 104 о положении. Информация 104 о положении применяется, например, устройством 122 представления данных при представлении звуковой сцены 102. Информация 104 о положении может связывать звуковые объекты 106а и, возможно, также основные каналы 106b с пространственным положением в трехмерном пространстве в зависимости от времени. Метаданные могут дополнительно содержать другой тип данных, который подходит для представления звуковой сцены 102.

Кодирующая часть системы 100 содержит кодер 108 и компонент 110 генерирования битового потока. Кодер 108 принимает звуковые объекты 106а, основные каналы 106b, если они присутствуют, и метаданные, содержащие информацию 104 о положении. На их основе кодер 108 генерирует один или несколько сигналов 112 понижающего микширования, например, M сигналов понижающего микширования. В качестве примера, сигналы 112 понижающего микширования могут соответствовать каналам [Lf Rf Cf Ls Rs LFE] аудиосистемы конфигурации 5.1. («L» означает левый, «R» означает правый, «С» означает центральный, «f» означает передний, «s» означает окружающий и «LFE» означает низкочастотные эффекты).

Кодер 108 дополнительно генерирует дополнительную информацию. Дополнительная информация содержит матрицу восстановления. Матрица восстановления содержит матричные элементы 114, которые обеспечивают восстановление по меньшей мере звуковых объектов 106а из сигналов 112 понижающего микширования. Матрица восстановления может дополнительно обеспечивать возможность восстановления основных каналов 106b.

Кодер 108 передает M сигналов 112 понижающего микширования и по меньшей мере некоторые из матричных элементов 114 компоненту 110 генерирования битового потока. Компонент 110 генерирования битового потока генерирует битовый поток 116, содержащий M сигналов понижающего микширования 112 и по меньшей мере некоторые из матричных элементов 114 посредством выполнения квантования и кодирования. Компонент 110 генерирования битового потока дополнительно принимает метаданные, содержащие информацию 104 о положении, для включения в битовый поток 116.

Декодирующая часть системы содержит компонент 118 декодирования битового потока и декодер 120. Компонент 118 декодирования битового потока принимает битовый поток 116 и выполняет декодирование и деквантизацию с целью извлечения M сигналов 112 понижающего микширования и дополнительной информации, содержащей по меньшей мере некоторые из матричных элементов 114 матрицы восстановления. Затем M сигналов 112 понижающего микширования и матричные элементы 114 поступают на декодер 120, который на их основе генерирует восстановление 106’ N звуковых объектов 106а и, возможно, также основных каналов 106b. Восстановление 106’ N звуковых объектов, следовательно, является приблизительным представлением N звуковых объектов 106а и, возможно, также основных каналов 106b.

В качестве примера, если сигналы 112 понижающего микширования соответствуют каналам [Lf Rf Cf Ls Rs LFE] конфигурации 5.1, декодер 120 может восстанавливать объекты 106’ с применением только каналов полного диапазона [Lf Rf Cf Ls Rs], таким образом, игнорируя LFE. Это также относится к другим конфигурациям каналов. Канал LFE понижающего микширования 112 может быть отправлен (в основном без изменений) на устройство 122 представления данных.

Восстановленные звуковые объекты 106’ вместе с информацией 104 о положении затем подаются на устройство 122 представления данных. На основе восстановленных звуковых объектов 106’ и информации 104 о положении устройство 122 представления данных представляет выходной сигнал 124, имеющий формат, который подходит для воспроизведения, на требуемой конфигурации громкоговорителей или наушников. Типовыми форматами являются установка окружающего звука конфигурации 5.1 (3 передних громкоговорителя, 2 окружающих громкоговорителя и 1 громкоговоритель низкочастотных эффектов LFE) или установка конфигурации 7.1 +4 (3 передних громкоговорителя, 4 окружающих громкоговорителя, 1 громкоговоритель LFE, и 4 громкоговорителя верхнего расположения).

В некоторых вариантах осуществления исходная звуковая сцена может содержать большое количество звуковых объектов. Обработка большого количества звуковых объектов происходит за счет высокой вычислительной сложности. Кроме того, количество дополнительной информации (информации 104 о положении и элементов 114 матрицы восстановления) для встраивания в битовый поток 116 зависит от количества звуковых объектов. Как правило, количество дополнительной информации растет линейно с количеством звуковых объектов. Таким образом, в целях снижения вычислительной сложности и/или уменьшения скорости цифрового потока, необходимого для кодирования звуковой сцены, может быть предпочтительным уменьшение количества звуковых объектов перед кодированием. С этой целью система 100 кодирования/декодирования звука может дополнительно содержать модуль упрощения сцены (не показан), расположенный перед кодером 108. Модуль упрощения сцены принимает исходные звуковые объекты и, возможно, также основные каналы в качестве входных данных и выполняет обработку с целью вывода звуковых объектов 106а. Модуль упрощения сцены уменьшает количество, скажем K, исходных звуковых объектов до более целесообразного количества N звуковых объектов 106а, посредством выполнения кластеризации. Точнее, модуль упрощения сцены группирует K исходных звуковых объектов и, возможно, также основных каналов в N кластеров. Как правило, кластеры определяются на основе пространственной близости в звуковой сцене K исходных звуковых объектов/основных каналов. С целью определения пространственной близости модуль упрощения сцены может принимать информацию о положении исходных звуковых объектов/основных каналов в качестве входных данных. Когда модуль упрощения сцены сформировал N кластеров, он приступает к представлению каждого кластера одним звуковым объектом. Например, звуковой объект, представляющий кластер, может быть выполнен в виде суммы звуковых объектов/основных каналов, образующих часть кластера. Более конкретно, для генерирования звукового содержимого представляющего звукового объекта может добавляться звуковое содержимое звуковых объектов/основных каналов. Кроме того, положения звуковых объектов/основных каналов в кластере могут усредняться для задания положения представляющего звукового объекта. Модуль упрощения сцены включает положения представляющих звуковых объектов в данных 104 о положении. Кроме того, модуль упрощения сцены выводит представляющие звуковые объекты, которые составляют N звуковых объектов 106а на фиг. 1.

M сигналов 112 понижающего микширования могут быть расположены в первом пол