Устройство и способ для эффективного кодирования метаданных объектов
Иллюстрации
Показать всеИзобретение относится к средствам для формирования одного или более аудиоканалов. Технический результат заключается в повышении эффективности кодирования метаданных. Принимают один или более сжатых сигналов метаданных. Каждый из сжатых сигналов метаданных содержит множество первых выборок метаданных. Первые выборки метаданных каждого из сжатых сигналов метаданных указывают информацию, ассоциированную с сигналом аудиообъекта для одного или более сигналов аудиообъектов. Формируют один или более восстановленных сигналов метаданных таким образом, что каждый восстановленный сигнал метаданных содержит первые выборки метаданных сжатого сигнала метаданных, причем упомянутый восстановленный сигнал метаданных ассоциирован с упомянутым сжатым сигналом метаданных и дополнительно содержит множество вторых выборок метаданных. Формирование восстановленных сигналов метаданных содержит этап, на котором формируют вторые выборки метаданных каждого из восстановленных сигналов метаданных посредством формирования множества аппроксимированных выборок метаданных для упомянутого восстановленного сигнала метаданных. 9 н. и 9 з.п. ф-лы, 17 ил.
Реферат
Изобретение относится к кодированию/декодированию аудио, в частности, к пространственному кодированию аудио и пространственному кодированию аудиообъектов, а более конкретно, к устройству и способу для эффективного кодирования метаданных объектов.
Инструментальные средства пространственного кодирования аудио известны в данной области техники и стандартизированы, например, в стандарте объемного звучания MPEG. Пространственное кодирование аудио начинается с исходных входных каналов, к примеру, с пяти или семи каналов, которые идентифицируются посредством их размещения в компоновке для воспроизведения, т.е. как левого канала, центрального канала, правого канала, левого канала объемного звучания, правого канала объемного звучания и канала улучшения низких частот. Пространственный аудиокодер типично извлекает один или более каналов понижающего микширования из исходных каналов и, дополнительно, извлекает параметрические данные, связанные с пространственными сигнальными метками, такие как межканальные разности уровней в значениях канальной когерентности, межканальные разности фаз, межканальные разности времен и т.д. Один или более каналов понижающего микширования передаются вместе с параметрической вспомогательной информацией, указывающей пространственные сигнальные метки, в пространственный аудиодекодер, который декодирует канал понижающего микширования и ассоциированные параметрические данные, чтобы в итоге получать выходные каналы, которые являются аппроксимированной версией исходных входных каналов. Размещение каналов в выходной компоновке типично является фиксированным и представляет собой, например, 5.1-формат, 7.1-формат и т.д.
Такие канальные аудиоформаты широко используются для сохранения или передачи многоканального аудиоконтента, в котором каждый канал связан с конкретным громкоговорителем в данной позиции. Высококачественное воспроизведение подобных форматов требует компоновки громкоговорителей, в которой динамики размещены в позициях, идентичных позициям динамиков, которые использованы во время формирования аудиосигналов. Хотя увеличение числа громкоговорителей улучшает воспроизведение истинно иммерсивных трехмерных аудиосцен, становится все более затруднительным удовлетворять это требование, особенно в такой внутренней среде, как гостиная.
Необходимость наличия конкретной компоновки громкоговорителей может преодолеваться посредством объектно-ориентированного подхода, в котором сигналы громкоговорителей подготавливаются посредством рендеринга, в частности, для компоновки для воспроизведения.
Например, инструментальные средства пространственного кодирования аудиообъектов известны в данной области техники и стандартизированы в MPEG SAOC-стандарте (SAOC - пространственное кодирование аудиообъектов). В отличие от пространственного кодирования аудио, начинающегося с исходных каналов, пространственное кодирование аудиообъектов начинается с аудиообъектов, которые автоматически не выделяются для определенной компоновки для воспроизведения при рендеринге. Вместо этого, размещение аудиообъектов в сцене для воспроизведения является гибким и может определяться пользователем посредством ввода определенной информации рендеринга в декодер по стандарту пространственного кодирования аудиообъектов. Альтернативно или дополнительно, информация рендеринга, т.е. информация в отношении того, в какой позиции в компоновке для воспроизведения типично должен размещаться определенный аудиообъект во времени, может передаваться в качестве дополнительной вспомогательной информации или метаданных. Чтобы получать определенное сжатие данных, определенное число аудиообъектов кодируются посредством SAOC-кодера, который вычисляет, из входных объектов, один или более транспортных каналов посредством понижающего микширования объектов в соответствии с определенной информацией понижающего микширования. Кроме того, SAOC-кодер вычисляет параметрическую вспомогательную информацию, представляющую межобъектные сигнальные метки, к примеру, разности уровней объектов (OLD), значения когерентности объектов и т.д. Аналогично SAC (SAC - пространственное кодирование аудио), межобъектные параметрические данные вычисляются для отдельных частотно-временных мозаичных фрагментов, т.е. для определенного кадра аудиосигнала, содержащего, например, 1024 или 2048 выборок, рассматриваются 24, 32 или 64 и т.д. полос частот, так что, в конечном счете, параметрические данные существуют для каждого кадра и каждой полосы частот. В качестве примера, когда аудиофрагмент имеет 20 кадров, и когда каждый кадр подразделяется на 32 полосы частот, в таком случае число частотно-временных мозаичных фрагментов равно 640.
В объектно-ориентированном подходе, звуковое поле описывается посредством дискретных аудиообъектов. Это требует метаданных объектов, которые описывают, в числе прочего, зависимую от времени позицию каждого источника звука в трехмерном пространстве.
Первый принцип кодирования метаданных в предшествующем уровне техники представляет собой формат обмена пространственными звуковыми описаниями (SpatDIF), формат описания аудиосцен, который по-прежнему разрабатывается [1]. Он спроектирован в качестве формата обмена для объектно-ориентированных звуковых сцен и не предоставляет способы сжатия для траекторий объектов. SpatDIF использует текстовый формат открытого звукового управления (OSC) для того, чтобы структурировать метаданные объектов [2]. Тем не менее, простое текстовое представление не представляет собой вариант для сжатой передачи траекторий объектов.
Другой принцип на основе метаданных в предшествующем уровне техники представляет собой формат описания аудиосцен (ASDF) [3], текстовое решение, которое имеет идентичный недостаток. Данные структурированы посредством расширения языка интеграции синхронных потоков мультимедиа (SMIL), который представляет собой поднабор расширяемого языка разметки (XML) [4,5].
Дополнительный принцип на основе метаданных в предшествующем уровне техники представляет собой двоичный аудиоформат для сцен (AudioBIFS), двоичный формат, который является частью MPEG-4-спецификации [6,7]. Он тесно связан с языком моделирования виртуальной реальности (VRML) на основе XML, который разработан для описания аудиовизуальных трехмерных сцен и интерактивных приложений в стиле виртуальной реальности [8]. Комплексная AudioBIFS-спецификация использует графы сцен, чтобы указывать маршруты перемещений объектов. Главный недостаток AudioBIFS заключается в том, что он не спроектирован для работы в режиме реального времени, в котором ограниченная задержка в системе и произвольный доступ к потоку данных являются обязательными. Кроме того, кодирование позиций объектов не использует ограниченную производительность локализации слушателей-людей. Для фиксированной позиции слушателя в аудиовизуальной сцене, данные объектов могут квантоваться с гораздо более низким числом битов [9]. Следовательно, кодирование метаданных объектов, которые применяются в AudioBIFS, не является эффективным относительно сжатия данных.
Следовательно, существует высокая потребность в том, чтобы предоставить улучшенные принципы эффективного кодирования метаданных объектов.
Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованные принципы для эффективного кодирования метаданных объектов. Цель настоящего изобретения достигается посредством устройства по п. 1, посредством устройства по п. 8, посредством системы по п. 14, посредством способа по п. 15, посредством способа по п. 16 и посредством компьютерной программы по п. 17.
Предусмотрено устройство для формирования одного или более аудиоканалов. Устройство содержит декодер метаданных для приема одного или более сжатых сигналов метаданных. Каждый из одного или более сжатых сигналов метаданных содержит множество первых выборок метаданных. Первые выборки метаданных каждого из одного или более сжатых сигналов метаданных указывают информацию, ассоциированную с сигналом аудиообъекта для одного или более сигналов аудиообъектов. Декодер метаданных выполнен с возможностью формировать один или более восстановленных сигналов метаданных таким образом, что каждый из одного или более восстановленных сигналов метаданных содержит первые выборки метаданных одного из одного или более сжатых сигналов метаданных и дополнительно содержит множество вторых выборок метаданных. Кроме того, декодер метаданных выполнен с возможностью формировать каждую из вторых выборок метаданных каждого восстановленного сигнала метаданных из одного или более восстановленных сигналов метаданных в зависимости, по меньшей мере, от двух из первых выборок метаданных упомянутого восстановленного сигнала метаданных. Кроме того, устройство содержит формирователь аудиоканалов для формирования одного или более аудиоканалов в зависимости от одного или более сигналов аудиообъектов и в зависимости от одного или более восстановленных сигналов метаданных.
Кроме того, предусмотрено устройство для формирования кодированной аудиоинформации, содержащей один или более кодированных аудиосигналов и один или более сжатых сигналов метаданных. Устройство содержит кодер метаданных для приема одного или более исходных сигналов метаданных. Каждый из одного или более исходных сигналов метаданных содержит множество выборок метаданных. Выборки метаданных каждого из одного или более исходных сигналов метаданных указывают информацию, ассоциированную с сигналом аудиообъекта для одного или более сигналов аудиообъектов. Кодер метаданных выполнен с возможностью формировать один или более сжатых сигналов метаданных таким образом, что каждый сжатый сигнал метаданных из одного или более сжатых сигналов метаданных содержит первую группу из двух или более выборок метаданных одного из исходных сигналов метаданных, и таким образом, что упомянутый сжатый сигнал метаданных не содержит какой-либо выборки метаданных второй группы из других двух или более выборок метаданных упомянутого одного из исходных сигналов метаданных. Кроме того, устройство содержит аудиокодер для кодирования одного или более сигналов аудиообъектов, чтобы получать один или более кодированных аудиосигналов.
Кроме того, предусмотрена система. Система содержит устройство для формирования кодированной аудиоинформации, содержащей один или более кодированных аудиосигналов и один или более сжатых сигналов метаданных, как описано выше. Кроме того, система содержит устройство для приема одного или более кодированных аудиосигналов и одного или более сжатых сигналов метаданных и для формирования одного или более аудиоканалов в зависимости от одного или более кодированных аудиосигналов и в зависимости от одного или более сжатых сигналов метаданных, как описано выше.
Согласно вариантам осуществления, предусмотрены принципы сжатия данных для метаданных объектов, которые достигают эффективного механизма сжатия для каналов передачи с ограниченной скоростью передачи данных. Кроме того, достигается хороший коэффициент сжатия для чистых изменений азимута, например, вращений камеры. Кроме того, предоставляемые принципы поддерживают прерывистые траектории, например, позиционные переходы. Кроме того, реализована низкая сложность декодирования. Кроме того, достигается произвольный доступ с ограниченным временем повторной инициализации.
Кроме того, предусмотрен способ формирования одного или более аудиоканалов. Способ содержит:
- прием одного или более сжатых сигналов метаданных, при этом каждый из одного или более сжатых сигналов метаданных содержит множество первых выборок метаданных, при этом первые выборки метаданных каждого из одного или более сжатых сигналов метаданных указывают информацию, ассоциированную с сигналом аудиообъекта для одного или более сигналов аудиообъектов;
- формирование одного или более восстановленных сигналов метаданных таким образом, что каждый из одного или более восстановленных сигналов метаданных содержит первые выборки метаданных одного из одного или более сжатых сигналов метаданных и дополнительно содержит множество вторых выборок метаданных, при этом формирование одного или более восстановленных сигналов метаданных содержит этап формирования каждой из вторых выборок метаданных каждого восстановленного сигнала метаданных из одного или более восстановленных сигналов метаданных в зависимости, по меньшей мере, от двух из первых выборок метаданных упомянутого восстановленного сигнала метаданных; и
- формирование одного или более аудиоканалов в зависимости от одного или более сигналов аудиообъектов и в зависимости от одного или более восстановленных сигналов метаданных.
Кроме того, предусмотрен способ формирования кодированной аудиоинформации, содержащей один или более кодированных аудиосигналов и один или более сжатых сигналов метаданных. Способ содержит:
- прием одного или более исходных сигналов метаданных, при этом каждый из одного или более исходных сигналов метаданных содержит множество выборок метаданных, при этом выборки метаданных каждого из одного или более исходных сигналов метаданных указывают информацию, ассоциированную с сигналом аудиообъекта для одного или более сигналов аудиообъектов;
- формирование одного или более сжатых сигналов метаданных таким образом, что каждый сжатый сигнал метаданных из одного или более сжатых сигналов метаданных содержит первую группу из двух или более выборок метаданных одного из исходных сигналов метаданных, и таким образом, что упомянутый сжатый сигнал метаданных не содержит какой-либо выборки метаданных второй группы из других двух или более выборок метаданных упомянутого одного из исходных сигналов метаданных; и
- кодирование одного или более сигналов аудиообъектов, чтобы получать один или более кодированных аудиосигналов.
Кроме того, предусмотрена компьютерная программа для реализации вышеописанного способа при выполнении на компьютере или в процессоре сигналов.
Далее подробнее описываются варианты осуществления настоящего изобретения в отношении чертежей, на которых:
Фиг. 1 иллюстрирует устройство для формирования одного или более аудиоканалов согласно варианту осуществления.
Фиг. 2 иллюстрирует устройство для формирования кодированной аудиоинформации, содержащей один или более кодированных аудиосигналов и один или более сжатых сигналов метаданных согласно варианту осуществления.
Фиг. 3 иллюстрирует систему согласно варианту осуществления.
Фиг. 4 иллюстрирует позицию аудиообъекта в трехмерном пространстве относительно начала координат, выражаемую посредством азимута, подъема и радиуса.
Фиг. 5 иллюстрирует позиции аудиообъектов и компоновку громкоговорителей, предполагаемую посредством формирователя аудиоканалов.
Фиг. 6 иллюстрирует кодирование метаданных согласно варианту осуществления.
Фиг. 7 иллюстрирует декодирование метаданных согласно варианту осуществления.
Фиг. 8 иллюстрирует кодирование метаданных согласно другому варианту осуществления.
Фиг. 9 иллюстрирует декодирование метаданных согласно другому варианту осуществления.
Фиг. 10 иллюстрирует кодирование метаданных согласно дополнительному варианту осуществления.
Фиг. 11 иллюстрирует декодирование метаданных согласно дополнительному варианту осуществления.
Фиг. 12 иллюстрирует первый вариант осуществления трехмерного аудиокодера.
Фиг. 13 иллюстрирует первый вариант осуществления трехмерного аудиодекодера.
Фиг. 14 иллюстрирует второй вариант осуществления трехмерного аудиокодера.
Фиг. 15 иллюстрирует второй вариант осуществления трехмерного аудиодекодера.
Фиг. 16 иллюстрирует третий вариант осуществления трехмерного аудиокодера.
Фиг. 17 иллюстрирует третий вариант осуществления трехмерного аудиодекодера.
Фиг. 2 иллюстрирует устройство 250 для формирования кодированной аудиоинформации, содержащей один или более кодированных аудиосигналов и один или более сжатых сигналов метаданных согласно варианту осуществления.
Устройство 250 содержит кодер 210 метаданных для приема одного или более исходных сигналов метаданных. Каждый из одного или более исходных сигналов метаданных содержит множество выборок метаданных. Выборки метаданных каждого из одного или более исходных сигналов метаданных указывают информацию, ассоциированную с сигналом аудиообъекта для одного или более сигналов аудиообъектов. Кодер 210 метаданных выполнен с возможностью формировать один или более сжатых сигналов метаданных таким образом, что каждый сжатый сигнал метаданных из одного или более сжатых сигналов метаданных содержит первую группу из двух или более выборок метаданных одного из исходных сигналов метаданных, и таким образом, что упомянутый сжатый сигнал метаданных не содержит какой-либо выборки метаданных второй группы из других двух или более выборок метаданных упомянутого одного из исходных сигналов метаданных.
Кроме того, устройство 250 содержит аудиокодер 220 для кодирования одного или более сигналов аудиообъектов, чтобы получать один или более кодированных аудиосигналов. Например, формирователь аудиоканалов может содержать SAOC-кодер согласно предшествующему уровню техники, чтобы кодировать один или более сигналов аудиообъектов, чтобы получать один или более транспортных SAOC-каналов в качестве одного или более кодированных аудиосигналов. Различные другие технологии кодирования для того, чтобы кодировать один или более каналов аудиообъекта, альтернативно или дополнительно могут использоваться для того, чтобы кодировать один или более каналов аудиообъекта.
Фиг. 1 иллюстрирует устройство 100 для формирования одного или более аудиоканалов согласно варианту осуществления.
Устройство 100 содержит декодер 110 метаданных для приема одного или более сжатых сигналов метаданных. Каждый из одного или более сжатых сигналов метаданных содержит множество первых выборок метаданных. Первые выборки метаданных каждого из одного или более сжатых сигналов метаданных указывают информацию, ассоциированную с сигналом аудиообъекта для одного или более сигналов аудиообъектов. Декодер 110 метаданных выполнен с возможностью формировать один или более восстановленных сигналов метаданных таким образом, что каждый из одного или более восстановленных сигналов метаданных содержит первые выборки метаданных одного из одного или более сжатых сигналов метаданных и дополнительно содержит множество вторых выборок метаданных. Кроме того, декодер 110 метаданных выполнен с возможностью формировать каждую из вторых выборок метаданных каждого восстановленного сигнала метаданных из одного или более восстановленных сигналов метаданных в зависимости, по меньшей мере, от двух из первых выборок метаданных упомянутого восстановленного сигнала метаданных.
Кроме того, устройство 100 содержит формирователь 120 аудиоканалов для формирования одного или более аудиоканалов в зависимости от одного или более сигналов аудиообъектов и в зависимости от одного или более восстановленных сигналов метаданных.
При упоминании выборок метаданных, следует отметить, что выборка метаданных характеризуется посредством ее значения выборки метаданных, но также и посредством момента времени, к которому она относится. Например, такой момент времени может быть относительным для начала аудиопоследовательности и т.п. Например, индекс N или K может идентифицировать позицию выборки метаданных в сигнале метаданных, и посредством этого указывается (относительный) момент времени (относительно начального времени). Следует отметить, что когда две выборки метаданных связаны с различными моментами времени, эти две выборки метаданных представляют собой различные выборки метаданных, даже когда их значения выборок метаданных равны, что иногда может иметь место.
Вышеописанные варианты осуществления основаны на таких выявленных сведениях, что информация метаданных (состоящая из сигнала метаданных), которая ассоциирована с сигналом аудиообъекта, зачастую изменяется медленно.
Например, сигнал метаданных может указывать информацию позиции для аудиообъекта (например, азимутальный угол, угол подъема или радиус, задающий позицию аудиообъекта). Можно предполагать, что в большинстве случаев, позиция аудиообъекта либо не изменяется, либо только медленно изменяется.
Альтернативно, сигнал метаданных, например, может указывать громкость (например, усиление) аудиообъекта, и также можно предполагать, что в большинстве случаев, громкость аудиообъекта изменяется медленно.
По этой причине, необязательно передавать (полную) информацию метаданных в каждый момент времени. Вместо этого, (полная) информация метаданных передается только в определенные моменты времени, например, периодически, например, в каждый N-й момент времени, например, в момент времени 0, N, 2N, 3 Н и т.д. На стороне декодера, для промежуточных моментов времени (например, моментов 1, 2,..., N-1 времени), метаданные затем могут быть аппроксимированы на основе выборок метаданных для двух или более моментов времени. Например, выборки метаданных для моментов 1, 2,..., N-1 времени могут быть аппроксимированы на стороне декодера в зависимости от выборок метаданных для моментов 0 и N времени, например, посредством использования линейной интерполяции. Как указано выше, этот подход основан на таких выявленных сведениях, что информация метаданных относительно аудиообъектов, в общем, изменяется медленно.
Например, в вариантах осуществления, три сигнала метаданных указывают позицию аудиообъекта в трехмерном пространстве. Первый из сигналов метаданных, например, может указывать азимутальный угол позиции аудиообъекта. Второй из сигналов метаданных, например, может указывать угол подъема позиции аудиообъекта. Третий из сигналов метаданных, например, может указывать радиус, связанный с расстоянием аудиообъекта.
Азимутальный угол, угол подъема и радиус однозначно задают позицию аудиообъекта в трехмерном пространстве относительно начала координат. Это проиллюстрировано со ссылкой на фиг. 4.
Фиг. 4 иллюстрирует позицию 410 аудиообъекта в трехмерном пространстве относительно начала 400 координат, выражаемую посредством азимута, подъема и радиуса.
Угол подъема указывает, например, угол между прямой линией от начала координат до позиции объекта и нормальной проекцией этой прямой линии на плоскость XY (плоскость, заданную посредством оси X и оси Y). Азимутальный угол задает, например, угол между осью X и упомянутой нормальной проекцией. Посредством указания азимутального угла и угла подъема, может задаваться прямая линия 415 через начало 400 координат и позицию 410 аудиообъекта. Посредством дополнительного указания радиуса, может задаваться точная позиция 410 аудиообъекта.
В варианте осуществления, азимутальный угол задается для диапазона: -180°<азимут≤180°, угол подъема задается для диапазона: -90°≤подъем≤90°, и радиус, например, может задаваться в метрах (м) (больше или равен 0 м).
В другом варианте осуществления, в котором, например, можно предполагать, что все значения X позиций аудиообъектов в системе координат XYZ превышают или равны нулю, азимутальный угол может задаваться для диапазона: -90°≤азимут≤90°, угол подъема может задаваться для диапазона: -90°≤подъем≤90°, и радиус, например, может задаваться в метрах (м).
В дополнительном варианте осуществления, сигналы метаданных могут масштабироваться таким образом, что азимутальный угол задается для диапазона: -128°<азимут≤128°, угол подъема задается для диапазона: -32°≤подъем≤32°, и радиус, например, может задаваться на логарифмической шкале. В некоторых вариантах осуществления, исходные сигналы метаданных, сжатые сигналы метаданных и восстановленные сигналы метаданных, соответственно, могут содержать масштабированное представление информации позиции и/или масштабированное представление громкости одного из одного или более сигналов аудиообъектов.
Формирователь 120 аудиоканалов, например, может быть выполнен с возможностью формировать один или более аудиоканалов в зависимости от одного или более сигналов аудиообъектов и в зависимости от восстановленных сигналов метаданных, при этом восстановленные сигналы метаданных, например, могут указывать позицию аудиообъектов.
Фиг. 5 иллюстрирует позиции аудиообъектов и компоновку громкоговорителей, предполагаемую посредством формирователя аудиоканалов. Проиллюстрировано начало 500 координат системы координат XYZ. Кроме того, проиллюстрированы позиция 510 первого аудиообъекта и позиция 520 второго аудиообъекта. Кроме того, фиг. 5 иллюстрирует сценарий, в котором формирователь 120 аудиоканалов формирует четыре аудиоканала для четырех громкоговорителей. Формирователь 120 аудиоканалов предполагает то, что четыре громкоговорителя 511, 512, 513 и 514 расположены в позициях, показанных на фиг. 5.
На фиг. 5, первый аудиообъект расположен в позиции 510 близко к предполагаемым позициям громкоговорителей 511 и 512 и расположен на большом расстоянии от громкоговорителей 513 и 514. Следовательно, формирователь 120 аудиоканалов может формировать четыре аудиоканала таким образом, что первый аудиообъект 510 воспроизводится посредством громкоговорителей 511 и 512, а не посредством громкоговорителей 513 и 514.
В других вариантах осуществления, формирователь 120 аудиоканалов может формировать четыре аудиоканала таким образом, что первый аудиообъект 510 воспроизводится с высокой громкостью посредством громкоговорителей 511 и 512 и с низкой громкостью посредством громкоговорителей 513 и 514.
Кроме того, второй аудиообъект расположен в позиции 520 близко к предполагаемым позициям громкоговорителей 513 и 514 и расположен на большом расстоянии от громкоговорителей 511 и 512. Следовательно, формирователь 120 аудиоканалов может формировать четыре аудиоканала таким образом, что второй аудиообъект 520 воспроизводится посредством громкоговорителей 513 и 514, а не посредством громкоговорителей 511 и 512.
В других вариантах осуществления, формирователь 120 аудиоканалов может формировать четыре аудиоканала таким образом, что второй аудиообъект 520 воспроизводится с высокой громкостью посредством громкоговорителей 513 и 514 и с низкой громкостью посредством громкоговорителей 511 и 512.
В альтернативных вариантах осуществления, только два сигнала метаданных используются для того, чтобы указывать позицию аудиообъекта. Например, могут указываться только азимут и радиус, например, когда предполагается, что все аудиообъекты расположены в одной плоскости.
В дополнительно других вариантах осуществления, для каждого аудиообъекта, только один сигнал метаданных кодируется и передается в качестве информации позиции. Например, только азимутальный угол может указываться в качестве информации позиции для аудиообъекта (например, можно предполагать, что все аудиообъекты расположены в идентичной плоскости, имеющей идентичное расстояние от центральной точки, и в силу этого предположительно имеют идентичный радиус). Информация азимута, например, может быть достаточной для того, чтобы определять то, что аудиообъект расположен близко к левому громкоговорителю и на большом расстоянии от правого громкоговорителя. В таком случае, формирователь 120 аудиоканалов, например, может формировать один или более аудиоканалов таким образом, что аудиообъект воспроизводится посредством левого громкоговорителя, а не посредством правого громкоговорителя.
Например, векторное амплитудное панорамирование (VBAP) может использоваться (см., например, [12]) для того, чтобы определять весовой коэффициент сигнала аудиообъекта в каждом из аудиоканалов громкоговорителей. Например, относительно VBAP, предполагается, что аудиообъект связан с виртуальным источником.
В вариантах осуществления, дополнительный сигнал метаданных может указывать громкость, например, усиление (например, выражаемое в децибеле [дБ]) для каждого аудиообъекта.
Например, на фиг. 5, первое значение усиления может указываться посредством дополнительного сигнала метаданных для первого аудиообъекта, расположенного в позиции 510, которое выше второго значения усиления, указываемого посредством другого дополнительного сигнала метаданных для второго аудиообъекта, расположенного в позиции 520. В таком случае, громкоговорители 511 и 512 могут воспроизводить первый аудиообъект с громкостью, превышающей громкость, с которой громкоговорители 513 и 514 воспроизводят второй аудиообъект.
Варианты осуществления также предполагают, что такие значения усиления аудиообъектов зачастую изменяются медленно. Следовательно, необязательно передавать такую информацию метаданных в каждый момент времени. Вместо этого, информация метаданных передается только в определенные моменты со временем. В промежуточные моменты времени, информация метаданных, например, может быть аппроксимирована с использованием предшествующей выборки метаданных и последующей выборки метаданных, которые переданы. Например, линейная интерполяция может использоваться для аппроксимации промежуточных значений. Например, усиление, азимут, подъем и/или радиус каждого из аудиообъектов могут быть аппроксимированы для моментов времени, в которые такие метаданные не переданы.
Посредством такого подхода может достигаться значительная экономия по скорости передачи метаданных.
Фиг. 3 иллюстрирует систему согласно варианту осуществления.
Система содержит устройство 250 для формирования кодированной аудиоинформации, содержащей один или более кодированных аудиосигналов и один или более сжатых сигналов метаданных, как описано выше.
Кроме того, система содержит устройство 100 для приема одного или более кодированных аудиосигналов и одного или более сжатых сигналов метаданных и для формирования одного или более аудиоканалов в зависимости от одного или более кодированных аудиосигналов и в зависимости от одного или более сжатых сигналов метаданных, как описано выше.
Например, один или более кодированных аудиосигналов могут декодироваться посредством устройства 100 для формирования одного или более аудиоканалов посредством использования SAOC-декодера согласно предшествующему уровню техники, чтобы получать один или более сигналов аудиообъектов, когда устройство 250 для кодирования использует SAOC-кодер для кодирования одного или более аудиообъектов.
При рассмотрении позиций объектов только в качестве примера для метаданных, чтобы обеспечивать произвольный доступ с ограниченным временем повторной инициализации, варианты осуществления предоставляют полную повторную передачу всех позиций объектов на регулярной основе.
Согласно варианту осуществления, устройство 100 выполнено с возможностью принимать информацию произвольного доступа, при этом, для каждого сжатого сигнала метаданных из одного или более сжатых сигналов метаданных, информация произвольного доступа указывает часть сигнала, к которой осуществляется доступ, для упомянутого сжатого сигнала метаданных, при этом, по меньшей мере, еще одна часть сигнала для упомянутого сигнала метаданных не указывается посредством упомянутой информации произвольного доступа, и при этом декодер 110 метаданных выполнен с возможностью формировать один из одного или более восстановленных сигналов метаданных в зависимости от первых выборок метаданных упомянутой части сигнала, к которой осуществляется доступ, для упомянутого сжатого сигнала метаданных, но независимо от любых других первых выборок метаданных любой другой части сигнала для упомянутого сжатого сигнала метаданных. Другими словами, посредством указания информации произвольного доступа, может указываться часть каждого из сжатых сигналов метаданных, при этом другие части упомянутого сигнала метаданных не указываются. В этом случае, только указанная часть упомянутого сжатого сигнала метаданных восстановлена в качестве одного из восстановленных сигналов метаданных, но не другие части. Восстановление является возможным, поскольку передаваемые первые выборки метаданных упомянутого сжатого сигнала метаданных представляют полную информацию метаданных упомянутого сжатого сигнала метаданных для определенных моментов времени (тем не менее, для других моментов времени информация метаданных не передается).
Фиг. 6 иллюстрирует кодирование метаданных согласно варианту осуществления. Кодер 210 метаданных согласно вариантам осуществления может быть выполнен с возможностью реализовывать кодирование метаданных, проиллюстрированное посредством фиг. 6.
На фиг. 6 s(n) может представлять один из исходных сигналов метаданных. Например, s(n), к примеру, может представлять функцию азимутального угла одного из аудиообъектов, и n может указывать время (например, посредством указания позиций выборок в исходном сигнале метаданных).
Зависимый от времени компонент s(n) траектории, который дискретизируется на частоте дискретизации, которая значительно ниже (например, 1:1024 или ниже) частоты аудиодискретизации, квантуется (см. 611) и понижающе дискретизируется (см. 612) на коэффициент N. Это приводит к вышеуказанному регулярно передаваемому цифровому сигналу, который обозначается как z(k).
Z(k) представляет собой один из одного или более сжатых сигналов метаданных. Например, каждая N-я выборка ŝ(n) метаданных также представляет собой выборку метаданных сжатого сигнала z(k) метаданных, в то время как другие N-1 выборок ŝ(n) метаданных между каждой N-й выборкой метаданных не представляют собой выборки метаданных сжатого сигнала z(k) метаданных.
Например, предположим, что в s(n), n указывает время (например, посредством указания позиций выборок в исходном сигнале метаданных), где n является положительным целым числом или 0 (например, начальное время: n=0). N является коэффициентом понижающей дискретизации. Например, N=32 или любой другой подходящий коэффициент понижающей дискретизации.
Например, понижающая дискретизация на 612, чтобы получать сжатый сигнал z метаданных из исходного сигнала s метаданных, например, может быть реализована таким образом, что:
z(k)=ŝ(k*N), где k является положительным целым числом или 0 (k=0, 1, 2...)
Таким образом:
z(0)=ŝ(0); z(1)=ŝ(32); z(2)=ŝ(64); z(3)=ŝ(96).
Фиг. 7 иллюстрирует декодирование метаданных согласно варианту осуществления. Декодер 110 метаданных согласно вариантам осуществления может быть выполнен с возможностью реализовывать декодирование метаданных, проиллюстрированное посредством фиг. 7.
Согласно варианту осуществления, проиллюстрированному посредством фиг. 7, декодер 110 метаданных выполнен с возможностью формировать каждый восстановленный сигнал метаданных из одного или более восстановленных сигналов метаданных посредством повышающей дискретизации одного из одного или более сжатых сигналов метаданных, при этом декодер 110 метаданных выполнен с возможностью формировать каждую из вторых выборок метаданных каждого восстановленного сигнала метаданных из одного или более восстановленных сигналов метаданных посредством осуществления линейной интерполяции в зависимости, по меньшей мере, от двух из первых выборок метаданных упомянутого восстановленного сигнала метаданных.
Таким образом, каждый восстановленный сигнал метаданных содержит все выборки метаданных своего сжатого сигнала метаданных (эти выборки упоминаются в качестве "первых выборок метаданных" одного или более сжатых сигналов метаданных).
Посредством осуществления повышающей дискретизации, дополнительные ("вторые") выборки метаданных добавляются в восстановленный сигнал метаданных. Этап повышающей дискретизации определяет то, в каких позициях в восстановленном сигнале метаданных (например, в какие "относительные" моменты времени) дополнительные (вторые) выборки метаданных добавляются в сигнал метаданных.
Посредством осуществления линейной интерполяции определяются значения выборок метаданных для вторых выборок метаданных. Линейная интерполяция осуществляется на основе двух выборок метаданных сжатого сигнала метаданных (которые становятся первыми выборками метаданных восстановленного сигнала метад