Устройство и способ для улучшенного пространственного кодирования аудиообъектов
Иллюстрации
Показать всеИзобретение относится к аудиокодированию/аудиодекодированию. Технический результат – повышение точности воспроизведения аудиосигнала. Устройство содержит процессор параметров для вычисления информации микширования и процессор понижающего микширования, предназначенный для формирования одного или нескольких выходных аудиоканалов и для приема потока данных, содержащего транспортные аудиоканалы в транспортном аудиосигнале. Процессор параметров конфигурируется для приема информации понижающего микширования и для приема ковариационной информации, а также для вычисления информации микширования в зависимости от информации понижающего микширования и в зависимости от ковариационной информации. Процессор понижающего микширования конфигурируется для формирования одного или нескольких выходных аудиоканалов из транспортного аудиосигнала в зависимости от информации микширования. Ковариационная информация указывает информацию о разности уровней для одного из одного или нескольких сигналов аудиоканалов и дополнительно указывает информацию о разности уровней для одного из одного или нескольких сигналов аудиообъектов. 7 н. и 11 з.п. ф-лы, 10 ил.
Реферат
Настоящее изобретение имеет отношение к аудиокодированию/аудиодекодированию, в частности, к пространственному аудиокодированию и пространственному кодированию аудиообъектов, а конкретнее, к устройству и способу для улучшенного пространственного кодирования аудиообъектов.
Инструменты пространственного аудиокодирования широко известны в данной области техники и стандартизованы, например, в стандарте MPEG-Surround. Пространственное аудиокодирование начинается с исходных входных каналов, например, пяти или семи входных каналов, которые идентифицируются по их размещению в настройке воспроизведения, то есть левый канал, центральный канал, правый канал, левый канал окружения, правый канал окружения и канал низкочастотного расширения. Пространственный аудиокодер, как правило, получает один или несколько каналов понижающего микширования из исходных каналов, а кроме того, получает параметрические данные, относящиеся к пространственным меткам, например межканальные разности уровней в значениях когерентности каналов, межканальные разности фаз, межканальные разницы времени и т. п. Один или несколько каналов понижающего микширования передаются вместе с параметрической дополнительной информацией, указывающей пространственные метки, пространственному аудиодекодеру, который декодирует канал понижающего микширования и ассоциированные параметрические данные, чтобы получить в конечном счете выходные каналы, которые являются приблизительной версией исходных входных каналов. Размещение каналов в настройке вывода обычно неизменно и представляет собой, например, формат 5.1, формат 7.1 и т. п.
Такие аудиоформаты на основе каналов широко используются для хранения или передачи многоканального аудиоконтента, где каждый канал относится к определенному громкоговорителю в заданном положении. Точное воспроизведение этого вида форматов требует настройки громкоговорителей, где динамики размещаются в тех же положениях, что и динамики, которые использовались во время создания аудиосигналов. Хотя увеличивающееся количество громкоговорителей улучшает воспроизведение по-настоящему многонаправленных объемных аудиосцен, становится все сложнее выполнять это требование - особенно в домашней обстановке типа гостиной.
Необходимость конкретной настройки громкоговорителей можно обойти с помощью объектно-ориентированного подхода, где сигналы громкоговорителя подготавливаются специально для настройки воспроизведения.
Например, инструменты пространственного кодирования аудиообъектов широко известны в данной области техники и стандартизованы в стандарте SAOC MPEG (SAOC=пространственное кодирование аудиообъектов). В отличие от пространственного аудиокодирования, начинающего с исходных каналов, пространственное кодирование аудиообъектов начинает с аудиообъектов, которые не выделены автоматически для определенной настройки воспроизведения. Вместо этого размещение аудиообъектов в сцене воспроизведения гибкое и может определяться пользователем путем ввода некоторой информации о подготовке в декодер пространственного кодирования аудиообъектов. В качестве альтернативы или дополнительно информация о подготовке, то есть информация о том, в какое положение в настройке воспроизведения нужно обычно помещать некоторый аудиообъект по прошествии времени, может передаваться в качестве дополнительной информации или метаданных. Чтобы добиться определенного сжатия данных, некоторое количество аудиообъектов кодируется кодером SAOC, который вычисляет из входных объектов один или несколько транспортных каналов путем понижающего микширования объектов в соответствии с некоторой информацией понижающего микширования. Кроме того, кодер SAOC вычисляет параметрическую дополнительную информацию, представляющую межобъектные метки, например разности уровней объектов (OLD), значения когерентности объектов и т. п. Как и в SAC (SAC=пространственное аудиокодирование), межобъектные параметрические данные вычисляются для временных/частотных фрагментов параметра, то есть для некоторого кадра аудиосигнала, содержащего, например, 1024 или 2048 выборок, рассматриваются 28, 20, 14 или 10 и т. п. полос обработки, чтобы параметрические данные существовали в конечном счете для каждого кадра и каждой полосы обработки. В качестве примера, когда некая аудиочасть содержит 20 кадров, и когда каждый кадр подразделяется на 28 полос обработки, количество временных/частотных фрагментов параметра равно 560.
В объектно-ориентированном подходе звуковое поле описывается дискретными аудиообъектами. Это требует метаданных объектов, которые, среди прочего, описывают изменяющееся во времени положение каждого источника звука в трехмерном (3D) пространстве.
Первой идеей кодирования метаданных на известном уровне техники является формат обмена описанием пространственного звука (SpatDIF), формат описания аудиосцены, который по-прежнему находится в разработке [M1]. Он задуман как формат обмена для объектно-ориентированных звуковых сцен и не предоставляет никакого способа сжатия для траекторий объектов. SpatDIF использует текстовый формат Открытого управления звуком (OSC) для структурирования метаданных объектов [M2]. Однако простое текстовое представление не является возможным вариантом для сжатой передачи траекторий объектов.
Другой идеей метаданных на известном уровне техники является Формат описания аудиосцен (ASDF) [M3], текстовое решение, которое обладает таким же недостатком. Данные структурируются с помощью расширения Языка синхронизированной мультимедийной интеграции (SMIL), который является подмножеством Расширяемого языка разметки (XML) [M4], [M5].
Дополнительной идеей метаданных на известном уровне техники является двоичный формат аудио для сцен (AudioBIFS), двоичный формат, который является частью спецификации MPEG-4 [M6], [M7]. Он тесно связан с основанным на XML языком моделирования виртуальной реальности (VRML), который был разработан для описания аудиовизуальных объемных (3D) сцен и интерактивных приложений виртуальной реальности [M8]. Сложная спецификация AudioBIFS использует графы сцен для задания маршрутов перемещений объектов. Основным недостатком AudioBIFS является то, что он не предназначен для работы в реальном масштабе времени, где требованием является ограниченная задержка системы и произвольный доступ к потоку данных. Кроме того, кодирование положений объектов не использует ограниченное выявление направленности у человека. Для неизменного положения слушателя в аудиовизуальной сцене данные объектов можно квантовать с гораздо меньшим количеством разрядов [M9]. Поэтому кодирование метаданных объектов, которое применяется в AudioBIFS, неэффективно в отношении сжатия данных.
US 2009/326958 A1 раскрывает способ и устройство аудиодекодирования и способ и устройство аудиокодирования, которые могут эффективно обрабатывать объектно-ориентированные аудиосигналы. Способ аудиодекодирования включает в себя прием первого и второго аудиосигналов, которые кодируются по объектам; формирование третьей информации об энергии объекта на основе первой информации об энергии объекта, включенной в первый аудиосигнал, и второй информации об энергии объекта, включенной во второй аудиосигнал; и формирование третьего аудиосигнала путем объединения первого и второго сигналов объектов и третьей информации об энергии объекта.
Цель настоящего изобретения - предоставить усовершенствованные идеи для пространственного кодирования аудиообъектов. Цель настоящего изобретения достигается с помощью устройства по п. 1, устройства по п. 14, системы по п. 16, способа по п. 17, способа по п. 18 и компьютерной программы по п. 19.
Предоставляется устройство для формирования одного или нескольких выходных аудиоканалов. Устройство содержит процессор параметров для вычисления информации микширования и процессор понижающего микширования для формирования одного или нескольких выходных аудиоканалов. Процессор понижающего микширования конфигурируется для приема транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов. Один или несколько сигналов аудиоканалов микшируются в транспортный аудиосигнал, и один или несколько сигналов аудиообъектов микшируются в транспортный аудиосигнал, и где количество одного или нескольких транспортных аудиоканалов меньше количества одного или нескольких сигналов аудиоканалов плюс количества одного или нескольких сигналов аудиообъектов. Процессор параметров конфигурируется для приема информации понижающего микширования, указывающей информацию о том, как один или несколько сигналов аудиоканалов и один или несколько сигналов аудиообъектов микшируются в один или несколько транспортных аудиоканалов, и где процессор параметров конфигурируется для приема ковариационной информации. Кроме того, процессор параметров конфигурируется для вычисления информации микширования в зависимости от информации понижающего микширования и в зависимости от ковариационной информации. Процессор понижающего микширования конфигурируется для формирования одного или нескольких выходных аудиоканалов из транспортного аудиосигнала в зависимости от информации микширования. Ковариационная информация указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиоканалов, и дополнительно указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиообъектов. Однако ковариационная информация не указывает корреляционную информацию ни для какой пары из одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов.
Кроме того, предоставляется устройство для формирования транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов. Устройство содержит микшер каналов/объектов для формирования одного или нескольких транспортных аудиоканалов в транспортном аудиосигнале и выходной интерфейс. Микшер каналов/объектов конфигурируется для формирования транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов, путем микширования одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов в транспортный аудиосигнал в зависимости от информации понижающего микширования, указывающей информацию о том, как один или несколько сигналов аудиоканалов и один или несколько сигналов аудиообъектов нужно микшировать в один или несколько транспортных аудиоканалов, где количество одного или нескольких транспортных аудиоканалов меньше количества одного или нескольких сигналов аудиоканалов плюс количества одного или нескольких сигналов аудиообъектов. Выходной интерфейс конфигурируется для вывода транспортного аудиосигнала, информации понижающего микширования и ковариационной информации. Ковариационная информация указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиоканалов, и дополнительно указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиообъектов. Однако ковариационная информация не указывает корреляционную информацию ни для какой пары из одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов.
Кроме того, предоставляется система. Система содержит устройство для формирования транспортного аудиосигнала, как описано выше, и устройство для формирования одного или нескольких выходных аудиоканалов, как описано выше. Устройство для формирования одного или нескольких выходных аудиоканалов конфигурируется для приема транспортного аудиосигнала, информации понижающего микширования и ковариационной информации от устройства для формирования транспортного аудиосигнала. Кроме того, устройство для формирования выходных аудиоканалов конфигурируется для формирования одного или нескольких выходных аудиоканалов в зависимости от транспортного аудиосигнала, в зависимости от информации понижающего микширования и в зависимости от ковариационной информации.
Кроме того, предоставляется способ для формирования одного или нескольких выходных аудиоканалов. Способ содержит:
- Прием транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов, где один или несколько сигналов аудиоканалов микшируются в транспортный аудиосигнал, где один или несколько сигналов аудиообъектов микшируются в транспортный аудиосигнал, и где количество одного или нескольких транспортных аудиоканалов меньше количества одного или нескольких сигналов аудиоканалов плюс количества одного или нескольких сигналов аудиообъектов.
- Прием информации понижающего микширования, указывающей информацию о том, как один или несколько сигналов аудиоканалов и один или несколько сигналов аудиообъектов микшируются в один или несколько транспортных аудиоканалов.
- Прием ковариационной информации.
- Вычисление информации микширования в зависимости от информации понижающего микширования и в зависимости от ковариационной информации. И:
- Формирование одного или нескольких выходных аудиоканалов.
Формирование одного или нескольких выходных аудиоканалов из транспортного аудиосигнала проводится в зависимости от информации микширования. Ковариационная информация указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиоканалов, и дополнительно указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиообъектов. Однако ковариационная информация не указывает корреляционную информацию ни для какой пары из одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов.
Кроме того, предоставляется способ для формирования транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов. Способ содержит:
- Формирование транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов, путем микширования одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов в транспортный аудиосигнал в зависимости от информации понижающего микширования, указывающей информацию о том, как один или несколько сигналов аудиоканалов и один или несколько сигналов аудиообъектов нужно микшировать в один или несколько транспортных аудиоканалов, где количество одного или нескольких транспортных аудиоканалов меньше количества одного или нескольких сигналов аудиоканалов плюс количества одного или нескольких сигналов аудиообъектов. И:
- Вывод транспортного аудиосигнала, информации понижающего микширования и ковариационной информации.
Ковариационная информация указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиоканалов, и дополнительно указывает информацию о разности уровней по меньшей мере для одного из одного или нескольких сигналов аудиообъектов. Однако ковариационная информация не указывает корреляционную информацию ни для какой пары из одного или нескольких сигналов аудиоканалов и одного или нескольких сигналов аудиообъектов.
Кроме того, предоставляется компьютерная программа для реализации вышеописанного способа, когда исполняется на компьютере или процессоре сигналов.
Ниже подробнее описываются варианты осуществления настоящего изобретения со ссылкой на фигуры, на которых:
Фиг. 1 иллюстрирует устройство для формирования одного или нескольких выходных аудиоканалов в соответствии с вариантом осуществления,
Фиг. 2 иллюстрирует устройство для формирования транспортного аудиосигнала, содержащего один или несколько транспортных аудиоканалов, в соответствии с вариантом осуществления,
Фиг. 3 иллюстрирует систему в соответствии с вариантом осуществления,
Фиг. 4 иллюстрирует первый вариант осуществления кодера объемного аудио,
Фиг. 5 иллюстрирует первый вариант осуществления декодера объемного аудио,
Фиг. 6 иллюстрирует второй вариант осуществления кодера объемного аудио,
Фиг. 7 иллюстрирует второй вариант осуществления декодера объемного аудио,
Фиг. 8 иллюстрирует третий вариант осуществления кодера объемного аудио,
Фиг. 9 иллюстрирует третий вариант осуществления декодера объемного аудио, и
Фиг. 10 иллюстрирует блок совместной обработки в соответствии с вариантом осуществления.
Перед подробным описанием предпочтительных вариантов осуществления настоящего изобретения описывается новая система кодека объемного (3D) аудио.
На известном уровне техники не существует никакой гибкой технологии, объединяющей канальное кодирование с одной стороны и кодирование объектов с другой стороны, чтобы получить приемлемое качество аудио на низких скоростях передачи разрядов.
Это ограничение обходится новой системой кодека объемного аудио.
Перед подробным описанием предпочтительных вариантов осуществления описывается новая система кодека объемного аудио.
Фиг. 4 иллюстрирует кодер объемного аудио в соответствии с вариантом осуществления настоящего изобретения. Кодер объемного аудио конфигурируется для кодирования входных аудиоданных 101, чтобы получить выходные аудиоданные 501. Кодер объемного аудио содержит входной интерфейс для приема множества аудиоканалов, указанных с помощью CH, и множества аудиообъектов, указанных с помощью OBJ. Кроме того, как проиллюстрировано на фиг. 4, входной интерфейс 1100 дополнительно принимает метаданные, связанные с одним или несколькими из множества аудиообъектов OBJ. Кроме того, кодер объемного аудио содержит микшер 200 для микширования множества объектов и множества каналов, чтобы получить множество предварительно микшированных каналов, в котором каждый предварительно микшированный канал содержит аудиоданные канала и аудиоданные по меньшей мере одного объекта.
Кроме того, кодер объемного аудио содержит базовый кодер 300 для базового кодирования входных данных базового кодера, компрессор 400 метаданных для сжатия метаданных, связанных с одним или несколькими из множества аудиообъектов.
Кроме того, кодер объемного аудио может содержать контроллер 600 режимов для управления микшером, базовым кодером и/или выходным интерфейсом 500 в одном из нескольких режимов работы, где в первом режиме базовый кодер конфигурируется для кодирования множества аудиоканалов и множества аудиообъектов, принятых входным интерфейсом 1100, без какого-либо взаимодействия с микшером, то есть без какого-либо микширования с помощью микшера 200. Однако во втором режиме, в котором был активен микшер 200, базовый кодер кодирует множество микшированных каналов, то есть вывод, сформированный блоком 200. В этом последнем случае предпочтительно уже не кодировать никакие данные объектов. Вместо этого микшером 200 уже используются метаданные, указывающие положения аудиообъектов, для подготовки объектов по каналам, как указано метаданными. Другими словами, микшер 200 использует метаданные, связанные с множеством аудиообъектов, чтобы предварительно подготовить аудиообъекты, а затем предварительно подготовленные аудиообъекты микшируются с каналами для получения микшированных каналов на выходе микшера. В этом варианте осуществления не обязательно могут передаваться любые объекты, и это также применяется к сжатым метаданным, которые выведены блоком 400. Однако, если микшируются не все введенные в интерфейс 1100 объекты, а микшируется только некоторое количество объектов, тогда только оставшиеся немикшированные объекты и ассоциированные метаданные все-таки передаются соответственно в базовый кодер 300 или компрессор 400 метаданных.
Фиг. 6 иллюстрирует дополнительный вариант осуществления кодера объемного аудио, который дополнительно содержит кодер 800 SAOC. Кодер 800 SAOC конфигурируется для формирования одного или нескольких транспортных каналов и параметрических данных из входных данных в пространственный кодер аудиообъектов. Как проиллюстрировано на фиг. 6, входные данные в пространственный кодер аудиообъектов являются объектами, которые не обработаны устройством предварительной подготовки/микшером. В качестве альтернативы при условии, что обходят устройство предварительной подготовки/микшер, как в первом режиме, где активно кодирование отдельного канала/объекта, все введенные во входной интерфейс 1100 объекты кодируются кодером 800 SAOC.
Кроме того, как проиллюстрировано на фиг. 6, базовый кодер 300 предпочтительно реализуется в виде кодера USAC, то есть в виде кодера, который определен и стандартизован в стандарте MPEG-USAC (USAC=унифицированное кодирование речи и аудио). Выход всего кодера объемного аудио, проиллюстрированного на фиг. 6, является потоком данных MPEG 4, потоком данных MPEG H или потоком объемных аудиоданных, содержащим структуры типа контейнеров для отдельных типов данных. Кроме того, метаданные указываются как данные "OAM", и компрессор 400 метаданных на фиг. 4 соответствует кодеру 400 OAM для получения сжатых данных OAM, которые вводятся в кодер 300 USAC, который, как видно на фиг. 6, дополнительно содержит выходной интерфейс для получения выходного потока данных MP4, содержащего не только кодированные данные каналов/объектов, но также сжатые данные OAM.
Фиг. 8 иллюстрирует дополнительный вариант осуществления кодера объемного аудио, где в отличие от фиг. 6 кодер SAOC может быть сконфигурирован либо для кодирования с помощью алгоритма кодирования SAOC каналов, предоставленных в устройстве 200 предварительной подготовки/микшере, не активном в этом режиме, либо, в качестве альтернативы, для SAOC-кодирования предварительно подготовленных каналов плюс объектов. Таким образом, на фиг. 8 кодер 800 SAOC может воздействовать на три разных вида входных данных, то есть каналы без каких-либо предварительно подготовленных объектов, каналы и предварительно подготовленные объекты или только объекты. Кроме того, на фиг. 8 предпочтительно предоставить дополнительный декодер 420 OAM, чтобы кодер 800 SAOC использовал для своей обработки такие же данные, как и на стороне декодера, то есть данные, полученные путем сжатия с потерями, а не исходные данные OAM.
Кодер объемного аудио из фиг. 8 может работать в нескольких отдельных режимах.
В дополнение к первому и второму режимам, которые обсуждались применительно к фиг. 4, кодер объемного аудио из фиг. 8 дополнительно может работать в третьем режиме, в котором базовый кодер формирует один или несколько транспортных каналов из отдельных объектов, когда было не активно устройство 200 предварительной подготовки/микшер. В качестве альтернативы или дополнительно в этом третьем режиме кодер 800 SAOC может формировать один или несколько альтернативных или дополнительных транспортных каналов из исходных каналов, то есть снова, когда было не активно устройство 200 предварительной подготовки/микшер, соответствующее микшеру 200 из фиг. 4.
В конечном счете кодер 800 SAOC может кодировать, когда кодер объемного аудио конфигурируется в четвертом режиме, каналы плюс предварительно подготовленные объекты, которые сформированы устройством предварительной подготовки/микшером. Таким образом, в четвертом режиме приложения с наименьшей скоростью передачи разрядов обеспечат хорошее качество благодаря тому, что каналы и объекты полностью преобразованы в отдельные транспортные каналы SAOC и ассоциированную дополнительную информацию, которая указана на фиг. 3 и 5 как "SAOC-SI", а кроме того, никакие сжатые метаданные не нужно передавать в этом четвертом режиме.
Фиг. 5 иллюстрирует декодер объемного аудио в соответствии с вариантом осуществления настоящего изобретения. Декодер объемного аудио в качестве входа принимает кодированные аудиоданные, то есть данные 501 из фиг. 4.
Декодер объемного аудио содержит декомпрессор 1400 метаданных, базовый декодер 1300, процессор 1200 объектов, контроллер 1600 режимов и постпроцессор 1700.
В частности, декодер объемного аудио конфигурируется для декодирования кодированных аудиоданных, а входной интерфейс конфигурируется для приема кодированных аудиоданных, причем кодированные аудиоданные содержат множество кодированных каналов и множество кодированных объектов и сжатых метаданных, связанных с множеством объектов в некотором режиме.
Кроме того, базовый декодер 1300 конфигурируется для декодирования множества кодированных каналов и множества кодированных объектов, а кроме того, декомпрессор метаданных конфигурируется для распаковки сжатых метаданных.
Кроме того, процессор 1200 объектов конфигурируется для обработки множества декодированных объектов, которое сформировано базовым декодером 1300, используя распакованные метаданные, чтобы получить заранее установленное количество выходных каналов, содержащих данные объектов и декодированные каналы. Эти выходные каналы, которые указаны по ссылке 1205, затем вводятся в постпроцессор 1700. Постпроцессор 1700 конфигурируется для преобразования количества выходных каналов 1205 в некий выходной формат, который может быть бинауральным выходным форматом или выходным форматом громкоговорителей, например выходным форматом 5.1, 7.1 и т. п.
Предпочтительно, чтобы декодер объемного аудио содержал контроллер 1600 режимов, который конфигурируется для анализа кодированных данных, чтобы обнаружить указание режима. Поэтому контроллер 1600 режимов на фиг. 5 подключается к входному интерфейсу 1100. Однако в качестве альтернативы контроллер режимов не обязательно должен быть там. Вместо этого гибкий аудиодекодер может предварительно настраиваться с помощью любого другого вида управляющих данных, например пользовательского ввода или любого другого управления. Декодер объемного аудио на фиг. 5, предпочтительно управляемый контроллером 1600 режимов, конфигурируется для обхода процессора объектов и подачи множества декодированных каналов в постпроцессор 1700. Это работа в режиме 2, то есть в режиме, в котором принимаются только предварительно подготовленные каналы, то есть когда в кодере объемного аудио из фиг. 4 применен режим 2. В качестве альтернативы, когда в кодере объемного аудио применен режим 1, то есть когда кодер объемного аудио выполнил кодирование отдельного канала/объекта, тогда не обходят процессор 1200 объектов, а множество декодированных каналов и множество декодированных объектов подаются в процессор 1200 объектов вместе с распакованными метаданными, сформированными декомпрессором 1400 метаданных.
Предпочтительно, чтобы указание того, нужно ли применять режим 1 или режим 2, включалось в кодированные аудиоданные, и тогда контроллер 1600 режимов анализирует кодированные данные для обнаружения указания режима. Режим 1 используется, когда указание режима указывает, что кодированные аудиоданные содержат кодированные каналы и кодированные объекты, а режим 2 применяется, когда указание режима указывает, что кодированные аудиоданные не содержат никаких аудиообъектов, то есть содержат только предварительно подготовленные каналы, полученные с помощью режима 2 в кодере объемного аудио из фиг. 4.
Фиг. 7 иллюстрирует предпочтительный вариант осуществления по сравнению с декодером объемного аудио из фиг. 5, и вариант осуществления из фиг. 7 соответствует кодеру объемного аудио из фиг. 6. В дополнение к реализации декодера объемного аудио из фиг. 5 декодер объемного аудио на фиг. 7 содержит декодер 1800 SAOC. Кроме того, процессор 1200 объектов из фиг. 5 реализуется как отдельное устройство 1210 подготовки объектов и микшер 1220, хотя в зависимости от режима функциональные возможности устройства 1210 подготовки объектов также можно реализовать с помощью декодера 1800 SAOC.
Кроме того, постпроцессор 1700 можно реализовать как устройство 1710 бинауральной подготовки или преобразователь 1720 формата. В качестве альтернативы также можно реализовать прямой вывод данных 1205 из фиг. 5, как проиллюстрировано ссылкой 1730. Поэтому предпочтительно выполнять обработку в декодере над наибольшим количеством каналов, например 22.2 или 32, чтобы обладать гибкостью, а затем проводить постобработку, если понадобится меньший формат. Однако, когда с самого начала становится понятно, что необходим только небольшой формат, например формат 5.1, то предпочтительно, как указано на фиг. 5 или 6 с помощью сокращенного пути 1727, чтобы могло применяться некоторое управление декодером SAOC и/или декодером USAC, чтобы избежать ненужных операций повышающего микширования и последующих операций понижающего микширования.
В предпочтительном варианте осуществления настоящего изобретения процессор 1200 объектов содержит декодер 1800 SAOC, и декодер SAOC конфигурируется для декодирования одного или нескольких транспортных каналов, выведенных базовым декодером, и ассоциированных параметрических данных, и использования распакованных метаданных для получения множества подготовленных аудиообъектов. С этой целью выход OAM подключается к блоку 1800.
Кроме того, процессор 1200 объектов конфигурируется для подготовки декодированных объектов, выведенных базовым декодером, которые не кодируются в транспортные каналы SAOC, а которые по отдельности кодируются обычно в одноканальные элементы, как указано устройством 1210 подготовки объектов. Кроме того, декодер содержит выходной интерфейс, соответствующий выходу 1730, для вывода результата из микшера в громкоговорители.
В дополнительном варианте осуществления процессор 1200 объектов содержит декодер 1800 пространственного кодирования аудиообъектов для декодирования одного или нескольких транспортных каналов и ассоциированной параметрической дополнительной информации, представляющей кодированные аудиосигналы или кодированные аудиоканалы, где декодер пространственного кодирования аудиообъектов конфигурируется для перекодирования ассоциированной параметрической информации и распакованных метаданных в перекодированную параметрическую дополнительную информацию, используемую для непосредственной подготовки выходного формата, например, как задано в предыдущей версии SAOC. Постпроцессор 1700 конфигурируется для вычисления аудиоканалов выходного формата с использованием декодированных транспортных каналов и перекодированной параметрической дополнительной информации. Выполняемая постпроцессором обработка может быть аналогична обработке MPEG Surround либо может быть любой другой обработкой, например обработкой BCC или чем-то в этом роде.
В дополнительном варианте осуществления процессор 1200 объектов содержит декодер 1800 пространственного кодирования аудиообъектов, сконфигурированный для непосредственного повышающего микширования и подготовки сигналов каналов для выходного формата, используя декодированные (базовым декодером) транспортные каналы и параметрическую дополнительную информацию.
Кроме того, и это важно, процессор 1200 объектов из фиг. 5 дополнительно содержит микшер 1220, который в качестве входа принимает данные, выведенные декодером 1300 USAC напрямую, когда существуют предварительно подготовленные объекты, микшированные с каналами, то есть когда был активен микшер 200 из фиг. 4. Более того, микшер 1220 принимает данные от устройства подготовки объектов, выполняющего подготовку объектов без декодирования SAOC. Кроме того, микшер принимает выходные данные декодера SAOC, то есть подготовленные объекты SAOC.
Микшер 1220 подключается к выходному интерфейсу 1730, устройству 1710 бинауральной подготовки и преобразователю 1720 формата. Устройство 1710 бинауральной подготовки конфигурируется для подготовки выходных каналов в двух бинауральных каналах, используя функции моделирования восприятия звука человеком или бинауральные импульсные характеристики помещения (BRIR). Преобразователь 1720 формата конфигурируется для преобразования выходных каналов в выходной формат, имеющий меньшее количество каналов, чем выходные каналы 1205 микшера, и преобразователю 1720 формата необходима информация о компоновке воспроизведения, например динамики 5.1 или что-то в этом роде.
Декодер объемного аудио из фиг. 9 отличается от декодера объемного аудио из фиг. 7 в том, что декодер SAOC не может формировать только подготовленные объекты, но также подготовленные каналы, и это тот случай, когда использован кодер объемного аудио из фиг. 8, и активно соединение 900 между каналами/предварительно подготовленными объектами и входным интерфейсом кодера 800 SAOC.
Кроме того, конфигурируется каскад 1810 векторного амплитудного панорамирования (VBAP), который принимает от декодера SAOC информацию о компоновке воспроизведения и который выводит матрицу подготовки в декодер SAOC, чтобы декодер SAOC в конечном счете мог предоставить подготовленные каналы без какой-либо дополнительной операции микшера в многоканальном формате 1205, то есть с 32 громкоговорителями.
Блок VBAP предпочтительно принимает декодированные данные OAM, чтобы получить матрицы подготовки. В более общем смысле это предпочтительно требует геометрической информации не только о компоновке воспроизведения, но также о положениях, где следует подготовить входные сигналы в компоновке воспроизведения. Эти геометрические входные данные могут быть данными OAM для объектов или информацией о положениях каналов для каналов, которые переданы с использованием SAOC.
Однако, если необходим только определенный выходной интерфейс, то каскад 1810 VBAP уже может предоставить необходимую матрицу подготовки, например, для выхода 5.1. Декодер 1800 SAOC затем выполняет прямую подготовку из транспортных каналов SAOC, ассоциированных параметрических данных и распакованных метаданных, прямую подготовку в необходимый выходной формат без какого-либо взаимодействия с микшером 1220. Однако, когда применяется некоторое микширование между режимами, то есть, где несколько каналов кодируются по SAOC, но не все каналы кодируются по SAOC, или где несколько объектов кодируются по SAOC, но не все объекты кодируются по SAOC, или когда только некоторое количество предварительно подготовленных объектов с каналами декодируется по SAOC, а оставшиеся каналы не обрабатываются по SAOC, тогда микшер соединит данные из отдельных входных частей, то есть напрямую из базового декодера 1300, из устройства 1210 подготовки объектов и из декодера 1800 SAOC.
Применяется следующая математическое обозначение:
NObjects - количество сигналов входных аудиообъектов
NChannels - количество входных каналов
N - количество входных сигналов;
N может быть равно NObjects, NChannels или NObjects+NChannels
NDmxCh - количество каналов понижающего микширования (обработанных)
NSamples - количество обработанных выборок данных
NOutputChannels - количество выходных каналов на стороне декодера
D - матрица понижающего микширования с размером NDmxCh × N
X - входной аудиосигнал с размером N × NSamples
EX - ковариационная матрица входных сигналов с размером N × N, заданная в виде EX=X XH
Y - аудиосигнал понижающего микширования с размером NDmxCh × NSamples, заданный в виде Y=DX
EY - ковариационная матрица сигналов понижающего микширования с размером NDmxCh × NDmxCh, заданная в виде EY=Y YH
G - матрица параметрической оценки источника с размером N × NDmxCh, которая приблизительно равна EX DH (D EX DH)-1
- параметрически восстановленные входные сигналы с размером NObjects × NSamples, которые приблизительно равны X и заданы в виде =GY
(⋅)H - самосопряженный (эрмитов) оператор, который представляет сопряженную транспозицию (⋅)
R - матрица подготовки с размером NOutputChannels × N
S - матрица формирования выходных каналов с размером NOutputChannels × NDmxCh, заданная в виде S=RG
Z - выходные каналы с размером