Принцип для кодирования и декодирования аудио для аудиоканалов и аудиообъектов

Иллюстрации

Показать все

Изобретение относится к кодированию аудио и, в частности, к пространственному кодированию аудиообъектов. Технический результат заключается в повышении эффективности сжатия при высоком качестве звука. Технический результат достигается за счет аудиокодера для кодирования входных аудиоданных, который, чтобы получать выходные аудиоданные, содержит входной интерфейс для приема множества аудиоканалов, множества аудиообъектов и метаданных, связанных с одним или более из множества аудиообъектов; микшер для сведения множества объектов и множества каналов таким образом, чтобы получать множество предварительно сведенных каналов, причем каждый предварительно сведенный канал содержит аудиоданные канала и аудиоданные по меньшей мере одного объекта; базовый кодер для базового кодирования входных данных базового кодера; и модуль сжатия метаданных для сжатия метаданных, связанных с одним или более из множества аудиообъектов. 5 н. и 19 з.п. ф-лы, 11 ил.

Реферат

Настоящее изобретение относится к кодированию/декодированию аудио и, в частности, к пространственному кодированию аудио и пространственному кодированию аудиообъектов.

Инструментальные средства пространственного кодирования аудио известны в данной области техники и стандартизированы, например, в стандарте объемного звучания MPEG. Пространственное кодирование аудио начинается с исходных входных каналов, к примеру с пяти или семи каналов, которые идентифицируются посредством их размещения в компоновке для воспроизведения, т.е. как левого канала, центрального канала, правого канала, левого канала объемного звучания, правого канала объемного звучания и канала улучшения низких частот. Пространственный аудиокодер, как правило, извлекает один или более каналов понижающего микширования из исходных каналов и, дополнительно, извлекает параметрические данные, связанные с пространственными сигнальными метками, такие как межканальные разности уровней в значениях канальной когерентности, межканальные разности фаз, межканальные разности времен и т.д. Один или более каналов понижающего микширования передаются вместе с параметрической вспомогательной информацией, указывающей пространственные сигнальные метки, в пространственный аудиодекодер, который декодирует канал понижающего микширования и ассоциированные параметрические данные, чтобы в итоге получать выходные каналы, которые являются аппроксимированной версией исходных входных каналов. Размещение каналов в выходной компоновке, как правило, является фиксированным и представляет собой, например, 5.1-формат, 7.1-формат и т.д.

Дополнительно, инструментальные средства пространственного кодирования аудиообъектов известны в данной области техники и стандартизированы в MPEG SAOC-стандарте (SAOC – пространственное кодирование аудиообъектов). В отличие от пространственного кодирования аудио, начинающегося с исходных каналов, пространственное кодирование аудиообъектов начинается с аудиообъектов, которые автоматически не выделяются для определенной компоновки для воспроизведения при рендеринге. Вместо этого, размещение аудиообъектов в сцене для воспроизведения является гибким и может определяться пользователем посредством ввода определенной информации рендеринга в декодер по стандарту пространственного кодирования аудиообъектов. Альтернативно или дополнительно, информация рендеринга, т.е. информация в отношении того, в какой позиции в компоновке для воспроизведения, как правило, должен размещаться определенный аудиообъект во времени, может передаваться в качестве дополнительной вспомогательной информации или метаданных. Чтобы получать определенное сжатие данных, определенное число аудиообъектов кодируются посредством SAOC-кодера, который вычисляет, из входных объектов, один или более транспортных каналов посредством понижающего микширования объектов в соответствии с определенной информацией понижающего микширования. Кроме того, SAOC-кодер вычисляет параметрическую вспомогательную информацию, представляющую межобъектные сигнальные метки, к примеру, разности уровней объектов (OLD), значения когерентности объектов и т.д. Аналогично SAC (SAC – пространственное кодирование аудио), межобъектные параметрические данные вычисляются для отдельных частотно-временных мозаичных фрагментов, т.е. для определенного кадра аудиосигнала, содержащего, например, 1024 или 2048 выборок, рассматриваются 24, 32 или 64 и т.д. полос частот, так что, в конечном счете, параметрические данные существуют для каждого кадра и каждой полосы частот. В качестве примера, когда аудиофрагмент имеет 20 кадров, и когда каждый кадр подразделяется на 32 полосы частот, в таком случае число частотно-временных мозаичных фрагментов равно 640.

К настоящему времени, отсутствуют гибкие технологии для комбинирования кодирования каналов, с одной стороны, и кодирования объектов, с другой стороны, таким образом, что на низких скоростях передачи битов получаются приемлемые качества звука.

Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованный принцип для кодирования аудио и декодирования аудио.

Это цель достигается посредством аудиокодера по п. 1, аудиодекодера по п. 8, способа кодирования аудио по п. 22, способа декодирования аудио по п. 23 или компьютерной программы по п. 24.

Настоящее изобретение основано на таких выявленных сведениях, что оптимальная система, гибкая, с одной стороны, и обеспечивающая хорошую эффективность сжатия при высоком качестве звука, с другой стороны, достигается посредством комбинирования пространственного кодирования аудио, т.е. канального кодирования аудио, с пространственным кодированием аудиообъектов, т.е. объектно-ориентированным кодированием. В частности, предоставление микшера для сведения объектов и каналов уже на стороне кодера обеспечивает хорошую гибкость, в частности, для вариантов применения с низкой скоростью передачи битов, поскольку любая передача объектов в таком случае может быть необязательной, либо может уменьшаться число объектов, которые должны передаваться. С другой стороны, требуется гибкость, так что аудиокодер может управляться в двух различных режимах, т.е. в режиме, в котором объекты сводятся с каналами перед подверганием базовому кодированию, тогда как в другом режиме данные объектов, с одной стороны, и данные каналов, с другой стороны, подвергаются непосредственному базовому кодированию без промежуточного сведения.

Это обеспечивает то, что пользователь может разделять обработанные объекты и каналы на стороне кодера таким образом, что полная гибкость доступна на стороне декодера, но за счет повышенной скорости передачи битов. С другой стороны, когда требования по скорости передачи битов являются более строгими, в таком случае настоящее изобретение обеспечивает возможность выполнять сведение/предварительный рендеринг уже на стороне кодера, т.е. при этом некоторые или все аудиообъекты уже сведены с каналами, так что базовый кодер кодирует только данные каналов, и не требуются биты, необходимые для передачи данных аудиообъектов в форме понижающего микширования или в форме параметрических межобъектных данных.

На стороне декодера, пользователь также имеет высокую гибкость вследствие того факта, что идентичный аудиодекодер обеспечивает возможность работы в двух различных режимах, т.е. в первом режиме, в котором осуществляется отдельное или раздельное кодирование каналов и объектов, и декодер имеет полную гибкость при рендеринге объектов и сведении с данными каналов. С другой стороны, когда сведение/предварительный рендеринг уже осуществлено на стороне кодера, декодер выполнен с возможностью осуществлять постобработку без промежуточной обработки объектов. С другой стороны, постобработка также может применяться к данным в другом режиме, т.е. когда рендеринг/сведение объектов осуществляется на стороне декодера. Таким образом, настоящее изобретение обеспечивает возможность инфраструктуры задач обработки, которая позволяет значительное многократное использование ресурсов не только на стороне кодера, но также и на стороне декодера. Постобработка может означать понижающее микширование и бинаурализацию либо любую другую обработку для того, чтобы получать конечный сценарий для каналов, такой как намеченная схема размещения для воспроизведения.

Кроме того, в случае очень низких требований по скорости передачи битов, настоящее изобретение предоставляет пользователю достаточную гибкость для того, чтобы реагировать на низкие требования по скорости передачи битов, т.е. посредством предварительного рендеринга на стороне кодера, так что несмотря на это, за счет некоторой гибкости получается очень высокое качество звука на стороне декодера вследствие того факта, что биты, которые сэкономлены без дополнительного предоставления данных объектов из кодера в декодер, могут использоваться для лучшего кодирования данных каналов, к примеру, посредством более точного квантования данных каналов либо посредством другого средства для повышения качества или для уменьшения потерь при кодировании, когда доступно достаточное число битов.

В предпочтительном варианте осуществления настоящего изобретения, кодер дополнительно содержит SAOC-кодер и, кроме того, обеспечивает возможность не только кодировать объекты, вводимые в кодер, но и также SAOC-кодировать данные каналов для того, чтобы получать высокое качество звука на еще более низких требуемых скоростях передачи битов. Дополнительные варианты осуществления настоящего изобретения обеспечивают возможность функциональности постобработки, которая содержит модуль бинаурального рендеринга и/или преобразователь форматов. Кроме того, предпочтительно, чтобы полная обработка на стороне декодера уже осуществлялась для определенного высокого числа громкоговорителей, к примеру для 22- или 32-канальной компоновки громкоговорителей. Тем не менее, в таком случае преобразователь форматов, например, определяет то, что требуется только 5.1-вывод, т.е. вывод для схемы размещения для воспроизведения, который имеет меньшее число относительно максимального числа каналов, то предпочтительно, если преобразователь форматов управляет либо USAC-декодером, либо SAOC-декодером, либо обоими устройствами таким образом, чтобы ограничивать операцию базового декодирования и операцию SAOC-декодирования, так что каналы, которые, в конечном счете все-таки микшируются с понижением в преобразование формата, не формируются при декодировании. Как правило, формирование микшированных с повышением каналов требует обработки декорреляции, и каждая обработка декорреляции вводит некоторый уровень артефактов. Следовательно, посредством управления базовым декодером и/или SAOC-декодером посредством конечного требуемого выходного формата, значительно сокращается объем дополнительной обработки декорреляции по сравнению с ситуацией, когда это взаимодействие не существует, что не только приводит к повышенному качеству звука, но также и приводит к меньшей сложности декодера и, в конечном счете, к пониженному потреблению мощности, что является особенно полезным для мобильных устройств, содержащих изобретаемый кодер или изобретаемый декодер. Тем не менее, изобретаемые кодеры/декодеры могут не только вводиться в мобильных устройствах, таких как мобильные телефоны, смартфоны, ноутбуки или навигационные устройства, но также могут использоваться в простых настольных компьютерах либо в любых других немобильных устройствах.

Вышеуказанная реализация, т.е. неформирование некоторых каналов, может быть неоптимальной, поскольку некоторая информация может быть потеряна (к примеру, разность уровней между каналами, которые микшированы с понижением). Эта информация разности уровней может не быть критически важной, но может приводить к различному выходному сигналу понижающего микширования, если понижающее микширование применяет различные усиления понижающего микширования к микшированным с повышением каналам. Усовершенствованное решение только отключает декорреляцию в повышающем микшировании, но по-прежнему формирует все каналы повышающего микширования с корректными разностями уровней (передаваемыми в служебных сигналах посредством параметрического SAC). Второе решение приводит к лучшему качеству звука, но первое решение приводит к большему снижению сложности.

Далее поясняются предпочтительные варианты осуществления относительно прилагаемых чертежей, на которых:

Фиг. 1 иллюстрирует первый вариант осуществления кодера;

Фиг. 2 иллюстрирует первый вариант осуществления декодера;

Фиг. 3 иллюстрирует второй вариант осуществления кодера;

Фиг. 4 иллюстрирует второй вариант осуществления декодера;

Фиг. 5 иллюстрирует третий вариант осуществления кодера;

Фиг. 6 иллюстрирует третий вариант осуществления декодера;

Фиг. 7 иллюстрирует карту, указывающую отдельные режимы, в которых могут работать кодеры/декодеры в соответствии с вариантами осуществления настоящего изобретения;

Фиг. 8 иллюстрирует конкретную реализацию преобразователя форматов;

Фиг. 9 иллюстрирует конкретную реализацию бинаурального преобразователя;

Фиг. 10 иллюстрирует конкретную реализацию базового декодера; и

Фиг. 11 иллюстрирует конкретную реализацию кодера для обработки четырехканального элемента (QCE) и соответствующего QCE-декодера.

Фиг. 1 иллюстрирует кодер в соответствии с вариантом осуществления настоящего изобретения. Кодер выполнен с возможностью кодирования входных аудиоданных 101, чтобы получать выходные аудиоданные 501. Кодер содержит входной интерфейс для приема множества аудиоканалов, указываемых посредством CH, и множества аудиообъектов, указываемых посредством OBJ. Кроме того, как проиллюстрировано на фиг. 1, входной интерфейс 100 дополнительно принимает метаданные, связанные с одним или более из множества аудиообъектов OBJ. Кроме того, кодер содержит микшер 200 для сведения множества объектов и множества каналов таким образом, чтобы получать множество предварительно сведенных каналов, при этом каждый предварительно сведенный канал содержит аудиоданные канала и аудиоданные по меньшей мере одного объекта.

Кроме того, кодер содержит базовый кодер 300 для базового кодирования входных данных базового кодера, модуль 400 сжатия метаданных для сжатия метаданных, связанных с одним или более из множества аудиообъектов. Кроме того, кодер может содержать контроллер 600 режима для управления микшером, базовым кодером и/или выходным интерфейсом 500 в одном из нескольких рабочих режимов, при этом в первом режиме базовый кодер выполнен с возможностью кодировать множество аудиоканалов и множество аудиообъектов, принимаемых посредством входного интерфейса 100, без взаимодействия посредством микшера, т.е. без сведения посредством микшера 200. Тем не менее, во втором режиме, в котором микшер 200 является активным, базовый кодер кодирует множество сведенных каналов, т.е. вывод, сформированный посредством блока 200. В этом втором случае, предпочтительно более не кодировать данные объектов. Вместо этого, метаданные, указывающие позиции аудиообъектов, уже использованы посредством микшера 200 для того, чтобы подготавливать посредством рендеринга объекты для каналов, как указано посредством метаданных. Другими словами, микшер 200 использует метаданные, связанные с множеством аудиообъектов, для того чтобы предварительно подготавливать посредством рендеринга аудиообъекты, и затем предварительно подготовленные посредством рендеринга аудиообъекты сводятся с каналами для того, чтобы получать сведенные каналы в выводе микшера. В этом варианте осуществления, любые объекты не обязательно могут передаваться, и это также применимо для сжатых метаданных в качестве вывода посредством блока 400. Тем не менее, если сводятся не все объекты, вводимые в интерфейс 100, а сводится только определенное количество объектов, то несмотря на это, только оставшиеся несведенные объекты и ассоциированные метаданные передаются в базовый кодер 300 или модуль 400 сжатия метаданных, соответственно.

Фиг. 3 иллюстрирует дополнительный вариант осуществления кодера, который, дополнительно, содержит SAOC-кодер 800. SAOC-кодер 800 выполнен с возможностью формирования одного или более транспортных каналов и параметрических данных из входных данных кодера пространственных аудиообъектов. Как проиллюстрировано на фиг. 3, входные данные кодера пространственных аудиообъектов представляют собой объекты, которые не обработаны посредством модуля предварительного рендеринга/микшера. Альтернативно, при условии, что модуль предварительного рендеринга/микшер обходится, аналогично режиму один, в котором отдельное кодирование каналов/объектов является активным, все объекты, вводимые во входной интерфейс 100, кодируются посредством SAOC-кодера 800.

Кроме того, как проиллюстрировано на фиг. 3, базовый кодер 300 предпочтительно реализован в качестве USAC-кодера, т.е. в качестве кодера, заданного и стандартизированного в MPEG USAC-стандарте (USAC – стандартизированное кодирование речи и аудио). Вывод всего кодера, проиллюстрированный на фиг. 3, представляет собой MPEG4-поток данных, имеющий структуры в форме контейнера для отдельных типов данных. Кроме того, метаданные указываются в качестве OAM-данных, и модуль 400 сжатия метаданных на фиг. 1 соответствует OAM-кодеру 400 для того, чтобы получать сжатые OAM-данные, которые вводятся в USAC-кодер 300 который, как можно видеть на фиг. 3, дополнительно содержит выходной интерфейс, чтобы получать выходной MP4-поток данных, имеющий не только кодированные данные каналов/объектов, но также и имеющий сжатые OAM-данные.

Фиг. 5 иллюстрирует дополнительный вариант осуществления кодера, в котором, в отличие от фиг. 3, SAOC-кодер может быть выполнен с возможностью либо кодировать, с помощью алгоритма SAOC-кодирования, каналы, предоставленные в модуле 200 предварительного рендеринга/микшере, не активные в этом режиме, либо, альтернативно, SAOC-кодировать предварительно подготовленные посредством рендеринга каналы плюс объекты. Таким образом, на фиг. 5, SAOC-кодер 800 может управлять тремя различными видами входных данных, т.е. каналами без предварительно подготовленных посредством рендеринга объектов, каналами и предварительно подготовленными посредством рендеринга объектами либо только объектами. Кроме того, предпочтительно предоставлять дополнительный OAM-декодер 420 на фиг. 5, так что SAOC-кодер 800 использует, для своей обработки, данные, идентичные данным на стороне декодера, т.е. данные, полученные посредством сжатия с потерями, а не исходные OAM-данные.

Кодер по фиг. 5 может работать в нескольких отдельных режимах.

В дополнение к первому и второму режимам, как пояснено в контексте фиг. 1, кодер по фиг. 5 дополнительно может работать в третьем режиме, в котором базовый кодер формирует один или более транспортных каналов из отдельных объектов, когда модуль 200 предварительного рендеринга/микшер не является активным. Альтернативно или дополнительно, в этом третьем режиме, SAOC-кодер 800 может формировать один или более альтернативных или дополнительных транспортных каналов из исходных каналов, т.е. так же тогда, когда модуль 200 предварительного рендеринга/микшер, соответствующий микшеру 200 по фиг. 1, не является активным.

В завершение, SAOC-кодер 800 может кодировать, когда кодер сконфигурирован в четвертом режиме, каналы плюс предварительно подготовленные посредством рендеринга объекты, сформированные посредством модуля предварительного рендеринга/микшера. Таким образом, в четвертом режиме, варианты применения с наименьшей скоростью передачи битов должны предоставлять хорошее качество вследствие того факта, что каналы и объекты полностью преобразованы в отдельные транспортные SAOC-каналы и ассоциированную вспомогательную информацию, как указано на фиг. 3 и 5 в качестве "SAOC-SI", и дополнительно, сжатые метаданные не должны обязательно передаваться в этом четвертом режиме.

Фиг. 2 иллюстрирует декодер в соответствии с вариантом осуществления настоящего изобретения. Декодер принимает, в качестве ввода, кодированные аудиоданные, т.е. данные 501 по фиг. 1.

Декодер содержит модуль 1400 распаковки метаданных, базовый декодер 1300, процессор 1200 объектов, контроллер 1600 режима и постпроцессор 1700.

В частности, аудиодекодер выполнен с возможностью декодирования кодированных аудиоданных, и входной интерфейс выполнен с возможностью приема кодированных аудиоданных, причем кодированные аудиоданные содержат множество кодированных каналов и множество кодированных объектов, а также сжатые метаданные, связанные с множеством объектов в определенном режиме.

Кроме того, базовый декодер 1300 выполнен с возможностью декодирования множества кодированных каналов и множества кодированных объектов, и дополнительно, модуль распаковки метаданных выполнен с возможностью распаковки сжатых метаданных.

Кроме того, процессор 1200 объектов выполнен с возможностью обработки множества декодированных объектов, сформированных посредством базового декодера 1300 с использованием распакованных метаданных, чтобы получать предварительно определенное число выходных каналов, содержащих данные объектов и декодированные каналы. Эти выходные каналы, как указано на 1205, затем вводятся в постпроцессор 1700. Постпроцессор 1700 выполнен с возможностью преобразования определенного числа выходных каналов 1205 в определенный выходной формат, который может представлять собой бинауральный выходной формат или выходной формат громкоговорителей, такой как выходной 5.1-, 7.1- и т.д. формат.

Предпочтительно, декодер содержит контроллер 1600 режима, который выполнен с возможностью анализа кодированных данных, чтобы обнаруживать индикатор режима. Следовательно, контроллер 1600 режима соединяется с входным интерфейсом 1100 на фиг. 2. Тем не менее, альтернативно, контроллер режима необязательно должен предоставляться здесь. Вместо этого, гибкий декодер может быть предварительно установлен посредством любого другого вида управляющих данных, таких как пользовательский ввод или любое другое управление. Аудиодекодер на фиг. 2, предпочтительно управляемый посредством контроллера 1600 режима, выполнен с возможностью обходить процессор объектов и подавать множество декодированных каналов в постпроцессор 1700. Это представляет собой работу в режиме 2, т.е. в котором принимаются только предварительно подготовленные посредством рендеринга каналы, т.е. когда режим 2 применяется в кодере по фиг. 1. Альтернативно, когда режим 1 применяется в кодере, т.е. когда кодер выполняет отдельное кодирование каналов/объектов, в таком случае процессор 1200 объектов не обходится, но множество декодированных каналов и множество декодированных объектов подаются в процессор 1200 объектов вместе с распакованными метаданными, сформированными посредством модуля 1400 распаковки метаданных.

Предпочтительно, индикатор того, должен применяться режим 1 или режим 2, включен в кодированные аудиоданные, и затем контроллер 1600 режима анализирует кодированные данные, чтобы обнаруживать индикатор режима. Режим 1 используется, когда индикатор режима указывает то, что кодированные аудиоданные содержат кодированные каналы и кодированные объекты, и режим 2 применяется, когда индикатор режима указывает то, что кодированные аудиоданные не содержат аудиообъекты, т.е. содержат только предварительно подготовленные посредством рендеринга каналы, полученные посредством режима 2 кодера по фиг. 1.

Фиг. 4 иллюстрирует предпочтительный вариант осуществления по сравнению с декодером по фиг. 2, и вариант осуществления по фиг. 4 соответствует кодеру по фиг. 3. В дополнение к реализации декодера по фиг. 2, декодер на фиг. 4 содержит SAOC-декодер 1800. Кроме того, процессор 1200 объектов по фиг. 2 реализуется как отдельный модуль 1210 рендеринга объектов и микшер 1220, в то время как, в зависимости от режима, функциональность модуля 1210 рендеринга объектов также может реализовываться посредством SAOC-декодера 1800.

Кроме того, постпроцессор 1700 может реализовываться как модуль 1710 бинаурального рендеринга или преобразователь 1720 форматов. Альтернативно, прямой вывод данных 1205 по фиг. 2 также может реализовываться так, как проиллюстрировано посредством 1730. Следовательно, предпочтительно выполнять обработку в декодере для наибольшего числа каналов, к примеру, 22.2 или 32, с тем чтобы получать гибкость, а затем постобрабатывать, если требуется меньший формат. Тем не менее, когда становится очевидным с самого начала, что требуется только небольшой формат, такой как 5.1-формат, то предпочтительно, как указано посредством фиг. 2 или 6 посредством срезки 1727, когда определенное управление SAOC-декодером и/или USAC-декодером может применяться во избежание необязательных операций повышающего микширования и последующих операций понижающего микширования.

В предпочтительном варианте осуществления настоящего изобретения, процессор 1200 объектов содержит SAOC-декодер 1800, и SAOC-декодер выполнен с возможностью декодирования одного или более транспортных каналов, выводимых посредством базового декодера, и ассоциированных параметрических данных и с использованием распакованных метаданных, чтобы получать множество подготовленных посредством рендеринга аудиообъектов. С этой целью, OAM-вывод соединяется с блоком 1800.

Кроме того, процессор 1200 объектов выполнен с возможностью подготавливать посредством рендеринга декодированные объекты, выводимые посредством базового декодера, которые не кодируются в транспортных SAOC-каналах, а которые по отдельности кодируются, как правило, в одноканальных элементах, как указано посредством модуля 1210 рендеринга объектов. Кроме того, декодер содержит выходной интерфейс, соответствующий выходу 1730, для вывода содержимого вывода микшера в громкоговорители.

В дополнительном варианте осуществления, процессор 1200 объектов содержит декодер 1800 по стандарту пространственного кодирования аудиообъектов для декодирования одного или более транспортных каналов и ассоциированной параметрической вспомогательной информации, представляющей кодированные аудиообъекты или кодированные аудиоканалы, при этом декодер по стандарту пространственного кодирования аудиообъектов выполнен с возможностью транскодировать ассоциированную параметрическую информацию и распакованные метаданные в транскодированную параметрическую вспомогательную информацию, применимую для непосредственного рендеринга выходного формата, например, как задано в более ранней версии SAOC. Постпроцессор 1700 выполнен с возможностью вычисления аудиоканалов выходного формата с использованием декодированных транспортных каналов и транскодированной параметрической вспомогательной информации. Обработка, выполняемая посредством постпроцессора, может быть аналогичной обработке на основе стандарта объемного звучания MPEG или может представлять собой любую другую обработку, к примеру, BCC-обработку и т.п.

В дополнительном варианте осуществления, процессор 1200 объектов содержит декодер 1800 по стандарту пространственного кодирования аудиообъектов, выполненный с возможностью непосредственно микшировать с повышением и подготавливать посредством рендеринга сигналы каналов для выходного формата с использованием декодированных (посредством базового декодера) транспортных каналов и параметрической вспомогательной информации.

Кроме того, важно то, что процессор 1200 объектов по фиг. 2 дополнительно содержит микшер 1220, который принимает, в качестве ввода, непосредственно данные, выводимые посредством USAC-декодера 1300, когда существуют предварительно подготовленные посредством рендеринга объекты, сведенные с каналами, т.е. когда микшер 200 по фиг. 1 является активным. Дополнительно, микшер 1220 принимает данные из модуля рендеринга объектов, выполняющего рендеринг объектов без SAOC-декодирования. Кроме того, микшер принимает выходные данные SAOC-декодера, т.е. подготовленные посредством SAOC-рендеринга объекты.

Микшер 1220 соединяется с выходным интерфейсом 1730, модулем 1710 бинаурального рендеринга и преобразователем 1720 форматов. Модуль 1710 бинаурального рендеринга выполнен с возможностью рендеринга выходных каналов в два бинауральных канала с использованием передаточных функций восприятия звука человеком или бинауральных импульсных характеристик в помещении (BRIR). Преобразователь 1720 форматов выполнен с возможностью преобразования выходных каналов в выходной формат, имеющий меньшее число каналов относительно выходных каналов 1205 микшера, и преобразователь 1720 форматов запрашивает информацию по схеме размещения для воспроизведения, такую как 5.1-динамики и т.п.

Декодер по фиг. 6 отличается от декодера фиг. 4 тем, что SAOC-декодер может не только формировать подготовленные посредством рендеринга объекты, но также и подготовленные посредством рендеринга каналы, и это имеет место, когда использован кодер по фиг. 5, и соединение 900 между каналами/предварительно подготовленными посредством рендеринга объектами и входным интерфейсом SAOC-кодера 800 является активным.

Кроме того, сконфигурирован каскад 1810 векторного амплитудного панорамирования (VBAP), который принимает, из SAOC-декодера, информацию относительно схемы размещения для воспроизведения и который выводит матрицу рендеринга в SAOC-декодер таким образом, что SAOC-декодер может, в конечном счете, предоставлять подготовленные посредством рендеринга каналы без дальнейшей работы микшера в формате с большим числом каналов 1205, т.е. с 32 громкоговорителями.

VBAP-блок предпочтительно принимает декодированные OAM-данные, чтобы извлекать матрицы рендеринга. Обобщая, он предпочтительно запрашивает геометрическую информацию не только схемы размещения для воспроизведения, но также и позиций, в которых входные сигналы должны подготавливаться посредством рендеринга в схеме размещения для воспроизведения. Это геометрические входные данные могут быть OAM-данными для объектов или информацией позиций каналов для каналов, которые переданы с использованием SAOC.

Тем не менее, если требуется только конкретный выходной интерфейс, то VBAP-состояние 1810 уже может предоставлять требуемую матрицу рендеринга, например, для 5.1-вывода. SAOC-декодер 1800 затем выполняет прямой рендеринг из транспортных SAOC-каналов, ассоциированных параметрических данных и распакованных метаданных, прямой рендеринг в требуемый выходной формат без взаимодействия микшера 1220. Тем не менее, когда применяется определенное сведение между режимами, т.е. если SAOC-кодируются несколько каналов, а не все каналы SAOC-кодируются, либо если SAOC-кодируются несколько объектов, а не все объекты SAOC-кодируются, либо когда SAOC-декодируется только определенное количество предварительно подготовленных посредством рендеринга объектов с каналами, и оставшиеся каналы не SAOC-обрабатываются, то микшер объединяет данные из отдельных входных частей, т.е. непосредственно из базового декодера 1300, из модуля 1210 рендеринга объектов и из SAOC-декодера 1800.

Далее поясняется фиг. 7 для указания определенных режимов кодера/декодера, которые могут применяться посредством изобретаемого принципа сверхгибкого высококачественного аудиокодера/декодера.

В соответствии с первым режимом кодирования, микшер 200 в кодере по фиг. 1 обходится, и в силу этого процессор объектов в декодере по фиг. 2 не обходится.

Во втором режиме, микшер 200 на фиг. 1 является активным, и процессор объектов на фиг. 2 обходится.

Затем в третьем режиме кодирования, SAOC-кодер по фиг. 3 является активным, но только SAOC-кодирует объекты, а не каналы либо каналы, выводимые посредством микшера. Следовательно, режим 3 требует того, чтобы, на стороне декодера, проиллюстрированной на фиг. 4, SAOC-декодер был активным только для объектов и формировал подготовленные посредством рендеринга объекты.

В четвертом режиме кодирования, как проиллюстрировано на фиг. 5, SAOC-кодер выполнен с возможностью SAOC-кодирования предварительно подготовленных посредством рендеринга каналов, т.е. микшер является активным, аналогично второму режиму. На стороне декодера, SAOC-декодирование выполняется для предварительно подготовленных посредством рендеринга объектов таким образом, что процессор объектов обходится, аналогично второму режиму кодирования.

Кроме того, существует пятый режим кодирования, который может представлять собой любое сведение режимов 1-4. В частности, режим кодирования со сведением существует, когда микшер 1220 на фиг. 6 принимает каналы непосредственно из USAC-декодера и, дополнительно, принимает каналы с предварительно подготовленными посредством рендеринга объектами из USAC-декодера. Кроме того, в этом режиме сведенного кодирования, объекты кодируются непосредственно, предпочтительно, с использованием одноканального элемента USAC-декодера. В этом контексте, модуль 1210 рендеринга объектов затем должен подготавливать посредством рендеринга эти декодированные объекты и перенаправлять их в микшер 1220. Кроме того, несколько объектов дополнительно кодируются посредством SAOC-кодера таким образом, что SAOC-декодер должен выводить подготовленные посредством рендеринга объекты в микшер и/или подготовленные посредством рендеринга каналы, когда существуют несколько каналов, кодированных посредством SAOC-технологии.

Каждая входная часть микшера 1220 в таком случае в качестве примера может иметь по меньшей мере потенциал для приема определенного числа каналов, к примеру 32, как указано на 1205. Таким образом, по существу, микшер может принимать 32 канала из USAC-декодера и, дополнительно, 32 предварительно подготовленных посредством рендеринга/сведенных канала из USAC-декодера, и дополнительно, 32 "канала" из модуля рендеринга объектов, и дополнительно, 32 "канала" из SAOC-декодера, причем каждый "канал" между блоками 1210 и 1218, с одной стороны, и блоком 1220, с другой стороны, имеет долю соответствующих объектов в соответствующем канале громкоговорителя, и после этого микшер 1220 сводит, т.е. суммирует отдельные доли для каждого канала громкоговорителя.

В предпочтительном варианте осуществления настоящего изобретения, система кодирования/декодирования основана на MPEG-D USAC-кодеке для кодирования сигналов каналов и объектов. Чтобы повышать эффективность для кодирования большого количества объектов, адаптирована MPEG SAOC-технология. Три типа модулей рендеринга выполняют задачу рендеринга объектов в каналы, рендеринга каналов в наушники или рендеринга каналов в различную компоновку громкоговорителей. Когда сигналы объектов явно передаются или параметрически кодируются с использованием SAOC, соответствующая информация метаданных объектов сжимается и мультиплексируется в кодированные выходные данные.

В варианте осуществления, модуль 200 предварительного рендеринга/микшер используется для того, чтобы преобразовывать сцену ввода каналов плюс объектов в сцену каналов перед кодированием. Функционально, он является идентичным комбинации модуля рендеринга объектов/микшера на стороне декодера, как проиллюстрировано на фиг. 4 или фиг. 6 и как указано посредством процессора 1200 объектов по фиг. 2. Предварительный рендеринг объектов обеспечивает детерминированную энтропию сигналов на входе кодера, которая является по существу независимой от числа одновременно активных сигналов объектов. При предварительном рендеринге объектов, не требуется передача метаданных объектов. Сигналы дискретных объектов подготовлены посредством рендеринга в схему размещения каналов, которую кодер выполнен с возможностью использовать. Весовые коэффициенты объектов для каждого канала получаются из ассоциированных метаданных объектов (OAM), как указано посредством стрелки 402.

В качестве базового кодера/декодера для сигналов каналов громкоговорителя, сигналов дискретных объектов, сигналов понижающего микширования объектов и предварительно подготовленных посредством рендеринга сигналов, предпочитается USAC-технология. Он обрабатывает кодирование множества сигналов посредством создания информации преобразования каналов и объектов (геометрической и семантической информации назначения входных каналов и объектов). Эта информация преобразования описывает то, как входные каналы и объекты преобразуются в канальные USAC-элементы, как проиллюстрировано на фиг. 10, т.е. в элементы канальных пар (CPE), одноканальные элементы (SCE), элементы канальных четверок (QCE), и соответствующая информация передается в базовый декодер из базового кодера. Все дополнительные рабочие данные, такие как SAOC-данные или метаданные объектов, проходят через расширенные элементы и учитываются при управлении скоростью кодера.

Кодирование объектов является возможным различными способами, в зависимости от требований по искажению в зависимости от скорости передачи и требований по интерактивности для модуля рендеринга. Следующие варианты кодирования объектов являются возможными.

Предварительно подготовленные посредством рендеринга объекты: Сигналы объектов предварительно подготавливаются посредством рендеринга и сводятся в 22.2-канальные сигналы перед кодированием. Последующая цепочка кодирования видит 22.2-канальные сигналы.

Формы сигналов дискретных объектов: Объекты пре