Кодирование и декодирование аудиосигналов

Иллюстрации

Показать все

Изобретение относится к кодированию/декодированию множества аудиосигналов. Технический результат изобретения заключается в обеспечении улучшенной масштабируемости, особенно при более высоких скоростях передачи данных. Кодер (1201) содержит селектор (1303), который выбирает подмножество частотно-временных сегментов, которые должны быть подвержены понижающему микшированию, и подмножество сегментов, которые должны быть без понижающего микширования. Генерируется указание понижающего микширования, которое указывает, закодированы ли сегменты как сведенные закодированные сегменты или как сегменты без понижающего микширования. Закодированный сигнал, содержащий закодированные сегменты и указание понижающего микширования, подается на декодер (1203), который включает в себя приемник (1401) для приема сигнала. Генератор (1403) генерирует выходные сигналы из закодированных частотно-временных сегментов, причем генерирование выходных сигналов включает в себя повышающее микширование для сегментов, которые указаны указанием понижающего микширования как закодированные полученные понижающим микшированием сегменты. 5 н. и 11 з.п. ф-лы, 17 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Изобретение относится к кодированию и/или декодированию множества аудиосигналов и в частности, но не исключительно, к кодированию и декодированию множества аудиообъектов.

УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯ

Цифровое кодирование различных сигналов источника становится все более важным в последние десятилетия по мере того как представление и связь на основе цифрового сигнала все более замещает аналоговое представление и связь. Например, аудиоконтент, такой как речь и музыка, все более основан на кодировании цифрового контента.

Форматы аудиокодирования были разработаны для обеспечения более эффективных, разнообразных и гибких аудио услуг и в частности были разработаны форматы аудиокодирования, поддерживающие услуги пространственного аудио.

Общеизвестные технологии кодирования пространственного аудио, подобные DTS и Dolby Digital, создают закодированный многоканальный аудиосигнал, который представляет собой пространственный образ в качестве некоторого количества каналов, которые размещены вокруг слушателя в фиксированных позициях. Для структуры громкоговорителей, которая отличается от структуры, которая соответствует многоканальному сигналу, пространственный образ будет не оптимальным. Также, эти основанные на канале системы аудиокодирования, как правило, не способны справляться с отличным количеством громкоговорителей.

Подход таких обычных подходов иллюстрируется на Фиг. 1 (где буква c относится к аудиоканалу). Входные каналы (например, 5.1 каналы) предоставляются кодеру, который выполняет матрицирование для использования межканальных зависимостей, с последующим кодированием матрицированного сигнала в битовый поток. В дополнение, информация о матрицировании также может быть передана декодеру, как часть битового потока. На стороне декодера этот процесс реверсируется.

Стандарт MPEG Surround предоставляет инструмент кодирования многоканального аудио, который обеспечивает возможность расширения существующих основанных на моно или стерео кодеров для приложений многоканального аудио. Фиг. 2 иллюстрирует пример элементов системы стандарта MPEG Surround. Используя пространственные параметры, получаемые посредством анализа исходного многоканального ввода, декодер стандарта MPEG Surround может воссоздать пространственный образ посредством управляемого разведения моно- или стерео сигнала для получения многоканального выходного сигнала.

Поскольку пространственный образ многоканального входного сигнала является параметризированным, стандарт MPEG Surround обеспечивает возможность декодирования того же многоканального битового потока устройствами рендеринга, которые не используют многоканальную структуру громкоговорителей. Примером является виртуальное окружающее воспроизведение в головных телефонах, которое именуется процессом бинаурального декодирования MPEG Surround. В этом режиме реалистичное окружающее восприятие может быть обеспечено при использовании обыкновенных головных телефонов. Другим примером является преобразование многоканальных выходных данных более высокого порядка, например, 7.1 каналов, в структуры более низкого порядка, например, 5.1 каналы.

Подход стандарта MPEG Surround (и аналогичные подходы параметрического многоканального кодирования, такой как Бинауральное Кодирование с Метками или Параметрическое Стерео) иллюстрируется на Фиг. 3. В противоположность подходу дискретного кодирования или кодирования по форме волны, осуществляется понижающее микширование входных каналов (например, в сигнал стерео микширования). Это понижающее микширование (downmix) затем кодируется, используя традиционные методики кодирования, такие как кодеки семейства AAC. В дополнение к кодированному понижающему микшированию, в битовом потоке также передается представление пространственного образа. Декодер реверсирует процесс.

Для того, чтобы обеспечить более гибкое представление аудио, MPEG стандартизировал формат, известный как ‘Spatial Audio Object Coding’ (MPEG-D SAOC). В противоположность системам кодирования многоканального аудио, таким как DTS, Dolby Digital и MPEG Surround, SAOC обеспечивает эффективное кодирование отдельных аудиообъектов, а не аудиоканалов. Тогда как в стандарте MPEG Surround, каждый канал громкоговорителя может быть рассмотрен, как происходящий из разного рода смеси звуковых объектов, SAOC обеспечивает доступность отдельных звуковых объектов на стороне декодера для интерактивного манипулирования, как иллюстрируется на Фиг. 4. В SAOC, несколько звуковых объектов кодируются в моно или стерео понижающее микширование совместно с параметрическими данными, что позволяет извлекать звуковые объекты на стороне рендеринга, тем самым предоставляя возможность манипулирования отдельными аудиообъектами, например, конечному пользователю.

На самом деле, аналогично стандарту MPEG Surround, SAOC также создает моно или стерео понижающее микширование. В дополнение вычисляются и включаются параметры объекта. На стороне декодера, пользователь может манипулировать этими параметрами для управления различными особенностями отдельных объектов, такими как позиция, уровень, коррекция, или даже применять эффекты, такие как реверберация. Фиг. 5 иллюстрирует интерактивный интерфейс, который предоставляет пользователю возможность управления отдельными объектами в битовом потоке SAOC. Посредством матрицы рендеринга отдельные звуковые объекты отображаются в каналах громкоговорителей.

Фиг. 6 предоставляет высокоуровневую структурную схему параметрического подхода SAOC (или подобных систем кодирования объекта). Осуществляется понижающее микшированием сигналов (o) объекта и кодирование результирующего понижающего микширования. В дополнение, параметрические данные объекта передаются в битовом потоке, связывая отдельные объекты с понижающим микшированием. На стороне декодера, объекты декодируются и выполняется рендеринг по каналам, в соответствии с конфигурацией громкоговорителей. Как правило, в таком подходе, более эффективным является объединение декодирования объектов и рендеринга громкоговорителя.

Вариация и гибкость в конфигурациях рендеринга, используемых для рендеринга пространственного звука, значительно возросли в последние годы, так как основному потребителю становится доступно все больше и больше форматов воспроизведения. Это требует гибкого представления аудио. Важные этапы были предприняты в отношении внедрения кодека MPEG Surround. Все же, аудио все еще создается и передается для конкретной структуры громкоговорителей. Воспроизведение через отличные структуры и через нестандартные структуры (т.е., гибкие или определяемые пользователем) структуры громкоговорителей не определено.

Эта проблема может быть частично решена посредством SAOC, который передает аудиообъекты вместо воспроизведения каналов. Это позволяет стороне декодера размещать аудиообъекты в произвольных позициях в пространстве, при условии, что пространство в достаточной мере охватывается громкоговорителями. Таким образом, отсутствует зависимость между передаваемым аудио и структурой воспроизведения, следовательно, могут быть использованы произвольные структуры громкоговорителей. Это является преимуществом для, например, структур домашнего кинотеатра в типичной гостиной, где громкоговорители почти никогда не находятся в предназначенных позициях из-за планировки гостиной. В SAOC, на стороне декодера принимается решение о том, где размещаются объекты в звуковой сцене. Это часто не желательно с художественной точки зрения, и вследствие этого стандарт SAOC не предоставляет способов для передачи матрицы рендеринга по умолчанию в битовом потоке, исключая ответственность декодера. Эти матрицы рендеринга вновь привязаны к конкретным конфигурациям громкоговорителей.

В SAOC, в результате понижающего микширования, извлечение объекта работает лишь в некоторых границах. Как правило, невозможно извлечь один объект с достаточно высоким отделением от других объектов для воспроизведения без других объектов, например, в случае использования Караоке. Кроме того, из-за параметризации, технология SAOC не очень хорошо масштабируется с битовой скоростью. В частности, подход в виде понижающего микширования и извлечения (повышающего микширования) аудиообъектов приводит к некоторой неотъемлемой потере информации, которая не полностью компенсируется даже при очень высоких битовых скоростях. Таким образом, даже при увеличении битовой скорости, результирующее качество аудио, как правило, снижено и не позволяет обеспечить полную прозрачность операций кодирования/декодирования.

Для решения этой проблемы, SAOC поддерживает так называемое остаточное кодирование, которое может быть применено для ограниченного набора объектов (вплоть до и включая 4, которые были проектным выбором). Остаточное кодирование в основном передает дополнительные компоненты битового потока, которые кодируют сигналы ошибки (включая перекрестные помехи от других объектов на тот объект) так что ограниченное количество объектов может быть извлечено с высокой степенью отделения объекта. Остаточные компоненты формы волны могут доставляться вплоть до конкретной частоты, так что качество может повышаться постепенно. Таким образом, результирующий объект является комбинацией параметрического компонента и компонента формы волны.

Другая спецификация для аудиоформата применительно к 3D аудио разрабатывается Альянсом 3D Аудио (3DAA), который является промышленным альянсом, инициированным SRS (Система Восстановления Звука) Labs. Назначение 3DAA состоит в разработке стандартов для передачи 3D аудио, которые «будет способствовать переходу от настоящей парадигмы подачи на громкоговоритель к гибкому, основанному на объекте, подходу». В 3DAA, должен быть определен формат битового потока, который обеспечивает передачу традиционного многоканального понижающего микширования с отдельными звуковыми объектами. В дополнение, включаются данные позиционирования объекта. Принцип генерирования аудиопотока 3DAA иллюстрируется на Фиг. 7.

В подходе 3DAA, звуковые объекты принимаются по-отдельности в потоке расширения, и они могут быть извлечены из многоканального понижающего микширования. Рендеринг результирующего многоканального понижающего микширования выполняется совместно с доступными по-отдельности объектами.

В 3DAA, многоканальный опорный сигнал микширования (mix) может быть передан вместе с выбором аудиообъектов. 3DAA передает 3D позиционные данные для каждого объекта. Объекты затем могут быть извлечены, используя 3D позиционные данные. В качестве альтернативы, может быть передана обратная матрица микширования, описывающая зависимость между объектами и опорным сигналом микширования. Иллюстрация Фиг. 6 может быть рассмотрена как также соответствующая подходу 3DAA.

Оба подхода SAOC и 3DAA включают в себя передачу отдельных аудиообъектов, которыми можно по-отдельности манипулировать на стороне декодера. Разница между двумя подходами состоит в том, что SAOC предоставляет информацию об аудиообъектах путем предоставления параметров, характеризующих объекты относительно понижающего микширования (т.е. таким образом, что аудиообъекты генерируются из понижающего микширования на стороне декодера), тогда как 3DAA предоставляет аудиообъекты в качестве полных и отдельных аудиообъектов (т.е., которые могут быть сгенерированы независимо от понижающего микширования на стороне декодера).

В MPEG в разработке находится новый рабочий элемент применительно к 3D Аудио. Он именуется MPEG-3D Аудио и предназначен стать частью набора MPEG-H наряду с кодированием видео HEVC и системами DASH. Фиг. 8 иллюстрирует настоящую высокоуровневую структурную схему предназначенной системы MPEG-3D Аудио.

В дополнение к традиционному основанному на канале формату, подход предназначен также поддерживать основанный на объекте и основанный на сцене форматы. Важным аспектом системы является то, что ее качество должно масштабироваться до прозрачности применительно к увеличивающейся битовой скорости, т.е., по мере того как увеличивается скорость передачи данных, ухудшение, вызываемое кодированием и декодированием, должно продолжать уменьшаться до тех пор, пока оно не станет несущественным. Тем не менее, такое требование, как правило, проблематично применительно к методикам параметрического кодирования, которые в достаточно большой степени использовались в прошлом (а именно в HE-AAC v2, MPEG Surround, SAOC, USAC). В частности, компенсация потери информации для отдельных сигналов имеет тенденцию не полностью компенсироваться параметрическими данными даже при очень высоких битовых скоростях. В самом деле, качество будет ограничиваться качеством, которое присуще параметрической модели.

Кроме того, MPEG-3D Аудио стремится предоставить результирующий битовый поток, который является независимым от структуры воспроизведения. Предполагаемые возможности воспроизведения включают в себя гибкие структуры громкоговорителей вплоть до 22.2 каналов, как, впрочем, и виртуальное окружение через головные телефоны и близко расположенные громкоговорители.

Другой подход известен как DirAC - Направленное Кодирование Аудио (DirAC), который подобен MPEG Surround и SAOC в том смысле, что понижающее микширование передается наряду с параметрами, что позволяет воспроизводить пространственный образ на стороне синтеза. В DirAC эти параметры представляют собой результаты анализа направления и диффузности (азимут, высоту и диффузность Ψ(t/f)). Во время синтеза понижающее микширование динамически делится на два потока, один, который соответствует не-диффузному звуку (весовой коэффициент ), а другой, который соответствует диффузному звуку (весовой коэффициент ). Не диффузный звуковой поток воспроизводится с помощью методики направленной на точечные источники звука, а диффузный звуковой поток с помощью методик направленных на восприятие заметного направления с отсутствующим звуком. Подход DirAC иллюстрируется на Фиг. 9.

DirAC может считаться системой кодирования/декодирования основанной на записи в соответствии с подходом на Фиг. 10. В системе, кодируются сигналы (m) микрофона. Это может, например, быть выполнено аналогично параметрическому подходу, используя понижающее микширование и кодирование пространственной информации. На декодере, сигналы микрофона могут быть восстановлены, и на основании предоставленной конфигурации громкоговорителей, может быть выполнен рендеринг сигналов микрофона по каналам. Следует отметить, что по причинам эффективности, процесс декодирования и рендеринг может быть интегрирован в одном этапе.

В документе «The continuity illusion revisited: coding of multiple concurrent sound sources», M. Kelly и др. Proc.MPCA-2002, Левен, Бельгия, 15 ноября 2002 г., предлагается не использовать параметрическое кодирование и понижающее микширование, а вместо этого кодировать отдельные аудиообъекты по-отдельности, используя дискретное кодирование или кодирование по форме волны. Подход иллюстрируется на Фиг. 11. Как иллюстрируется, все объекты кодируются одновременно и передаются на декодер. На стороне декодера, объекты декодируются и выполняется их рендеринг в соответствии с конфигурацией громкоговорителей по каналам. Подход может обеспечить улучшенное качество аудио, и в частности обладает потенциалом масштабирования до прозрачности. Тем не менее, система не обеспечивает значительной эффективности кодирования и требует относительно высоких скоростей передачи данных даже для низкого качества аудио.

Таким образом, существует некоторое количество разных подходов, которые пытаются обеспечить эффективное кодирование аудио.

В наши дни аудиоконтент совместно используется растущим числом разных устройств воспроизведения. Например, аудио может восприниматься через головные телефоны, небольшие громкоговорители, через док-станцию, и/или используя различные многоканальные структуры. Применительно к многоканальным структурам, рекомендуемая ITU 5.1 структура громкоговорителей, которая условно предполагается в качестве номинальной структуры громкоговорителей, часто даже приблизительно не применяется при рендеринге аудиоконтента. Например, точное позиционирование пяти пространственных громкоговорителей в соответствии со структурой часто встречается в типичной гостиной. Громкоговорители размещаются в удобных местоположениях вместо того, чтобы размещаться под рекомендуемыми углами и на рекомендуемых расстояниях. Кроме того, могут быть использованы альтернативные структуры, подобные 4.1, 6.1, 7.1 или даже 22.2 конфигурации. Чтобы обеспечить наилучшее восприятие при всех этих схемах воспроизведения, может наблюдаться тенденция, направленная на кодирование объекта или кодирование сцены. Такие подходы все более внедряются (в настоящее время главным образом для приложений в кинотеатрах, однако ожидается, что более распространенным станет домашнее использование) для замены обычного подхода с аудиоканалами, при котором каждый аудиоканал ассоциируется с номинальной позицией.

Когда количество каналов воспроизведения (т.е., громкоговорителей) и их местоположения не известно, аудиосцена может быть наилучшим образом представлена посредством отдельных аудиообъектов в сцене. На стороне декодера, тогда в отношении каждого из объектов может быть выполнен рендеринг отдельно по каналам воспроизведения так, что пространственное ощущение является наиболее близким к предназначенному ощущению.

Кодирование объектов в качестве отдельных аудиосигналов/потоков требует относительно высокой битовой скорости. Доступные решения (а именно SAOC, DirAC, 3DAA, и т.д.) передают полученные понижающим микшированием сигналы объектов и средства для восстановления сигналов объектов из этого понижающего микширования. Это приводит к значительному сокращению битовой скорости.

SAOC обеспечивает независимое от громкоговорителя аудио посредством эффективного кодирования объекта в понижающее микширование с параметрами извлечения объекта, 3DAA определяет формат, где сцена описывается с точки зрения позиций объекта. DirAC пытается обеспечить эффективное кодирование аудиообъектов посредством использования понижающего микширования B-формата.

Таким образом, эти системы подходят для эффективного и гибкого кодирования и рендеринга аудиоконтента. Может быть достигнуто значительное сокращение скорости передачи данных и соответственно реализации с относительно низкой скоростью передачи данных все же могут обеспечивать разумное или хорошее качество аудио. Тем не менее, проблема таких систем состоит в том, что качество аудио по существу ограничивается параметрическим кодированием и понижающим микшированием. Даже когда доступная скорость передачи данных увеличивается, невозможно достигнуть полной прозрачности, поскольку не может быть выявлено влияние операций кодирования/декодирования. В частности, объект не может быть восстановлен без перекрестных помех от других объектов даже при высоких скоростях передачи данных. Это приводит к уменьшению качества аудио и пространственного ощущения, когда объекты разделаются в пространственном воспроизведении (т.е., выполняется рендеринг в разных позициях). Дополнительный недостаток состоит в том, что в большинстве случаев связность между объектами правильно не восстанавливается, что является важной характеристикой для создания пространственного ощущения. Попытки восстановить связность основаны на использовании декорреляторов и, как правило, приводит к не оптимальному качеству аудио.

Альтернативный подход в виде отдельного кодирования по форме волны аудиообъектов может обеспечить высокое качество при высоких скоростях передачи данных, и может в частности обеспечить полную масштабируемость, включая полностью прозрачное кодирование/декодирование. Тем не менее, такие подходы не подходят для низких скоростей передачи данных, при которых они не обеспечивают эффективного кодирования.

Таким образом, параметрические кодирования, основанные на понижающем микшировании, подходят для низких скоростей передачи данных и масштабируемости в направлении более низких скоростей передачи данных, тогда как кодирования по форме волны объекта подходят для высоких скоростей передачи данных и масштабируемости в направлении высоких скоростей передачи данных.

Масштабируемость очень важный критерий для будущих аудио систем, и вследствие этого весьма желательно иметь эффективную масштабируемость, которая расширяется как в сторону очень низких скоростей передачи данных, так и в сторону очень высоких скоростей передачи данных, и в частности до полной прозрачности. Кроме того, желательно, чтобы такая масштабируемость обладала высокой степенью детализации масштабируемости.

Следовательно, был бы предпочтителен усовершенствованный подход к кодированию/декодированию аудио и, в частности, была бы предпочтительна система, обеспечивающая повышенную гибкость, уменьшенную сложность, усовершенствованную масштабируемость и/или улучшенную производительность.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Соответственно, изобретение предпочтительно стремится подавить, смягчить или исключить один или более из вышеупомянутых недостатков по-отдельности или в любом сочетании.

В соответствии с аспектом изобретения предоставляется декодер, содержащий: приемник для приема закодированного сигнала данных, представляющего собой множество аудиосигналов, причем закодированный сигнал данных содержит закодированные частотно-временные сегменты для множества аудиосигналов, причем закодированные частотно-временные сегменты содержат частотно-временные сегменты без понижающего микширования и частотно-временные сегменты с понижающим микшированием, причем каждый частотно-временной сегмент с понижающим микшированием является понижающим микшированием по меньшей мере двух частотно-временных сегментов из множества аудиосигналов, а каждый частотно-временной сегмент без понижающего микширования представляет собой только один частотно-временной сегмент из множества аудиосигналов, и распределение закодированных частотно-временных сегментов в качестве частотно-временных сегментов с понижающим микшированием или частотно-временных сегментов без понижающего микширования отражает пространственные характеристики частотно-временных сегментов, причем закодированный сигнал данных дополнительно содержит указание понижающего микширования для частотно-временных сегментов из множества аудиосигналов, причем указание понижающего микширования указывает, закодированы ли частотно-временные сегменты из множества аудиосигналов в качестве частотно-временных сегментов с понижающим микшированием или частотно-временных сегментов без понижающего микширования; генератор для генерирования набора выходных сигналов из закодированных частотно-временных сегментов, причем генерирование выходных сигналов содержит повышающее микширование для закодированных частотно-временных сегментов, которые указаны указанием понижающего микширования как являющиеся частотно-временными сегментами с понижающим микшированием; при этом по меньшей мере один аудиосигнал из множества аудиосигналов представляется двумя частотно-временными сегментами с понижающим микшированием, являющимися понижающими микшированиями разных наборов аудиосигналов из множества аудиосигналов; и по меньшей мере один частотно-временной сегмент с понижающим микшированием является понижающим микшированием аудиообъекта, не ассоциированного с номинальной позицией источника звука конфигурации рендеринга источника звука, и аудиоканала, ассоциированного с номинальной позицией источника звука конфигурации рендеринга источника звука.

Изобретение может улучшить декодирование аудио, и, в частности, может во многих вариантах осуществления обеспечить улучшенную масштабируемость. В частности, изобретение может во многих вариантах осуществления обеспечить масштабируемость скорости передачи данных до прозрачности. В частности, во многих сценариях можно избежать или уменьшить искажения кодирования, известные применительно к параметрическому кодированию при более высоких скоростях передачи данных.

Подход может дополнительно обеспечить эффективное кодирование и, в частности, может обеспечить эффективное кодирование при более низких скоростях передачи данных. Может быть достигнута высокая степень масштабируемости и, в частности, масштабируемость для эффективного кодирования при более низких скоростях передачи данных и может быть достигнуто очень высокое качество (и в частности прозрачность) при высоких скоростях передачи данных.

Изобретение может предоставлять очень гибкую систему с высокой возможной степенью адаптации и оптимизации. Операция кодирования и декодирования может быть адаптирована не только к общим характеристикам аудиосигналов, но также к характеристикам отдельных частотно-временных сегментов. Соответственно может быть достигнуто высокоэффективное кодирование.

Повышающее микширование частотно-временного сегмента с понижающим микшированием может быть отдельной операцией или оно может быть объединено с другими операциями. Например, повышающее микширование может быть частью матричной (векторной) операции, которая перемножает значения сигнала для частотно-временного сегмента с матричными (векторными) коэффициентами, при этом матричные (векторные) коэффициенты отражают операцию повышающего микширования, но могут дополнительно отражать прочие операции, такие как отображение в выходные каналы рендеринга. Повышающее микширование не обязательно должно быть повышающим микшированием всех компонентов понижающего микширования. Например, повышающее микширование может быть частичным повышающим микшированием для генерирования только одного из частотно-временных сегментов, содержащихся в понижающем микшировании.

Частотно-временной сегмент является частотно-временным интервалом. Частотно-временной сегмент выходного сигнала может быть сгенерирован из закодированных частотно-временных сегментов, охватывающих некоторый временной интервал и частотный интервал. Аналогичным образом, каждый частотно-временной сегмент с понижающим микшированием может быть понижающим микшированием частотно-временных сегментов аудиосигналов, охватывающих некоторый временной интервал и частотный интервал. Частотно-временные интервалы могут быть взяты по равномерной сетке или могут, например, быть взяты по не равномерной сетке, в частности применительно к частотному измерению. Такая равномерная сетка может, например, применяться для использования и отражения логарифмической чувствительности человеческого слуха.

Для закодированных частотно-временных сегментов, которые не указаны как частотно-временные сегменты с понижающим микшированием, генерирование выходных сигналов не (обязательно) включает в себя повышающее микширование.

Некоторые частотно-временные сегменты из множества аудиосигналов могут быть не представлены в закодированных частотно-временных сегментах. Частотно-временные сегменты из множества аудиосигналов могут быть не представлены либо в закодированном частотно-временном сегменте с понижающим микшированием, либо в частотно-временном сегменте без понижающего микширования.

В некоторых вариантах осуществления, указание того, закодированы ли частотно-временные сегменты из множества аудиосигналов как частотно-временные сегменты с понижающим микшированием или частотно-временные сегменты без понижающего микширования, может быть предоставлено со ссылкой на закодированные частотно-временные сегменты. В некоторых вариантах осуществления, значение указания понижающего микширования может быть предоставлено по-отдельности для частотно-временных сегментов из множества аудиосигналов. Эквивалентно, в некоторых вариантах осуществления значение указания понижающего микширования может быть предоставлено для группы частотно-временных сегментов из множества аудиосигналов.

Частотно-временной сегмент без понижающего микширования представляет собой данные только для одного частотно-временного сегмента аудиосигналов, тогда как частотно-временной сегмент с понижающим микшированием представляет собой два или более частотно-временных сегментов аудиосигналов. Частотно временные сегменты с понижающим микшированием и частотно-временные сегменты без понижающего микширования могут в разных вариантах осуществления быть закодированными разными способами в закодированном сигнале данных, включая, например, варианты, когда: каждый сегмент закодирован отдельно, некоторые или все закодированы вместе и т.д.

В соответствии с опциональным (необязательным) признаком изобретения, закодированный сигнал данных кроме того содержит параметрические данные повышающего микширования, и при этом генератор выполнен с возможностью адаптирования операции повышающего микширования в ответ на параметрические данные.

Это может обеспечить улучшенную производительность, и, в частности, может обеспечить улучшенное качество аудио при более низких скоростях передачи данных. Изобретение может обеспечить гибкую адаптацию и взаимодействие, например, кодирования сигнала по форме и параметрического кодирования для предоставления весьма масштабируемой системы, и, в частности, системы, выполненной с возможностью обеспечения очень высокого качества аудио для высоких скоростей передачи данных, при этом обеспечивая эффективное кодирование при более низких скоростях передачи данных.

Генератор может в частности генерировать выходные сигналы в ответ на параметрические данные повышающего микширования для закодированных частотно-временных сегментов, которые указаны посредством указания понижающего микширования как частотно-временные сегменты с понижающим микшированием (и не для закодированных частотно-временных сегментов, которые указаны указанием понижающего микширования как не являющиеся закодированными частотно-временными сегментами с понижающим микшированием).

В соответствии с опциональным признаком изобретения, генератор содержит блок рендеринга, выполненный с возможностью отображения частотно-временных сегментов для множества аудиосигналов в выходные сигналы, соответствующие конфигурации источника пространственного звука.

Это может обеспечивать эффективное генерирование аудиосигналов, подходящих для рендеринга посредством заданной конфигурации источника пространственного звука (как правило громкоговорителя). Повышающее микширование и отображение рендеринга может в некоторых вариантах осуществления выполняться в качестве единой интегрированной операции, например, в качестве единого матричного умножения.

В некоторых вариантах осуществления, генератор выполнен с возможностью генерирования декодированных аудиосигналов из закодированных частотно-временных сегментов, и генерирования аудиосигналов посредством пространственного отображения декодированных аудиосигналов по наборам выходных сигналов, при этом набор выходных сигналов соответствует структуре источника пространственного звука.

В соответствии с опциональным признаком изобретения, генератор выполнен с возможностью генерирования частотно-временных сегментов для набора выходных сигналов посредством применения матричных операций к закодированным частотно-временным сегментам, коэффициенты матричных операций включают в себя компоненты повышающего микширования для закодированных частотно-временных сегментов, для которых указание понижающего микширования указывает, что закодированный частотно-временной сегмент является частотно-временным сегментом с понижающим микшированием и не для закодированных частотно-временных сегментов, для которых указание понижающего микширования указывает, что закодированный частотно-временной сегмент является частотно-временным сегментом без понижающего микширования.

Это может обеспечивать в частности эффективную работу. Матричные операции могут быть применены к выборкам сигнала закодированных частотно-временных сегментов. Выборки сигналов могут быть сгенерированы посредством операции декодирования.

В соответствии с опциональным признаком изобретения по меньшей мере один аудиосигнал представляется в декодированном сигнале посредством по меньшей мере одного частотно-временного сегмента без понижающего микширования и по меньшей мере одного частотно-временного сегмента с понижающим микшированием.

Отдельные аудиосигналы могут быть представлены как частотно-временными сегментами с понижающим микшированием, так и частотно-временными сегментами без понижающего микширования. Каждый частотно-временной сегмент аудиосигнала может быть представлен посредством частотно-временного сегмента с понижающим микшированием или частотно-временного сегмента без понижающего микширования, не требуя того, чтобы все частотно-временные сегменты были представлены одинаково. Подход может обеспечивать высокую степень гибкости и оптимизации, и может в частности приводить к улучшенному качеству аудио, эффективности кодирования и/или масштабируемости.

В соответствии с опциональным признаком изобретения, указание понижающего микширования для по меньшей мере одного частотно-временного сегмента с понижающим микшированием содержит связь между закодированным частотно-временным сегментом с понижающим микшированием и частотно-временным сегментом из множества аудиосигналов.

Это может во многих вариантах осуществления обеспечить кодирование как гибко оптимизируемое на основе частотно-временного сегмента. Подход может обеспечивать высокую степень гибкости и оптимизации, и может в частности приводить к улучшенному качеству аудио, эффективности кодирования и/или масштабируемости.

По меньшей мере один аудиосигнал из множества аудиосигналов представляется посредством двух частотно-временных сегментов с понижающим микшированием, являющихся понижающими микшированиями разных наборов аудиосигналов множества аудиосигналов.

Это может во многих вариантах осуществления обеспечить кодирование как гибко оптимизируемое на основе частотно-временного сегмента. Подход может обеспечивать высокую степень гибкости и оптимизации, и может в частности приводить к улучшенному качеству аудио, эффективности кодирования и/или масштабируемости.

В соответствии с опциональным признаком изобретения по меньшей мере один аудиосигнал из множества аудиосигналов представляется посредством закодированных частотно-временных сегментов, которые включают в себя по меньшей мере один закодированный частотно-временной сегмент не являющийся частотно-временным сегментом без понижающего микширования или частотно-временным сегментом с понижающим микшированием.

Это может обеспечить улучшенную эффективность кодирования в некоторых вариантах осуществления. Закодированные частотно-временные сегменты, не являющиеся частотно-временными сегментами без понижающего микширования или частотно-временными сегментами с понижающим микшированием, могут, например, быть закодированы в качестве нулевых частотно-временных сегментов (закодированных в качестве пустого частотно-временного сегмента без данных сигнала), или могут, например, быть закодированными при помощи других методик, таких как кодирование методом центральный/боковой (“mid/side”).

По меньшей мере один частотно-временной сегмент с понижающим микшированием является понижающим микшированием аудиообъекта, не ассоциированного с номинальной позицией источника звука конфигурации рендеринга источника звука, и аудиоканала, ассоциированного с номинальной позицией источника звука конфигурации рендеринга источника звука.

Это может обеспечивать улучшенную гибкость и/или более эффективное кодирование. В частности, частотно-временные сегменты с понижающим микшированием могут включать в себя понижающие микширования частотно-временных сегментов аудиообъектов и а