Определение между скалярным и векторным квантованием в коэффициентах амбиофонии высшего порядка

Иллюстрации

Показать все

Изобретение относится к средствам для кодирования и декодирования аудиоданных. Технический результат заключается в повышении эффективности кодирования аудиоданных. Получают, посредством устройства декодирования аудио, поток битов. Поток битов включает в себя синтаксический элемент, идентифицирующий, было ли выполнено векторное квантование или скалярное квантование. Выполняют, посредством устройства декодирования аудио и на основе синтаксического элемента, либо векторное деквантование, либо скалярное деквантование относительно пространственного компонента, заданного в области сферических гармоник. Подготавливают путем рендеринга одну или более подач звука в громкоговорители. Выводят одну или более подач звука в громкоговорители на один или более громкоговорителей. 3 н. и 12 з.п. ф-лы, 30 ил.

Реферат

Данная заявка притязает на приоритет следующих предварительных заявок на патент (США):

Предварительная заявка на патент (США) № 61/994794, поданная 16 мая 2014 года, озаглавленная "CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS (HOA) AUDIO SIGNAL";

Предварительная заявка на патент (США) № 62/004128, поданная 28 мая 2014 года, озаглавленная "CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS (HOA) AUDIO SIGNAL";

Предварительная заявка на патент (США) № 62/019663, поданная 1 июля 2014 года, озаглавленная "CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS (HOA) AUDIO SIGNAL";

Предварительная заявка на патент (США) № 62/027702, поданная 22 июля 2014 года, озаглавленная "CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS (HOA) AUDIO SIGNAL";

Предварительная заявка на патент (США) № 62/028282, поданная 23 июля 2014 года, озаглавленная "CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS (HOA) AUDIO SIGNAL";

Предварительная заявка на патент (США) № 62/032440, поданная 1 августа 2014 года, озаглавленная "CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS (HOA) AUDIO SIGNAL";

причем каждая из вышеуказанных предварительных заявок на патент (США) содержится по ссылке как полностью изложенная в данном документе.

Область техники, к которой относится изобретение

Данное раскрытие сущности относится к аудиоданным, а более конкретно, к кодированию амбиофонических аудиоданных высшего порядка.

Уровень техники

Сигнал на основе амбиофонии высшего порядка (HOA) (зачастую представленный посредством множества коэффициентов сферических гармоник (SHC) или других иерархических элементов) является трехмерным представлением звукового поля. HOA- или SHC-представление может представлять звуковое поле таким способом, который является независимым от геометрии локальных динамиков, используемой для того, чтобы воспроизводить многоканальный аудиосигнал, подготовленный посредством рендеринга из SHC-сигнала. SHC-сигнал также может упрощать обратную совместимость, поскольку SHC-сигнал может подготавливаться посредством рендеринга в известные и широко приспосабливаемые многоканальные форматы, к примеру, в формат 5.1-аудиоканала или формат 7.1-аудиоканала. Следовательно, SHC-представление позволяет обеспечивать лучшее представление звукового поля, которое также приспосабливает обратную совместимость.

Сущность изобретения

В общем, описываются технологии для эффективного представления V-векторов (которые могут представлять пространственную информацию, такую как ширина, форма, направление и местоположение, ассоциированного аудиообъекта) разложенного аудиосигнала на основе амбиофонии высшего порядка (HOA) на основе набора кодовых векторов. Технологии могут заключать в себе разложение V-вектора на взвешенную сумму кодовых векторов, выбор поднабора множества весовых коэффициентов и соответствующих кодовых векторов, квантование выбранного поднабора весовых коэффициентов и индексацию выбранного поднабора кодовых векторов. Технологии могут предоставлять повышенные скорости передачи битов для кодирования HOA-аудиосигналов.

В одном аспекте, способ получения множества коэффициентов амбиофонии высшего порядка (HOA), способ содержит получение из потока битов данных, указывающих множество значений весовых коэффициентов, которые представляют вектор, который включен в разложенную версию множества HOA-коэффициентов. Каждое из значений весовых коэффициентов соответствует надлежащему одному из множества весовых коэффициентов во взвешенной сумме кодовых векторов, которая представляет вектор, который включает в себя набор кодовых векторов. Способ дополнительно содержит восстановление вектора на основе значений весовых коэффициентов и кодовых векторов.

В другом аспекте, устройство сконфигурировано с возможностью получать множество коэффициентов амбиофонии высшего порядка (HOA), устройство содержит один или более процессоров, сконфигурированных с возможностью получать из потока битов данные, указывающие множество значений весовых коэффициентов, которые представляют вектор, который включен в разложенную версию множества HOA-коэффициентов. Каждое из значений весовых коэффициентов соответствует надлежащему одному из множества весовых коэффициентов во взвешенной сумме кодовых векторов, которая представляет вектор и которая включает в себя набор кодовых векторов. Один или более процессоров дополнительно сконфигурированы с возможностью восстанавливать вектор на основе значений весовых коэффициентов и кодовых векторов. Устройство также содержит запоминающее устройство, сконфигурированное с возможностью сохранять восстановленный вектор.

В другом аспекте, устройство сконфигурировано с возможностью получать множество коэффициентов амбиофонии высшего порядка (HOA), устройство содержит средство для получения из потока битов данных, указывающих множество значений весовых коэффициентов, которые представляют вектор, который включен в разложенную версию множества HOA-коэффициентов, причем каждое из значений весовых коэффициентов соответствует надлежащему одному из множества весовых коэффициентов во взвешенной сумме кодовых векторов, которая представляет вектор, который включает в себя набор кодовых векторов, и средство для восстановления вектора на основе значений весовых коэффициентов и кодовых векторов.

В другом аспекте, некратковременный компьютерно-читаемый запоминающий носитель имеет сохраненные инструкции, которые при выполнении инструктируют одному или более процессоров получать из потока битов данные, указывающие множество значений весовых коэффициентов, которые представляют вектор, который включен в разложенную версию множества коэффициентов амбиофонии высшего порядка (HOA), причем каждое из значений весовых коэффициентов соответствует надлежащему одному из множества весовых коэффициентов во взвешенной сумме кодовых векторов, которая представляет вектор, который включает в себя набор кодовых векторов, и восстанавливать вектор на основе значений весовых коэффициентов и кодовых векторов.

В другом аспекте, способ содержит определение, на основе набора кодовых векторов, одного или более значений весовых коэффициентов, которые представляют вектор, который включен в разложенную версию множества коэффициентов амбиофонии высшего порядка (HOA), причем каждое из значений весовых коэффициентов соответствует надлежащему одному из множества весовых коэффициентов, включенных во взвешенную сумму кодовых векторов, которая представляет вектор.

В другом аспекте, устройство содержит запоминающее устройство, сконфигурированное с возможностью сохранять набор кодовых векторов, и один или более процессоров, сконфигурированных с возможностью определять, на основе набора кодовых векторов, одно или более значений весовых коэффициентов, которые представляют вектор, который включен в разложенную версию множества коэффициентов амбиофонии высшего порядка (HOA), причем каждое из значений весовых коэффициентов соответствует надлежащему одному из множества весовых коэффициентов, включенных во взвешенную сумму кодовых векторов, которая представляет вектор.

В другом аспекте, устройство содержит средство для выполнения разложения относительно множества коэффициентов амбиофонии высшего порядка (HOA), чтобы формировать разложенную версию HOA-коэффициентов. Устройство дополнительно содержит средство для определения, на основе набора кодовых векторов, одного или более значений весовых коэффициентов, которые представляют вектор, который включен в разложенную версию HOA-коэффициентов, причем каждое из значений весовых коэффициентов соответствует надлежащему одному из множества весовых коэффициентов, включенных во взвешенную сумму кодовых векторов, которая представляет вектор.

В другом аспекте, некратковременный компьютерно-читаемый запоминающий носитель имеет сохраненные инструкции, которые при выполнении инструктируют одному или более процессоров определять, на основе набора кодовых векторов, одно или более значений весовых коэффициентов, которые представляют вектор, который включен в разложенную версию множества коэффициентов амбиофонии высшего порядка (HOA), причем каждое из значений весовых коэффициентов соответствует надлежащему одному из множества весовых коэффициентов, включенных во взвешенную сумму кодовых векторов, которая представляет вектор.

В другом аспекте, способ декодирования аудиоданных, указывающих множество коэффициентов амбиофонии высшего порядка (HOA), способ содержит определение того, следует выполнять векторное деквантование или скалярное деквантование относительно разложенной версии множества HOA-коэффициентов.

В другом аспекте, устройство сконфигурировано с возможностью декодировать аудиоданные, указывающие множество коэффициентов амбиофонии высшего порядка (HOA), устройство содержит запоминающее устройство, сконфигурированное с возможностью сохранять аудиоданные, и один или более процессоров, сконфигурированных с возможностью определять то, следует выполнять векторное деквантование или скалярное деквантование относительно разложенной версии множества HOA-коэффициентов.

В другом аспекте, способ кодирования аудиоданных, способ содержит определение того, следует выполнять векторное квантование или скалярное квантование относительно разложенной версии множества коэффициентов амбиофонии высшего порядка (HOA).

В другом аспекте, способ декодирования аудиоданных, способ содержит выбор одной из множества кодовых книг, которую следует использовать при выполнении векторного деквантования относительно векторно квантованного пространственного компонента звукового поля, причем векторно квантованный пространственный компонент получается через применение разложения ко множеству коэффициентов амбиофонии высшего порядка.

В другом аспекте, устройство содержит запоминающее устройство, сконфигурированное с возможностью сохранять множество кодовых книг, которые следует использовать при выполнении векторного деквантования относительно векторно квантованного пространственного компонента звукового поля, причем векторно квантованный пространственный компонент получается через применение разложения ко множеству коэффициентов амбиофонии высшего порядка, и один или более процессоров, сконфигурированных с возможностью выбирать одну из множества кодовых книг.

В другом аспекте, устройство содержит средство для сохранения множества кодовых книг, которые следует использовать при выполнении векторного деквантования относительно векторно квантованного пространственного компонента звукового поля, причем векторно квантованный пространственный компонент получается через применение разложения ко множеству коэффициентов амбиофонии высшего порядка, и средство для выбора одной из множества кодовых книг.

В другом аспекте, некратковременный компьютерно-читаемый запоминающий носитель имеет сохраненные инструкции, которые при выполнении инструктируют одному или более процессоров выбирать одну из множества кодовых книг, которую следует использовать при выполнении векторного деквантования относительно векторно квантованного пространственного компонента звукового поля, причем векторно квантованный пространственный компонент получается через применение разложения ко множеству коэффициентов амбиофонии высшего порядка.

В другом аспекте, способ кодирования аудиоданных, способ содержит выбор одной из множества кодовых книг, которую следует использовать при выполнении векторного квантования относительно пространственного компонента звукового поля, причем пространственный компонент получается через применение разложения ко множеству коэффициентов амбиофонии высшего порядка.

В другом аспекте, устройство содержит запоминающее устройство, сконфигурированное с возможностью сохранять множество кодовых книг, которые следует использовать при выполнении векторного квантования относительно пространственного компонента звукового поля, причем пространственный компонент получается через применение разложения ко множеству коэффициентов амбиофонии высшего порядка. Устройство также содержит один или более процессоров, сконфигурированных с возможностью выбирать одну из множества кодовых книг.

В другом аспекте, устройство содержит средство для сохранения множества кодовых книг, которые следует использовать при выполнении векторного квантования относительно пространственного компонента звукового поля, причем пространственный компонент получается через применение векторного синтеза ко множеству коэффициентов амбиофонии высшего порядка, и средство для выбора одной из множества кодовых книг.

В другом аспекте, некратковременный компьютерно-читаемый запоминающий носитель имеет сохраненные инструкции, которые при выполнении инструктируют одному или более процессоров выбирать одну из множества кодовых книг, которую следует использовать при выполнении векторного квантования относительно пространственного компонента звукового поля, причем пространственный компонент получается через применение векторного синтеза ко множеству коэффициентов амбиофонии высшего порядка.

Подробности одного или более аспектов технологий изложены на прилагаемых чертежах и в нижеприведенном описании. Другие признаки, цели и преимущества технологий должны становиться очевидными из описания и чертежей, а также из формулы изобретения.

Краткое описание чертежей

Фиг. 1 является схемой, иллюстрирующей базисные функции сферических гармоник различных порядков и подпорядков.

Фиг. 2 является схемой, иллюстрирующей систему, которая может выполнять различные аспекты технологий, описанных в этом раскрытии сущности.

Фиг. 3A и 3B являются блок-схемами, подробнее иллюстрирующими различные примеры устройства кодирования аудио, показанного в примере по фиг. 2, которое может выполнять различные аспекты технологий, описанных в этом раскрытии сущности.

Фиг. 4A и 4B являются блок-схемами, подробнее иллюстрирующими различные версии устройства декодирования аудио по фиг. 2.

Фиг. 5 является блок-схемой последовательности операций способа, иллюстрирующей примерную работу устройства кодирования аудио при выполнении различных аспектов технологий векторного синтеза, описанных в этом раскрытии сущности.

Фиг. 6 является блок-схемой последовательности операций способа, иллюстрирующей примерную работу устройства декодирования аудио при выполнении различных аспектов технологий, описанных в этом раскрытии сущности.

Фиг. 7 и 8 являются схемами, подробнее иллюстрирующими различные версии модуля кодирования V-векторов устройства кодирования аудио по фиг. 3A или фиг. 3B.

Фиг. 9 является концептуальной схемой, иллюстрирующей звуковое поле, сформированное из V-вектора.

Фиг. 10 является концептуальной схемой, иллюстрирующей звуковое поле, сформированное из модели 25-го порядка V-вектора.

Фиг. 11 является концептуальной схемой, иллюстрирующей взвешивание каждого порядка относительно модели 25-го порядка, показанной на фиг. 10.

Фиг. 12 является концептуальной схемой, иллюстрирующей модель 5-ого порядка V-вектора, описанного выше относительно фиг. 9.

Фиг. 13 является концептуальной схемой, иллюстрирующей взвешивание каждого порядка относительно модели 5-ого порядка, показанной на фиг. 12.

Фиг. 14 является концептуальной схемой, иллюстрирующей примерные размеры примерных матриц, используемых для того, чтобы выполнять разложение по сингулярным значениям.

Фиг. 15 является схемой, иллюстрирующей примерные повышения производительности, которые могут получаться посредством использования технологий кодирования V-векторов этого раскрытия сущности.

Фиг. 16 является рядом схем, показывающих пример кодирования V-векторов, когда выполняется в соответствии с технологиями, описанными в этом раскрытии сущности.

Фиг. 17 является концептуальной схемой, иллюстрирующей примерное кодовое векторное разложение V-вектора согласно этому раскрытию сущности.

Фиг. 18 является схемой, иллюстрирующей различные способы, посредством которых 16 различных кодовых векторов могут использоваться посредством модуля кодирования V-векторов, показанного в примере одного или обоих из фиг. 10 и 11.

Фиг. 19A и 19B являются схемами, иллюстрирующими кодовые книги с 256 строками, причем каждая строка имеет 10 значений и 16 значений, соответственно, которые могут использоваться в соответствии с различными аспектами технологий, описанных в этом раскрытии сущности.

Фиг. 20 является схемой, иллюстрирующей примерный график, показывающий пороговую ошибку, используемую для того, чтобы выбирать число X* кодовых векторов в соответствии с различными аспектами технологий, описанных в этом раскрытии сущности.

Фиг. 21 является блок-схемой, иллюстрирующей примерный модуль 520 векторного квантования согласно этому раскрытию сущности.

Фиг. 22, 24 и 26 являются блок-схемами последовательности операций способа, иллюстрирующими примерную работу модуля векторного квантования при выполнении различных аспектов технологий, описанных в этом раскрытии сущности.

Фиг. 23, 25 и 27 являются блок-схемами последовательности операций способа, иллюстрирующими примерную работу модуля восстановления V-векторов при выполнении различных аспектов технологий, описанных в этом раскрытии сущности.

Подробное описание изобретения

В общем, описываются технологии для эффективного представления V-векторов (которые могут представлять пространственную информацию, такую как ширина, форма, направление и местоположение, ассоциированного аудиообъекта) разложенного аудиосигнала на основе амбиофонии высшего порядка (HOA) на основе набора кодовых векторов. Технологии могут заключать в себе разложение V-вектора на взвешенную сумму кодовых векторов, выбор поднабора множества весовых коэффициентов и соответствующих кодовых векторов, квантование выбранного поднабора весовых коэффициентов и индексацию выбранного поднабора кодовых векторов. Технологии могут предоставлять повышенные скорости передачи битов для кодирования HOA-аудиосигналов.

Эволюция объемного звука в наше время обеспечивает доступность множества выходных форматов для развлечений. Примеры таких потребительских форматов объемного звука являются главным образом "канально"-ориентированными в том, что они неявно указывают подачи звука в громкоговорители в определенных геометрических координатах. Потребительские форматы объемного звука включают в себя популярный 5.1-формат (который включает в себя следующие шесть каналов: передний левый (FL), передний правый (FR), центральный или передний центральный, задний левый или левый объемного звучания, задний правый или правый объемного звучания и канал низкочастотных эффектов (LFE)), развивающийся 7.1-формат, различные форматы, которые включают в себя высотные динамики, такие как 7.1.4-формат и 22.2-формат (например, для использования со стандартом телевидения сверхвысокой четкости). Непотребительские форматы могут охватывать любое число динамиков (в симметричных и несимметричных геометриях), зачастую называемых "массивами объемного звучания". Один пример такого массива включает в себя 32 громкоговорителя, позиционированные в координатах по углам усеченного икосаэдра.

Входные данные для будущего MPEG-кодера необязательно представляют собой один из трех возможных форматов: (i) традиционное канально-ориентированное аудио (как пояснено выше), которое предназначено для воспроизведения через громкоговорители в заранее указываемых позициях; (ii) объектно-ориентированное аудио, которое заключает в себе дискретные данные импульсно-кодовой модуляции (PCM) для одних аудиообъектов с ассоциированными метаданными, содержащими их координаты местоположения (в числе другой информации); и (iii) сцено-ориентированное аудио, которое заключает в себе представление звукового поля с использованием коэффициентов базисных функций сферических гармоник (также называемых "коэффициентами сферических гармоник" или SHC, "амбиофонией высшего порядка" или HOA, и "HOA-коэффициентами"). Будущий MPEG-кодер подробнее описан в документе, озаглавленном "Call for Proposals for 3D Audio", от Международной организации по Стандартизации/Международной электротехнической комиссии (ISO)/(IEC) JTC1/SC29/WG11/N13411, выпущенном в январе 2013 года в Женеве, Швейцария и доступном по адресу http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/does/w13411.zip.

На рынке предусмотрены различные канально-ориентированные форматы "объемного звука". Они варьируются, например, от 5.1-системы домашнего кинотеатра (которая является наиболее успешной с точки зрения проведения вторжений в гостиные за рамками стерео) до 22.2-системы, разработанной посредством NHK (Nippon Hoso Kyokai или Японской вещательной корпорации). Создатели контента (например, голливудские студии) хотят производить звуковую дорожку для фильма один раз и не тратить усилия на ее повторное сведение для каждой конфигурации динамиков. В последнее время, организации по разработке стандартов рассматривают способы, которыми можно предоставлять кодирование в стандартизированный поток битов и последующее декодирование, которое является адаптируемым и независимым от геометрии (и числа) динамиков и акустических условий в местоположении воспроизведения (предусматривающих модуль рендеринга).

Чтобы предоставлять такую гибкость для создателей контента, иерархический набор элементов может использоваться для того, чтобы представлять звуковое поле. Иерархический набор элементов может означать набор элементов, в котором элементы упорядочиваются таким образом, что базовый набор элементов более низкого порядка предоставляет полное представление моделируемого звукового поля. По мере того, как набор расширяется, так что он включает в себя элементы высшего порядка, представление становится более подробным, повышая разрешение.

Один пример иерархического набора элементов представляет собой набор коэффициентов сферических гармоник (SHC). Следующее выражение демонстрирует описание или представление звукового поля с использованием SHC:

Выражение показывает то, что давление в любой точке звукового поля, во время t, может быть представлено уникально посредством SHC, . Здесь, , c является скоростью звука (~343 м/с), является опорной точкой (или точкой наблюдения), является сферической функцией Бесселя порядка n, и являются базисными функциями сферических гармоник порядка n и подпорядка m. Можно распознавать, что член в квадратных скобках является представлением в частотной области сигнала (т.е. ), которое может быть аппроксимировано посредством различных частотно-временных преобразований, таких как дискретное преобразование Фурье (DFT), дискретное косинусное преобразование (DCT) или вейвлет-преобразование. Другие примеры иерархических наборов включают в себя, задает коэффициентов вейвлет-преобразования и другие наборы коэффициентов базисных функций с переменным разрешением.

Фиг. 1 является схемой, иллюстрирующей базисные функции сферических гармоник от нулевого порядка (n=0) до четвертого порядка (n=4). Как можно видеть, для каждого порядка, предусмотрено расширение подпорядков m, которые показаны, но не отмечены явно в примере по фиг. 1, для упрощения иллюстрации.

SHC могут физически получаться (например, записываться) посредством различных конфигураций массивов микрофонов, либо альтернативно, они могут извлекаться из канально-ориентированных или объектно-ориентированных описаний звукового поля. SHC представляет сцено-ориентированное аудио, при котором SHC может вводиться в аудиокодер для того, чтобы получать кодированный SHC, что может способствовать более эффективной передаче или хранению. Например, может использоваться представление четвертого порядка, предусматривающее (1+4)2 (25 и, следовательно, четвертого порядка) коэффициентов.

Как отмечено выше, SHC может извлекаться из записи с микрофона с использованием массива микрофонов. Различные примеры того, как SHC может извлекаться из массивов микрофонов, описываются в работе автора Poletti, M. "Three-Dimensional Surround sound Systems Based on Spherical Harmonics", J. Audio Eng. Soc., издание 53, № 11, ноябрь 2005 года, стр. 1004-1025.

Чтобы иллюстрировать то, как SHC могут извлекаться из объектно-ориентированного описания, рассмотрим следующее уравнение. Коэффициенты для звукового поля, соответствующего отдельному аудиообъекту, могут выражаться следующим образом:

,

где i является, является сферической функцией Ганкеля (второго вида) порядка n, и является местоположением объекта. Знание энергии источника объектов в качестве функции от частоты (например, с использованием технологий частотно-временного анализа, таких как выполнение быстрого преобразования Фурье для PCM-потока) обеспечивает возможность преобразовывать каждый PCM-объект и соответствующее местоположение в SHC . Дополнительно, можно показывать (поскольку выше приведено линейное и ортогональное разложение) то, что коэффициентов для каждого объекта являются дополнением. Таким образом, множество PCM-объектов может быть представлено посредством коэффициентов (например, в качестве суммы векторов коэффициентов для отдельных объектов). По существу, коэффициенты содержат информацию относительно звукового поля (давления в качестве функции от трехмерных координат), и выше представлено преобразование из отдельных объектов в представление полного звукового поля около точки наблюдения. Оставшиеся чертежи описываются ниже в контексте объектно-ориентированного и SHC-ориентированного кодирования аудио.

Фиг. 2 является схемой, иллюстрирующей систему 10, которая может выполнять различные аспекты технологий, описанных в этом раскрытии сущности. Как показано в примере по фиг. 2, система 10 включает в себя устройство 12 создателя контента и устройство 14 потребителя контента. Хотя описаны в контексте устройства 12 создателя контента и устройства 14 потребителя контента, технологии могут реализовываться в любом контексте, в котором SHC (которые также могут упоминаться в качестве HOA-коэффициентов) или любое другое иерархическое представление звукового поля кодируются для того, чтобы формировать поток битов, представляющий аудиоданные. Кроме того, устройство 12 создателя контента может представлять любую форму вычислительного устройства, допускающего реализацию технологий, описанных в этом раскрытии сущности, включающего в себя переносной телефон (или сотовый телефон), планшетный компьютер, смартфон или настольный компьютер в качестве нескольких примеров. Аналогично, устройство 14 потребителя контента может представлять любую форму вычислительного устройства, допускающего реализацию технологий, описанных в этом раскрытии сущности, включающего в себя переносной телефон (или сотовый телефон), планшетный компьютер, смартфон, абонентскую приставку или настольный компьютер в качестве нескольких примеров.

Устройство 12 создателя контента может управляться посредством киностудии или другого объекта, который может формировать многоканальный аудиоконтент для потребления операторами устройств потребителя контента, таких как устройство 14 потребителя контента. В некоторых примерах, устройство 12 создателя контента может управляться отдельным пользователем, который хочет сжимать HOA-коэффициенты 11. Зачастую, создатель контента формирует аудиоконтент в сочетании с видеоконтентом. Устройство 14 потребителя контента может управляться человеком. Устройство 14 потребителя контента может включать в себя систему 16 воспроизведения аудио, которая может означать любую форму системы воспроизведения аудио, допускающей рендеринг SHC для воспроизведения в качестве многоканального аудиоконтента.

Устройство 12 создателя контента включает в себя систему 18 редактирования аудио. Устройство 12 создателя контента получает записи 7 вживую в различных форматах (в том числе непосредственно в качестве HOA-коэффициентов) и аудиообъекты 9, которые устройство 12 создателя контента может редактировать с использованием системы 18 редактирования аудио. Микрофон 5 может захватывать записи 7 вживую. Создатель контента, в ходе процесса редактирования, может подготавливать посредством рендеринга HOA-коэффициенты 11 из аудиообъектов 9, прослушивая подготовленные посредством рендеринга подачи звука в динамики в попытке идентифицировать различные аспекты звукового поля, которые требуют дополнительного редактирования. Устройство 12 создателя контента затем может редактировать HOA-коэффициенты 11 (потенциально косвенно посредством манипулирования различными аудиообъектами 9, из которых исходные HOA-коэффициенты могут извлекаться способом, описанным выше). Устройство 12 создателя контента может использовать систему 18 редактирования аудио для того, чтобы формировать HOA-коэффициенты 11. Система 18 редактирования аудио представляет любую систему, допускающую редактирование аудиоданных и вывод аудиоданных в качестве одного или более исходных коэффициентов сферических гармоник.

Когда процесс редактирования завершен, устройство 12 создателя контента может формировать поток 21 битов на основе HOA-коэффициентов 11. Иными словами, устройство 12 создателя контента включает в себя устройство 20 кодирования аудио, которое представляет устройство, сконфигурированное с возможностью кодировать или иным образом сжимать HOA-коэффициенты 11 в соответствии с различными аспектами технологий, описанных в этом раскрытии сущности, чтобы формировать поток 21 битов. Устройство 20 кодирования аудио может формировать поток 21 битов для передачи, в качестве одного примера, через канал передачи, который может представлять собой проводной или беспроводной канал, устройство хранения данных и т.п. Поток 21 битов может представлять кодированную версию HOA-коэффициентов 11 и может включать в себя первичный поток битов и другой боковой поток битов, который может упоминаться в качестве информации боковых каналов.

Хотя показано на фиг. 2 в качестве непосредственной передачи в устройство 14 потребителя контента, устройство 12 создателя контента может выводить поток 21 битов в промежуточное устройство, позиционированное между устройством 12 создателя контента и устройством 14 потребителя контента. Промежуточное устройство может сохранять поток 21 битов для последующей доставки в устройство 14 потребителя контента, которое может запрашивать поток битов. Промежуточное устройство может содержать файловый сервер, веб-сервер, настольный компьютер, переносной компьютер, планшетный компьютер, мобильный телефон, смартфон или любое другое устройство, допускающее сохранение потока битов 21 для последующего извлечения посредством аудиодекодера. Промежуточное устройство может постоянно размещаться в сети доставки контента, допускающей потоковую передачу потока 21 битов (и возможно в сочетании с передачей соответствующего потока битов видеоданных) абонентам, таким как устройство 14 потребителя контента, запрашивающее поток 21 битов.

Альтернативно, устройство 12 создателя контента может сохранять поток 21 битов на запоминающий носитель, такой как компакт-диск, цифровой видеодиск, диск по стандарту видео высокой четкости или другие запоминающие носители, большинство которых допускает считывание посредством компьютера и, следовательно, может упоминаться в качестве компьютерно-читаемых запоминающих носителей или некратковременных компьютерно-читаемых запоминающих носителей. В этом контексте, канал передачи может означать каналы, посредством которых передается контент, сохраненный на носителях (и может включать в себя розничные магазины и другой механизм доставки через магазины). В любом случае, технологии этого раскрытия сущности в силу этого не должны быть ограничены в этом отношении примером по фиг. 2.

Как подробнее показано в примере по фиг. 2, устройство 14 потребителя контента включает в себя систему 16 воспроизведения аудио. Система 16 воспроизведения аудио может представлять любую систему воспроизведения аудио, допускающую воспроизведение многоканальных аудиоданных. Система 16 воспроизведения аудио может включать в себя определенное число различных модулей 22 рендеринга. Модули 22 рендеринга могут предоставлять различную форму рендеринга, причем различные формы рендеринга могут включать в себя один или более из различных способов выполнения векторного амплитудного панорамирования (VBAP) и/или один или более из различных способов выполнения синтеза звукового поля. При использовании в данном документе, "A и/или B" означает "A или B" или "как A, так и B".

Система 16 воспроизведения аудио дополнительно может включать в себя устройство 24 декодирования аудио. Устройство 24 декодирования аудио может представлять устройство, сконфигурированное с возможностью декодировать HOA-коэффициенты 11' из потока 21 битов, причем HOA-коэффициенты 11' могут быть аналогичными HOA-коэффициентам 11, но отличаться вследствие операций с потерями (например, квантования) и/или передачи через канал передачи. Система 16 воспроизведения аудио, после декодирования потока битов 21, может получать HOA-коэффициенты 11' и подготавливать посредством рендеринга HOA-коэффициенты 11' с тем, чтобы выводить подачи 25 звука в громкоговорители. Подачи 25 звука в громкоговорители могут активировать один или более громкоговорителей (которые не показаны в примере по фиг. 2 для упрощения иллюстрации).

Чтобы выбирать надлежащий модуль рендеринга или, в некоторых случаях, формировать надлежащий модуль рендеринга, система 16 воспроизведения аудио может получать информацию 13 громкоговорителей, указывающую число громкоговорителей и/или пространственную геометрию громкоговорителей. В некоторых случаях, система 16 воспроизведения аудио может получать информацию 13 громкоговорителей с использованием опорного микрофона и управления громкоговорителей таким образом, чтобы динамически определять информацию 13 громкоговорителей. В других случаях или в сочетании с динамическим определением информации 13 громкоговорителей, система 16 воспроизведения аудио может указывать пользователю взаимодействовать с системой 16 воспроизведения аудио и вводить информацию 13 громкоговорителей.

Система 16 воспроизведения аудио затем может выбирать один из модулей 22 рендеринга аудио на основе информации 13 громкоговорителей. В некоторых случаях, система 16 воспроизведения аудио, когда ни один из модулей 22 рендеринга аудио не находится в рамках некоторого порогового показателя подобия (с точки зрения геометрии громкоговорителя) с геометрией громкоговорителя, указываемой в информации 13 громкоговорителей, может формировать один из модулей 22 рендеринга аудио на основе информации 13 громкоговорителей. Система 16 воспроизведения аудио, в некоторых случаях, может формировать один из модулей 22 рендеринга аудио на основе информации 13 громкоговорителей без попытки сначала выбирать существующий из модулей 22 рендеринга аудио. Один или более динамиков 3 затем могут воспроизводить подготовленные посредством рендеринга подачи 25 звука в громкоговорители.

Фиг. 3A является блок-схемой, подробнее иллюстрирующей один пример устройства 20 кодирования аудио, показанного в примере по фиг. 2, которое может выполнять ра