Способ кодирования и декодирования аудиосигнала и устройство для его осуществления

Иллюстрации

Показать все

Изобретение относится к обработке аудиосигнала. Пространственная информация, связанная с аудиосигналом, кодируется в битовый поток, который передают в декодер или записывают на носитель для хранения данных. Битовый поток содержит различный синтаксис, относящийся к временной, частотной и пространственной областям, а также включает в себя одну или несколько структур данных (например, кадры), которые содержат упорядоченные наборы временных интервалов, для которых использованы некоторые параметры. Структуры данных могут быть фиксированными или переменными. Индикатор типа структуры данных может быть вставлен в битовый поток, чтобы дать возможность декодеру определить тип структуры данных и активизировать соответствующий процесс декодирования. Структура данных включает в себя информацию о положении, которую может использовать декодер для идентификации правильного временного интервала, для которого применяется данный набор параметров. Информация о положении временного интервала может быть закодирована с помощью фиксированного количества бит или переменного количества бит на основе типа структуры данных, указанного индикатором типа структуры данных. Для структур данных переменного типа информация о положении может быть закодирована переменным количеством бит на основе положения временного интервала в упорядоченном наборе временных интервалов. Технический результат - обеспечение передачи многоканального аудиосигнала с низкими скоростями передачи битов. 2 н. и 6 з.п. ф-лы, 26 ил.

Реферат

Область техники, к которой относится изобретение

Предмет этой заявки относится в общем к обработке аудиосигнала.

Уровень техники

В настоящее время проводятся исследования и разрабатываются новые подходы к перцептивному кодированию многоканального аудиосигнала, которое обычно называют пространственным аудиокодированием (SAC). SAC дает возможность передавать многоканальный аудиосигнал с низкими скоростями передачи битов, что позволяет использовать SAC для многих популярных аудиоприложений (например, потоковая передача через Интернет, скачивание музыки).

Вместо выполнения дискретного кодирования отдельных входных аудиоканалов, при использовании SAC фиксируется пространственное изображение многоканального аудиосигнала в компактном наборе параметров. Эти параметры могут передаваться в декодер, где они используются для синтеза или восстановления пространственных свойств аудиосигнала.

В некоторых приложениях, относящихся к SAC, пространственные параметры передаются в декодер в виде части битового потока. Битовый поток включает в себя пространственные кадры, которые содержат упорядоченные наборы временных интервалов, для которых могут применяться наборы пространственных параметров. Битовый поток также включает в себя информацию о положении, которая может быть использована декодером для идентификации правильного временного интервала, для которого применяется заданный набор параметров.

В некоторых приложениях SAC в трактах кодирования/декодирования используют концептуальные элементы. Один элемент обычно называется элементом «один к двум» (OTT), а другой элемент обычно называют элементом «два к трем» (TTT), где указанные имена заключают в себе количество входных и выходных сигналов соответствующего элемента декодера. Элемент кодера OTT выделяет два пространственных параметра и создает сигнал, являющийся результатом понижающего микширования, и остаточный сигнал. Элемент TTT выполняет понижающее микширование трех аудиосигналов, в результате чего получают стереосигнал после понижающего микширования плюс остаточный сигнал. Эти элементы могут быть объединены для создания разнообразных конфигураций пространственной аудиосреды (например, объемного звука).

Некоторые приложения SAC могут работать в неуправляемом рабочем режиме, когда из кодера в декодер передается только стереосигнал после понижающего микширования без необходимости передачи пространственных параметров. Декодер синтезирует пространственные параметры из сигнала, полученного в результате понижающего микширования, и использует эти параметры для создания многоканального аудиосигнала.

Сущность изобретения

Пространственная информация, связанная с аудиосигналом, кодируется в битовый поток, который может передаваться в декодер или записываться на носителе данных. Битовый поток может содержать в себе различный синтаксис, относящийся к временной, частотной и пространственной областям. В некоторых вариантах битовый поток включает в себя одну или несколько структур данных (например, кадры), которые содержат упорядоченные наборы временных интервалов, для которых можно применять те или иные параметры. Эти структуры данных могут быть фиксированными или переменными. Индикатор типа структуры данных может быть вставлен в битовый поток, чтобы дать возможность декодеру определить тип структуры данных и инициировать соответствующий процесс декодирования. Структура данных может включать в себя информацию о положении, которая может быть использована декодером для идентификации правильного временного интервала, для которого применим заданный набор параметров. Информация о положении временного интервала может быть закодирована с использованием фиксированного количества бит или переменного количества бит в зависимости от типа структуры данных, указанного индикатором типа структуры данных. Для структуры данных переменного типа информация о положении временного интервала может быть закодирована с использованием переменного количества бит на основе положения временного интервала в упорядоченном наборе временных интервалов.

В некоторых вариантах реализации способ кодирования аудиосигнала включает в себя: определение количества временных интервалов и количества наборов параметров, причем наборы параметров включают в себя один или несколько параметров; создание информации, указывающей положение по меньшей мере одного временного интервала в упорядоченном наборе временных интервалов, для которого применяется набор параметров; кодирование аудиосигнала в виде битового потока, включающего в себя кадр, причем этот кадр содержит упорядоченный набор временных интервалов; и вставку переменного количества бит в битовый поток, которые представляют положение временного интервала в упорядоченном наборе временных интервалов, где переменное количество бит определяется положением временного интервала.

В некоторых вариантах изобретения способ декодирования аудиосигнала включат в себя: прием битового потока, представляющего аудиосигнал, причем битовый поток содержит кадр; определение количества временных интервалов и количество наборов параметров из битового потока, причем наборы параметров включают в себя один или несколько параметров; определение информации о положении из битового потока, причем информация о положении указывает положение временного интервала в упорядоченном наборе временных интервалов, для которого применяется указанный набор параметров, где упорядоченный набор временных интервалов содержится в указанном кадре; и декодирование аудиосигнала на основе количества временных интервалов, количества наборов параметров и информации о положении, где информация о положении представлена переменным количеством бит на основе положения временного интервала.

Раскрыты другие варианты кодирования положения временного интервала, которые относятся к системам, способам, устройствам, структурам данных и считываемым компьютером носителям.

Следует понимать, что предшествующее общее описание и последующее подробное описание вариантов изобретения носят иллюстративный и пояснительный характер и предполагают дополнительное разъяснение заявленного изобретения.

Краткое описание чертежей

Сопроводительные чертежи, которые включены сюда для более глубокого понимания изобретения и образуют часть данной заявки, иллюстрируют вариант (варианты) осуществления изобретения и вместе с описанием служат для объяснения принципов, лежащих в основе настоящего изобретения. На чертежах:

фиг. 1 - схема, иллюстрирующая принцип создания пространственной информации согласно одному варианту настоящего изобретения;

фиг. 2 - блок-схема кодера для кодирования аудиосигнала согласно одному варианту настоящего изобретения;

фиг. 3 - блок-схема декодера для декодирования аудиосигнала согласно одному варианту настоящего изобретения;

фиг. 4 - блок-схема модуля преобразования каналов, содержащегося в блоке повышающего микширования, входящем в декодер, согласно одному варианту настоящего изобретения;

фиг. 5 - схема, объясняющая способ конфигурирования битового потока аудиосигнала согласно одному варианту настоящего изобретения;

фиг. 6А и 6В - схема и график время/частота, объясняющие взаимосвязи между набором параметров, временным интервалом и параметрическими диапазонами согласно одному варианту настоящего изобретения;

фиг. 7А - иллюстрация синтаксиса, представляющего информацию о конфигурации пространственного информационного сигнала согласно одному варианту настоящего изобретения;

фиг. 7В - таблица для нескольких параметрических диапазонов пространственного информационного сигнала согласно одному варианту настоящего изобретения;

фиг. 8А - иллюстрация синтаксиса, представляющего несколько параметрических диапазонов, применимых для блока OTT, в виде фиксированного количества бит согласно одному варианту настоящего изобретения;

фиг. 8В - иллюстрация синтаксиса, представляющего несколько параметрических диапазонов, применимых для блока OTT, с помощью переменного количества бит согласно одному варианту настоящего изобретения;

фиг. 9А - иллюстрация синтаксиса, представляющего несколько параметрических диапазонов, применимых для блока TTT, в виде фиксированного количества бит согласно одному варианту настоящего изобретения;

фиг. 9В - иллюстрация синтаксиса, представляющего несколько параметрических диапазонов, применимых для блока TTT, с помощью переменного количества бит согласно одному варианту настоящего изобретения;

фиг. 10А - иллюстрация синтаксиса информации о конфигурации пространственного расширения для кадра пространственного расширения согласно одному варианту настоящего изобретения;

фиг. 10В и 10С - иллюстрации синтаксисов информации о конфигурации пространственного расширения для остаточного сигнала в том случае, когда остаточный сигнал содержится в кадре пространственного расширения согласно одному варианту настоящего изобретения;

фиг. 10D - иллюстрация синтаксиса для способа представления количества параметрических диапазонов для остаточного сигнала согласно одному варианту настоящего изобретения;

фиг. 11А - блок-схема устройства декодирования при использовании неуправляемого кодирования согласно одному варианту настоящего изобретения;

фиг. 11В - схема для способа представления количества параметрических диапазонов в виде одной группы согласно одному варианту настоящего изобретения;

фиг. 12 - иллюстрация синтаксиса информации о конфигурации пространственного кадра согласно одному варианту настоящего изобретения;

фиг. 13А - иллюстрация синтаксиса информации о положении временного интервала, для которого применятся набор параметров, согласно одному варианту настоящего изобретения;

фиг. 13В - иллюстрация синтаксиса для представления информации о положении временного интервала, для которого применяется набор параметров, в виде абсолютного значения и значения разности согласно одному варианту настоящего изобретения;

фиг. 13С - схема, представляющая множество информаций о положении временных интервалов, для которых применяются наборы параметров, в виде группы согласно одному варианту настоящего изобретения;

фиг. 14 - блок-схема способа кодирования согласно одному варианту настоящего изобретения;

фиг. 15 - блок-схема способа декодирования согласно одному варианту настоящего изобретения; и

фиг. 16 - блок-схема архитектуры устройства для реализации процессов кодирования и декодирования, описанных со ссылками на фигуры 1-15.

Наилучший вариант осуществления изобретения

На фиг. 1 представлена схема, иллюстрирующая принцип создания пространственной информации согласно одному варианту настоящего изобретения. Схема перцептивного кодирования для многоканальных аудиосигналов основана на том факте, что человек может воспринимать аудиосигналы через трехмерное пространство. Это трехмерное пространстве аудиосигнала можно представить с использованием пространственной информации, включающей в себя, но не только, следующие известные пространственные параметры: разности канальных уровней (CLD), межканальную корреляцию/когерентность (ICC), разновременность каналов (CTD), коэффициенты канального предсказания (CPC) и т.д. Параметр CLD описывает разности в энергии (уровне) между двумя аудиоканалами, параметр ICC описывает величину корреляции или когерентности между двумя аудиоканалами, а параметр CTD описывает разность по времени между двумя аудиоканалами.

Создание параметров CTD и CLD показано на фиг. 1. Первая прямая звуковая волна 103 от удаленного источника 101 звука поступает в левое человеческое ухо 107, а вторая прямая звуковая волна 102 дифрагирует вокруг головы человека, достигая его правого уха 106. Прямые звуковые волны 102 и 103 отличаются друг от друга временем поступления и уровнем энергии. Параметры CTD и CLD могут быть созданы на основе разностей времен поступления и уровней энергии звуковых волн 102 и 103 соответственно. Вдобавок, в уши 106 и 107 поступают отраженные звуковые волны 104 и 105 соответственно, которые не имеют взаимной корреляции. Параметр ICC может быть создан на основе корреляции между звуковыми волнами 104 и 105.

В кодере из многоканального входного аудиосигнала выделяется пространственная информация (например, пространственные параметры), и создается сигнал, являющийся результатом понижающего микширования. Сигнал после понижающего микширования и пространственные параметры передаются в декодер. Для сигнала после понижающего микширования можно использовать любое количество аудиоканалов, включая, но не только: моносигнал, стереосигнал или многоканальный аудиосигнал. В декодере из сигнала после понижающего микширования и пространственных параметров создается многоканальный сигнал, являющийся результатом повышающего микширования.

На фиг. 2 представлена блок-схема кодера для кодирования аудиосигнала согласно одному варианту настоящего изобретения. Кодер включает в себя блок 202 понижающего микширования, блок 203 создания пространственной информации, блок 207 кодирования сигнала после понижающего микширования и блок 209 мультиплексирования. Возможны и другие конфигурации кодера. Кодеры могут быть реализованы аппаратными средствами, программными средствами или в виде комбинации аппаратных и программных средств. Кодеры могут быть реализованы в интегральных микросхемах, наборах микросхем, однокристальной системе (SoC), цифровых процессорах сигналов, процессорах общего назначения и различных цифровых и аналоговых устройствах.

Блок 202 понижающего микширования создает из многоканального аудиосигнала 201 сигнал 204, являющийся результатом понижающего микширования. На фиг. 2 x1,...,xn указывают входные аудиоканалы. Как упоминалось выше, сигнал 204 после понижающего микширования может представлять собой моносигнал, стереосигнал или многоканальный аудиосигнал. В показанном примере x'1,...,x'm указывают количество каналов сигнала 204 после понижающего микширования. В некоторых вариантах кодер вместо сигнала 204 понижающего микширования обрабатывает сигнал 205 понижающего микширования, который подается извне (например, понижающее микширование для создания художественных эффектов).

Блок 203 создания пространственной информации извлекает пространственную информацию из многоканального аудиосигнала 201. В этом случае термин «пространственная информация» обозначает информацию, относящуюся к каналам аудиосигнала, используемым при повышающем микшировании сигнала 204 после понижающего микширования с получением многоканального аудиосигнала в декодере. Сигнал 204 понижающего микширования создается посредством понижающего микширования многоканального аудиосигнала. Пространственную информацию кодируют для обеспечения кодированного сигнала 206 с пространственной информацией.

Блок 207 кодирования сигнала понижающего микширования создает кодированный сигнал 208 понижающего микширования путем кодирования сигнала 204 понижающего микширования, созданного в блоке 202 понижающего микширования.

Блок 209 мультиплексирования создает битовый поток 210, включающий в себя кодированный сигнал 208 после понижающего микширования и кодированный сигнал 206 с пространственной информацией. Битовый поток 210 может быть передан в последующий декодер и/или записан на носителе данных.

На фиг. 3 представлена блок-схема декодера для декодирования кодированного аудиосигнала согласно одному варианту настоящего изобретения. Декодер включает в себя блок 302 демультиплексирования, блок 305 декодирования сигнала после понижающего микширования, блок 307 декодирования пространственной информации и блок 309 повышающего микширования. Декодеры могут быть реализованы аппаратными средствами, программными средствами или в виде комбинации аппаратных и программных средств. Декодеры могут быть реализованы в интегральных микросхемах, наборах микросхем, однокристальной системе (SoC), цифровых процессорах сигналов, процессорах общего назначения и различных цифровых и аналоговых устройствах.

В некоторых вариантах блок 302 демультиплексирования принимает битовый поток 301, представляющий аудиосигнал, а затем выделяет из битового потока 301 кодированный сигнал 303 после понижающего микширования и кодированный сигнал 304 с пространственной информацией. На фиг. 3 x'1,...,x'm указывают каналы сигнала 303 после понижающего микширования. Блок 305 декодирования сигнала понижающего микширования выводит декодированный сигнал 306 понижающего микширования посредством декодирования кодированного сигнала 303 понижающего микширования. Если декодер не способен выдавать многоканальный аудиосигнал, то тогда блок 305 декодирования сигнала понижающего микширования может непосредственно вывести сигнал 306 понижающего микширования. На фиг. 3 y'1,...,y'm указывают прямые выходные каналы блока 305 декодирования сигнала понижающего микширования.

Блок 307 декодирования сигнала с пространственной информацией выделяет информацию о конфигурации сигнала с пространственной информацией из закодированного сигнала 304 с пространственной информацией, а затем декодирует сигнал 304 с пространственной информацией, используя извлеченную информацию о конфигурации.

Блок 309 повышающего микширования может выполнить повышающее микширование сигнала 306, являющегося результатом понижающего микширования, с получением многоканального аудиосигнала 310, используя извлеченную пространственную информацию 308. На фиг. 3 y1,...,yn указывают ряд выходных каналов блока 309 повышающего микширования.

На фиг. 4 представлена блок-схема модуля преобразования каналов, который может быть включен в состав блока 309 повышающего микширования в декодере, показанном на фиг. 3. В некоторых вариантах блок 309 повышающего микширования может включать в себя множество модулей преобразования каналов. Модуль преобразования каналов является концептуальным устройством, которое может отличать количество входных каналов от количества выходных каналов, используя специальную информацию.

В некоторых вариантах модуль преобразования каналов может включать в себя блок OTT (один к двум) для преобразования одного канала в два канала и наоборот и блок TTT (два к трем) для преобразования двух каналов в три канала и наоборот. Блоки OTT и/или TTT могут быть скомпонованы с использованием множества различных полезных конфигураций. Например, блок 309 повышающего микширования, показанный на фиг. 3, может включать в себя конфигурацию 5-1-5, конфигурацию 5-2-5, конфигурацию 7-2-7, конфигурацию 7-5-7 и т.д. В конфигурации 5-1-5 сигнал, имеющий после понижающего микширования один канал, создается путем понижающего микширования пяти каналов в один канал, который затем может быть подвергнут повышающему микшированию до пяти каналов. Аналогичным образом можно создать и другие конфигурации, используя различные комбинации блоков OTT и TTT.

Обратимся к фиг. 4, где показана в качестве примера конфигурация 5-2-5 для блока 400 повышающего микширования. В конфигурации 5-2-5 сигнал 401, который после понижающего микширования имеет два канала, вводится в блок 400 повышающего микширования. В показанном примере в качестве входов в блок 400 повышающего микширования предусмотрены левый канал (L) и правый канал (R). В этом варианте блок 400 повышающего микширования включает в себя один блок TTT 402 и три блока OTT 406, 407 и 408. Сигнал 401, который имеет после понижающего микширования два канала, подается в качестве входного сигнал в блок TTT (TTTo) 402, который обрабатывает сигнал 401 после понижающего микширования и обеспечивает в качестве выходных сигналов три канала 403, 404 и 405. В качестве входа в блок TTT 402 могут быть предусмотрены один или несколько пространственных параметров (например, CPC, CLD, ICC), которые используют для обработки сигнала 401 после понижающего микширования, как описано ниже. В некоторых вариантах в качестве входа в блок TTT 402 может быть избирательно предусмотрен остаточный сигнал. В указанном случае в качестве коэффициента предсказания для создания трех каналов из дух каналов может быть определен параметр CPC.

Канал 403, который предусмотрен в качестве выхода из блока TTT 402, является входом в блок OTT 406, который создает два выходных канала, используя один или несколько пространственных параметров. В показанном примере два выходных канала представляют положения переднего левого (FL) и заднего левого (BL) динамиков, например, в объемной звуковой среде. Канал 404 предусмотрен в качестве входа в блок OTT 407, который создает два выходных канала, используя один или несколько пространственных параметров. В показанном примере два выходных канала представляют положения переднего правого (FR) и заднего правого (BR) динамиков. Канал 405 предусмотрен в качестве входа в блок OTT 408, который создает два выходных канала. В показанном примере два выходных канала представляют положение центрального (С) динамика и канал низкочастотной оптимизации (LFE). В этом случае пространственная информация (например, CLD, ICC) может быть предусмотрена в качестве входа для каждого из блоков OTT. В некоторых вариантах в качестве входов в блоки OTT 406 и 407 могут быть предусмотрены остаточные сигналы (Res1, Res2). В указанном варианте остаточный сигнал может быть не предусмотрен в качестве входного сигнала в блок OTT 408, который выдает центральный канал и канал LFE.

Конфигурация, показанная на фиг. 4, является одним примером конфигурации для модуля преобразования каналов. Возможны другие конфигурации для модуля преобразования каналов, включающие в себя различные комбинации блоков OTT и TTT. Поскольку каждый из модулей преобразования каналов может функционировать в частотной области, можно определить количество параметрических диапазонов, применимых для каждого из модулей преобразования каналов. Диапазон параметра означает по меньшей мере один частотный диапазон, применимый к одному параметру. Ряд параметрических диапазонов описан со ссылками на фиг. 6В.

На фиг. 5 показана схема, иллюстрирующая способ конфигурирования битового потока аудиосигнала согласно одному варианту настоящего изобретения. На фиг. 5(а) показан битовый поток аудиосигнала, включающего только сигнал с пространственной информацией, а на фигурах 5(b) и 5(с) показаны битовые потоки аудиосигнала, включающего в себя сигнал после понижающего микширования и сигнал с пространственной информацией.

Обратимся к фиг. 5(а), где битовый поток аудиосигнала может включать в себя информацию 501 о конфигурации и кадр 503. Кадр 503 может повторяться в битовом потоке, причем в некоторых вариантах включать в себя единственный пространственный кадр 502, содержащий пространственную аудиоинформацию.

В некоторых вариантах информация 501 о конфигурации включает в себя информацию, описывающую общее количество временных интервалов в одном пространственном кадре 502, общее количество параметрических диапазонов, охватывающих частотный диапазон аудиосигнала, количество параметрических диапазонов в блоке OTT, количество параметрических диапазонов в блоке TTT и количество параметрических диапазонов в остаточном сигнале. При необходимости в информацию 501 о конфигурации может быть включена и другая информация.

В некоторых вариантах пространственный кадр 502 включает в себя один или несколько пространственных параметров (например, CLD, ICC), тип кадра, количество наборов параметров в одном кадре, а также временные интервалы, для которых могут быть применены наборы параметров. При необходимости в пространственный кадр 502 может быть включена и другая информация. Смысл и ценность информации 501 о конфигурации и информации, содержащейся в пространственном кадре 502, объясняются ниже со ссылками на фигуры с 6 по 10.

Обратимся к фиг. 5(b), где битовый поток аудиосигнала может включать в себя информацию 504 о конфигурации, сигнал 505 после понижающего микширования и пространственный кадр 506. В этом случае один кадр 507 может включать в себя сигнал 505 после понижающего микширования и пространственный кадр 506, причем кадр 507 может в битовом потоке повторяться.

Обратимся к фиг. 5(с), где битовый поток аудиосигнала может включать в себя сигнал 508 после понижающего микширования, информацию 509 о конфигурации и пространственный кадр 510. В этом случае один кадр 511 может включать в себя информацию 509 о конфигурации и пространственный кадр 510, причем кадр 511 в битовом потоке может повторяться. Если информация 509 о конфигурации вставлена в каждый кадр 511, то аудиосигнал может воспроизводиться устройством воспроизведения с произвольного места.

Хотя на фиг. 5(с) показано, что информация 509 о конфигурации вставлена в битовый поток с помощью кадра 511, должно быть очевидно, что информация 509 о конфигурации может быть вставлена в битовый поток с использованием множества кадров, которые повторяются периодически или непериодически.

На фигурах 6А и 6В представлены схемы, иллюстрирующие связи между набором параметров, временным интервалом и параметрическими диапазонами согласно одному варианту настоящего изобретения. Набор параметров обозначает один или несколько пространственных параметров, используемых для одного временного интервала. Пространственные параметры могут включать в себя пространственную информацию, такую как CDL, ICC, CPC и т.д. Временной интервал означает интервал аудиосигнала, для которого могут быть применены пространственные параметры. Один пространственный кадр может включать в себя один или несколько временных интервалов.

Обратимся к фиг. 6А, где в пространственном кадре может быть использовано несколько наборов параметров 1,…,P, а каждый набор параметров может включать в себя одно или несколько полей 1,…,Q-1 данных. Набор параметров может быть применен ко всему частотному диапазону аудиосигнала, а каждый пространственный параметр в наборе параметров может быть применен к одному или нескольким участкам полосы частот. Например, если набор параметров включает в себя 20 пространственных параметров, то вся полоса частот аудиосигнала может быть разбита на 20 зон (называемых далее «параметрические диапазоны»), и для 20 параметрических диапазонов можно применить 20 пространственных параметров из данного набора параметров. Параметры могут быть применены к параметрическим диапазонам исходя из конкретных требований. Например, пространственные параметры могут быть применены к низкочастотным параметрическим диапазонам без разрядки, а к высокочастотным параметрическим диапазонам с разрядкой.

Обратимся к фиг. 6В, где график время/частота показывает взаимосвязь между наборами параметров и временными интервалами. В показанном примере три набора параметров (набор 1 параметров, набор 2 параметров, набор 3 параметров) применяются для упорядоченного набора из 12 временных интервалов в одном пространственном кадре. В этом случае весь частотный диапазон аудиосигнала разбивается на 9 параметрических диапазонов. Таким образом, горизонтальная ось указывает количество временных интервалов, а вертикальная ось указывает количество параметрических диапазонов. Каждый из трех наборов параметров применяется для конкретного временного интервала. Например, первый набор параметров (набор 1 параметров) применяется для временного интервала #1, второй набор параметров (набор 2 параметров) применяется для временного интервала #5, а третий набор параметров (набор 3 параметров) применяется для временного интервала #9. Наборы параметров могут быть применены для других временных интервалов посредством интерполяции и/или копирования наборов параметров для этих временных интервалов. В общем случае количество наборов параметров может быть меньше или равно количеству временных интервалов, а количество параметрических диапазонов может быть меньше или равно количеству частотных полос аудиосигнала. Посредством кодирования пространственной информации для некоторых частей временной-частотной области аудиосигнала вместо того, чтобы делать это для всей временной-частотной области аудиосигнала, можно уменьшить объем пространственной информации, посылаемой от кодера на декодер. Это сокращение объема данных возможно потому, что согласно известным принципам перцепционного аудиокодирования разряженной информации во временной-частотной области частот часто бывает достаточно для восприятия человеком звука.

Важным признаком раскрытых здесь вариантов осуществления изобретения является кодирование и декодирование положений временных интервалов, для которых применяются наборы параметров, с использованием фиксированного или переменного количества бит. Количество параметрических диапазонов также может быть представлено фиксированным количеством бит или переменным количеством бит. Схема кодирования с переменным количеством бит также может быть применена к другой информации, используемой при пространственном аудиокодировании, в том числе, но не только, к информации, связанной с временной, пространственной и/или частотной областями (например, для нескольких частотных поддиапазонов на выходе гребенки фильтров).

На фиг. 7А показан синтаксис для представления информации о конфигурации пространственного информационного сигнала согласно одному варианту настоящего изобретения. Информация о конфигурации включает в себя множество полей с 701 по 718, которым может быть присвоено некоторое количество бит.

Поле “bsSamplingFreqencyIndex” 701 указывает частоту дискретизации, полученную из процесса дискретизации аудиосигнала. Для представления частоты дискретизации полю “bsSamplingFreqencyIndex” 701 выделено 4 бита. Если значение поля “bsSamplingFreqencyIndex” 701 составляет 15, то есть двоичное число 1111, то добавляется поле “bsSamplingFreqency” 702 для представления частоты дискретизации. В этом случае полю “bsSamplingFreqency” 702 выделяется 24 бита.

Поле “bsFrameLength” 703 указывает общее количество временных интервалов (далее называемое “numSlots”) в одном пространственном кадре, причем между “numSlots” и полем “bsFrameLength” 703 может иметь место соотношение NumSlots = bsFrameLength+1.

Поле “bsFreqRes” 704 указывает общее количество параметрических диапазонов, охватывающих всю частотную область аудиосигнала. Поле “bsFreqRes” 704 объясняется ниже на фиг. 7В.

Поле “bsTreeConfig” 705 указывает информацию для древовидной конфигурации, включающей в себя множество модулей преобразования каналов, таких как были описаны со ссылками на фиг. 4. Информация для древовидной конфигурации включает в себя такую информацию, как тип модуля преобразования каналов, количество модулей преобразования каналов, тип пространственной информации, используемой в модуле преобразования каналов, количество входных/выходных каналов аудиосигнала и т.д.

Древовидная конфигурация может иметь одну из следующих конфигураций: конфигурацию 5-1-5, конфигурацию 5-2-5, конфигурацию 7-2-7, конфигурацию 7-5-7 и т.п., в соответствии с типом модуля преобразования каналов или количеством каналов. На фиг. 4 показана древовидная конфигурация 5-2-5.

Поле 706 “bsQuantMode” указывает информацию о режиме квантования пространственной информации.

Поле “bsOneIcc” 707 указывает, используется ли для всех блоков OTT один поднабор параметров ICC. В этом случае поднабор параметров означает набор параметров, примененных для конкретного временного интервала и конкретного модуля преобразования каналов.

Поле “bsArbitraryDownmix” 708 указывает наличие или отсутствие произвольно выбранного коэффициента усиления при понижающем микшировании. Поле “bsFixedGainSur” 709 указывает коэффициент усиления, применяемый для объемного канала, например, LS (левый канал объемного звучания) и RS (правый канал объемного звучания).

Поле “bsFixedGainLF” 710 указывает коэффициент усиления, применяемый для канала LFE.

Поле “bsFixedGainDM” 711 указывает коэффициент усиления, применяемый для сигнала, являющегося результатом понижающего микширования.

Поле “bsMatrixMode” 712 указывает, создается ли в кодере матрично совместимый стереосигнал после понижающего микширования.

Поле “bsTempShapeConfig” 713 указывает рабочий режим временного формирования (например, TES (формирование временной огибающей) и/или TP (временное формирование)) в декодере.

Поле “bsDecorrConfig” 714 указывает рабочий режим декоррелятора декодера.

И поле “bs3DaudioМode” 715 указывает, закодирован ли сигнал после понижающего микширования в 3D (трехмерный) сигнал и использована ли обработка с применением обратной функции HRTF (функция моделирования восприятия звука человеком).

После того как была определена/извлечена информация из каждого поля в кодере/декодере, в кодере/декодере определяется/извлекается информация для количества параметрических диапазонов, применяемых для модуля преобразования каналов. Сначала определяется/извлекается (716) количество параметрических диапазонов, применяемых для блока OTT, а затем определяется/извлекается (717) количество параметрических диапазонов, применяемых для блока TTT. Количество параметрических диапазонов для блока ATT и/или блока TTT будет подробно описано со ссылками на фигуры с 8А по 9В.

В случае когда существует кадр расширения, блок “spatialExtensionConfig” 718 включает в себя информацию о конфигурации для кадра расширения. Информация, включенная в блок “spatialExtensionConfig” 718, описывается ниже со ссылками на фигуры с 10А по 10D.

На фиг. 7В представлена таблица для количества параметрических диапазонов сигнала с пространственной информацией согласно одному варианту настоящего изобретения. “numBands” указывает количество параметрических диапазонов для всей частотной области аудиосигнала, а “bsFreqRes” указывает индексную информацию для количества параметрических диапазонов. Например, вся частотная область аудиосигнала по желанию может быть разбита на несколько параметрических диапазонов (например, 4, 5, 7, 10, 14, 20, 28 и т.д.).

В некоторых вариантах один параметр может применяться для каждого параметрического диапазона. Например, если “numBands” составляет 28, то тогда вся частотная область аудиосигнала разбивается на 28 параметрических диапазонов, и каждый из 28 параметров может применяться для каждого из 28 параметрических диапазонов. В другом примере если “numBands” равно 4, то тогда вся частотная область данного аудиосигнала разбивается на 4 параметрических диапазона, и каждый из 4 параметров может применяться для каждого из 4 параметрических диапазонов. На фиг. 7В термин “Зарезервировано” означает, что количество параметрических диапазонов для всей частотной области данного аудиосигнала не определено.

Следует заметить, что орган слуха человека не чувствителен к количеству параметрических диапазонов, используемых в схеме кодирования. Таким образом, использование небольшого количества параметрических диапазонов может обеспечить такой же пространственный аудиоэффект для слушателя, как если бы использовалось большее количество параметрических диапазонов.

В отличие от параметра “numBands”, параметр “numSlots”, представленный полем “bsFrameLength” 703, показанным на фиг. 7А, может представлять все значения. Однако значения “numSlots” могут быть ограничены, если количество отсчетов в одном пространственном кадре точно делится на “numSlots”. Таким образом, если максимальное представляемое значение “numSlots” равно 'b', то каждое значение поля “bsFrameLength” 703 может быть представлено ceil{log2(b)} битами. В этом случае 'ceil(x)' означает минимальное целое число, большее или равное значению 'x'. Например, если один пространственный кадр включает в себя 72 временных интервала, то тогда для поля “bsFrameLength” 703 может быть выделено ceil{log2(72)} = 7 бит, и количество параметрических диапазонов, применяемых для модуля преобразования каналов, может быть принято равным значению в пределах “numBands”.

На фиг. 8А показан синтаксис для представления количества параметрических диапазонов, применяемых для блока OTT, с помощью фиксированного количества бит согласно одному варианту настоящего изобретения. Обратимся к фигурам 7А и 8А, где 'i' имеет значение от нуля до numOttBoxes - 1 и где 'numOttBoxes' - общее количество блоков OTT. А именно, значение 'i' указывает каждый блок OTT, а количество параметрических диапазонов, применяемое для каждого блока OTT, представлено соответствующим значением 'i'. Если бло