2407072 - Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов

Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов

Иллюстрации

Показать все

Изобретение относится к способам и устройствам кодирования и декодирования многоканального объектно-ориентированного аудиосигнала. Техническим результатом является создание способов и устройств кодирования и декодирования аудиосигналов, в которых звуковые образы будут локализованы в любой требуемой позиции для каждого объектного аудиосигнала. Указанный технический результат достигается тем, что в способе декодирования аудио формируют третий сигнал понижающего микширования посредством комбинирования первого сигнала понижающего микширования, извлеченного из первого аудиосигнала, и второго сигнала понижающего микширования, извлеченного из второго аудиосигнала, формируют третью объектно-ориентированную дополнительную информацию посредством комбинирования первой объектно-ориентированной дополнительной информации, извлеченной из первого аудиосигнала, и второй объектно-ориентированной дополнительной информации, извлеченной из второго аудиосигнала, преобразуют третью объектно-ориентированную дополнительную информацию в канально-ориентированную дополнительную информацию и с помощью третьего сигнала понижающего микширования и канально-ориентированной дополнительной информации формируют многоканальный аудиосигнал. 3 н. и 15 з.п. ф-лы, 20 ил.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение относится к способу и устройству кодирования аудио и способу и устройству декодирования аудио, в которых звуковые образы могут быть локализованы в любой требуемой позиции для каждого объектного аудиосигнала.

Уровень техники

В общем, в методиках кодирования и декодирования многоканального аудио число канальных сигналов в многоканальном сигнале микшируется с понижением до меньшего числа канальных сигналов, дополнительная информация, касающаяся исходных канальных сигналов, передается и многоканальный сигнал, имеющий столько же каналов, что и исходный многоканальный сигнал, восстанавливается.

Методики кодирования и декодирования объектно-ориентированного аудио, по сути, аналогичны методикам кодирования и декодирования многоканального аудио в отношении понижающего микширования нескольких источников звука в меньшее число сигналов источника звука и передачи дополнительной информации, касающейся исходных источников звука. Тем не менее, в методиках кодирования и декодирования объектно-ориентированного аудио объектные сигналы, которые являются базовыми сигналами (к примеру, звук музыкального инструмента или человеческий голос) канального сигнала, интерпретируются так же, как канальные сигналы в методиках кодирования и декодирования многоканального аудио, и тем самым могут быть кодированы.

Другими словами, в методиках кодирования и декодирования объектно-ориентированного аудио каждый объектный сигнал считается объектом, который должен быть кодирован. В этом смысле методики кодирования и декодирования объектно-ориентированного аудио отличаются от методик кодирования и декодирования многоканального аудио, в которых операция кодирования многоканального аудио выполняется просто на основе межканальной информации независимо от числа элементов канального сигнала, которые должны быть кодированы.

Сущность изобретения

Техническая задача

Настоящее изобретение предоставляет способ и устройство кодирования аудио и способ и устройство декодирования аудио, в которых аудиосигналы могут быть кодированы или декодированы так, что звуковые образы могут быть локализованы в любой требуемой позиции для каждого объектного аудиосигнала.

Техническое решение

Согласно аспекту настоящего изобретения предусмотрен способ декодирования аудио, включающий в себя формирование третьего сигнала понижающего микширования посредством комбинирования первого сигнала понижающего микширования, извлеченного из первого аудиосигнала, и второго сигнала понижающего микширования, извлеченного из второго аудиосигнала; формирование третьей объектно-ориентированной дополнительной информации посредством комбинирования первой объектно-ориентированной дополнительной информации, извлеченной из первого аудиосигнала, и второй объектно-ориентированной дополнительной информации, извлеченной из второго аудиосигнала; преобразование третьей объектно-ориентированной дополнительной информации в канально-ориентированную дополнительную информацию и формирование многоканального аудиосигнала с помощью третьего сигнала понижающего микширования и канально-ориентированной дополнительной информации.

Согласно другому аспекту настоящего изобретения предусмотрено устройство декодирования аудио, включающее в себя многоточечный управляющий сумматор, который генерирует третий сигнал понижающего микширования посредством комбинирования первого сигнала понижающего микширования, извлеченного из первого аудиосигнала, и второго сигнала понижающего микширования, извлеченного из второго аудиосигнала, и генерирует третью объектно-ориентированную дополнительную информацию посредством комбинирования первой объектно-ориентированной дополнительной информации, извлеченной из первого аудиосигнала, и второй объектно-ориентированной дополнительной информации, извлеченной из второго аудиосигнала; транскодер, который преобразует третью объектно-ориентированную дополнительную информацию в канально-ориентированную дополнительную информацию, и многоканальный декодер, который генерирует многоканальный аудиосигнал с помощью третьего сигнала понижающего микширования и канально-ориентированной дополнительной информации.

Согласно другому аспекту настоящего изобретения предусмотрен машиночитаемый носитель записи, имеющий записанный на нем способ декодирования аудио, включающий в себя формирование третьего сигнала понижающего микширования посредством комбинирования первого сигнала понижающего микширования, извлеченного из первого аудиосигнала, и второго сигнала понижающего микширования, извлеченного из второго аудиосигнала; генерирование третьей объектно-ориентированной дополнительной информации посредством комбинирования первой объектно-ориентированной дополнительной информации, извлеченной из первого аудиосигнала, и второй объектно-ориентированной дополнительной информации, извлеченной из второго аудиосигнала; преобразование третьей объектно-ориентированной дополнительной информации в канально-ориентированную дополнительную информацию и генерирование многоканального аудиосигнала с помощью третьего сигнала понижающего микширования и канально-ориентированной дополнительной информации.

Преимущества

Предусмотрены способ и устройство кодирования аудио и способ и устройство декодирования аудио, в которых аудиосигналы могут быть кодированы или декодированы так, что звуковые образы могут быть локализованы в любой требуемой позиции для каждого объектного аудиосигнала.

Краткое описание чертежей

Настоящее изобретение должно стать более понятным из подробного описания, предоставленного далее в этом документе, и прилагаемых чертежей, которые предоставлены только в целях иллюстрации и вследствие этого не должны рассматриваться как ограничивающие настоящее изобретение, из которых:

Фиг.1 - это блок-схема типичной системы кодирования/декодирования объектно-ориентированного аудио;

Фиг.2 - это блок-схема устройства декодирования аудио согласно первому варианту осуществления настоящего изобретения;

Фиг.3 - это блок-схема устройства декодирования аудио согласно второму варианту осуществления настоящего изобретения;

Фиг.4 - это график для пояснения влияния разности амплитуд и разности времен, которые независимы друг от друга, на локализацию звуковых образов;

Фиг.5 - это график функций, касающийся соответствия между разностью амплитуд и разностью времен, которые требуются для того, чтобы локализовать звуковые образы в предварительно определенной позиции;

Фиг.6 иллюстрирует формат управляющей информации, включающей в себя гармоническую информацию;

Фиг.7 - это блок-схема устройства декодирования аудио согласно третьему варианту осуществления настоящего изобретения;

Фиг.8 - это блок-схема модуля художественного усиления при понижающем микшировании (ADG), который может быть использован в модуле декодирования аудио, проиллюстрированном на Фиг.7;

Фиг.9 - это блок-схема устройства декодирования аудио согласно четвертому варианту осуществления настоящего изобретения;

Фиг.10 - это блок-схема устройства декодирования аудио согласно пятому варианту осуществления настоящего изобретения;

Фиг.11 - это блок-схема устройства декодирования аудио согласно шестому варианту осуществления настоящего изобретения;

Фиг.12 - это блок-схема устройства декодирования аудио согласно седьмому варианту осуществления настоящего изобретения;

Фиг.13 - это блок-схема устройства декодирования аудио согласно восьмому варианту осуществления настоящего изобретения;

Фиг.14 - это схема для пояснения применения трехмерной (3D) информации к кадру посредством устройства декодирования аудио, проиллюстрированного на Фиг.13;

Фиг.15 - это блок-схема устройства декодирования аудио согласно девятому варианту осуществления настоящего изобретения;

Фиг.16 - это блок-схема устройства декодирования аудио согласно десятому варианту осуществления настоящего изобретения;

Фиг.17-19 - это схемы для пояснения способа декодирования аудио согласно варианту осуществления настоящего изобретения, и

Фиг.20 - это блок-схема устройства кодирования аудиосигналов согласно варианту осуществления настоящего изобретения.

Оптимальный режим осуществления изобретения

Далее настоящее изобретение описывается более подробно со ссылкой на прилагаемые чертежи, на которых показаны примерные варианты осуществления изобретения.

Способ и устройство кодирования аудио и способ и устройство декодирования аудио согласно настоящему изобретению могут быть применены к операциям обработки объектно-ориентированного аудио, но настоящее изобретение не ограничено этим. Другими словами, способ и устройство кодирования аудио и способ и устройство декодирования аудио могут быть применены к различным операциям обработки сигналов, отличным от операций обработки объектно-ориентированного аудио.

Фиг.1 иллюстрирует блок-схему типичной системы кодирования/декодирования объектно-ориентированного аудио. В общем, аудиосигналы, вводимые в устройство кодирования объектно-ориентированного аудио, не соответствуют каналам многоканального сигнала, а являются независимыми объектными сигналами. В этом смысле устройство кодирования объектно-ориентированного аудио отличается от устройства кодирования многоканального аудио, в которое вводятся канальные сигналы многоканального сигнала.

Например, канальные сигналы, такие как сигнал переднего левого канала и сигнал переднего правого канала для 5.1-канального сигнала, могут быть введены в многоканальный аудиосигнал, тогда как объектные аудиосигналы, такие как человеческий голос или звук музыкального инструмента (к примеру, звук скрипки или пианино), которые являются меньшими объектами, чем канальные сигналы, могут быть введены в устройство кодирования объектно-ориентированного аудио.

Ссылаясь на фиг.1, система кодирования/декодирования объектно-ориентированного аудио включает в себя устройство кодирования объектно-ориентированного аудио и устройство декодирования объектно-ориентированного аудио. Устройство кодирования объектно-ориентированного аудио включает в себя объектный кодер 100, а устройство декодирования объектно-ориентированного аудио включает в себя объектный декодер 111 и рендерер 113.

Объектный кодер 100 принимает N объектных аудиосигналов и формирует объектно-ориентированный сигнал понижающего микширования с одним или более каналами и дополнительной информацией, включающей в себя ряд фрагментов информации, извлеченных из N объектных сигналов, таких как информация разности энергии, информация разности фаз и значение корреляции. Дополнительная информация и объектно-ориентированный сигнал понижающего микширования объединяются в один поток битов, и поток битов передается в объектно-ориентированное устройство декодирования.

Дополнительная информация может включать в себя флаг, указывающий, следует ли выполнять кодирование канально-ориентированного аудио или кодирование объектно-ориентированного аудио, и тем самым может быть определено, следует ли выполнять кодирование канально-ориентированного аудио или кодирование объектно-ориентированного аудио, на основе флага дополнительной информации. Дополнительная информация также может включать в себя информацию огибающей, информацию группировки, информацию периода молчания и информацию задержки, касающуюся объектных сигналов. Дополнительная информация может также включать информацию разности уровней объектов, информацию корреляции между объектами, информацию усиления при понижающем микшировании, информацию разности уровней каналов понижающего микширования и информацию абсолютной энергии объекта.

Объектный декодер 111 принимает объектно-ориентированный сигнал понижающего микширования и дополнительную информацию из устройства кодирования объектно-ориентированного аудио и восстанавливает объектные сигналы, имеющие свойства, аналогичные свойствам N объектных аудиосигналов, на основе объектно-ориентированного сигнала понижающего микширования и дополнительной информации. Объектные сигналы, генерируемые посредством объектного декодера 111, еще не назначены какой-либо позиции в многоканальном пространстве. Таким образом, рендерер 113 назначает каждый из объектных сигналов, сгенерированных посредством объектного декодера 111, предварительно определенной позиции в многоканальном пространстве и определяет уровни объектных сигналов так, что объектные сигналы могут быть воспроизведены из надлежащих соответствующих позиций, указанных посредством рендерера 113, с надлежащими соответствующими уровнями, определенными посредством рендерера 113. Управляющая информация, касающаяся каждого из объектных сигналов, сгенерированных посредством объектного декодера 111, может варьироваться во времени, и тем самым пространственные позиции и уровни объектных сигналов, сформированных посредством объектного декодера 111, могут варьироваться согласно управляющей информации.

Фиг.2 - это блок-схема устройства 120 декодирования аудио согласно первому варианту осуществления настоящего изобретения. Ссылаясь на Фиг.2, устройство 120 декодирования аудио включает в себя объектный декодер 121, рендерер 123 и преобразователь 125 параметров. Устройство 120 декодирования аудио также может включать в себя демультиплексор (не показан), который извлекает сигнал понижающего микширования и дополнительную информацию из потока битов, вводимого в него, и это относится ко всем устройствам декодирования аудио согласно другим вариантам осуществления настоящего изобретения.

Объектный декодер 121 генерирует ряд объектных сигналов на основе сигнала понижающего микширования и модифицированной дополнительной информации, предоставленной посредством преобразователя 125 параметров. Рендерер 123 назначает каждый из объектных сигналов, сформированных посредством объектного декодера 121, предварительно определенной позиции в многоканальном пространстве и определяет уровни объектных сигналов, сгенерированных посредством объектного декодера 121, согласно управляющей информации. Преобразователь 125 параметров генерирует модифицированную дополнительную информацию посредством комбинирования дополнительной информации и управляющей информации. Затем преобразователь 125 параметров передает модифицированную дополнительную информацию в объектный декодер 121.

Объектный декодер 121 может иметь возможность выполнять адаптивное декодирование посредством анализа управляющей информации в модифицированной дополнительной информации.

Например, если управляющая информация указывает то, что первый объектный сигнал и второй объектный сигнал назначены на одну позицию в многоканальном пространстве и имеют одинаковый уровень, типичное устройство декодирования аудио может декодировать первый и второй объектные сигналы отдельно, а затем компоновать их в многоканальном пространстве посредством операции микширования/рендеринга.

С другой стороны, объектный декодер 121 устройства 120 декодирования аудио узнает из управляющей информации в модифицированной дополнительной информации то, что первый и второй объектные сигналы назначены одной позиции в многоканальном пространстве и имеют одинаковый уровень, как если бы они были одним источником звука. Соответственно, объектный декодер 121 декодирует первый и второй объектные сигналы посредством интерпретации их как одного источника звука, а не декодирует их по отдельности. В результате сложность декодирования снижается. Помимо этого вследствие уменьшения числа источников звука, которые должны быть обработаны, сложность микширования/рендеринга также снижается.

Устройство 120 декодирования аудио может быть эффективно использовано в ситуации, когда число объектных сигналов больше числа выходных каналов, поскольку множество объектных сигналов с большой вероятностью должны назначаться одной пространственной позиции.

Альтернативно устройство 120 декодирования аудио может быть использовано в ситуации, когда первый объектный сигнал и второй объектный сигнал назначаются одной позиции в многоканальном пространстве, но имеют различные уровни. В этом случае устройство 120 декодирования аудио декодирует первый и второй объектные сигналы посредством интерпретации первого и второго объектных сигналов как одного сигнала вместо декодирования первого и второго объектных сигналов отдельно и передачи декодированных первого и второго объектных сигналов в рендерер 123. Более конкретно, объектный декодер 121 может получать информацию, касающуюся разности между уровнями первого и второго объектных сигналов, из управляющей информации в модифицированной дополнительной информации и декодировать первый и второй объектные сигналы на основе полученной информации. Как результат, даже если первый и второй объектные сигналы имеют различные уровни, первый и второй объектные сигналы могут быть декодированы, как если бы они являлись одним источником звука.

Еще альтернативно объектный декодер 121 может регулировать уровни объектных сигналов, сгенерированных посредством объектного декодера 121, согласно управляющей информации. Далее объектный декодер 121 может декодировать объектные сигналы, уровни которых отрегулированы. Соответственно, рендерер 123 не должен регулировать уровни декодированных объектных сигналов, предоставляемых посредством объектного декодера 121, а просто компонует декодированные объектные сигналы, предоставляемые посредством объектного декодера 121, в многоканальном пространстве. Вкратце, поскольку объектный декодер 121 регулирует уровни объектных сигналов, генерируемых посредством объектного декодера 121, согласно управляющей информации, рендерер 123 может легко компоновать объектные сигналы, формируемые посредством объектного декодера 121, в многоканальном пространстве без необходимости дополнительно регулировать уровни объектных сигналов, формируемых посредством объектного декодера 121. Следовательно, можно снижать сложность микширования/рендеринга.

Согласно варианту осуществления по Фиг.2 объектный декодер устройства 120 декодирования аудио может адаптивно выполнять операцию декодирования посредством анализа управляющей информации, тем самым снижая сложность декодирования и сложность микширования/рендеринга. Может быть использована комбинация вышеописанных способов, выполняемых посредством устройства 120 декодирования аудио.

Фиг.3 - это блок-схема устройства 130 декодирования аудио согласно второму варианту осуществления настоящего изобретения. Ссылаясь на Фиг.3, устройство 130 декодирования аудио включает в себя объектный декодер 131 и рендерер 133. Устройство 130 декодирования аудио отличается за счет предоставления дополнительной информации не только в объектный декодер 131, но также в рендерер 133.

Устройство 130 декодирования аудио может эффективно выполнять операцию декодирования, даже когда имеется объектный сигнал, соответствующий периоду молчания. Например, сигналы второго-четвертого объектов могут соответствовать периоду воспроизведения музыки, в течение которого играют музыкальные инструменты, а сигнал первого объекта может соответствовать периоду молчания, в течение которого играется аккомпанемент. В этом случае информация, указывающая, какой из множества объектных сигналов соответствует периоду молчания, может быть включена в дополнительную информацию и дополнительная информация может быть предоставлена в рендерер 133, а также в объектный декодер 131.

Объектный декодер 131 может минимизировать сложность декодирования, не декодируя объектный сигнал, соответствующий периоду молчания. Объектный декодер 131 задает объектный сигнал, соответствующий значению 0, и передает уровень объектного сигнала в рендерер 133. В общем, объектные сигналы, имеющие значение 0, интерпретируются так же, как и объектные сигналы, имеющие значение, отличное от 0, и тем самым подвергаются операции микширования/рендеринга.

С другой стороны, устройство 130 декодирования аудио передает дополнительную информацию, включающую в себя информацию, указывающую, какой из множества объектных сигналов соответствует периоду молчания, в рендерер 133 и тем самым не допускает обработки объектного сигнала, соответствующего периоду молчания, посредством операции микширования/рендеринга, выполняемой посредством рендерера 133. Следовательно, устройство 130 декодирования аудио позволяет не допускать лишнего возрастания сложности микширования/рендеринга.

Рендерер 133 может использовать информацию параметров микширования, которая включена в управляющую информацию, для того чтобы локализовать звуковой образ каждого объектного сигнала в стереосцене. Информация параметров микширования может включать в себя только информацию амплитуды либо информацию амплитуды и информацию времени. Информация параметров микширования влияет не только на локализацию звуковых стереообразов, но также на психоакустическое восприятие пространственного качества звука пользователем.

Например, при сравнении двух звуковых образов, которые сгенерированы с помощью способа временного панорамирования и способа амплитудного панорамирования соответственно и воспроизводятся в одном месте с помощью 2-канального стереогромкоговорителя, обнаруживается, что способ амплитудного панорамирования может способствовать точной локализации звуковых образов и что способ временного панорамирования может предоставлять естественные звуки с сильным ощущением пространства. Таким образом, если рендерер 133 использует только способ амплитудного панорамирования для того, чтобы компоновать объектные сигналы в многоканальном пространстве, рендерер 133 может иметь возможность точно локализовать каждый звуковой образ, но может не иметь возможности предоставлять настолько сильное ощущение звука, как при использовании способа временного панорамирования. Пользователи могут иногда предпочитать локализацию звуковых образов для сильного ощущения звука или наоборот согласно типу звуковых источников.

Фиг.4(a) и 4(b) поясняют влияние интенсивности (разности амплитуд) и разности времен на локализацию звуковых образов, выполняемую при воспроизведении сигналов с помощью 2-канального стереогромкоговорителя. Ссылаясь на Фиг.4(a) и 4(b), звуковой образ может быть локализован под предварительно определенным углом согласно разности амплитуд и разности времен, которые независимы друг от друга. Например, разность амплитуд примерно в 8 дБ или разность времен примерно в 0,5 мс, которая эквивалентна разности амплитуд в 8 дБ, может быть использована для того, чтобы локализовать звуковой образ под углом в 20°. Следовательно, даже если только разность амплитуд предоставлена в качестве информации параметров микширования, можно получать различные звуки с различными свойствами посредством преобразования разности амплитуд в разность времен, которая эквивалента разности амплитуд, в ходе локализации звуковых образов.

Фиг.5 иллюстрирует функции, касающиеся соответствия между разностями амплитуд и разностями времен, которые требуются для того, чтобы локализовать звуковые образы под углами 10°, 20° и 30°. Функция, проиллюстрированная на Фиг.5, может быть получена на основе Фиг.4(a) и 4(b). Ссылаясь на Фиг.5, различные комбинации разности амплитуд-разности времен могут быть предоставлены для локализации звукового образа в предварительно определенной позиции. Например, допустим, что разность амплитуд в 8 дБ предоставлена в качестве информации параметров микширования, чтобы локализовать звуковой образ под углом в 20°. Согласно функции, проиллюстрированной на Фиг.5, звуковой образ также может быть локализован под углом 20° с помощью комбинации разности амплитуд в 3 дБ и разности времен в 0,3 мс. В этом случае не только информация разности амплитуд, а также информация разности времен может быть предоставлена в качестве информации параметров микширования, тем самым улучшая ощущение пространства.

Следовательно, чтобы сгенерировать звуки со свойствами, требуемыми пользователем, в ходе операции микширования/рендеринга, информация параметров микширования может быть надлежащим образом преобразована так, что любое из панорамирования амплитуды и панорамирования времени, которое подходит пользователю, может быть выполнено. Т.е. если информация параметров микширования включает в себя только информацию разности амплитуд и пользователю нужны звуки с сильным ощущением пространства, информация разности амплитуд может быть преобразована в информацию разности времен, эквивалентную информации разности амплитуд, со ссылкой на психоакустические данные. Альтернативно, если пользователю требуются звуки как с сильным ощущением пространства, так и с точной локализацией звуковых образов, информация разности амплитуд может быть преобразована в комбинацию информации разности амплитуд и информации разности времен, эквивалентную исходной информации амплитуд.

Альтернативно, если информация параметров микширования включает в себя только информацию разности времен и пользователь предпочитает точную локализацию звуковых образов, информация разности времен может быть преобразована в информацию разности амплитуд, эквивалентную информации разности времен, или может быть преобразована в комбинацию информации разности времен и информации разности амплитуд, которая может удовлетворять предпочтению пользователя посредством повышения точности локализации звуковых образов и ощущения пространства.

Еще альтернативно, если информация параметров микширования включает в себя и информацию разности амплитуд, и информацию разности времен и пользователь предпочитает точную локализацию звуковых образов, комбинация информации разности амплитуд и информации разности времен может быть преобразована в информацию разности амплитуд, эквивалентную комбинации исходной информации разности амплитуд и информации разности времен. С другой стороны, если информация параметров микширования включает в себя и информацию разности амплитуд, и информацию разности времен и пользователь предпочитает улучшение ощущения пространства, комбинация информации разности амплитуд и информации разности времен может быть преобразована в информацию разности времен, эквивалентную комбинации информации разности амплитуд и исходной информации разности времен.

Ссылаясь на Фиг.6, управляющая информация может включать в себя информацию микширования/рендеринга и информацию гармоник, касающуюся одного или более объектных сигналов. Информация гармоник может включать в себя, по меньшей мере, одно из информации высоты тона, информации основной частоты и информации преобладающей полосы частот, касающейся одного или более объектных сигналов, и описаний энергии и спектра каждой подполосы каждого из объектных сигналов.

Информация гармоник может быть использована для того, чтобы обрабатывать объектный сигнал в ходе операции рендеринга, поскольку разрешение рендерера, который выполняет эту операцию, в единицах подполос является недостаточным.

Если информация гармоник включает в себя информацию высоты тона, касающуюся одного или более объектных сигналов, усиление каждого из объектных сигналов может быть скорректировано посредством ослабления или усиления предварительно определенной частотной области с помощью гребенчатого фильтра или обратного гребенчатого фильтра. Например, если один из множества объектных сигналов является вокальным сигналом, объектные сигналы могут быть использованы в качестве караоке посредством ослабления только вокального сигнала. Альтернативно, если информация гармоник включает в себя информацию преобладающей частотной области, касающуюся одного или более объектных сигналов, может быть выполнен процесс ослабления или усиления преобладающей частотной области. Еще альтернативно, если информация гармоник включает в себя информацию спектра, касающуюся одного или более объектных сигналов, усиление каждого из объектных сигналов может контролироваться посредством выполнения ослабления или усиления без ограничения посредством каких-либо границ подполос.

Фиг.7 - это блок-схема устройства 140 декодирования аудио согласно другому варианту осуществления настоящего изобретения. Ссылаясь на Фиг.7, устройство 140 декодирования аудио использует многоканальный декодер 141 вместо объектного декодера и рендерера и декодирует ряд объектных сигналов после того, как объектные сигналы надлежащим образом скомпонованы в многоканальном пространстве.

Более конкретно, устройство 140 декодирования аудио включает в себя многоканальный декодер 141 и преобразователь 145 параметров. Многоканальный декодер 141 генерирует многоканальный сигнал, объектные сигналы которого уже скомпонованы в многоканальном пространстве, на основе сигнала понижающего микширования и информации пространственных параметров, которая является канально-ориентированной дополнительной информацией, предоставляемой посредством преобразователя 145 параметров. Преобразователь 145 параметров анализирует дополнительную информацию и управляющую информацию, передаваемую посредством устройства кодирования аудио (не показано), и формирует информацию пространственных параметров на основе результата анализа. Более конкретно, преобразователь 145 параметров формирует информацию пространственных параметров посредством комбинирования дополнительной информации и управляющей информации, которая включает в себя информацию настроек воспроизведения и информацию микширования. Т.е. преобразователь 145 параметров выполняет преобразование комбинации дополнительной информации и управляющей информации в пространственные данные, соответствующие модулю один-в-два (OTT) или модулю два-в-три (TTT).

Устройство 140 декодирования аудио может выполнять операцию многоканального декодирования, в которую объединены операция объектно-ориентированного декодирования и операция микширования/рендеринга, и тем самым может пропускать декодирование каждого объектного сигнала. Следовательно, можно снижать сложность декодирования и/или микширования/рендеринга.

Например, когда имеется 10 объектных сигналов и многоканальный сигнал, полученный на основе 10 объектных сигналов, который должен быть воспроизведен посредством 5.1-канальной акустической системы воспроизведения, типичное устройство декодирования объектно-ориентированного аудио генерирует декодированные сигналы, надлежащим образом соответствующие 10 объектным сигналам, на основе сигнала понижающего микширования и дополнительной информации, и затем формирует 5.1-канальный сигнал посредством надлежащей компоновки 10 объектных сигналов в многоканальное пространство, так чтобы объектные сигналы могли стать подходящими для 5.1-канального акустической среды. Тем не менее, недостаточно сформировать 10 объектных сигналов в ходе формирования 5.1-канального сигнала, и эта проблема становится более серьезной по мере того, как разность между числом объектных сигналов и числом каналов многоканального сигнала, который должен быть сгенерирован, возрастает.

С другой стороны, согласно варианту осуществления по Фиг.7 устройство 140 декодирования аудио генерирует информацию пространственных параметров, подходящую для 5.1-канального сигнала, на основе дополнительной информации и управляющей информации и предоставляет информацию пространственных параметров и сигнал понижающего микширования в многоканальный декодер 141. Затем многоканальный декодер 141 формирует 5.1-канальный сигнал на основе информации пространственных параметров и сигнала понижающего микширования. Другими словами, когда число каналов, которые должны быть выведены, составляет 5.1 каналов, устройство 140 декодирования аудио может просто сформировать 5.1-канальный сигнал на основе сигнала понижающего микширования без необходимости формировать 10 объектных сигналов и, таким образом, является более эффективным, чем традиционное устройство декодирования аудио, в отношении сложности.

Устройство 140 декодирования аудио считается эффективным, когда объем вычислений, требуемых для того, чтобы вычислять информацию пространственных параметров, соответствующую каждому из OTT-модуля и TTT-модуля посредством анализа дополнительной информации и управляющей информации, передаваемой посредством устройства кодирования аудио, меньше объема вычислений, требуемого для того, чтобы выполнять операцию микширования/рендеринга после декодирования каждого объектного сигнала.

Устройство 140 декодирования аудио может быть получено посредством добавления модуля для генерирования информации пространственных параметров посредством анализа дополнительной информации и управляющей информации в типичное устройство декодирования многоканального аудио и поэтому может сохранять совместимость с типичным устройством декодирования многоканального аудио. Также устройство 140 декодирования может повышать качество звука с использованием существующих средств типичного устройства декодирования многоканального аудио, таких как формирователь огибающей, средство временной обработки подполос (STP) и декоррелятор. С учетом всего этого следует сделать вывод о том, что все преимущества типичного способа декодирования многоканального аудио могут быть легко применены к способу декодирования объектного аудио.

Информация пространственных параметров, передаваемая в многоканальный декодер 141 посредством преобразователя 145 параметров, может быть сжата с тем, чтобы быть подходящей для передачи. Альтернативно информация пространственных параметров может иметь такой же формат, что и формат данных, передаваемых посредством типичного устройства многоканального кодирования. Т.е. информация пространственных параметров может быть подвергнута операции декодирования Хаффмана или операции предварительного декодирования и тем самым может быть передана в каждый модуль как несжатые данные пространственных меток. Упомянутое выше подходит для передачи информации пространственных параметров в устройство декодирования многоканального аудио в удаленном месте, а следующее удобно, поскольку нет необходимости устройству декодирования многоканального аудио преобразовывать сжатые данные пространственных меток в несжатые данные пространственных меток, которые могут быть легко использованы в операции декодирования.

Конфигурация информации пространственных параметров, основанная на анализе дополнительной информации и управляющей информации, может вызывать задержку между сигналом понижающего микширования и информацией пространственных параметров. Для того чтобы это обойти, может быть предоставлен дополнительный буфер либо для сигнала понижающего микширования, либо для информации пространственных параметров так, что сигнал понижающего микширования и информация пространственных параметров могут быть синхронизированы друг с другом. Эти способы, тем не менее, являются неудобными из-за необходимости предоставлять дополнительный буфер. Альтернативно дополнительная информация может передаваться впереди сигнала понижающего микширования с учетом возможности возникновения задержки между сигналом понижающего микширования и информацией пространственных параметров. В этом случае информация пространственных параметров, полученная посредством комбинирования дополнительной информации и управляющей информации, не обязательно должна корректироваться, а может легко быть использована.

Если множество объектных сигналов из сигнала понижающего микширования имеют различные уровни, модуль художественного усиления понижающего микширования (ADG), который может непосредственно компенсировать сигнал понижающего микширования, может определять относительные уровни объектных сигналов и каждый из объектных с

Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов

Патент 2407072