2427978 - Кодирование и декодирование аудио

Кодирование и декодирование аудио

Иллюстрации

Показать все

Изобретение относится к способам кодирования/декодирования аудио, в частности к кодированию/декодированию аудио, включающего бинауральный виртуальный пространственный сигнал. Техническим результатом является повышение эффективности стереокодирования многоканальных сигналов при снижении сложности кодирования. Указанный технический результат достигается тем, что кодер аудиосигнала содержит средство для приема М-канального аудиосигнала, где М>2, средство понижающего микширования для понижающего микширования М-канального аудиосигнала в первый стереосигнал и связанные параметрические данные, средство формирования для модифицирования первого стереосигнала с целью формирования второго стереосигнала в ответ на связанные параметрические данные и данные пространственных параметров, указывающие передаточную функцию бинаурального восприятия, причем второй стереосигнал является бинауральным сигналом, средство для кодирования второго стереосигнала с целью формирования кодированных данных и средство вывода для формирования выходного потока данных, содержащего кодированные данные и связанные параметрические данные. 16 н. и 19 з.п. ф-лы, 11 ил.

Реферат

Изобретение относится к кодированию и/или декодированию аудио, в частности, но не исключительно, к кодированию и/или декодированию аудио, включающего бинауральный виртуальный пространственный сигнал.

Цифровое кодирование различных исходных сигналов стало в большей степени важным за последние десятилетия, так как цифровое представление и передача сигналов в большей степени заменили аналоговое представление и передачу. Например, распространение аудиовизуального контента, такого как видео и музыка, в большей степени основано на кодировании цифрового контента.

Более того, в последнее десятилетие была тенденция в направлении многоканального аудио и, особенно, в направлении пространственного аудио, выходящего за пределы традиционных стереосигналов. Например, традиционные стереозаписи содержат только два канала, тогда как современные развитые аудиосистемы типично используют пять или шесть каналов, как в популярных системах объемного звучания 5.1. Это предусматривает более вовлеченное впечатление от прослушивания, где пользователь может быть окружен источниками звука.

Различные технологии и стандарты были разработаны для передачи таких многоканальных сигналов. Например, шесть дискретных каналов, представляющие систему объемного звучания 5.1, могут передаваться в соответствии со стандартами, такими как стандарты расширенного кодирования аудио (AAC) или стандарты Dolby Digital.

Однако, для того чтобы обеспечить обратную совместимость, известно, что следует осуществлять понижающее микширование большего количества каналов в меньшее количество, и, более точно, это часто используется для понижающего микширования сигнала объемного звука 5.1 в стереосигнал с предоставлением стереосигналу возможности воспроизводиться (стерео) декодерами прежней системы, а сигналу 5.1 декодерами объемного звука.

Одним из примеров является обратно совместимый способ кодирования стандарта MPEG2. Многоканальный сигнал подвергается понижающему микшированию в стереосигнал. Дополнительные сигналы кодируются в порции служебных данных, предоставляя многоканальному декодеру MPEG2 возможность формировать представление многоканального сигнала. Декодер MPEG1 будет игнорировать служебные данные и, таким образом, декодировать только стереосигнал понижающего микширования. Основной недостаток способа кодирования, применяемого в MPEG2, состоит в том, что дополнительная скорость передачи данных, требуемая для дополнительных сигналов, находится в том же порядке величины, что и скорость передачи данных, требуемая для кодирования стереосигнала. Дополнительная скорость передачи данных для расширения стерео в многоканальное аудио, поэтому, является значительной.

Другие существующие способы для обратно совместимой многоканальной передачи без дополнительной многоканальной информации типично могут характеризоваться способами матрицированного заполнения. Примеры матричного кодирования объемного звука включают в себя способы, такие как Dolby Prologic II и Logic-7. Общий принцип этих способов заключается в том, что они матричным образом перемножают многочисленные каналы входного сигнала на подходящую неквадратную матрицу, тем самым формируя выходной сигнал с меньшим количеством каналов. Более точно, матричный кодировщик типично применяет фазовые сдвиги к объемным каналам перед микшированием их с фронтальными и центральным каналами.

Еще одной причиной для преобразования канала является эффективность кодирования. Было обнаружено, что, например, аудиосигналы объемного звука могут кодироваться как аудиосигналы стереоканалов, объединенные с параметрическим потоком битов, описывающим пространственные свойства аудиосигнала. Декодер может воспроизводить стерео аудиосигналы с весьма удовлетворительной степенью точности. Таким образом, могут быть получены существенные экономии битовой скорости передачи.

Есть несколько параметров, которые могут использоваться для описания пространственных свойств аудиосигналов. Одним из таких параметров является межканальная взаимная корреляция, такая как взаимная корреляция между левым каналом и правым каналом для стереосигналов. Еще одним параметром является отношение мощностей каналов. В так называемых (параметрических) пространственных кодировщиках аудио эти и другие параметры извлекаются из исходного аудиосигнала с тем, чтобы воспроизводить аудиосигнал, имеющий сокращенное количество каналов, например только один канал, плюс набор параметров, описывающих пространственные свойства исходного аудиосигнала. В так называемых (параметрических) пространственных декодерах аудио пространственные свойства в качестве описанных передаваемыми пространственными параметрами восстанавливаются.

Такое пространственное кодирование аудио предпочтительно использует каскадную или основанную на дереве иерархическую структуру, содержащую стандартные блоки в кодировщике и декодере. В кодировщике эти стандартные блоки могут быть понижающими микшерами, объединяющими каналы в меньшее количество каналов, такими как понижающие микшеры 2-в-1, 3-в-1, 3-в-2 и т.д., наряду с тем, что в декодере соответствующие стандартные блоки могут быть повышающими микшерами, расщепляющими каналы на большее количество каналов, такими как повышающие микшеры 1-в-2, 2-в-3.

Пример системы, в которой многоканальный сигнал подвергается понижающему микшированию в стереосигнал, который впоследствии подвергается постобработке с использованием пространственных параметров понижающего микширования, представлен в публикации WO 2005/098826A заявки на патент по Договору о патентном сотрудничестве. Пример устройства кодирования и декодирования аудиосигнала, способного к передаче аудиосигнала или аудиосигнала вместе с обработанным эффектами звукового поля аудиосигналом, приведен в публикации US2005/0273322A1 заявки на патент США.

3-мерное (3D) позиционирование источника звука в настоящее время приобретает интерес, особенно в мобильной области. Проигрывание музыки и звуковых эффектов в мобильных играх может добавить значительную ценность впечатлению потребителя, когда позиционируется в 3-х измерениях, эффективно создавая 3-мерный эффект 'вне головы'. Более точно, известно, что следует записывать и воспроизводить бинауральные аудиосигналы, которые содержат специфичную направлениям информацию, к которой чувствительно человеческое ухо. Бинауральные записи типично производятся с использованием двух микрофонов, установленных на имитатор головы человека, так что записанный звук соответствует звуку, улавливаемому человеческим ухом, и включает в себя любые влияния, обусловленные формой головы или ушей. Бинауральные записи отличаются от стерео (то есть стереофонических) записей тем, что воспроизведение бинауральной записи обычно предназначено для наушников или головных телефонов, тогда как стереозапись обычно производится для воспроизведения громкоговорителями. В то время как бинауральная запись предоставляет возможность воспроизведения всей пространственной информации с использованием только двух каналов, стереозапись не обеспечивала бы такого же пространственного восприятия. Обычные двухканальные (стереофонические) или многоканальные (например, 5.1) записи могут трансформироваться в бинауральные записи сверткой каждого обычного сигнала с набором передаточных функций восприятия. Такие передаточные функции восприятия моделируют влияние головы человека и, возможно, других объектов на сигнал. Широко известным типом передаточной функции пространственного восприятия является так называемая функция моделирования восприятия звука человеком (Head-Related Transfer Function, HRTF). Альтернативным типом передаточной функции пространственного восприятия, которая также учитывает отражения, вызванные стенами, потолком и полом помещения, является бинауральная импульсная характеристика помещения (BRIR).

Типично, алгоритмы 3-мерного позиционирования применяют HRTF, которые описывают передачу из некоторого местоположения источника звука на барабанные перепонки посредством импульсной характеристики. 3-мерное позиционирование источника звука может применяться к многоканальным сигналам посредством HRTF, тем самым предоставляя бинауральным сигналам возможность поставлять информацию пространственного звука пользователю, например, с использованием пары наушников.

Известно, что восприятие угла возвышения преимущественно облегчается определенными пиками и провалами в спектрах, приходящих в оба уха. С другой стороны, (воспринимаемый) курсовой угол источника звука улавливается в 'бинауральных' контрольных сигналах, таких как перепады уровня и разности времен поступления между сигналами на барабанных перепонках. Восприятие расстояния по большей части облегчается общим уровнем сигнала и, в случае реверберирующего окружения, соотношением направленной и реверберационной энергии. В большинстве случаев допускается, чтобы, особенно в последней конечной фазе реверберации, не было контрольных сигналов достоверного определения местоположения источника звука.

Контрольные сигналы восприятия для возвышения, курсового угла и расстояния могут улавливаться посредством (пары) импульсных характеристик: одна импульсная характеристика, чтобы описывать передачу из определенного положения источника звука в левое ухо; и одна для правого уха. Отсюда контрольные сигналы восприятия для возвышения, курсового угла и расстояния определяются соответствующими свойствами (пары) импульсных характеристик HRTF. В большинстве случаев, пара HRTF измеряется для большого набора местоположений источника звука; типично, с пространственным разрешением приблизительно в 5 градусов как по углу возвышения, так и курсовому углу.

Традиционный бинауральный 3-мерный синтез содержит фильтрацию (свертку) входного сигнала с парой HRTF для требуемого местоположения источника звука. Однако поскольку HRTF типично измеряются в безэховых условиях, восприятие 'расстояния' или определение местоположения 'вне головы' часто является отсутствующим. Хотя свертка сигнала с безэховыми HRTF не достаточна для 3-мерного синтеза звука, использование безэховых HRTF часто является предпочтительным с точки зрения сложности и гибкости. Эффект содержащей эхо среды (требуемый для создания восприятия расстояния) может добавляться на более поздней стадии, оставляя некоторую гибкость для конечного пользователя модифицировать акустические свойства помещения. Более того, поскольку часто предполагается, что реверберация однонаправленная (без контрольных сигналов направления), этот способ обработки часто более эффективен, чем свертка каждого источника звука с содержащей эхо парой HRTF. Более того, помимо аргументов сложности и гибкости для акустики помещения, использование безэховых HRTF также обладает преимуществом для синтеза сигналов (контрольных сигналов направления) 'с плоским звуком'.

Последнее исследование в области 3-мерного позиционирования показало, что частотное разрешение, которое представлено безэховыми импульсными характеристиками HRTF, во многих случаях выше, чем необходимо. Более точно, видится, что для обоих, фазового и амплитудного, спектров нелинейное частотное разрешение, которое предложено шкалой ERB, достаточно для синтеза 3-мерных источников звука с точностью, которая по восприятию не отличается от обработки с полными безэховыми HRTF. Другими словами, спектры безэховых HRTF не требуют спектрального разрешения, которое выше, чем частотное разрешение слуховой системы человека.

Традиционный алгоритм бинаурального синтеза очерчен на фиг.1. Набор входных каналов фильтруется набором HRTF. Каждый входной канал расщепляется на два сигнала (левую 'L' и правую 'R' составляющие); каждый из этих сигналов впоследствии фильтруется HRTF, соответствующей требуемому местоположению источника звука. Все сигналы левого уха впоследствии суммируются, чтобы сформировать левый бинауральный выходной сигнал, а сигналы правого уха суммируются, чтобы сформировать правый бинауральный выходной сигнал.

Свертка HRTF может выполняться во временной области, но часто предпочтительно выполнять фильтрацию в качестве произведения в частотной области. В таком случае, суммирование также может выполняться в частотной области.

Известны системы декодеров, которые могут принимать кодированный сигнал объемного звука и формировать впечатление объемного звука из бинаурального сигнала. Например, известны системы наушников, предоставляющие сигналу объемного звука возможность преобразовываться в бинауральный сигнал объемного звука для предоставления впечатления объемного звука пользователю наушников.

Фиг.2 иллюстрирует систему, в которой декодер объемного звучания MPEG принимает стереосигнал с пространственными параметрическими данными. Входной поток битов демультиплексируется, давая в результате пространственные параметры и поток битов понижающего микширования. Последний поток битов декодируется с использованием традиционного моно- или стереодекодера. Декодированный сигнал понижающего микширования декодируется пространственным декодером, который формирует многоканальный выходной сигнал на основании переданных пространственных параметров. В заключение, многоканальный выходной сигнал затем обрабатывается каскадом бинаурального синтеза (подобным таковому по фиг.1), давая в результате бинауральный выходной сигнал, дающий впечатление объемного звука пользователю.

Однако такой подход имеет некоторое количество недостатков.

Например, каскадное включение декодера пространственного звука и бинаурального синтеза включает в себя вычисление представления многоканального сигнала в качестве промежуточного этапа, сопровождаемое сверткой HRTF и понижающим микшированием на этапе бинаурального синтеза. Это может иметь следствием повышенную сложность и сниженную производительность.

К тому же, система очень сложна. Например, пространственные декодеры типично работают в области поддиапазонов (QMF). Свертка HRTF, с другой стороны, типично может быть реализована наиболее эффективно в области БПФ (FFT, быстрого преобразования Фурье). Поэтому необходимо каскадное включение многоканальной гребенки фильтров синтеза QMF, многоканального преобразования БПФ и стереопреобразования обратного БПФ, дающее в результате систему с высокими вычислительными потребностями.

Качество обеспечиваемого впечатления пользователя может снижаться. Например, артефакты кодирования, порождаемые пространственным декодером для создания многоканальной реконструкции, по-прежнему будут слышимы в (стерео) бинауральном выходном сигнале.

Более того, подход требует выделенных декодеров и сложной сигнальной обработки, которая должна выполняться индивидуальными пользовательскими устройствами. Это может замедлять приложение во многих ситуациях. Например, устройства прежних систем, которые способны только к декодированию стереопонижающего микширования, не будут способны обеспечивать пользовательское впечатление окружающего звука.

Отсюда было бы полезным улучшенное кодирование/декодирование аудиосигнала.

Соответственно, изобретение стремится предпочтительно смягчить, облегчить или устранить один или более из вышеупомянутых недостатков раздельно или в любом сочетании.

Согласно первому аспекту изобретения предложен кодировщик аудиосигнала, содержащий: средство для приема M-канального аудиосигнала, где M>2; средство понижающего микширования для понижающего микширования M-канального аудиосигнала в первый стереосигнал и связанные параметрические данные; средство формирования для модифицирования первого стереосигнала, чтобы формировать второй стереосигнал, в ответ на связанные параметрические данные и данные пространственных параметров для передаточной функции бинаурального восприятия, второй стереосигнал является бинауральным сигналом; средство для кодирования второго стереосигнала, чтобы формировать кодированные данные; и средство вывода для формирования выходного потока данных, содержащего кодированные данные и связанные параметрические данные.

Изобретение может предоставлять возможность улучшенного кодирования аудиосигнала. В частности, изобретение может предоставлять возможность эффективного стереокодирования многоканальных сигналов, наряду с предоставлением стереодекодерам прежних систем возможности обеспечивать усиленное пространственное впечатление. Более того, изобретение предоставляет возможность реверсировать процесс бинаурального виртуального пространственного синтеза в декодере, тем самым давая возможность высококачественного многоканального декодирования. Изобретение может предоставлять возможность кодировщика низкой сложности и, в частности, может давать возможность формирования бинаурального сигнала низкой сложности. Изобретение может предоставлять возможность облегченной реализации и повторного использования функциональных возможностей.

Изобретение, в частности, может обеспечивать основанное на параметрах определение бинаурального виртуального пространственного сигнала из многоканального сигнала.

Бинауральный сигнал, более точно, может быть бинауральным виртуальным пространственным сигналом, таким как виртуальный 3-мерный бинауральный стереосигнал. M-канальный аудиосигнал может быть сигналом объемного звучания, таким как сигнал объемного звучания 5.1 или 7.1. Бинауральный виртуальный пространственный сигнал может имитировать одно местоположение источника звука для каждого канала M-канального аудиосигнала. Данные пространственных параметров могут содержать данные, указывающие передаточную функцию из предполагаемого местоположения источника звука на барабанную перепонку предполагаемого пользователя.

Передаточная функция бинаурального восприятия, например, может быть функцией моделирования восприятия звука человеком (HRTF) или бинауральной импульсной характеристикой помещения (BRIR).

Согласно дополнительному признаку изобретения средство формирования выполнено с возможностью формировать второй стереосигнал посредством расчета значений данных поддиапазона для второго стереосигнала в ответ на связанные параметрические данные, данные пространственных параметров и значения данных поддиапазона для первого стереосигнала.

Это может предоставлять возможность улучшенного кодирования и/или облегченной реализации. Более точно, признак может давать пониженную сложность и/или сокращенные затраты вычислительных ресурсов. Интервалы частотных поддиапазонов первого стереосигнала, второго стереосигнала, связанных параметрических данных и данных пространственных параметров могут быть разными, либо некоторые или все поддиапазоны могут быть по существу идентичными для некоторых или всех из таковых.

Согласно дополнительному признаку изобретения средство формирования выполнено с возможностью формировать значения поддиапазона для первого поддиапазона второго стереосигнала в ответ на умножение соответствующих стереозначений поддиапазона для первого стереосигнала на матрицу первого поддиапазона; средство формирования дополнительно содержит средство параметров для определения значений данных для матрицы первого поддиапазона в ответ на связанные параметрические данные и данные пространственных параметров для первого поддиапазона.

Это может предоставлять возможность улучшенного кодирования и/или облегченной реализации. Более точно, признак может давать пониженную сложность и/или сокращенные затраты вычислительных ресурсов. Изобретение, в частности, может обеспечивать основанное на параметрах определение бинаурального виртуального пространственного сигнала из многоканального сигнала выполнением матричных операций над отдельными поддиапазонами. Значения матрицы первого поддиапазона могут отражать объединенный результат каскадного включения многоканального декодирования и фильтрации HRTF/BRIR результирующего множества каналов. Умножение матрицы поддиапазона может выполняться для всех поддиапазонов второго стереосигнала.

Согласно дополнительному признаку изобретения средство формирования дополнительно содержит средство для преобразования значения данных, по меньшей мере, одного из стереосигнала, связанных параметрических данных и данных пространственных параметров, связанных с поддиапазоном, содержащим интервал частот, отличный от интервала первого поддиапазона, в соответствующее значение данных для первого поддиапазона.

Это может предоставлять возможность улучшенного кодирования и/или облегченной реализации. Более точно, признак может давать пониженную сложность и/или сокращенные затраты вычислительных ресурсов. Более точно, изобретение может предоставлять разным процессам и алгоритмам возможность основываться на разделениях поддиапазонов, наиболее подходящих для индивидуального процесса.

Согласно дополнительному признаку изобретения средство формирования выполнено с возможностью определять стереозначения L_B, R_B поддиапазона для первого поддиапазона второго стереосигнала по существу в качестве:

при этом L₀, R₀ - соответствующие значения поддиапазона первого стереосигнала, а средство параметров выполнено с возможностью определять значения данных матрицы умножения по существу в качестве:

h ₁₁ = m ₁₁ H _L(L)+m ₂₁ H _L(R)+m ₃₁ H _L(C)

h ₁₂ = m ₁₂ H _L(L)+m ₂₂ H _L(R)+m ₃₂ H _L(C)

h ₂₁ = m ₁₁ H _R(L)+m ₂₁ H _R(R)+m ₃₁ H _R(C)

h ₂₂ = m ₁₂ H _R(L)+m ₂₂ H _R(R)+m ₃₂ H _R(C),

где m_k,l - параметры, определенные в ответ на связанные параметрические данные для понижающего микширования средством понижающего микширования каналов L, R и C в первый стереосигнал; а H_J(X) определяется в ответ на данные пространственных параметров для канала X в отношении выходного стереоканала J второго стереосигнала.

Согласно дополнительному признаку изобретения, по меньшей мере, один из каналов L и R соответствует понижающему микшированию, по меньшей мере, двух подвергнутых понижающему микшированию каналов, а средство параметров выполнено с возможностью определять H_J(X) в ответ на взвешенную комбинацию данных пространственных параметров для, по меньшей мере, двух подвергнутых понижающему микшированию каналов.

Согласно дополнительному признаку изобретения средство параметров выполнено с возможностью определять взвешивание данных пространственных параметров для, по меньшей мере, двух подвергнутых понижающему микшированию каналов в ответ на относительную меру энергии для, по меньшей мере, двух подвергнутых понижающему микшированию каналов.

Согласно дополнительному признаку изобретения данные пространственных параметров включают в себя, по меньшей мере, один параметр, выбранный из группы, состоящей из: параметра среднего уровня по поддиапазону; параметра среднего времени поступления; фазы, по меньшей мере, одного стереоканала; параметра временной привязки; параметра групповой задержки; фазы между стереоканалами; и параметра взаимной корреляции каналов.

Эти параметры могут обеспечивать в высокой степени преимущественное кодирование и, в частности, могут быть особенно пригодны для обработки поддиапазонов.

Согласно дополнительному признаку изобретения средство вывода выполнено с возможностью включать данные местоположения источника звука в выходной поток.

Это может предоставлять декодеру возможность определять подходящие данные пространственных параметров и/или может давать эффективный способ указания данных пространственных параметров с низкими непроизводительными затратами. Это может обеспечивать эффективный способ реверсирования процесса бинаурального виртуального пространственного синтеза в декодере, тем самым предоставляя возможность высококачественного многоканального декодирования. Признак, более того, может предоставлять возможность улучшенного впечатления пользователя и может давать возможность или облегчать реализацию бинаурального виртуального пространственного сигнала с движущимися источниками звука. Признак, в качестве альтернативы или дополнительно, может предоставлять возможность настройки пространственного синтеза в декодере, например, сначала реверсированием синтеза, выполняемого в кодировщике, сопровождаемым синтезом с использованием настроенной или индивидуализированной передаточной функции бинаурального восприятия.

Согласно дополнительному признаку изобретения средство вывода выполнено с возможностью включать, по меньшей мере, некоторые из данных пространственных параметров в выходной поток.

Это может обеспечивать эффективный способ реверсирования процесса бинаурального виртуального пространственного синтеза в декодере, тем самым предоставляя возможность высококачественного многоканального декодирования. Признак, более того, может предоставлять возможность улучшенного впечатления пользователя и может давать возможность или облегчать реализацию бинаурального виртуального пространственного сигнала с движущимися источниками звука. Данные пространственных параметров могут непосредственно или косвенно включаться в выходной поток, например, путем включения в состав информации, которая предоставляет декодеру возможность определять данные пространственных параметров. Признак, в качестве альтернативы или дополнительно, может предоставлять возможность настройки пространственного синтеза в декодере, например, сначала реверсированием синтеза, выполняемого в кодировщике, сопровождаемым синтезом с использованием настроенной или индивидуализированной передаточной функции бинаурального восприятия.

Согласно дополнительному признаку изобретения кодировщик дополнительно содержит средство для определения данных пространственных параметров в ответ на требуемые местоположения звукового сигнала.

Это может предоставлять возможность улучшенного кодирования и/или облегченной реализации. Требуемые местоположения звукового сигнала могут соответствовать местоположениям источников звука для отдельных каналов M-канального сигнала.

Согласно еще одному аспекту изобретения предложен декодер аудиосигнала, содержащий: средство для приема входных данных, содержащих первый стереосигнал и параметрические данные, связанные с подвергнутым понижающему микшированию стереосигналом M-канального аудиосигнала, где M>2, первый стереосигнал является бинауральным сигналом, соответствующим M-канальному аудиосигналу; и средство формирования для модифицирования первого стереосигнала, чтобы формировать подвергнутый понижающему микшированию стереосигнал, в ответ на параметрические данные и первые данные пространственных параметров для передаточной функции бинаурального восприятия, первые данные пространственных параметров являются связанными с первым стереосигналом.

Изобретение может предоставлять возможность улучшенного декодирования аудиосигнала. В частности, изобретение может предоставлять возможность высококачественного стереодекодирования и, более точно, может давать процессу бинаурального виртуального пространственного синтеза кодировщика возможность реверсироваться в декодере. Изобретение может предоставлять возможность выполнения декодера аудиосигнала низкой сложности. Изобретение может предоставлять возможность облегченной реализации и повторного использования функциональных возможностей.

Бинауральный сигнал, более точно, может быть бинауральным виртуальным пространственным сигналом, таким как виртуальный 3-мерный бинауральный стереосигнал. Данные пространственных параметров могут содержать данные, указывающие передаточную функцию из предполагаемого местоположения источника звука в ухо предполагаемого пользователя. Передаточная функция бинаурального восприятия, например, может быть функцией моделирования восприятия звука человеком (HRTF) или бинауральной импульсной характеристикой помещения (BRIR).

Согласно дополнительному признаку изобретения декодер аудиосигнала дополнительно содержит средство для формирования M-канального аудиосигнала в ответ на подвергнутый понижающему микшированию стереосигнал и параметрические данные.

Изобретение может предоставлять возможность улучшенного декодирования аудиосигнала. В частности, изобретение может предоставлять возможность высококачественного многоканального декодирования и, более точно, может давать процессу бинаурального виртуального пространственного синтеза кодировщика возможность реверсироваться в декодере. Изобретение может предоставлять возможность декодера аудиосигнала низкой сложности. Изобретение может предоставлять возможность облегченной реализации и повторного использования функциональных возможностей.

M-канальный аудиосигнал может быть сигналом объемного звучания, таким как сигнал объемного звучания 5.1 или 7.1. Бинауральный сигнал может быть виртуальным пространственным сигналом, который имитирует одно местоположение источника звука для каждого канала M-канального аудиосигнала.

Согласно дополнительному признаку изобретения средство формирования выполнено с возможностью формировать подвергнутый понижающему микшированию стереосигнал посредством расчета значений данных поддиапазона для подвергнутого понижающему микшированию стереосигнала в ответ на связанные параметрические данные, данные пространственных параметров и значения данных поддиапазона для первого стереосигнала.

Это может предоставлять возможность улучшенного декодирования и/или облегченной реализации. Более точно, признак может давать пониженную сложность и/или сокращенные затраты вычислительных ресурсов. Интервалы частотных поддиапазонов первого стереосигнала, подвергнутого понижающему микшированию стереосигнала, связанных параметрических данных и данных пространственных параметров могут быть разными, либо некоторые или все поддиапазоны могут быть по существу идентичными для некоторых или всех из таковых.

Согласно дополнительному признаку изобретения средство формирования выполнено с возможностью формировать значения поддиапазона для первого поддиапазона подвергнутого понижающему микшированию стереосигнала в ответ на умножение соответствующих стереозначений поддиапазона для первого стереосигнала на матрицу первого поддиапазона;

средство формирования дополнительно содержит средство параметров для определения значений данных для матрицы первого поддиапазона в ответ на параметрические данные и данные пространственных параметров для первого поддиапазона.

Это может предоставлять возможность улучшенного декодирования и/или облегченной реализации. Более точно, признак может давать пониженную сложность и/или сокращенные затраты вычислительных ресурсов. Значения матрицы первого поддиапазона могут отражать объединенный результат каскадного включения многоканального декодирования и фильтрации HRTF/BRIR результирующего множества каналов. Умножение матрицы поддиапазона может выполняться для всех поддиапазонов подвергнутого понижающему микшированию стереосигнала.

Согласно дополнительному признаку изобретения входные данные содержат, по меньшей мере, некоторые данные пространственных параметров.

Это может обеспечивать эффективный способ реверсирования процесса бинаурального виртуального пространственного синтеза, выполняемого в кодировщике, тем самым предоставляя возможность высококачественного многоканального декодирования. Признак, более того, может предоставлять возможность улучшенного впечатления пользователя и может давать возможность или облегчать реализацию бинаурального виртуального пространственного сигнала с движущимися источниками звука. Данные пространственных параметров могут непосредственно или косвенно включаться во входные данные, например они могут быть любой информацией, которая предоставляет декодеру возможность определять данные пространственных параметров.

Согласно дополнительному признаку изобретения входные данные содержат данные местоположения источника звука, и декодер содержит средство для определения данных пространственных параметров в ответ на данные местоположения источника звука.

Декодер, например, может содержать хранилище данных, содержащее данные пространственных параметров HRTF, связанные с разными местоположениями источника звука, и может определять данные пространственных параметров для использования посредством извлечения данных параметров для указанных местоположений.

Согласно дополнительному признаку изобретения декодер аудиосигнала дополнительно содержит блок пространственного декодера для создания пары бинауральных выходных каналов модифицированием первого стереосигнала в ответ на связанные параметрические данные и вторые данные пространственных параметров для второй передаточной функции бинаурального восприятия, вторые данные пространственных параметров являются иными, чем первые данные пространственных параметров.

Признак может предоставлять возможность улучшенного пространственного синтеза и, в частности, может давать возможность индивидуального или настроенного пространственного синтезированного бинаурального сигнала, который является особенно подходящим для определенного пользователя. Это может достигаться по-прежнему, наряду с предоставлением стереодекодерам прежних систем возможности формировать пространственные бинауральные сигналы, не требуя пространственного синтеза в декодере. Отсюда может достигаться улучшенная аудиосистема. Вторая передаточная функция бинаурального восприятия, более точно, может быть иной, чем передаточная функция бинаурального восприятия первых пространственных данных. Вторая передаточная функция бинаурального восприятия и вторые пространственные данные, более точно, могут настраиваться для индивидуального пользователя декодера.

Согласно дополнительному признаку изобретения пространственный декодер содержит: блок преобразования параметров для преобразования параметрических данных в параметры бинаурального синтеза с использованием вторых данных пространственных параметров и блок пространственного синтеза для синтеза пары бинауральных каналов с использованием параметров бинаурального синтеза и первого стереосигнала.

Это может предоставлять возможность улучшенной производительности, и/или облегченной реализации, и/или пониженной сложности. Бинауральные параметры могут быть параметрами, которые могут перемножаться с образцами звучания поддиапазона первого стереосигнала и/или подвергнутого понижающему микшированию стереосигнала, чтобы формировать образцы звучания поддиапазона для бинауральных каналов. Умножение, например, может быть матричным умножением.

Согласно дополнительному признаку изобретения параметры бинаурального синте

Кодирование и декодирование аудио

Патент 2427978