2519295 - Транскодировщик аудио формата

Транскодировщик аудио формата

Иллюстрации

Показать все

Изобретение относится к транскодировщику аудиоформата (100) для транскодирования входного аудиосигнала. Технический результат заключается в эффективном объединении возможностей направленного и пространственного аудиокодирования. Входной звуковой сигнал имеет не менее двух направленных аудиокомпонентов. Транскодировщик аудиоформата (100) включает преобразователь (110) для преобразования входного аудиосигнала в преобразованный сигнал, имеющий представление преобразованного сигнала и направление поступления преобразованного сигнала. Транскодировщик аудиоформата (100) дополнительно содержит определитель положения (120) для определения, по крайней мере, двух пространственных местоположений, по крайней мере, двух пространственных источников звука. Транскодировщик аудиоформата (100) также содержит процессор (130) для обработки представления преобразованного сигнала с использованием не менее двух пространственных местоположений для получения. по крайней мере, двух измерений разделенных источников звука. 3 н. и 9 з.п. ф-лы, 11 ил.

Реферат

Настоящее изобретение относится к области транскодирования аудиоформата [Транскодирование - преобразование файла из одного способа кодирования (т.е. формата файла) в другой. Транскодировщик - устройство, преобразующее один вид кодированных сигналов в другой], в частности к транскодированию форматов параметрического кодирования.

В последнее время были предложены несколько способов параметрического кодирования многоканальных/многообъектных аудиосигналов. Каждый способ имеет свои преимущества и недостатки по отношению к его характеристикам, таким как тип параметрической характеристики, зависимость/независимость от установки конкретного громкоговорителя и т.д. Различные параметрические способы оптимизируются для различных стратегий кодирования.

Например, Направленное Аудио Кодирование (DirAC), формат представления многоканального звукового сигнала на основе сжатия сигнала и дополнительной информации, содержащей направление звука и параметры диффузности [диффузность - рассеянное (диффузное) отражение звука] для ряда поддиапазонов частот. Благодаря такому способу параметризации DirAC системы могут быть легко использованы, например, для выполнения направленной фильтрации и, таким образом, выделения и усиления звука, который поступает в определенном направлении по отношению к микрофону. Таким образом, DirAC можно рассматривать как акустический интерфейс, способный выполнять определенную пространственную обработку.

В качестве еще одного примера можно назвать Пространственное Кодирование Аудио Объекта (SAOC) ISO/IEC," MPEG audio technologies - Part.2: Spatial Audio Object Coding (SAOC)", ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2”From SAC to SAOC-Recent Developments in Parametric Coding of Spatial Audio", 22^nd Regional UK AES Conference, Cambridge, UK, April 2007, J.Engdegard, B.Resch, C.Falch, O.Hellmuth, J.Hilpert, A.Holzer, L.Terentiev, J.Breebaart, J.Koppens, E.Schuijers and W.Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124^th AES Convention, Amsterdam 2008, Preprint 7377, являющееся параметрической системой кодирования, эффективной по отношению к битрейту [скорости передачи битов данных], представляющей аудиосценарии, содержащие множество аудиообъектов.

Здесь представление основано на сжатии сигнала и параметрической дополнительной информации. В отличие от системы DirAC, которая направлена на представление оригинального пространственного аудиосценария, воспринятого микрофоном, SAOC не выполняет реконструкцию исходного аудиосценария. Вместо этого необходимое количество аудиообъектов (аудиоисточников) передается и объединяется в SAOC декодировщике в целевой аудиосценарий в соответствии с предпочтениями пользователя в терминале декодировщика, то есть пользователь может свободно в интерактивном режиме управлять и изменять каждый из аудиообъектов.

Как правило, при многоканальном воспроизведении и прослушивании слушатель находится в окружении нескольких громкоговорителей. Существуют различные способы захвата аудиосигналов для конкретных случаев. Единственной общей целью при воспроизведении является воспроизведение пространственной композиции первоначально записанного сигнала, то есть расположение разделенных источников звука, например, таких как местоположение трубы в оркестре. Достаточно часто встречаются специальные установки воспроизведения, способные создавать различные пространственные впечатления. Без использования способов специальной доработки после изготовления известные двухканальные стереоустановки могут только воссоздать слуховые впечатления на линии между двумя громкоговорителями. Это стало возможным с помощью так называемой амплитудной панорамы, где амплитуда сигнала, связанного с одним аудиоисточником, распределяется между двумя динамиками в зависимости от расположения аудиоисточника по отношению к громкоговорителям. Это обычно делается во время записи или последующего смешивания (микширования). То есть аудиоисточник, поступающий слева по отношению к слушателю, будет воспроизводиться в основном левой акустической системой, в то время как аудиоисточник, находящийся перед слушателем, будет воспроизводиться с одинаковой амплитудой (уровнем) обоими громкоговорителями. Однако звук, приходящий по другим направлениям, не может быть воспроизведен.

Следовательно, при использовании большего числа громкоговорителей, которые расположены вокруг слушателя, могут быть воспроизведены несколько направлений и могут быть созданы более естественные пространственные впечатления. Вероятно, самое известное расположение многоканальных громкоговорителей использовано в стандарте 5,1 (ITU-R775-1), который состоит из 5 громкоговорителей, азимутальные углы которых по отношению к слушателю равны 0°, 30° и 110°. Это означает, что во время записи или микшировании сигнала, с учетом конкретной конфигурации громкоговорителей отклонения от стандартного расположения приведут к снижению качества воспроизведения.

Также были предложены многие другие системы с различным количеством громкоговорителей, расположенных в различных направлениях. Профессиональные системы, особенно в театрах и сложных аудиоустановках могут содержать громкоговорители на разных высотах.

Т.к. существуют различные установки воспроизведения, для ранее упомянутых акустических систем были разработаны и предложены несколько различных способов записи, для того чтобы записывать и воспроизводить пространственные впечатления при прослушивании таким же образом, как это было воспринято записывающим оборудованием. Теоретически идеальный способ записи пространственного звука для выбранной многоканальной акустической системы будет использовать такое же количество микрофонов, сколько имеется громкоговорителей. В таком случае диаграммы направленности микрофонов также должны соответствовать расположению громкоговорителей, так что звук с любого выделенного направления будет записан только небольшим количеством микрофонов (1, 2 или более). Каждый микрофон связан с конкретным громкоговорителем. Дополнительные громкоговорители, используемые при воспроизведении, должны соответствовать микрофонам с узкими диаграммами направленности. Однако микрофоны с узкими диаграммами направленности стоят довольно дорого и обычно имеют не плоские частотные характеристики, снижающие качество записанного звука нежелательным образом. Кроме того, использование в качестве входных данных для многоканального воспроизведения нескольких микрофонов со слишком широкими диаграммами направленности приводит к частотным искажениям и нарушению четкости слухового восприятия вследствие того, что звук, приходящий по одному направлению, всегда будет воспроизводиться большим числом громкоговорителей, чем это необходимо, как это могло бы быть записано микрофонами, связанными с различными динамиками. Как правило, современные микрофоны лучше всего подходят для двухканальной записи и воспроизведения, то есть они разработаны без цели воспроизведения окружающего пространственного впечатления.

С точки зрения разработки микрофонов были использованы несколько подходов для адаптации диаграммы направленности микрофона к требованиям пространственного воспроизведения звука. Как правило, все микрофоны воспринимают звук по-разному в зависимости от направления прихода звука к микрофону. То есть микрофоны имеют разную чувствительность в зависимости от направления прихода записываемого звука. В некоторых микрофонах этот эффект является незначительным, так что они улавливают звук почти независимо от направления. Эти микрофоны, как правило, называют всенаправленными микрофонами. В типичной конструкции микрофона чувствительная диафрагма герметично крепится к небольшому корпусу. Если диафрагма не прикреплена к корпусу и звук приходит к ней одинаковым образом с каждой стороны, то диаграмма направленности имеет две лопасти. То есть такой микрофон фиксирует аудио с одинаковой чувствительностью как из передней, так и с задней части диафрагмы, однако, с обратной полярностью. Такой микрофон не захватывает звук, идущий по направлению, совпадающему с плоскостью диафрагмы, т.е. перпендикулярно к направлению максимальной чувствительности. Такие диаграммы направленности называется дипольными и имеют форму «восьмерки».

Всенаправленный микрофон также может быть преобразован в направленный микрофон при использовании негерметичного корпуса. Корпус имеет особенность в том, что звуковые волны могут проходить через него и достигать диафрагмы, в которой некоторые направления распространения являются предпочтительными, так что диаграмма направленности такого микрофона имеет промежуточный тип между круговой и дипольной. Эти диаграммы направленности могут, например, иметь две области. Тем не менее, области могут иметь различную величину. Некоторые широко известные микрофоны имеют диаграммы направленности, которые имеют только одну область. Наиболее важным примером является диаграмма направленности в виде кардиоиды, у которой функция направленности D может быть выражена как D=1+cos (θ), где величина 9 задает направление прихода звука. Такая функция направленности показывает количественно, какая доля входящей амплитуды звука захватывается в зависимости от различных направлений.

Ранее обсуждавшиеся всенаправленные диаграммы направленности также называются диаграммами нулевого порядка, а другие диаграммы направленности, также упоминавшиеся ранее (дипольные и кардиоидные), называются диаграммами первого порядка. Все обсуждавшиеся ранее конструкции микрофона не позволяют формировать диаграммы направленности произвольного вида, так как форма диаграммы направленности полностью определяется механической конструкцией.

Чтобы частично решить эту проблему, были разработаны некоторые специализированные акустические структуры, которые могут использоваться для создания более узкой диаграммы направленности, чем у микрофонов первого порядка. Например, если в трубку с отверстиями устанавливается всенаправленный микрофон, может быть создан микрофон с узкой диаграммой направленности. Эти микрофоны называются «дробовиковыми» или «винтовочными» микрофонами. Тем не менее, они обычно не имеют ровную АЧХ, то есть диаграммы направленности сужаются за счет качества записанного звука. Кроме того, форма диаграммы направленности предопределена геометрической конструкцией и, таким образом, диаграмма направленности при записи с использованием таких микрофонов не может контролироваться после записи.

Таким образом, предложенные до настоящего времени различные способы частично позволяют изменять диаграмму направленности после фактической записи. Как правило, эти способы используют основную идею записи звука с помощью группы всенаправленных или направленных микрофонов с последующей обработкой сигнала. Недавно были предложены различные варианты таких способов. Можно рассмотреть довольно простой пример записи звука с двумя всенаправленными микрофонами, которые расположены близко друг к другу, с вычитанием одного сигнала из другого. Это позволяет создать виртуальный сигнал микрофона с диаграммой направленности, эквивалентной диполю.

В других, более сложных схемах, перед суммированием также могут быть использованы задержка сигналов микрофона или их фильтрация. При формирования сигнала соответствующий узкий пространственный луч создается с помощью фильтрации каждого сигнала микрофона с помощью специально разработанного фильтра с суммированием сигналов после фильтрации (суммирующий фильтр с формированием луча). Однако эти способы «не видят» самого сигнала, то есть они не знают направление прихода звука. Таким образом, предварительно определенная диаграмма направленности не будет зависеть от фактического наличия источника звука в заданном направлении. Как правило, оценка "направления прихода" звука является самостоятельной задачей.

С помощью вышеуказанных способов может быть сформировано большое число различных пространственных характеристик направленности. Тем не менее, формирование произвольных диаграмм направленности с избирательной пространственной чувствительностью (то есть формирование узкой диаграммы направленности) требует использования большого количества микрофонов.

Альтернативный способ создания многоканальных записей состоит в том, что микрофоны располагаются близко к каждому источнику звука (например, к инструменту), чтобы записать и воссоздать пространственные впечатления путем контроля уровней сигналов каждого микрофона при окончательном микшировании. Однако такая система требует большого количества микрофонов и взаимодействия с пользователем при создании окончательного сжатого сигнала.

Способом преодоления указанной проблемы является система DirAC, которая может быть использована с различными системами микрофонов и способна записывать и воспроизводить звук при произвольном расположении набора громкоговорителей. Цель DirAC заключается в как можно более точном воспроизведении пространственных впечатлений на имеющемся акустическом оборудовании, с использованием многоканальной акустической системы, имеющей произвольное геометрическое расположение. В записывающем оборудовании отклики среды (которые могут быть непрерывными записанными звуковыми сигналами или могут иметь импульсные характеристики) фиксируются с помощью всенаправленного микрофона (W) и набора микрофонов, позволяющих определять направление прихода и диффузность звука.

В последующих пунктах и в пределах всего изобретения термин "диффузность" следует понимать как меру для не-направленности звука. То есть звук, поступающий для прослушивания или записи, распределяется в равной степени во все стороны и максимально рассеивается. Распространенный способ количественной оценки диффузности заключается в использовании значений диффузности в интервале [0, …, 1], где значение 1 описывает максимально рассеянный звук, а значение 0 описывает абсолютно направленный звук, т.е. звук, прибывающий и отчетливо различимый только в определенном направлении. Одним из известных способов определения направления прихода звука является применение 3 микрофонов (X, Y, Z) с диаграммами направленности в виде «восьмерки», расположенных в соответствии с декартовыми осями координат. Были разработаны специальные микрофоны, так называемые микрофоны В-формата, которые непосредственно получают все желаемые отклики. Однако, как отмечалось выше, W, X, Y и Z сигналы могут также быть определены из набора дискретных всенаправленных микрофонов.

В DirAC анализе записанный звуковой сигнал разделяется на частотные каналы, которые соответствуют разрешающей способности по частоте слухового восприятия человека. То есть сигнал, например, обрабатывается набором фильтров или с помощью Фурье-преобразования, в результате чего сигнал разделяется на множество частотных каналов, имеющих пропускную способность, адаптированную к разрешающей способности по частоте слухового восприятия человека. Затем сигналы диапазонов частот анализируются для определения направления поступления звука и значения диффузности для каждого частотного канала с заданным разрешением по времени. Это разрешение по времени не имеет фиксированного значения и может, конечно, быть адаптировано к параметрам записи. В DirAC один или нескольких аудиоканалов записываются или передаются вместе с результатами анализа направления и данными о диффузности.

В процессе синтеза или декодирования аудиоканалы, поступающие в результате на громкоговорители, могут использовать всенаправленный канал W (запись с высоким качеством благодаря использованию всенаправленной диаграммы направленности микрофона), или могут формироваться сигналы, имеющие определенные характеристики направленности для каждого громкоговорителя, вычисленные как взвешенная сумма W, X, Y и Z. В соответствии с кодировкой, каждый аудиоканал разделяется на частотные каналы, которые затем могут разделяться на диффузные и недиффузные потоки, в зависимости от результатов анализа диффузности. Если измеренная диффузность будет высокой, диффузный поток может быть воспроизведен с помощью способов воспроизводства диффузного восприятия звука, таких как способы декорреляции, также используемые в Бинауральном Трековом Кодировании.

Недиффузный звук воспроизводится с помощью способа, целью которого является формирование точечных виртуальных источников звука, расположенных в направлении, указанном найденными при анализе данными о направлении, т.е. происходит генерация DirAC сигнала. То есть пространственное воспроизведение не адаптировано к одной конкретной, "идеальной" настройке громкоговорителя, как в известных до настоящего времени способах (например, 5.1). В частности, поступление звука задается с помощью параметров направления (т.е. описывается вектором), с использованием сведений о диаграммах направленности микрофонов, используемых при записи. Как обсуждалось выше, поступление звука в 3-мерном пространстве определяется частотно-избирательным способом. Таким образом, впечатление направленности может быть воспроизведено с высоким качеством для любой расстановки громкоговорителей, поскольку геометрия расстановки громкоговорителей известна. Следовательно, DirAC не ограничен специальной геометрией расстановки громкоговорителей и в целом допускает более гибкое пространственное воспроизведение звука.

DirAC, см. Pulkki, V., Directional audio coding in spatial sound reproduction and stereo upmixing," In Proceedings of The AES' 28^th International Conference, pp.251-258, Pitea, Sweden, June 30-July 2, 2006, представляет собой систему для представления пространственных аудиосигналов на основе одного или более сжатых сигналов, а также дополнительной информации. Дополнительная информация описывает, кроме прочих возможных аспектов, направление поступления звукового поля, степень его диффузности в ряде диапазонов частот, как это показано на фиг.5.

Фиг.5 иллюстрирует сигнал DirAC, который состоит из трех компонентов направленности, таких как, например, сигналы микрофона с диаграммой направленности в виде «восьмерки» X, Y, Z плюс всенаправленный сигнал W. Каждый из сигналов доступен в частотной области, которая показана на фиг.5 в виде нескольких наложенных друг на друга плоскостей для каждого из сигналов. На основе четырех сигналов может быть осуществлена оценка направления и диффузности в блоках 510 и 520, которые формируют результат оценки направления и диффузности для каждого из частотных каналов. Результат этих оценок определяется параметрами θ(t,f), θ(t,f) и θ(t,f), представляющими азимутальный угол, угол возвышения и диффузность для каждого из частотных слоев.

Параметризация DirAC может быть легко использована для реализации пространственного фильтра с требуемой пространственной характеристикой, например, только поступающего звука в направлении от говорящего в данный момент человека. Это может быть достигнуто путем использования направления/диффузности и, возможно, зависящего от частоты весового коэффициента, применяемого при сжатии сигналов, как показано на фиг.6 и 7.

На фиг.6 показан декодировщик 620 для восстановления аудиосигнала. Декодировщик 620 включает в себя селектор направления 622 и аудиопроцессор 624. В соответствии с примером на фиг.6 многоканальный аудиовход 626, записанный с помощью нескольких микрофонов, анализируется анализатором направления 628, который формирует параметры направления, указывающие направление поступления части аудиоканалов, то есть направление поступления проанализированных частей сигнала. Выбирается направление, от которого большая часть энергии поступает на микрофон и записывается положение, определяемое для каждой конкретной части сигнала. Это можно также сделать, например, с помощью микрофонных технологий DirAC, как описано выше. Для проведения анализа могут быть использованы и другие способы анализа направления на основе записанной аудиоинформации. В результате анализатор направления 628 формирует параметры направления 630, указывающие направление поступления части звукового канала или многоканального сигнала 626. Кроме того, анализатор направления 628 может в текущий момент времени выдать параметр диффузности 632 для каждой части сигнала, например для каждого частотного интервала или для каждого промежутка времени сигнала.

Параметры направления 630 и, кроме того, параметр диффузности 632 передаются на селектор направления 620, который используется для выбора нужного направления поступления по отношению к местоположению записанной или восстановленной частей восстанавливаемого звукового сигнала. Информация о желаемом направлении передается на аудиопроцессор 624. Аудиопроцессор 624 получает, по крайней мере, один аудиоканал 634, имеющий составную часть, для которой были получены параметры направления. По крайней мере, один канал, измененный аудиопроцессором, может, например, быть сжатым многоканальным сигналом 626, полученным с помощью обычных алгоритмов многоканального сжатия. Один очень простой вариант может быть получен прямым суммированием сигналов многоканального аудиовхода 626. Однако такая концепция не ограничена количеством входных каналов, и все входные аудиоканалы 626 могут одновременно быть обработаны аудиодекодировщиком 620.

Аудиопроцессор 624 изменяет аудиоблоки для восстановления частей восстанавливаемого звукового сигнала, причем изменения включают в себя увеличение интенсивности части аудиоканала, имеющей параметры направления, указывающие направление поступления, близкое к желаемому направлению поступления по отношению к другой части аудиоканала, имеющей параметры направления, указывающие направление поступления, удаленное от желаемого направления поступления. В примере на фиг.6 изменение производится путем умножения коэффициента масштаба 636 (q) на часть аудиоканала, которая должна быть изменена. То есть если результаты анализа части аудиоканала показывают, что эта часть поступает от направления, близкого к выбранному желаемому направлению, при умножении на часть аудиоканала используется большой коэффициент масштаба 636. Таким образом, на выходе 638 аудиопроцессор формирует реконструированную часть восстанавливаемого звукового сигнала, соответствующую части аудиоканала, представленной на его входе. Кроме того, как указано пунктирными линиями на выходе 638 аудиопроцессора 624, такая процедура может быть выполнена не только для моно сигнала на выходе, но и для многоканальных выходных сигналов, для которых количество каналов на выходе не является фиксированным или определенным заранее.

Другими словами, аудиодекодировщик 620 принимает на свой вход такие результаты анализа направленности, какие используются, например, в DirAC. Аудиосигналы 626 от набора микрофонов могут быть разделены на диапазоны частот в зависимости от разрешающей способности по частоте слуховой системы человека. Направление звука и, кроме того, диффузность звука анализируется в зависимости от времени для каждого частотного канала. Такие параметры, как, например, углы направлений азимутальный (azi) и восхождения (ele), и индекс диффузности (ψ), который изменяется от нуля до единицы, передаются дальше.

Затем предназначенные или выбранные характеристики направленности вводятся в полученные сигналы с применением к ним операции взвешивания, которая зависит от углов направления (azi и ele) и, кроме того, от диффузности (ψ). Очевидно операция взвешивания может быть определена по-разному для различных частотных диапазонов, и, как правило, изменяется с течением времени.

На фиг.7 показан еще один пример, основанный на DirAC синтезе. В этом смысле пример на фиг. 7 можно было бы интерпретировать как повышение производительности DirAC, позволяющее контролировать уровень звука в зависимости от результатов анализа направления. Это дает возможность усилить звук, приходящий от одного или нескольких направлений, или подавить звук от одного или нескольких направлений. При многоканальном воспроизведении возможна пост-обработка образа воспроизводимого звука. Если используется только один выходной канал, результат эквивалентен использованию во время записи сигнала направленного микрофона с произвольной диаграммой направленности. На фиг.7 показано получение параметров направления, а также одного передаваемого аудиоканала. Анализ проводится на основе микрофонных каналов В-формата: W, X, Y и Z, записанных, например, микрофоном звукового поля.

Обработка производится с использованием фреймов. То есть непрерывные звуковые сигналы разделяются на фреймы, которые масштабируются с помощью функции окна для того, чтобы избежать разрывов на границах фреймов. Фреймы оконного сигнала подвергаются преобразованию Фурье в блоке Фурье- преобразования 740, с разделением микрофонных сигналов на N диапазонов частот. Для простоты изложения обработка одного произвольного диапазона частот будет описана в следующих пунктах, а остальные частотные диапазоны обрабатываются аналогичным образом. Блок Фурье-преобразования 740 формирует коэффициенты, описывающие интенсивность частотных компонентов, присутствующих в каждом из каналов микрофона в В-формате: W, X, Y и Z в пределах анализируемого оконного фрейма. Эти частотные параметры 742 вводятся в аудиокодировщик 744 для вывода аудиоканала и связанных с ним параметров направления. В примере, показанном на фиг.7, передаваемый аудиоканал выбирается в качестве всенаправленного канала 746, располагающего информацией о сигналах со всех направлений. На основе коэффициентов 742 для всенаправленной и направленной частей каналов микрофона в В-формате проводится анализ направленности и диффузности с помощью блока анализа направления 748.

Направления поступления звука в анализируемой части аудиоканала передаются в аудиодекодировщик 750 для восстановления звукового сигнала вместе с всенаправленным каналом 746. Если присутствуют параметры диффузности 752, при прохождении сигнала он разбивается на недиффузный 754а и диффузный 754b участки. Недиффузный участок 754а масштабируется в соответствии с параметром диффузности, например, если диффузность Т мала, большая часть энергии или амплитуды будет перенесена в недиффузный участок. И наоборот, когда диффузность высокая, большая часть энергии будет перенесена на диффузный участок 754b. В диффузном участке 754b сигнал является некоррелированным или диффузным после обработки блоками декорреляции 756а или 756b. Декорреляцию можно выполнить с помощью обычных известных способов, таких как свертка с сигналом белого шума, причем сигнал белого шума может отличаться от одного частотного канала к другому. Поскольку декорреляция сохраняет энергию, конечный результат может быть восстановлен путем простого сложения сигналов недиффузного участка сигнала 754а и диффузного участка сигнала 754b на выходе, так как участки сигнала уже были масштабированы, как было задано параметром диффузности У.

Когда восстановление проводится для многоканального сигнала, прямой участок сигнала 754а, а также диффузный участок сигнала 754b разделены на некоторое число под-участков, соответствующих сигналам отдельных громкоговорителей, разделенных на позиции 758а и 758b. Разделение на позиции 758а и 758b можно интерпретировать как расширение по меньшей мере одного аудиоканала на нескольких каналов для воспроизведения через акустическую систему с несколькими громкоговорителями.

Поэтому каждый из нескольких каналов имеет часть канала из аудиоканала 746. Направление поступления отдельных частей звука восстанавливается блоком перенаправления 760, который кроме того увеличивает или уменьшает интенсивность или амплитуду части канала в соответствующих громкоговорителях при воспроизведении. Блок перенаправления 760 обычно требует знания о расстановке громкоговорителей, используемых для воспроизведения. Фактическое перераспределение (перенаправление) и вывод может быть связано с весовыми коэффициентами, например реализовано способом, использующим вектор амплитудной панорамы. Блок перераспределения 760 позволяет использовать различные геометрические расстановки громкоговорителей с произвольной конфигурацией воспроизводящих динамиков, в соответствии с вариантами изобретения, без потери качества воспроизведения. После нескольких обработок с помощью обратного преобразования Фурье в блоках 762 сигналы в частотной области преобразуются в сигналы во временной области, которые могут быть воспроизведены в отдельных громкоговорителях. Перед воспроизведением осуществляются процедуры перекрытия и сложения с использованием блоков суммирования 764 для объединения разделенных аудиофреймов и получения непрерывных сигналов во временной области, готовых для воспроизведения на громкоговорителях.

В соответствии с примером, показанным на фиг.7, в обработку сигналов DirAC внесены изменения, заключающиеся в том, что аудиопроцессор 766 изменяет часть уже обработанного аудиоканала и позволяет увеличить интенсивность части аудиоканала, имеющей параметры направления, указывающие, что направление поступления близко к желаемому направлению. Это достигается за счет применения дополнительного весового коэффициента для прямого участка сигнала. То есть если частота обрабатываемого участка поступает от желаемого направления, сигнал выделяется с использованием дополнительного усиления для определенной части сигнала. Усиление может быть выполнено до точки разделения 758а так, как эффект будет действовать на все части канала в равной степени.

Применение дополнительного весового коэффициента может быть реализовано в пределах блока перераспределения 760, который в этом случае использует перераспределение коэффициентов усиления с увеличением их на дополнительный весовой коэффициент.

При использовании направленного усиления при восстановлении многоканального сигнала воспроизведение может, например, быть выполнено в стиле DirAC рендеринга [рендеринг - термин в компьютерной графике, обозначающий процесс получения изображения по модели с помощью компьютерной программы], как показано на фиг.7. Аудиоканал, который будет воспроизводиться, разделен на диапазоны частот, равные тем, которые используются для анализа направленности. Эти диапазоны частот затем разбиваются на диффузные и недиффузные потоки. Диффузный поток воспроизводится, например, путем подачи звука на каждый громкоговоритель после свертки с 30 мс белый импульсным шумом. Шумовые импульсы различны для каждого динамика. Недиффузный поток применяется к направлению для избавления от результатов анализа направленности, который, конечно, зависит от времени. Для достижения направленного восприятия в многоканальных акустических системах может быть использована простая амплитудная панорама для пар или «троек» динамиков. Кроме того, каждый частотный канал умножается на коэффициент усиления или коэффициент масштабирования, которые зависят от результатов анализа направления. В целом, может быть указана функция, определяющая желаемую диаграмму направленности при воспроизведении. Может существовать, например, только одно направление, которое должно быть выделено. Тем не менее, диаграммы направленности произвольного вида могут быть легко реализованы в соответствии с фиг.7.

Далее описан еще один пример в виде списка этапов обработки. Обработка основана на предположении, что звук записывается микрофоном в В-формате, а затем обрабатывается для прослушивания при многоканальной или монофонической расстановке громкоговоритель с использованием DirAC стиля рендеринга или рендеринга, поддерживающего параметры направленности, указывающие направление поступления частей звукового канала.

Во-первых, сигналы микрофона можно разделить на диапазоны частот и проанализировать по направлению и, кроме того, диффузности в каждом диапазоне в зависимости от частоты. В качестве примера направление может быть параметризовано углами азимутальным и восхождения (Azi, ele).

Во-вторых, может быть указана функция F, которая описывает желаемую диаграмму направленности. Функция может иметь произвольный вид. Обычно это зависит от направления. Она, кроме того, может также зависеть от диффузности, если имеется информация о диффузности. Функция может иметь различный вид для различных частот, а также может изменяться в зависимости от времени. В каждом диапазоне частот из функции F может быть получен коэффициент направленности q для каждого промежутка времени, который затем используется для последующего взвешивания (масштабирования) звукового сигнала.

В-третьих, значения аудиовыборок можно умножить на значения коэффициентов направленности q, соответствующие каждому временному и частотному участку, для формирования выходного сигнала. Это может быть сделано во временной и/или частотной области. Кроме того, такая обработка может, например, быть выполнена как часть DirAC рендеринга с любым желаемым количеством каналов вывода.

Как описано выше, результат можно будет прослушивать с использованием многоканальных или монофонических акустических систем. В последнее время были предложены способы параметризации передачи/хранения аудиосценариев, эффективные по битрейту, содержащие несколько аудиообъектов, например Бинауральное Трековое Кодирование (тип 1), см. С.Faller and F.Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications", IEEF Trans. on Speech and Audio Proc., vol.11, no.6, Nov.2003, or Joint Source Coding, cf. C.Faller, "Parametric Joint-Coding of Audio Sources", 120^th AES Convention, Paris, 2006, Preprint 6752, and MPEG Spatial Audio Object Coding (SAOC), cf. J.Herre, S.Disch, J.Hilpert, O.Hellmuth: "From SAC to SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22^nd Regional UK AES Conference, Cambridge, UK, April 2007, J.Engdegard, B.Resch, C.Falch, O.Hellmuth, J.Hilpert, A.Holzer, L.Terentiev, J.Breebaart, J.Koppens, E.Schuijers and W.Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124^th AES Convention, Amsterdam 2008, Preprint 7377).

Эти способы направлены на реконструкцию желаемого восприятия аудиосценария на выходе, или, точнее, формы волны. На фиг. 8 показан вид такой системы (в данном случае MPEG SAOC). Фиг.8 представляет обзор MPEG SAOC системы. Система включает в себя SAOC кодировщик 810, декодировщик SAOC 820 и блок рендеринга 830. Общая обработка может осуществляться избирательно по частоте, обработка, представленная далее, может быть проведена в каждом отдельном диапазоне частот. Кодировщик SAOC на входе имеет число (N) входных сигналов аудиообъекта, которые декодируются как часть обработки в SAOC кодировщике. Кодировщик SAOC 810 формирует на выходах микшированный сигнал и дополнительную информацию. Дополнительная информация, извлеченная SAOC кодировщиком 810, представляет собой характеристики аудиообъектов на входе. Для MPEG SAOC амплитуда (мощность) объекта используется всеми аудиообъектами в качестве наиболее значимые компонент дополнительной информации. На практике вместо абсолютной мощности объекта передается относительная мощность, определяемая как разность уровней объектов (OLD). Согласованность/корреляция между парами объектов называется когерентностью между объектами (IOC) и далее может быть использована для описания свойств входных аудиообъектов.

Сжатый сигнал и дополнительная информация могут передаваться или храниться. Для этого сжатый аудиосигнал может быть сжат с использованием аудиокодировщиков с хорошим восприятием, таких как MPEG-1 Layer 2 или 3, также известных как МРЗ, MPEG с улучшенной аудиокодировкой (ААС) и т.д.

При воспроизведении SAOC декодировщик 820 пытается концептуально восстановить сигналы исходного объекта, к которому также относится объект разделения, использующий переданную дополнительную информацию. Эти сигналы, аппроксимирующие объект, затем смешиваются с целевым сценарием, представленным М выходными аудиоканалами с помощью матрицы рендеринга, используемой в блоке рендеринга 830. По сути, разделение объекта на сигналы никогда не выполняется, так как оба этапа разделения и смешивания объединены в один этап транскодирования, в результате чего достигается колоссальное сокращение вычислительной сложности.

Такая схема может быть очень эффективна не только с точки зрения битрейта, так как необходимо передавать только несколько сжатых каналов, плюс некоторую дополнительную информацию вместо N аудиосигналов объекта, а также информацию рендеринга или дискретной системы, но и с точки зрения сложности вычислений, сложность обработки связана, главным образом, с количеством вых

Транскодировщик аудио формата

Патент 2519295