Кодирование или декодирование аудиосигнала

Иллюстрации

Показать все

Изобретение относится к кодированию аудиосигнала или декодированию кодированного аудиосигнала. Технический результат - обеспечение аудио кодирования или декодирования с использованием пространственных параметров. Аудиосигнал включает в себя первый аудиоканал и второй аудиоканал, при этом кодирование содержит фильтрование в поддиапазонах каждого из первого аудиоканала и второго аудиоканала в комплексно модулированном банке фильтров для обеспечения первого множества поддиапазонных сигналов для первого аудиоканала и второе множество поддиапазонных сигналов для второго аудиоканала, дискретизацию с понижением частоты каждого из поддиапазонных сигналов для обеспечения первого множества дискретизированных с понижением частоты поддиапазонных сигналов и второго множества дискретизированных с понижением частоты поддиапазонных сигналов, дополнительную фильтрацию в поддиапазонах, по меньшей мере, одного из дискретизированных с понижением частоты поддиапазонных сигналов в дополнительном банке фильтров для обеспечения множества под-поддиапазонных сигналов, получение пространственных параметров из под-поддиапазонных сигналов и из тех дискретизированных с понижением частоты поддиапазонных сигналов, которые не подвергаются дополнительной фильтрации в поддиапазонах, и получение одноканального аудиосигнала, содержащего поддиапазонные сигналы, получение из первого множества дискретизированных с понижением частоты поддиапазонных сигналов и второго множества дискретизированных с понижением частоты поддиапазонных сигналов. Дополнительно предложено декодирование, при котором кодированный аудиосигнал, содержащий кодированный одноканальный аудиосигнал и набор пространственных параметров, декодируется посредством декодирования кодированного одноканального аудиоканала для получения множества дискретизированных с понижением частоты поддиапазонных сигналов, дополнительной фильтрации в поддиапазонах, по меньшей мере, одного из дискретизированных с понижением частоты поддиапазонных сигналов в дополнительном банке фильтров для обеспечения множества под-поддиапазонных сигналов и получение двух аудиоканалов из пространственных параметров, под-поддиапазонных сигналов и тех дискретизированных с понижением частоты поддиапазонных сигналов, которые не подвергнуты дополнительной фильтрации. 7 н. и 17 з.п. ф-лы, 14 ил., 2 табл.

Реферат

Изобретение относится к кодированию аудиосигнала или декодированию кодированного аудиосигнала.

В работе Erik Schuijers, Werner Oomen, Bert den Brinker and Jeroen Breebaart, "Advances in Parametric Coding for High-Quality Audio", Preprint 5852, 114th AES Convention, Amsterdam, The Netherlands, 22-25 March 2003 раскрыта схема параметрического кодирования с использованием рационального параметрического представления для стереоизображения. Два входных сигнала совмещаются в один монофонический аудиосигнал. Перцентуально, значимые пространственные метки моделируются явным образом, как показано на фиг.1. Объединенный сигнал кодируется с использованием монофонического параметрического кодера. Стереофонические параметры: межканальная разница мощности (IID), межканальная разница времени (ITD) и межканальная взаимная корреляция (ICC) - подвергаются квантованию, кодируются и мультиплексируются в битовый поток вместе с квантованным монофоническим аудиосигналом. На стороне декодера битовый поток демультиплексируется в кодированный монофонический сигнал и стереофонические параметры. Кодированный монофонический аудиосигнал декодируется для получения декодированного монофонического аудиосигнала m' (см. фиг.2). Из монофонического сигнала временной области декоррелированный сигнал вычисляется с использованием фильтра D, формирующего перцепционную декорреляцию. Как монофонический сигнал m' временной области, так и декоррелированный сигнал d преобразуются в частотную область. Затем стереофонический сигнал частотной области обрабатывается с параметрами IID, ITD и ICC посредством масштабирования, фазовых компенсаций и смешивания, соответственно, в узле обработки параметров для получения декодированной стереофонической пары l' и r'. Результирующие представления частотной области преобразуются обратно во временную область.

Цель изобретения состоит в обеспечении предпочтительного аудиокодирования или декодирования с использованием пространственных параметров. С этой целью изобретение предусматривает способ кодирования, аудиокодер, устройство для передачи или сохранения, способ декодирования, аудиодекодер, устройство воспроизведения и компьютерный программный продукт, которые определены в независимых пунктах формулы изобретения. Предпочтительные варианты осуществления определены в зависимых пунктах формулы изобретения.

Согласно первому аспекту изобретения, аудиосигнал кодируется, причем аудиосигнал включает в себя первый аудиоканал и второй аудиоканал, кодирование содержит фильтрацию в поддиапазонах каждого из первого аудиоканала и второго аудиоканала в комплексно модулированном банке фильтров для обеспечения первого множества поддиапазонных сигналов для первого аудиоканала и второе множество поддиапазонных сигналов для второго аудиоканала, дискретизирование с понижением частоты каждого из поддиапазонных сигналов для обеспечения первого множества дискретизированных с понижением частоты поддиапазонных сигналов и второго множества дискретизированных с понижением частоты поддиапазонных сигналов, дополнительную фильтрацию в поддиапазонах, по меньшей мере, одного из дискретизированных с понижением частоты поддиапазонных сигналов в дополнительном банке фильтров для обеспечения множества под-поддиапазонных сигналов получения пространственных параметров из под-поддиапазонных сигналов и из тех дискретизированных с понижением частоты поддиапазонных сигналов, которые не подвергаются дополнительной фильтрации в поддиапазонах, и получение одноканального аудиосигнала, содержащего поддиапазонные сигналы, полученные из первого множества дискретизированных с понижением частоты поддиапазонных сигналов и второго множества дискретизированных с понижением частоты поддиапазонных сигналов. Посредством обеспечения дополнительной фильтрации в поддиапазонах, частотное разрешение упомянутого поддиапазона повышается. Такое повышенное частотное разрешение обладает тем преимуществом, что становится возможным достижение более высокого качества аудиосигнала (ширина полосы единственного поддиапазонного сигнала в типовом случае является более высокой, чем у критических диапазонов в слуховой системе человека) в рациональной реализации (потому что должно быть преобразовано лишь небольшое количество диапазонов). Параметрический пространственный кодер пытается смоделировать бинауральные метки, которые воспринимаются по неравномерной частотной шкале, аналогичной шкале эквивалентных прямоугольных диапазонов (ERB). Одноканальный аудиосигнал может быть получен непосредственно из первого множества дискретизированных с понижением частоты поддиапазонных сигналов и второго множества дискретизированных с понижением частоты поддиапазонных сигналов. Однако, одноканальный аудиосигнал преимущественно извлекается из под-поддиапазонных сигналов для тех дискретизированных с понижением частоты поддиапазонов, которые должны подвергаться дополнительной фильтрации в поддиапазонах, в этом случае под-поддиапазонные сигналы каждого поддиапазона суммируются для формирования новых поддиапазонных сигналов, и при этом одноканальный аудиосигнал получается из этих новых поддиапазонных сигналов и поддиапазонов из первого и второго множества поддиапазонов, которые не подвергаются дополнительной фильтрации.

Согласно другому главному аспекту изобретения, предусмотрено аудио декодирование кодированного аудиосигнала, причем кодированный аудиосигнал содержит кодированный одноканальный аудиосигнал и набор пространственных параметров, аудиодекодирование содержит декодирование кодированного одноканального аудиоканала для получения множества дискретизированных с понижением частоты поддиапазонных сигналов, дополнительную фильтрацию в поддиапазонах, по меньшей мере, одного из дискретизированных с понижением частоты поддиапазонных сигналов в дополнительном банке фильтров для обеспечения множества под-поддиапазонных сигналов, и получение двух аудиоканалов из пространственных параметров, под-поддиапазонных сигналов и дискретизированных с понижением частоты поддиапазонных сигналов, которые не подвергаются дополнительной фильтрации в поддиапазонах. Посредством обеспечения дополнительной фильтрации в поддиапазонах в пределах полосы, частотное разрешение упомянутого поддиапазона повышается и, следовательно, может быть достигнуто более высококачественное аудиодекодирование.

Одно из главных преимуществ этих аспектов изобретения состоит в том, что параметрическое пространственное кодирование может быть легко объединено с методами спектральной репликации диапазона («SBR»). Метод SBR известен из работы: Martin Dietz, Lars Liljeryd, Kristofer Kjцrling and Oliver Kunz, «Spectral Band Replication, a novel approach in audio coding», Preprint 5553, 112th AES Convention, Munich, Germany, 10-13 May 2002 и из работы: Per Ekstrand, «Bandwidth extension of audio signals by spectral band replication», Proc. 1st IEEE Benelux Workshop on Model based Processing and Coding of Audio (MPCA-2002), pp. 53-58, Leuven, Belgium, November 15, 2002. Дополнительная ссылка может быть сделана на стандарт MPEG-4 (стандарт сжатия видеоизображения и звука) ISO/DEC 14496-3:2001/FDAM1, JTC1/SC29/WG11, «Кодирование движущихся изображений и звука, растягивание ширины спектра», которая описывает аудиокодек, использующий метод SBR.

Метод SBR основан на представлении, что типично имеется значительная корреляция между низкими и высокими частотами в аудиосигнале. Как таковая, последовательность операций SBR состоит из копирования нижней части(ей) спектра в более высокую часть(и), после которого огибающая спектра корректируется для высокой части(ей) спектра с использованием небольшого количества информации, закодированной в битовом потоке. Упрощенная структурная схема такого усовершенствованного SBR-декодера показана на фиг.3. Битовый поток демультиплексируется и декодируется в основные данные (например, усовершенствованное аудио кодирование (ААС) MPEG-2/4) и данные SBR. С использованием основных данных сигнал декодируется при половине частоты дискретизации сигнала полной ширины полосы. Выходной сигнал основного декодера анализируется посредством 32-диапазонного комплексного банка (псевдо) квадратурных зеркальных фильтров (QMF). Эти 32 диапазона затем расширяются до полной ширины полосы, то есть 64 диапазонов, в которых высокочастотный (ВЧ) контент формируется посредством копирования части(ей) нижних диапазонов. Огибающая диапазонов, для которых формируется ВЧ-контент, корректируется согласно данным SBR. В заключение, посредством 64-диапазонного комплексного банка QMF-фильтров синтеза восстанавливается выходной сигнал импульсно-кодовой модуляции (ИКМ).

SBR-декодер, который показан на фиг.3, является так называемым двухскоростным декодером. Это означает, что основной декодер работает при половине частоты дискретизации и, следовательно, используется только 32-диапазонный банк QMF-фильтров анализа. Односкоростные декодеры, где основной декодер работает при полной частоте дискретизации и банк QMF-фильтров анализа состоит из 64 диапазонов, также возможны. На практике восстановление выполняется посредством (псевдо) комплексного банка QMF-фильтров. Так как комплексный банк QMF-фильтров дискретизируется не критическим образом, не требуется предпринимать никаких дополнительных мер для того, чтобы учитывать наложение спектров. Заметим, что в SBR-декодере, который раскрыт Экстрандом, банк QMF-фильтров анализа состоит только из 32 диапазонов, тогда как банк QMF-фильтров синтеза состоит из 64 диапазонов, так как основной декодер работает при половине частоты дискретизации в сравнении с декодером полного аудиосигнала. В соответствующем кодере, однако, используется 64-диапазонный банк QMF-фильтров анализа, чтобы покрыть весь частотный диапазон.

Хотя изобретение является особенно полезным для стереофонического аудиокодирования, изобретение также полезно для кодирования сигналов с более чем двумя аудиоканалами.

Эти и другие аспекты изобретения очевидны и поясняются со ссылкой на варианты осуществления, описанные ниже.

На чертежах показано следующее:

Фиг.1 - структурная схема узла для извлечения стереофонических параметров в качестве используемого в параметрическом стереофоническом («PS») кодере;

Фиг.2 - структурная схема узла для восстановаления стереофонического сигнала в качестве используемого в PS-декодере;

Фиг.3 - структурная схема декодера со спектральной репликацией диапазона(«SBR»);

Фиг.4 - структурная схема комбинированного усовершенствованного PS- и SBR-кодера согласно варианту осуществления изобретения;

Фиг.5 - структурная схема комбинированного усовершенствованного PS- и SBR-кодера согласно варианту осуществления изобретения;

Фиг.6 - M-диапазонный дискретизированный с понижением частоты комплексный банк QMF-фильтров анализа (слева) и синтеза (справа);

Фиг.7 - амплитудно-частотная характеристика в дБ фильтра прототипа;

Фиг.8 - амплитудно-частотные характеристики в дБ первых четырех из 64 недискретизированных с понижением частоты комплексно модулированных фильтров анализа;

Фиг.9 - структурная схема Q-диапазонного банка фильтров с тривиальным синтезом;

Фиг.10 - комбинированная амплитудно-частотная характеристика в дБ первого недискретизированного с понижением частоты модулированного QMF-фильтра и 8-диапазонного комплексно модулированного банка фильтров;

Фиг.11 - стилизованная амплитудно-частотная характеристика 4-диапазонного банка четных фильтров (сверху) и банка нечетных фильтров (снизу) согласно варианту осуществления изобретения;

Фиг.12 - 77-диапазонный неоднородный банк гибридных фильтров анализа, основанный на 64-диапазонном комплексном QMF-анализе согласно варианту осуществления изобретения;

Фиг.13 - 71-диапазонный неоднородный банк гибридных фильтров анализа, основанный на 64-диапазонном комплексном QMF-анализе для использования в аудиодекодере;

Фиг.14 - структурная схема рациональной реализации комплексно модулированного банка фильтров анализа.

Чертежи показывают только те элементы, которые необходимы для понимания изобретения.

Комбинирование SBR c PS потенциально дает в результате чрезвычайно эффективный кодек. Оба, SBR и PS, являются алгоритмами постобработки в декодере, состоящем из в некоторой степени подобной структуры, то есть некоторой разновидностью время-частотного преобразования, обработки и, в заключение, частотно-временного преобразования. При комбинировании обоих алгоритмов требуется, чтобы оба алгоритма могли работать одновременно, например в приложении цифрового сигнального процессора (DSP). Отсюда, выгодно повторно использовать, насколько это возможно, вычисленные промежуточные результаты одного кодека для другого. В случае комбинирования PS с SBR, это ведет к повторному использованию комплексных (псевдо) QMF-сигналов поддиапазонов для PS-обработки. В комбинированном кодере (см. фиг.4) стереофонический входной сигнал анализируется посредством двух 64-диапазонных банков фильтров анализа. С использованием комплексного представления области поддиапазонов, блок вычисления PS оценивает стереофонические параметры и формирует результат монофонического (поддиапазонного) микширования с понижением частоты, который создается. Этот результат монофонического микширования с понижением частоты затем подается в блок оценки SBR-параметров. В заключение, результат монофонического микширования с понижением частоты конвертируется обратно во временную область посредством 32-диапазонного банка фильтров синтеза так, что он может кодироваться основным декодером (основному декодеру требуется только половина ширины полосы).

В комбинированном декодере, как показано на фиг.5, независимо от того, используется двухскоростная или односкоростная система, поддиапазонные сигналы области с полной шириной спектра (64 диапазона) после коррекции огибающей конвертируются в стереофонический набор поддиапазонных сигналов области согласно стереофоническим параметрам. Эти два набора поддиапазонных сигналов, в заключение, конвертируются во временную область посредством 64-диапазонного банка QMF-фильтров синтеза. Если бы можно было непосредственно комбинировать PS с SBR, ширина полосы низкочастотных диапазонов QMF-фильтров была бы большей, чем требуемая для высококачественного стереофонического представления. Таким образом, для обеспечения высококачественного представления стереоизображения выполняется дополнительное подразбиение сигналов нижних поддиапазонов в соответствии с предпочтительными вариантами осуществления изобретения.

Для лучшего понимания аспектов изобретения сначала разъяснена теория, на которой основаны комплексные QMF-фильтры поддиапазонов.

QMF-фильтры поддиапазонов

Поддиапазонный QMF-фильтр анализа может быть описан, как изложено ниже. Если задан фильтр p(ν) прототипа с имеющей вещественное значение линейной фазой, М-диапазонный комплексно модулированный банк фильтров анализа может быть определен фильтрами анализа

(1)

для k=0,1,…,M-1. Фазовый параметр θ не важен для последующего анализа, но типичным результатом выбора является (N + M)/2, где N - порядок фильтра прототипа. При условии дискретного временного сигнал x(ν) с действительным значением, поддиапазонные сигналы νk(n) получены посредством фильтрации (свертки) x(ν) c hk(ν), а затем дискретизации с понижением частоты результата с коэффициентом M (см. слева на фиг.6).

Операция синтеза состоит, во-первых, из дискретизации с повышением частоты поддиапазонных QMF-сигналов с коэффициентом M, сопровождаемой фильтрацией посредством комплексно модулированных фильтров типа (1), сложением результатов и, в заключение, удвоением действительной части (см. справа на фиг.6). Затем, почти идеальное восстановление сигналов с вещественным значением может быть получено посредством подходящего проектирования фильтра p(ν) прототипа с вещественной линейной фазой. Амплитудно-частотная характеристика фильтра прототипа, который используется в SBR-системе стандарта MPEG-4 (упомянутого выше) в случае с 64 диапазонами, показана на фиг.7. Амплитудно-частотные характеристики 64 комплексно модулированных фильтров анализа получены сдвигом амплитудно-частотной характеристики фильтра прототипа p(ν) на .

Часть этих характеристик показана на фиг.8. Заметим, что фильтруются только положительные частоты, за исключением k = 0 и k = M-1. Как результат, поддиапазонные сигналы до дискретизации с понижением частоты близки к аналитическим, обеспечивая простые амплитудные и фазовые применения вещественных синусоид. Фазовые компенсации также возможны для первого и последнего диапазона, если синусоиды, находящиеся в этих диапазонах, имеют частоту больше π/2M или меньше π-π/2M соответственно. Для частот вне этой зоны характеристика фазовой компенсации быстро ухудшается из-за взаимных помех отрицательных частот.

Начиная с QMF-фильтров анализа, которые описаны выше, в вариантах осуществления изобретения, лучшее частотное разрешение получается дополнительной фильтрацией каждого дискретизированного с понижением частоты поддиапазонного сигнала νk(n) в подполосы Qk. Далее выведены свойства дополнительной фильтрации в поддиапазонах.

Преобразование сигнала в области поддиапазонов комплексного QMF.

В последующем, пусть будет дискретным временным преобразованием Фурье дискретного временного сигнала z(n). При условии свойства почти идеального восстановления, которое упоминалось выше, а также схемы, где P(ω), являющееся преобразованием Фурье от p(ν), по существу стремится к нулю вне частотного интервала , что имеет место для фильтра p(ν) прототипа, как проиллюстрировано выше, следующим этапом является рассмотрение системы, где поддиапазонные сигналы νk(n) преобразуются перед синтезом. Далее, пусть каждая полоса k преобразуется посредством фильтрации фильтром Bk(ω). При условии

для (2)

где звездочка обозначает комплексное сопряжение, может быть показано (пренебрегая общей задержкой, при условии вещественного входного сигнала и односкоростной системы), что результирующая система, включающая в себя банк фильтров синтеза, соответствует фильтрации фильтром

(3)

Согласно гипотезе относительно свойств P(ω), подстановка Bk(ω) = 1 для всех k в (3), приводит к B(ω) = 1, а тождество квадратичной суммы следует смещенным частотным характеристикам фильтра прототипа. Выбирая вещественные постоянные Bk(ω)=bk ≥ 0, система действует как корректор, который интерполирует значения bk коэффициента усиления на частотах π(k+1/2)/M. Привлекательным признаком является то, что система в целом инвариантна ко времени, то есть свободна от наложения спектров, несмотря на использование дискретизации с понижением и повышением частоты. Это конечно будет верным только вплоть до величины отклонения от принятых гипотез фильтра прототипа.

Для получения монофонического аудиосигнала дополнительная фильтрация в поддиапазонах комплексных поддиапазонных сигналов должна не только сохранять эти свойства, но также распространять эти свойства на манипулирование фильтрованными поддиапазонными сигналами. Фильтрация в поддиапазонах, сохраняющая эти свойства, может выполняться с использованием преобразования так называемых M-диапазонных фильтров, известных из работы: P.P. Vaidyanathan, «Multirate systems and filter banks», Prentice Hall Signal Processing Series, 1993, sections 4.6.1-4.6.2.

Модулированные банки фильтров с тривиальным синтезом

Дискретный временной сигнал ν(n) может быть разложен на Q разных сигналов банком фильтров с импульсными частотными характеристиками gq(n), q=0,1,…,Q-1. Это проиллюстрировано на фиг.9. Допустим, что соответствующими выходными сигналами анализа являются yq(n), и рассмотрим операцию тривиального синтеза

(4)

Идеальное восстановление, y(n) = ν(n), в таком случае, получается посредством выбора фильтров из условия, чтобы

(5)

где δ(n) = 1, если n = 0, и δ(n)≠0, если n ≠ 0. Для каузальных фильтров правая сторона в (5) должна быть замещена на δ(n-d), где d - положительная задержка, но это простое преобразование опущено для ясности представления.

Фильтры gq(n) могут быть выбраны в качестве комплексных модуляций фильтра g(n) прототипа посредством

(6)

В этом предпочтительном варианте осуществления изобретения фильтры упорядочены нечетным образом (коэффициент q+1/2). Преимущество этого предпочтительного варианта осуществления описано позже. Идеальное восстановление (5) получается, если и только если

(7)

Вариантом этого является вещественная косинусоидальная модуляция, к примеру

, (8)

при вещественном фильтре g(m) прототипа, удовлетворяющем

(9)

(Это легко получается при принятии во внимание gq(n)+gQ-1-q(n) в (6)).

Фильтрация в поддиапазонах комплексно-экспоненциальным модулированным банком фильтров

Начиная с QMF-фильтров анализа, которые описаны выше, лучшее частотное разрешение получается посредством дополнительной фильтрации каждого дискретизированного с понижением частоты поддиапазонного сигнала νk(n) в поддиапазоне Qk посредством использования одной из модулированных структур (6) или (8), приведенных выше. Обозначим результирующие выходные сигналы как , и пусть описывает банк фильтров, применяемый в поддиапазоне k. Если Qk = 1, фильтрация отсутствует, а =δ(n). Типичным примером применения является случай, где M=64, Q0=8, Qk=4 для k = 1,2, и Qk=1 для k>2.

Комбинированный результат двух банков фильтров от x(ν) до может быть описан как фильтация фильтрами (ω) с последующей дискретизацией с понижением частоты с коэффициентом М, где

(10)

Если частотная характеристика P(ω) фильтра прототипа, по существу, является нулевой вне интервала [-π/M,π/M], что имеет место для SBR-фильтров анализа (см. фиг.7), то фильтр (ω) имеет единственную номинальную центральную частоту, определенную в комплексно-модулированном случае согласно

(11)

где s - целое число, выбранное из условия, что Qk(k-)≤ 2(q + Qks) +1 ≤ Qk(k+). Например, как проиллюстрировано на фиг.10, если k = 0, а Q0 = 8, значениями ω0,00,1,ω0,7 являются

Преобразование сигнала с неравномерным частотным разрешением

Введение банков фильтров поддиапазонов, которые описаны выше, не привносит дополнительной дискретизации с понижением частоты, так что сохраняется свободное от наложения спектров преобразование сигнала, которое показано выше только в случае комплексного QMF. Рассмотрим общую комбинированную операцию M- поддиапазонного анализа, дополнительную фильтрацию в поддиапазонах с использованием поддиапазонов Qk в пределах поддиапазона k, фильтрацию каждого поддиапазонного сигнала посредством фильтра Ak,q(ω), синтез в пределах каждого поддиапазона k посредством суммирования и, в заключение, синтез посредством M-диапазонного банка фильтров синтеза. Полная функция преобразования такой системы задана согласно (3), для k ≥ 0,

(12)

Для ω>π/(2M) это дает

(13)

значит, характеристикой пропускной способности поддиапазона (k,q) является . Для |ω|≤π/(2M) должно быть уделено некоторое внимание, обусловленное (2). В этом интервале частот справедливо

(14)

а при условии вещественных коэффициентов поддиапазонных фильтров прототипа справедливо

(15)

значит, если преобразующие фильтры выбраны так, что

(16),

то B0(-Mω)* = B0(Mω) и тождество квадратичной суммы, упомянутое в связи с (3), приводит к

(17)

для |ω|≤π/(2M), соответствующего характеристике пропускной способности для поддиапазона (0,q).

Равенства с (15) по (17) показывают желательность провести различие между положительными и отрицательными частотами. Это является причиной того, почему нечетные (комплексные) фильтры используются для фильтрации в поддиапазонах поддиапазонных QMF-сигналов взамен четных (комплексных) фильтров (см. фиг.11). Для четных фильтров невозможно применять фазовые компенсации синусоид, соответствующих центральному фильтру, то есть фильтру с центральной частотой, равной нулю, так как здесь отсутствует различие между положительной и отрицательной частотами. При условии фильтра прототипа с диапазоном частотной характеристики G(ω), ограниченным до [-2π/Q,2π/Q], при количестве диапазонов Q, для четного случая нижним пределом, до которого приблизительно могут применяться фазовые компенсации, является 2π/Q, тогда как для нечетного случая нижним пределом, до которого приблизительно могут применяться фазовые компенсации, является π/Q.

Как упомянуто выше, для PS-синтеза отдельными важными случаями вышеизложенного являются коррекция и фазовая компенсация. Касательно коррекции, Ak,q(ω)=ak,q≥0 и условие (16) вырождается в

(18)

Случай фазовой компенсации соответствует Ak,q(ω)=exp(iαk,q)≥0, в этом случае условие (16) удовлетворено, если

(19)

Оценка стереофонических параметров

Неравномерный комплексный банк фильтров, то есть QMF-банк, с последующей дополнительной фильтрацией в поддиапазонах, как описано выше, может применяться для оценки стереофонических параметров: межканальных разностей мощности (IID), межканальных разностей фаз (IPD) и межканальной взаимной корреляции (ICC), которые показаны ниже. Заметим, что в этом практическом варианте осуществления IPD используется в качестве практически эквивалентной замены ITD, которая использовалась в работе Schuijers et al. В комбинированном PS-кодере (см. фиг.4) первые три канала комплексного QMF-фильтра фильтруются в поддиапазонах таким образом, что в итоге получаются 77 комплексных сигналов (см. фиг.12).

С этого момента заданные по 77 комплексных выровненных по времени сигналов левых и правых поддиапазонов обозначаются как и соответственно, согласно индексированию .

Чтобы оценить стереофонические параметры в определенной позиции поддиапазонной выборки n', левый, правый и ненормализованный межканальный управляющий сигнал рассчитываются как:

(20)

для каждого стереофонического элемента кодированного сигнала b h(n) является окном полосной области с протяженностью L, ε - крайне малое значение, препятствующее делению на ноль (например, ε = 1e-10), а и - левый и правый поддиапазонные сигналы области. В случае 20 стереофонических элементов кодированного сигнала суммирование по k, от kl вплоть до kh включительно, и q, от ql вплоть до qh включительно, происходит как показано в таблице 1. Заметим, что «отрицательные» частоты (например, k = 0 с q = 4…7) не включены в оценку параметра по (20).

Таблица 1Индексы начала и остановки суммирования по k и q
b kl Kh ql qh Частотный интервал полосы пропускания
0 0 0 0 0 0 - π/256
1 0 0 1 1 π/256 - 2π/256
2 0 0 2 2 2π/256 - 3π/256
3 0 0 3 3 3π/256 - π/64
4 1 1 2 2 π/64 - 3π/128
5 1 1 3 3 3π/128 - 2π/64
6 2 2 0 0 2π/64 - 5π/128
7 2 2 1 1 5π/128 - 3π/64
8 3 3 0 0 3π/64 - 4π/64
9 4 4 0 0 4π/64 - 5π/64
10 5 5 0 0 5π/64 - 6π/64
11 6 6 0 0 6π/64 - 7π/64
12 7 7 0 0 7π/64 - 8π/64
13 8 8 0 0 8π/64 - 9π/64
14 9 10 0 0 9π/64 - 11π/64
15 11 13 0 0 11π/64 - 14π/64
16 14 17 0 0 14π/64 - 18π/64
17 18 22 0 0 18π/64 - 23π/64
18 23 34 0 0 23π/64 - 35π/64
19 35 63 0 0 35π/64 - π

Суммирования для вычисления el(b), er(b) и eR(b) выстроены так, что средняя точка этих сигналов в суммировании совпадает с позицией параметра, отсюда смещение на . Как понятно из таблицы 1, только под-поддиапазонные сигналы и поддиапазонные сигналы с положительной центральной частотой используются для оценки стереофонических параметров. IID, обозначенная как I(b), ICC, обозначенная как C(b), и IPD, обозначенная как P(b), для каждого стереофонического компонента b кодированного сигнала рассчитываются как:

(21)

Угол в уравнении P(b) = ∠eR(b) рассчитывается с использованием четырехквадрантной функции арктангенса, дающей значения между -π и π. В зависимости от целевой битовой скорости и применения эти параметры или подмножество этих параметров квантуются и кодируются в PS-часть битового потока.

Синтез стереофонического сигнала

Для того, чтобы удержать вычислительные затраты (в показателях использования ОЗУ) в декодере по возможности низкими, используется подобная структура анализа. Однако первый диапазон является комплексным только частично (см. фиг.13). Это получено суммированием средних пар диапазона и , и и . Более того, второй и третий диапазон являются двухдиапазонными вещественными банками фильтров, которые получаются суммированием выходных сигналов и , и суммированием выходных сигналов и (см. описание в разделе о модулированных банках фильтров). С использованием этого упрощения структуры банка фильтров декодера отличительный признак между положительными и отрицательными частотами по-прежнему обеспечивается подразбиением первого фильтра поддиапазона. Банк фильтров анализа декодера показан на фиг.13. Заметим, что индексирование первых отфильтрованных (под-)поддиапазонных QMF-сигналов отсортировано по частоте. Стереофонические (под-)поддиапазонные сигналы одного кадра конструируются как:

(22)

(23)

с sk(n) монофоническими (под-)поддиапазонными сигналами и dk(n) монофоническими декоррелированными (под-)поддиапазонными сигналами, которые выводятся из монофонических (под-)поддиапазонных сигналов sk(n) для учета синтеза параметров ICC, k=0,…,K-1 - индекс поддиапазона (К является общим количеством поддиапазонов, то есть K=71), индекс n=0,…,N-1 QMF-отсчета поддиапазона, где N - количество отсчетов поддиапазона для кадра, Λ11, Λ12, Λ21, Λ22 - матрицы обработки масштабных коэффициентов, а Prl - матрица обработки фазового поворота. Матрицы обработки определены в качестве функции времени и частоты, и могут быть выведены непосредственно из векторов обработки, как описано в стандарте MPEG-4 ISO/IEC 14496-3:2001/FPDAM2, JTC1/SC29/WG11, Coding of Moving Pictures and Audio, Extension 2 (ISO/IEC 14496-3:2001/FPDAM2, JTC1/SC29/WG11, Кодирование движущихся изображений и звука, расширение 2).

sk(n) определено согласно фиг.12 с получением результата, показанного на фиг.13

(24)

Синтез стереофонических параметров осуществляется согласно индексированию по таблице 2.

Таблица 2 Таблица индексирования параметров
k i(k) Частотный интервал полосы пропускания
0 1* -2π/256 - π/256
1 0* -π/256 - 0
2 0 0 - π/256
3 1 π/256 - 2π/256
4 2 2π/256 - 3π/256
5 3 3π/256 - π/64
6 5 3π/128 - 2π/64
7 4 2π/128 - 3π/128
8 6 4π/128 - 5π/128
9 7 5π/128 - 6π/128
10 8 3π/64 - 4π/64
11 9 4π/64 - 5π/64
12 10 5π/64 - 6π/64
13 11 6π/64 - 7π/64
14 12 7π/64 - 8π/64
15 13 8π/64 - 9π/64
16-17 14 9π/64 - 11π/64
18-20 15 11π/64 - 14π/64
21-24 16 14π/64 - 18π/64
25-29 17 18π/64 - 23π/64
30-41 18 23π/64 - 35π/64
42-70 19 35π/64 - π

Уравнения синтеза, следовательно, выглядят подобным образом:

(25)

(26)

Заметим, что знак Prt меняется в уравнениях, приведенных выше, если в таблице встречается *. Это соответствует равенству (19), то есть для отрицательных частот должен быть применен обратный поворот фазы.

Рациональная реализация модулированных банков фильтров с тривиальным синтезом

При условии модулированного банка фильтров с фильтром прототипа длиной L прямая реализация могла бы потребовать QL операций на входной отсчет, но тот факт, что модуляция в (6) является антипериодической, с периодом Q, может быть использован, чтобы разделить фильтрацию на многофазное кадрирование из L о