Звуковое кодирующее устройство и декодер для кодирования декодирования фреймов квантованного звукового сигнала

Иллюстрации

Показать все

Звуковое кодирующее устройство (10), приспособленное для кодирования фреймов квантованного звукового сигнала для получения кодированных фреймов, где фрейм включает ряд звуковых образцов временной области. Звуковое кодирующее устройство (10) включает этап анализа предиктивного кодирования (12) для определения информации о коэффициентах синтезирующего фильтра и фрейма области предсказания, основанного на фрейме звуковых образцов. Звуковое кодирующее устройство (10) далее включает преобразователь, вводящий временное совмещение имен (14), для преобразования перекрывающихся фреймов области предсказания в частотную область для получения спектров фрейма области предсказания, где преобразователь, вводящий временное совмещение имен (14), приспособлен для преобразования перекрывающихся фреймов области предсказания способом критической выборки. Кроме того, звуковое кодирующее устройство (10) включает кодирующее устройство, уменьшающее избыточность (16) для кодирования спектров фрейма области предсказания для получения кодированных фреймов, основанных на коэффициентах, и кодированных спектров фрейма области предсказания. 6 н. и 15 з.п. ф-лы, 20 ил.

Реферат

Данное изобретение имеет отношение к кодированию источника и, в частности, к кодированию звукового источника, в котором звуковой сигнал обрабатывается двумя различными звуковыми кодирующими устройствами, имеющими различные алгоритмы кодирования.

В контексте технологии звукового и речевого кодирования с низкой скоростью передачи битов традиционно использовались несколько различных методов кодирования, чтобы обеспечить кодирование таких сигналов с низкой скоростью передачи битов с сохранением самых лучших субъективных качеств, возможных при данной скорости передачи битов. Кодирующие устройства для обычных музыкальных/звуковых сигналов стремятся оптимизировать субъективное качество, создавая спектральную (и временную) форму ошибки квантизации согласно маскирующей пороговой кривой, которая рассчитывается от входного сигнала посредством перцепционной модели («перцепционное звуковое кодирование»). С другой стороны, как было показано, кодирование речи с очень низкой скоростью передачи битов работало очень эффективно, когда основывалось на модели, воспроизводящей человеческую речь, то есть с использованием Линейного Предиктивного Кодирования (LPC), чтобы смоделировать резонансные эффекты человеческого голосового трактата вместе с эффективным кодированием сигнала остаточного возбуждения.

Как следствие этих двух различных подходов, обычные звуковые кодирующие устройства, такие как MPEG-1 Слой 3 (MPEG=Экспертная Группа по Кинематографии), или MPEG-2/4 Расширенное Звуковое Кодирование (ААС), не используются также для речевых сигналов при очень низкой скорости передачи данных, как и специальные основанные на LPC речевые кодирующие устройства, из-за недостаточной эксплуатации исходной речевой модели. Наоборот, основанные на LPC речевые кодирующие устройства обычно не достигают убедительных результатов, когда применяются к обычным музыкальным сигналам, из-за их неспособности гибко формировать спектральную огибающую искажения кодирования согласно маскирующей пороговой кривой. В дальнейшем, описываются концепции, которые объединяют преимущества основанного на LPC кодирования и перцепционного звукового кодирования в единую структуру и, таким образом, описывают унифицированное звуковое кодирование, которое эффективно как для обычных звуковых, так и для речевых сигналов.

Традиционно, перцепционные звуковые кодирующие устройства используют основанный на гребенке фильтров подход для эффективного кодирования звуковых сигналов и формирования искажений квантизации согласно расчету маскирующей кривой.

Фиг.16а показывает базисную блок-схему монофонической перцепционной кодирующей системы. Анализирующая гребенка фильтров 1600 используется, чтобы отображать образцы временной области на спектральных компонентах подвыборки. В зависимости от числа спектральных компонентов система также называется кодирующим устройством поддиапазонов (небольшое количество поддиапазонов, например 32) или преобразующим кодирующим устройством (большое количество частотных линий, например 512). Перцепционная («психоакустическая») модель 1602 используется, чтобы рассчитать фактический маскирующий порог с временной зависимостью. Спектральные компоненты («поддиапазона» или «частотной области») квантуются и кодируются 1604 так, что шум квантизации скрывается под фактически переданным сигналом, и становится незаметным после декодирования. Это достигается посредством изменения гранулярности квантизации спектральных величин по времени и частоте.

Квантованные и энтропийно кодированные спектральные коэффициенты или величины поддиапазона, кроме того, с дополнительной информацией, вводятся в форматер битового потока 1606, который обеспечивает кодированный звуковой сигнал, который может передаваться или сохраняться. Выходной битовый поток блока 1606 может передаваться через Интернет или может сохраняться на любом машиночитаемом носителе информации.

На стороне декодера входной интерфейс декодера 1610 получает кодированный битовый поток. Блок 1610 отделяет энтропийно кодированные и квантованные спектральные/поддиапазоновые величины от дополнительной информации. Кодированные спектральные величины вводятся в энтропийный декодер, такой как декодер Хаффмана, который размещается между 1610 и 1620. Выходы этого энтропийного декодера являются квантованными спектральными величинами. Эти квантованные спектральные величины вводятся в реквантизатор, который выполняет «обратную» квантизацию, как обозначено цифрой 1620 на фиг.16. Выход блока 1620 вводится в синтезирующую гребенку фильтров 1622, которая выполняет синтезирующее фильтрование, включая частотное/временное преобразование и, обычно, операцию отмены совмещения имен временной области, такую как перекрывание и добавление, и/или операцию управления окнами на стороне синтеза, чтобы, в конечном счете, получить выходной звуковой сигнал.

Традиционно, эффективное речевое кодирование основывалось на Линейном Предиктивном Кодировании (LPC), чтобы смоделировать резонансные эффекты человеческого голосового тракта вместе с эффективным кодированием сигнала остаточного возбуждения. И LPC и параметры возбуждения передаются от кодирующего устройства к декодеру. Этот принцип проиллюстрирован на Фиг.17а и 17b.

Фиг.17а показывает сторону кодирующего устройства системы кодирования/декодирования, основанной на линейном Предиктивном кодировании. Речевой вход вводится в анализатор LPC 1701, который на выходе обеспечивает коэффициенты фильтрации LPC. Основываясь на этих коэффициентах фильтрации LPC, регулируется фильтр LPC 1703. Фильтр LPC производит спектрально отбеленный звуковой сигнал, который также называется «сигналом ошибки предсказания». Этот спектрально отбеленный звуковой сигнал вводится в кодирующее устройство остатка/возбуждения 1705, которое генерирует параметры возбуждения. Таким образом, речевой вход кодируется в параметры возбуждения, с одной стороны, и коэффициенты LPC, с другой стороны.

На стороне декодера, проиллюстрированного на фиг.17b, параметры возбуждения вводятся в декодер возбуждения 1707, который генерирует сигнал возбуждения, который может быть введен в синтезирующий фильтр LPC. Синтезирующий фильтр LPC регулируется посредством использования переданных коэффициентов фильтрации LPC. Таким образом, синтезирующий фильтр LPC 1709 генерирует восстановленный или синтезированный выходной речевой сигнал.

Со временем было предложено много способов относительно эффективного и перцепционно убедительного представления остаточного сигнала (сигнала возбуждения), такого как Многоимпульсное Возбуждение (МРЕ), Регулярное Импульсное Возбуждение (RPE), и Кодовозбудимое Линейное Предсказание (CELP).

Линейное Предиктивное Кодирование пытается произвести расчет текущей выборочной величины последовательности, основанной на наблюдении за определенным числом прошлых величин как линейной комбинации прошлых наблюдений. Чтобы уменьшить избыточность во входном сигнале, фильтр LPC кодирующего устройства «отбеливает» входной сигнал в его огибающую спектра, то есть, это - модель обратной огибающей спектра сигнала. Наоборот, синтезирующий фильтр LPC декодера является моделью огибающей спектра сигнала. В частности, хорошо известный авторегрессивный (AR) линейный предиктивный анализ, как известно, моделирует огибающую спектра сигнала посредством приближения с одними полюсами.

Как правило, речевые кодирующие устройства узкого диапазона (то есть речевые кодирующие устройства со скоростью выборки 8 кГц) используют фильтр LPC с упорядоченностью между 8 и 12. Багодаря природе фильтра LPC однородное частотное разрешение эффективно по всему частотному диапазону. Это не соответствует перцепционному частотному масштабированию.

Чтобы объединить мощности традиционного основанного на LPC/CELP кодирования (лучшее качество речевых сигналов) и традиционного основанного на гребенке фильтров перцепционного звукового кодирования (лучше всего для музыки), было предложено объединенное кодирование этих архитектур. В AMR-WB+(AMR-WB=Адаптивное Мультискоростное Широкополосное) кодирующем устройстве в работе Б.Бессета, Р.Лефевра, Р.Садами «УНИВЕРСАЛЬНОЕ РЕЧЕВОЕ // ЗВУКОВОЕ КОДИРОВАНИЕ, ИСПОЛЬЗУЮЩЕЕ ГИБРИДНЫЕ МЕТОДЫ ACELP/TCX», Протокол IEEE ICASSP 2005, стр.301-304, 2005 два переменных кодирующих ядра воздействуют на остаточный сигнал LPC. Один основывается на ACELP (ACELP=Алгебраическое Кодовозбудимое Линейное Предсказание) и, таким образом, является чрезвычайно эффективным для кодирования речевых сигналов. Другое кодирующее ядро основывается на ТСХ (ТСХ=Преобразующее Кодированное Возбуждение), то есть, основанное на гребенке фильтров кодирование напоминает традиционные звуковые методы кодирования, чтобы достигнуть хорошего качества сигналов музыки. В зависимости от характеристик входного сигнала/сигналов выбирается один из двух режимов кодирования для короткого промежутка времени, чтобы передать остаточный сигнал LPC. Таким образом, фреймы продолжительностью 80 миллисекунд могут быть расщеплены на подфреймы в 40 миллисекунд или 20 миллисекунд, в которые принимается решение о выборе между двумя режимами кодирования.

AMR-WB+(AMR-WB+=Расширенный Адаптивный Мультискоростной Широкополосный кодер-декодер), сравните, 3GPP (3GPP=Общий Протокол Пакетной Передачи Третьего Поколения) техническая спецификация номер 26.290, версия 6.3.0, июнь 2005 г., может переключаться между двумя существенно различными режимами ACELP и ТСХ. В режиме ACELP сигнал временной области кодируется алгебраическим кодовым возбуждением. В режиме ТСХ используется быстрое преобразование Фурье (FFT=Быстрое Преобразование Фурье), и спектральные величины LPC взвешенного сигнала (из которого в декодере получается сигнал возбуждения) кодируются, основываясь на векторной квантизации.

Решение о том, какой режим использовать, может быть принято путем испытания и декодирования обоих вариантов с последующим сравнением полученных отношений сигнала к шуму (SNR=Отношение Сигнала к Шуму).

Этот случай также называется решением замкнутого контура, поскольку имеется замкнутый контур регулирования, оценивающий, соответственно, и выполнение кодирования и эффективность, и затем выбирающий один с лучшим SNR (Отношение Сигнала к Шуму) с отбраковкой другого.

Хорошо известно, что для звукового и речевого кодирования блок преобразования без управления окнами не пригоден. Поэтому для режима ТСХ сигнал реализуется посредством организации окна с низким окном перекрывания с перекрыванием 1/8. Эта зона перекрывания необходима для постепенного ослабления предшествующего блока или фрейма с усилением следующего, например, чтобы подавить артефакты вследствие присутствия некоррелированого шума квантизации в последующих звуковых фреймах. Таким образом, служебные сигналы, сопоставимые с некритической выборкой, сохраняются разумно низкими, и декодирование, необходимое для решения замкнутого контура, восстанавливает, по крайней мере, 7/8 образцов текущего фрейма.

AMR-WB+ вводит 1/8 служебных сигналов в режим ТСХ, то есть, число спектральных величин, подлежащих кодированию, на 1/8 выше, чем число входных образцов. Это вызывает то неудобство, что увеличивается количество данных служебных сигналов. Кроме того, частотная характеристика соответствующих полосовых фильтров неблагоприятна, из-за чрезмерной зоны перекрывания 1/8 последовательных фреймов.

Для более детальной разработки кодовых служебных сигналов и перекрывания последовательных фреймов фиг.18 иллюстрирует определение параметров окна. Окно, показанное на фиг.18, имеет часть верхнего края слева, обозначенную буквой «L», также называемую левой зоной перекрывания, центральную зону, обозначенную цифрой «1», также называемую зоной 1 (единиц) или обходной частью, и часть нижнего края, обозначенную буквой «R», также называемую правой зоной перекрывания. Кроме того, фиг.18 показывает стрелку, указывающую на зону «PR» идеального восстановления в пределах фрейма. Кроме того, фиг.18 показывает стрелку, указывающую длину ядра преобразования, обозначенного буквой «Т».

Фиг.19 показывает схему представления последовательности AMR-WB+ окон и внизу таблицу параметров окна согласно фиг.18. Последовательность окон, показанная вверху фиг.19, является ACELP, TCX20 (для фрейма продолжительностью в 20 миллисекунд), ТСХ20, ТСХ40 (для фрейма продолжительностью в 40 миллисекунд), ТСХ80 (для фрейма продолжительностью в 80 миллисекунд), TCX20, TCX20, ACELP, ACELP.

Из последовательности окон можно увидеть изменяющиеся зоны перекрывания, которые перекрываются точно на 1/8 центральной части М. Таблица внизу фиг.19 также показывает, что длина преобразования «Т» всегда на 1/8 больше, чем зона новых идеально восстановленных образцов «PR». Кроме того, следует заметить, что это не только в случае переходов ACELP в ТСХ, но также и в случае переходов ТСХх в ТСХх (где «х» обозначает фреймы ТСХ произвольной длины). Таким образом, в каждый блок вводится 1/8 служебных сигналов, то есть критическая выборка никогда не достигается.

При переключении от ТСХ на ACELP образцы окна отбраковываются из фрейма FFT-ТСХ в зоне перекрывания, как, например, обозначено вверху фиг.19 зоной, обозначенной цифрой 1900. При переключении от ACELP на ТСХ реализуемый посредством организации окна отклик при отсутствии входного сигнала (ZIR=отклик при отсутствии входного сигнала), который также обозначается пунктирной линией 1910 наверху фиг.19, удаляется в кодирующем устройстве для управления окнами и добавляется в декодере для восстановления. При переключении от ТСХ на ТСХ фреймы реализуемые посредством организации окна образцы используются для взаимного ослабления. Так как фреймы ТСХ могут квантоваться по-другому, ошибка квантизации или шум квантизации между последовательными фреймами могут быть различными и/или независимыми. К тому же, при переключении от одного фрейма на следующий без взаимного ослабления могут появиться заметные артефакты, и, следовательно, взаимное ослабление необходимо для достижения определенного качества.

Из таблицы внизу фиг.19 можно видеть, что зона взаимного ослабления растет с увеличением длины фрейма. Фиг.20 показывает другую таблицу, иллюстрирующую различные окна для возможных переходов в AMR-WB+. При переходе от ТСХ до ACELP перекрывающиеся образцы могут быть отбракованы. При переходе от ACELP до ТСХ отклик при отсутствии входного сигнала из ACELP удаляется в кодирующем устройстве и добавляется в декодере для восстановления.

Существенным недостатком AMR-WB+ является то, что всегда вводится 1/8-ая служебных сигналов.

Задачей данного изобретения является обеспечение более эффективной концепции звукового кодирования.

Задача решается при помощи звукового кодирующего устройства по п.1, способа звукового кодирования по п.12, звукового декодера по п.14 и способа звукового декодирования по п.20.

Осуществления данного изобретения основываются на обнаружении того, что более эффективное кодирование может быть выполнено, если используются преобразования, вводящие временное совмещение имен, например, для кодирования ТСХ. Преобразования, вводящие временное совмещение имен, могут обеспечить достижение критической выборки, в то же время сохраняя способность к взаимному ослаблению между смежными фреймами. Например, в одном осуществлении используется модифицированное дискретное косинусное преобразование (MDCT=Модифицированное Дискретное Косинусное Преобразование) для того, чтобы преобразовать перекрывающиеся фреймы временной области в частотную область. Так как это специфическое преобразование производит только N образцы частотной области для 2N образцов временной области, критическая выборка может поддерживаться даже при том, что фреймы временной области могут перекрываться на 50%. В декодере или в ходе обратного преобразования, вводящего временное совмещении имен, этап перекрывания и добавления может быть приспособлен для комбинирования перекрывания временного совмещения имен и обратно преобразованных образцов временной области в том смысле, что может выполняться отмена совмещения имен временной области (TDAC=Отмена Совмещения Имен Временной Области).

Осуществления могут использоваться в контексте переключаемого кодирования частотной области и временной области с низкими окнами перекрывания, такими как, например, AMR-WB+. Осуществления могут использовать MDCT вместо некритически дискретизированной гребенки фильтров. Таким образом, служебные сигналы, благодаря некритической выборке, могут быть благоприятно уменьшены, основываясь на критической выборке свойств, например MDCT. Дополнительно, более длинные перекрывания возможны без введения дополнительных служебных сигналов. Осуществления могут обеспечить то преимущество, что основанное на более длинных служебных сигналах перекрестное ослабление может быть выполнено более гладко, другими словами, качество звука может быть улучшено в декодере.

В одном детальном осуществлении FFT в AMR-WB+ТСХ-режиме может быть заменено на MDCT с сохранением функциональных возможностей AMR-WB+, особенно, переключение между режимом ACELP и режимом ТСХ, основанным на решении замкнутого или открытого контура. Осуществления могут использовать MDCT в форме некритической выборки для первого фрейма ТСХ после фрейма ACELP и впоследствии использовать MDCT в форме критической выборки для всех последующих фреймов ТСХ. Осуществления могут сохранять свойства решения замкнутого контура, используя MDCT с низкими окнами перекрывания, подобными немодифицированному AMR-WB+, но с более длинными перекрываниями. Оно может обеспечить преимущество лучшей частотной характеристики по сравнению с немодифицированными окнами ТСХ.

Осуществления данного изобретения будут описаны более детально с использованием сопровождающих рисунков, в которых:

Фиг.1 показывает осуществление звукового кодирующего устройства.

Фиг.2a-2j показывают уравнения для осуществления преобразования, вводящего совмещение имен временной области.

Фиг.3а показывает другое осуществление звукового кодирующего устройства.

Фиг.3b показывает другое осуществление звукового кодирующего устройства.

Фиг.3с показывает еще одно осуществление звукового кодирующего устройства.

Фиг.3d показывает еще одно осуществление звукового кодирующего устройства.

Фиг.4а показывает образец речевого сигнала временной области для вокализованной речи.

Фиг.4b иллюстрирует спектр образца вокализованного речевого сигнала.

Фиг.5а иллюстрирует сигнал временной области образца невокализованного речевого сигнала.

Фиг.5b показывает спектр образца невокализованного речевого сигнала.

Фиг.6 показывает осуществление анализа через синтез CELP.

Фиг.7 иллюстрирует этап ACELP на стороне кодирующего устройства, предоставляющий краткосрочную информацию предсказания и сигнал ошибки предсказания.

Фиг.8а показывает осуществление звукового декодера.

Фиг.8b показывает другое осуществление звукового декодера.

Фиг.8с показывает другое осуществление звукового декодера.

Фиг.9 показывает осуществление функции окна.

Фиг.10 показывает другое осуществление функции окна.

Фиг.11 показывает схемы представления и диаграммы задержки прототипных функций окна и функции окна осуществления.

Фиг.12 иллюстрирует параметры окна.

Фиг.13а показывает последовательность функций окна и соответствие таблице параметров окна.

Фиг.13b показывает возможные переходы для основанных на MDCT осуществлений.

Фиг.14а показывает таблицу возможных переходов в осуществлении.

Фиг.14b иллюстрирует окно перехода от ACELP на ТСХ80 согласно одному осуществлению.

Фиг.14 с показывает осуществление окна перехода от фрейма ТСХх на фрейм ТСХ20 на фрейм ТСХх согласно одному осуществлению.

Фиг.14d иллюстрирует осуществление окна перехода от ACELP на ТСХ20 согласно одному осуществлению.

Фиг.14е показывает осуществление окна перехода от ACELP на ТСХ40 согласно одному осуществлению.

Фиг.14f иллюстрирует осуществление окна перехода для перехода от фрейма ТСХх на фрейм ТСХ80 на фрейм ТСХх согласно одному осуществлению.

Фиг.15 иллюстрирует переход ACELP на ТСХ80 согласно одному осуществлению.

Фиг.16 иллюстрируют примеры обычных кодирующих устройств и декодеров.

Фиг.17а, b иллюстрирует LPC кодирование и декодирование.

Фиг.18 иллюстрирует прототип окна взаимного ослабления.

Фиг.19 иллюстрирует прототип последовательности AMR-WB+ окон.

Фиг.20 иллюстрирует окна, используемые для передачи в AMR-WB+ между ACELP и ТСХ.

В дальнейшем осуществления данного изобретения будут описаны подробно. Следует заметить, что следующие осуществления не должны ограничивать область изобретения, они должны рассматриваться скорее как возможные реализации или выполнения среди многих различных осуществлений.

Фиг.1 показывает звуковое кодирующее устройство 10, приспособленное для кодирования фреймов квантованного звукового сигнала, чтобы получить кодированные фреймы, где фрейм включает несколько звуковых образцов временной области; звуковое кодирующее устройство 10 включает этап анализа предиктивного кодирования 12 для получения информации о коэффициентах для синтезирующего фильтра и фрейма области предсказания, основанного на фреймах звуковых образцов, например, фрейм области предсказания может основываться на фрейме возбуждения; фрейм области предсказания может включать образцы или взвешенные образцы сигнала области LPC, из которого может быть получен сигнал возбуждения для синтезирующего фильтра. Другими словами в осуществлениях фрейм области предсказания может основываться на фрейме возбуждения, включающем образцы сигнала возбуждения для синтезирующего фильтра.

В осуществлениях фреймы области предсказания могут соответствовать фильтрованным версиям фреймов возбуждения. Например, перцепционное фильтрование может применяться к фрейму возбуждения для получения фрейма области предсказания. В других осуществлениях фильтрация верхних частот или фильтрация нижних частот может применяться к фреймам возбуждения для получения фреймов области предсказания. А еще в одном осуществлении фреймы области предсказания могут непосредственно соответствовать фреймам возбуждения.

Звуковое кодирующее устройство 10 далее включает преобразователь, вводящий временное совмещение имен 14, для преобразования перекрывающихся фреймов области предсказания в частотную область для получения спектров фрейма области предсказания, где преобразователь, вводящий временное совмещение имен 14, приспособлен для преобразования перекрывающихся фреймов области предсказания способом критической выборки. Звуковое кодирующее устройство 10 далее включает кодирующее устройство, уменьшающее избыточность 16, для кодирования спектров фрейма области предсказания для получения кодированных фреймов, основанных на коэффициентах и кодированных спектрах фрейма области предсказания.

Кодирующее устройство, уменьшающее избыточность 16, может быть приспособлено для использования кодирования методом Хаффмана или энтропийного кодирования, чтобы кодировать спектры фрейма области предсказания и/или информацию о коэффициентах.

В осуществлениях преобразователь, вводящий временное совмещение имен 14, может быть приспособлен для преобразования перекрывающихся фреймов области предсказания таким образом, что среднее число образцов спектра фрейма области предсказания равно среднему числу образцов в фрейме области предсказания, таким образом достигается критически квантованное преобразование. Кроме того, преобразователь, вводящий временное совмещение имен 14, может быть приспособлен для преобразования перекрывающихся фреймов области предсказания согласно модифицированному дискретному косинусному преобразованию (MDCT=Модифицированное Дискретное Косинусное Преобразование).

В дальнейшем MDCT будет объяснено более детально с помощью уравнений, проиллюстрированных на Фиг.2a-2j. Модифицированное дискретное косинусное преобразование (MDCT)-преобразование, родственное преобразованию Фурье, основанное на типе-IV дискретного косинусного преобразования (DCT-IV=Дискретное Косинусное Преобразование, тип IV), с дополнительным свойством, обеспечивающим возможность перекрывания, то есть оно разработано, чтобы быть выполненным на последовательных блоках большего набора данных, где последующие блоки перекрываются так, чтобы, например, последняя половина одного блока совпала с первой половиной следующего блока. Это перекрывание, в дополнение к свойствам уплотнения энергии DCT, делает MDCT особенно привлекательным при применении сжатия сигнала, так как оно помогает избежать поиска артефактов от границ блока. Таким образом, MDCT используется в МРЗ (МРЗ=MPEG 2/4 слой 3), АС-3 (АС-3=Звуковой Кодер-декодер 3 системы Долби), Ogg Vorbis, и ААС (ААС=Расширенное Звуковое Кодирование) для звукового сжатия, например.

MDCT было предложено Принсеном, Джонсоном и Брэдли в 1987 г. вслед за более ранней (1986) работой Принсена и Брэдли, чтобы развить MDCT основной принцип отмены совмещения имен временной области (TDAC), более подробно описанный ниже. Существует также аналогичное преобразование, MDST, основанное на дискретном синусном, преобразовании, а также другие редко используемые формы MDCT, основанные на различных типах DCT или DCT/DST (DST=Дискретное Синусное Преобразование) комбинаций, которые могут также использоваться в осуществлениях преобразователем, вводящим временное совмещение имен 14.

В МР3 MDCT не примененяется к звуковому сигналу непосредственно, а скорее к выходу гребенки 32-полосных многофазных квадратурных фильтров (PQF=Многофазный Квадратурный Фильтр). Выход этого MDCT постобрабатывается посредством формулы сокращения псевдонима, чтобы уменьшить типичное совмещение имен гребенки фильтров PQF. Такая комбинация гребенки фильтров с MDCT называется гибридной гребенкой фильтров или MDCT поддиапазона. ААС, с другой стороны, обычно использует чистое MDCT; только (редко используемый) MPEG-4 AAC-SSR вариант (фирмы Sony) использует четырехполосную гребенку PQF, сопровождаемую MDCT. ATRAC (ATRAC=Адаптивное Преобразующее Звуковое Кодирование) использует расположенные друг над другом квадратурные зеркальные фильтры, за которыми следует MDCT.

Как перекрывающееся преобразование, MDCT является немного необычным по сравнению с другими преобразованиями, родственными преобразованиям Фурье, и эта необычность состоит в том, что у него выходов на половину больше, чем входов (вместо того же самого числа). В частности, это - линейная функция F: R2N->RN, где R обозначает набор действительных чисел. 2N действительные числа х0…, x2N-1 преобразуются в N действительные числа х0 …, xN-1 согласно формуле на фиг.2а.

Коэффициент нормализации перед этим преобразованием, здесь единица, - произвольное соглашение и различается между обработками. Только продукт нормализации MDCT и IMDCT, ниже, ограничивается.

Обратное MDCT известно как IMDCT. Поскольку имеются различные числа входов и выходов, на первый взгляд может показаться, что MDCT не должно быть обратимым. Однако идеальная обратимость достигается посредством добавления перекрывающихся IMDCT последующих перекрывающихся блоков, вызывая ошибки, подлежащие отмене, и оригинальные данные, подлежащие извлечению; эта методика известна как отмена совмещения имен временной области (TDAC).

IMDCT преобразует N действительные числа Х0 …, XN-1 в 2N действительные числа y0…, y2M-1 согласно формуле на фиг.2b. Как для DCT-IV (ортогональное преобразование), обратное преобразование имеет ту же самую форму, что и прямое преобразование.

В случае реализуемого посредством организации окна MDCT с обычной нормализацией окна (см. ниже), коэффициент нормализации перед IMDCT должен быть умножен на 2, то есть становится 2/N.

Хотя прямое применение формулы MDCT потребует О (N2) операций, можно вычислить то же самое только с О (N log N) коэффициентом сложности, рекурсивно разлагая на множители вычисление, как в быстром преобразовании Фурье. Можно также вычислить MDCTs посредством других преобразований, обычно DFT (FFT) или DCT, объединенные с О (N) стадиями пред- и постобработки. Кроме того, как описано ниже, любой алгоритм для DCT-IV немедленно обеспечивает способ вычисления MDCT и IMDCT равного размера.

В типичных случаях применения сжатия сигнала свойства преобразования далее улучшаются при использовании функции окна wn (n=0 …, 2N-1), то есть умноженной на xn и yn в вышеуказанных MDCT и IMDCT формулах, чтобы избежать неоднородностей на n=0 и 2N границах посредством гладкого продвижения функции к нулю в этих точках. То есть данные реализуются посредством организации окна перед MDCT и после IMDCT. В принципе, х и y могут иметь различные функции окна; и функция окна может также изменяться от одного блока к следующему, особенно для случая, где блоки данных различных размеров объединяются, но для простоты общий случай идентичных функций окна для блоков равного размера рассматривается в первую очередь.

Преобразование остается обратимым, то есть работает TDAC, для симметричного окна wn=w2N-1-n, пока w удовлетворяет условию Принсена-Брэдли, согласно фиг.2с.

Общеизвестны различные другие функции окна, например, показанные на фиг.2d для МР3 и MPEG-2 ААС, и на фиг.2е для Vorbis. AC-3 использует производное окно Кайзера-Бесселя (KBD=производное Кайзера-Бесселя), и MPEG-4 ААС может также использовать окно KBD.

Заметьте, что окна, примененные к MDCT, отличаются от окон, используемых для других типов анализа сигнала, так как они должны выполнять условие Принсена-Брэдли. Одна из причин этого различия - то, что окна MDCT применяются дважды, для MDCT (анализирующий фильтр) и IMDCT (синтезирующий фильтр).

Как можно заметить при рассмотрении определений, для четного N MDCT, по существу, эквивалентно DCT-IV, где вход смещается на N/2, и два N-блока данных преобразуются в один. При более тщательном исследовании этой эквивалентности можно легко получить важные свойства, подобные TDAC.

Чтобы определить точную связь с DCT-IV, нужно понять, что DCT-IV соответствует чередованию четных/нечетных граничных условий, четные на левой границе (около n=-1/2), нечетные на правой границе (около n=N-1/2), и так далее (вместо периодических границ как для DFT). Это следует из тождеств, показанных на фиг.2f. Таким образом, если входы - массив х длины N, представьте расширение этого массива до (x, -xR, -x, xR…) и так далее, и можно представить случай, где xR обозначает х в обратном порядке.

Рассмотрите MDCT с 2N входами и N выходами, где входы могут быть разделены на четыре блока (а, b, с, d), каждый размера N/2. Если они смещены на N/2 (от терма +N/2 в определении MDCT), то (b, с, d) расширяются за конец N DCT-IV входов, таким образом, они должны быть «повернуты» назад согласно граничным условиям, описанным выше.

Таким образом, MDCT 2N входов (а, b, с, d) точно эквивалентно DCT-IV N входов: (-cR-d, a-bR), где R обозначает аннулирование, как сказано выше. Таким образом, любой алгоритм для вычисления DCT-IV может быть заведомо применен к MDCT.

Аналогично, формула IMDCT, как упомянуто выше, точно 1/2 DCT-IV (что является его собственной инверсией), где выход смещен на N/2 и расширен (посредством граничных условий) до длины 2N. Обратное DCT-IV просто возвратит входы (-cR-d, a-bR) сверху. Когда он смещен и расширен посредством граничных условий, получается результат, показанный на фиг.2g. Половина выходов IMDCT, таким образом, является излишней.

Теперь понятно, как работает TDAC. Предположим, что вычисляется MDCT последующего на 50% перекрытого 2N блока (с, d, e, f). IMDCT тогда даст в результате аналогично вышеупомянутому: (c-dR, d-cR, e+fR, eR+f)/2. Когда это добавляется к предыдущему результату IMDCT в перекрываемой половине, обратные термы отменяются и получаются просто (с, d) восстановленные оригинальные данные.

Происхождение термина «отмена совмещения имен временной области» теперь ясно. Использование входных данных, которые простираются за границы логического DCT-IV, заставляет данные совмещаться тем же самым способом, которым частоты вне частоты Nyquist (максимальная частота сигнала (половина частоты дискретизации)) совмещаются, чтобы понизить частоты, за исключением случая, когда совмещение имен происходит во временной области вместо частотной области. Следовательно, комбинации c-dR и так далее имеют совершенно правильные признаки комбинаций, подлежащих отмене, при их добавлении.

Для нечетного N (которое редко используются на практике) N/2 не целое число, таким образом, MDCT не просто смещенная перестановка DCT-IV. В этом случае дополнительное смещение наполовину образца означает, что MDCT/IMDCT становится эквивалентным DCT-III/II, и анализ аналогичен вышеупомянутому.

Ранее свойство TDAC было подтверждено для обычного MDCT, показывая, что добавление IMDCT последующих блоков в их перекрываемую половину восстанавливает оригинальные данные. Дифференцирование этого обратного свойства для организованного посредством окна MDCT только немного сложнее.

Выбирая из вышеупомянутого тот случай, когда (а, b, с, d) и (с, d, e, f) обработаны MDCT, IMDCT и добавлены в их перекрываемую половину, мы получаем (с+dR, cR+d)/2+(с-dR, d-cR)/2=(с, d), оригинальные данные.

Теперь предполагается умножение входов MDCT и выходов IMDCT на функцию окна длиной 2N. Как сказано выше, мы предполагаем симметрическую функцию окна, которая, поэтому, имеет форму (w, z, zR, wR), где w и z - векторы длиной N/2, и R обозначает аннулирование, как сказано ранее. Тогда условие Принсена-Брэдли может быть записано

w 2 + z R 2 = ( 1,1, … ) ,

с умножениями и дополнениями, выполненными поэлементно, или эквивалентно

w R 2 + z 2 = ( 1,1, … ) ,

реверсируя w и z.

Поэтому вместо обработки MDCT (а, b, с, d), MDCT (wa, zb, zRc, wRd) обрабатываются MDCT со всеми умножениями, выполненными поэлементно. Когда они обрабатываются IMDCT и снова умножаются (поэлементно) на функцию окна, последняя-N половина дает результат, как показано на фиг.2h.

Заметьте, что умножение на ½ больше не присутствует, потому что нормализация IMDCT отличается множителем 2 в случае реализации посредством организации окна. Аналогичные результаты дают реализованные посредством организации окна MDCT и IMDCT (с, d, e, f) в первой-N половине согласно фиг.2i. Когда эти две половины соединяются вместе, получаются результаты фиг.2j, восстанавливающие оригинальные данные.

Фиг.3а изображает другое осуществление звукового кодирующего устройства 10. В осуществлении, изображенном на фиг.3а, преобразователь, вводящий временное совмещение имен 14, включает управляющийся окнами фильтр 17 для применения функции управления окнами к перекрывающимся фреймам области предсказания и конвертер 18 для преобразования реализованных посредством организации окон перекрывающихся фреймов области предсказания в спектры области предсказания. Согласно вышесказанному возможны функции множественного окна, некоторые из которых будут детализированы в дальнейшем.

Другое осуществление звукового кодирующего устройства 10 изображено на фиг.3b. В осуществлении, изображенном на фиг.3b, преобразователь, вводящий временное совмещение имен 14, включает процессор 19 для обнаружения события и для предоставления информации о последовательности окон, если событие обнаружено, и где управляющийся окнами фильтр 17 приспособлен для применения функции управления окнами согласно информации о последовательности окон. Например, событие может произойти в зависимости от определенных свойств сигнала, проанализированных от фреймов квантованного звукового сигнала. Например, различная длина окна или различные контуры окна и т.д. могут применяться согласно, например, свойствам автокорреляции сигнала, тональности, быстротечности, и т.д. Другими словами, различные события могут произойти как часть различных свойств фреймов квантованног