Коррекция коэффициента усиления после квантования при кодировании аудио

Иллюстрации

Показать все

Изобретение относится к области коррекции коэффициента усиления при кодировании аудиосигналов, основанном на схемах квантования, и может использоваться для обработки различных типов аудиосигналов. Технический результат - осуществление регулировки коэффициента усиления при декодировании аудиосигналов, которые были закодированы с раздельными представлениями коэффициента усиления и вектора формы. Способ регулировки коэффициента усиления при декодировании аудиосигналов, которые были закодированы с раздельными представлениями коэффициента усиления и вектора формы, характеризуется тем, что оценивают показатель точности представления вектора формы, определяют коррекцию коэффициента усиления на основе оценочного показателя точности, регулируют представление коэффициента усиления на основе определенной коррекции коэффициента усиления. 4 н. и 24 з.п. ф-лы, 21 ил., 2 табл.

Реферат

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Настоящая технология относится к коррекции коэффициента усиления при кодировании аудио, основанном на схемах квантования, в которых квантование разделено на представление коэффициента усиления и представление вектора формы (так называемое кодирование аудио на основе «gain-shape» («коэффициента усиления и вектора формы»)) и, в частности, к коррекции коэффициента усиления после квантования.

УРОВЕНЬ ТЕХНИКИ

Современные службы связи предназначены для обработки многих различных типов аудиосигналов. Хотя основной аудиоконтент представляет собой речевые сигналы, желательно обрабатывать более общие сигналы, такие как музыка и смешение музыки и речи. Хотя пропускная способность в сетях связи постоянно увеличивается, по-прежнему имеется большой интерес в том, чтобы ограничить необходимую полосу пропускания на каждый канал связи. В мобильных сетях меньшая полоса пропускания передачи для каждого вызова приводит к более низкому расходу энергии как в мобильном устройстве, так и в базовой станции. Это дает экономию энергии и затрат для оператора мобильной связи, в то время как конечный пользователь получает более долгий срок работы батареи и увеличенное время разговора. Кроме того, при уменьшении расходуемой полосы пропускания на каждого пользователя мобильная сеть может обслужить большее количество пользователей параллельно.

Сегодня доминирующей технологией сжатия для мобильных речевых служб является линейное предсказание с кодовым возбуждением (CELP), которое достигает хорошего качества аудио для речи при малых полосах пропускания. Оно широко используется в имеющихся кодеках, таких как AMR (адаптивный многоскоростной), WB-AMR (адаптивный многоскоростной широкополосный) и GSM-EFR (улучшенный полноскоростной для глобальной системы мобильной связи). Однако для общих аудиосигналов, таких как музыка, технология CELP имеет низкую производительность. Эти сигналы часто могут быть лучше представлены посредством использования кодирования, основанного на частотном преобразовании, например, с помощью кодеков ITU-T G.722.1 [1] и G.719 [2]. Однако кодеки на основе области преобразования обычно работают на более высокой битовой скорости, чем речевые кодеки. Имеется разрыв между речевой областью и областью общего аудио с точки зрения кодирования, и желательно увеличить производительность кодеков на основе области преобразования на более низких битовых скоростях.

Кодеки на основе области преобразования требуют компактного представления коэффициентов преобразования частотной области. Эти представления часто полагаются на векторное квантование (VQ), в котором коэффициенты кодируются в группах. Среди различных способов векторного квантования имеется векторное квантование на основе коэффициента усиления и вектора формы. Этот подход применяет нормализацию к векторам перед кодированием отдельных коэффициентов. Коэффициент нормализации и нормализованные коэффициенты упоминаются как коэффициент усиления и форма вектора, которые могут быть закодированы отдельно. Структура на основе коэффициента усиления и вектора формы обладает многими преимуществами. Посредством разделения коэффициента усиления и вектора формы кодек может быть легко адаптирован к переменным уровням входных сигналов от источника посредством разработки квантователя коэффициента усиления. Это также выгодно с точки зрения восприятия, когда коэффициент усиления и вектор формы могут нести разную важность в различных частотных областях. Наконец, разделение коэффициента усиления и вектора формы упрощает конфигурацию квантователя и делает ее менее сложной с точки зрения памяти и вычислительных ресурсов по сравнению с неограниченным векторным квантователем. Функциональный краткий обзор квантователя на основе коэффициента усиления и вектора формы можно видеть на фиг. 1.

При применении к спектру частотной области, структура на основе коэффициента усиления и вектора формы может использоваться для формирования спектральной огибающей и представления тонкой структуры. Последовательность значений коэффициента усиления формирует огибающую спектра, в то время как векторы формы дают спектральные детали. С точки зрения восприятия выгодно разделить спектр с использованием неоднородной структуры полос, которая согласуется с частотным разрешением слуховой системы человека. Это обычно означает, что узкие полосы используются для низких частот, в то время как большие полосы используются для высоких частот. Важность спектральной тонкой структуры с точки зрения восприятия меняется в зависимости от частоты, но также зависит от характеристик самого сигнала. Кодеры с преобразованием часто используют слуховую модель для определения важных частей тонкой структуры и назначения доступных ресурсов самым важным частям. Спектральная огибающая часто используется как входная информация для слуховой модели. Кодер вектора формы квантует векторы формы с использованием назначенных битов. Фиг. 2 показывает пример системы кодирования на основе преобразования с помощью слуховой модели.

В зависимости от точности квантователя вектора формы значение коэффициента усиления, используемое для воссоздания вектора, может являться более или менее соответствующим. Особенно, когда выделенных битов мало, значение коэффициента усиления далеко отклоняется от оптимального значения. Один способ решения состоит в том, чтобы закодировать корректирующий коэффициент, который учитывает несоответствие коэффициента усиления после квантования вектора формы. Другое решение состоит в том, чтобы сначала закодировать вектор формы, а затем вычислить оптимальный коэффициент усиления с учетом квантованного вектора формы.

Решение закодировать коэффициент коррекции коэффициента усиления после квантования вектора формы может расходовать значительную битовую скорость. Если скорость уже является низкой, это означает, что больше битов должно быть взято в другом месте, и может уменьшить доступную битовую скорость для тонкой структуры.

Кодирование вектора формы перед кодированием коэффициента усиления является более хорошим решением, но если битовая скорость для квантователя вектора формы определена на основе квантованного значения коэффициента усиления, то квантование коэффициента усиления и квантование вектора формы зависели бы друг от друга. Итерактивное решение, вероятно, могло бы разрешить эту взаимную зависимость, но это может быстро стать слишком сложным для выполнения в реальном времени на мобильном устройстве.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Задача состоит в том, чтобы получить регулировку коэффициента усиления при декодировании аудио, которое было закодировано с раздельными представлениями коэффициента усиления и вектора формы.

Эта задача решается в соответствии с приложенной формулой изобретения.

Первый аспект включает в себя способ регулировки коэффициента усиления, который включает в себя следующие этапы:

- Оценивается показатель точности представления вектора формы.

- Определяется коррекция коэффициента усиления на основе оценочного показателя точности.

- Представление коэффициента усиления регулируется на основе определенной коррекции коэффициента усиления.

Второй аспект включает в себя устройство регулировки коэффициента усиления, которое включает в себя:

- Измеритель точности, выполненный с возможностью оценивать показатель точности представления вектора формы и определять коррекцию коэффициента усиления на основе оценочного показателя точности.

- Регулятор огибающей, выполненный с возможностью регулировать представление коэффициента усиления на основе определенной коррекции коэффициента усиления.

Третий аспект включает в себя декодер, включающий в себя устройство регулировки коэффициента усиления в соответствии со вторым аспектом.

Четвертый аспект включает в себя сетевой узел, включающий в себя декодер в соответствии с третьим аспектом.

Предложенная схема коррекции коэффициента усиления улучшает воспринимаемое качество системы кодирования аудио на основе коэффициента усиления и вектора формы. Схема имеет низкую вычислительную сложность и требует небольшого количества дополнительных битов или не требует вообще.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Настоящая технология вместе со своими дополнительными задачами и преимуществами лучше всего может быть понята посредством ссылки на последующее описание, рассмотренное вместе с сопроводительными чертежами.

Фиг. 1 иллюстрирует примерную схему векторного квантования на основе коэффициента усиления и вектора формы;

Фиг. 2 иллюстрирует примерную схему кодирования и декодирования на основе области преобразования;

Фиг. 3A-C иллюстрируют векторное квантование на основе коэффициента усиления и вектора формы в упрощенном случае;

Фиг. 4 иллюстрирует примерный декодер области преобразования с использованием показателя точности для определения коррекции огибающей;

Фиг. 5A-B иллюстрируют примерный результат масштабирования синтеза с коэффициентами усиления, когда вектор формы является разреженным импульсным вектором;

Фиг. 6A-B иллюстрирует, как наибольшая высота импульса может указать точность вектора формы;

Фиг. 7 иллюстрирует пример основанной на скорости функции затухания для варианта осуществления 1;

Фиг. 8 иллюстрирует пример зависящей от скорости и максимальной высоты импульса функции регулировки коэффициента усиления для варианта осуществления 1;

Фиг. 9 иллюстрирует другой пример зависящей от скорости и максимальной высоты импульса функции регулировки коэффициента усиления для варианта осуществления 1;

Фиг. 10 иллюстрирует вариант осуществления настоящей технологии в контексте основанной на преобразовании MDCT системы кодера и декодера аудио;

Фиг. 11 иллюстрирует пример функции отображения показателя стабильности на коэффициент ограничения регулировки коэффициента усиления;

Фиг. 12 иллюстрирует пример системы кодера и декодера с модуляцией ADPCM с адаптивным размером шага;

Фиг. 13 иллюстрирует пример в контексте системы кодера и декодера аудио на основе модуляции ADPCM подполос;

Фиг. 14 иллюстрирует вариант осуществления настоящей технологии в контексте системы кодера и декодера аудио на основе модуляции ADPCM подполос;

Фиг. 15 иллюстрирует примерный кодер на основе области преобразования, включающий в себя классификатор сигналов;

Фиг. 16 иллюстрирует другой примерный декодер на основе области преобразования, использующий показатель точности для определения коррекции огибающей;

Фиг. 17 иллюстрирует вариант осуществления устройства регулировки коэффициента усиления в соответствии с настоящей технологией;

Фиг. 18 иллюстрирует вариант осуществления регулировки коэффициента усиления в соответствии с настоящей технологией более подробно;

Фиг. 19 - блок-схема последовательности операций, иллюстрирующая способ в соответствии с настоящей технологией;

Фиг. 20 - блок-схема последовательности операций, иллюстрирующая вариант осуществления способа в соответствии с настоящей технологией; и

Фиг. 21 иллюстрирует вариант осуществления сети в соответствии с настоящей технологией.

ПОДРОБНОЕ ОПИСАНИЕ

В последующем описании одинаковые условные обозначения будут использоваться для элементов, выполняющих одинаковые или подобные функции.

Прежде чем настоящая технология будет подробно описана, будет проиллюстрировано кодирование на основе коэффициента усиления и вектора формы («gain-shape») со ссылкой на фиг. 1-3.

Фиг. 1 иллюстрирует примерную схему векторного квантования на основе коэффициента усиления и вектора формы. Верхняя часть фигуры иллюстрирует сторону кодера. Входной вектор x направляется в блок 10 вычисления нормы, который определяет норму вектора (коэффициент усиления) g, обычно эвклидову норму. Эта точная норма квантуется в квантователе 12 нормы, и обратная величина 1/ g ^ квантованной нормы g ^ направляется в умножитель 14 для масштабирования входного вектора x в вектор формы. Вектор формы квантуется в квантователе 16 вектора формы. Представления квантованного коэффициента усиления и вектора формы направляются в мультиплексор 18 битового потока. Эти представления проиллюстрированы пунктирными линиями, чтобы указать, что они могут, например, представлять индексы в таблицах (кодовых книгах), а не фактические квантованные значения.

Нижняя часть фиг. 1 иллюстрирует сторону декодера. Демультиплексор 20 битового потока принимает представления коэффициента усиления и вектора формы. Представление вектора формы направляется в деквантователь 22 вектора формы, и представление коэффициента усиления направляется в деквантователь 24 коэффициента усиления. Полученный коэффициент усиления g ^ направляется в умножитель 26, где он масштабирует полученный вектор формы, что дает воссозданный вектор x ^ .

Фиг. 2 иллюстрирует примерную схему кодирования и декодирования на основе области преобразования. Верхняя часть фигуры иллюстрирует сторону кодера. Входной сигнал направляется в частотный преобразователь 30, например, основанный на модифицированном дискретном косинусном преобразовании (MDCT), для получения частотного преобразования X. Частотное преобразование X направляется в блок 32 вычисления огибающей, который определяет энергию E(b) каждой частотной полосы b. Эти энергии квантуются в энергии К(b) в квантователе 34 огибающей. Квантованные энергии К(b) направляются в блок 36 нормализации огибающей, который масштабирует коэффициенты частотной полосы b преобразования X с помощью обратной величины соответствующей квантованной энергии К(b) огибающей. Полученные масштабированные векторы формы направляются в квантователь 38 тонкой структуры. Квантованные энергии К(b) также направляются в блок 40 выделения битов, который выделяет биты для квантования тонкой структуры каждой частотной полосе b. Как отмечено выше, выделение битов R(b) может быть основано на модели слуховой системы человека. Представления квантованных коэффициентов усиления К(b), и соответствующие квантованные векторы формы направляются в мультиплексор 18 битового потока.

Нижняя часть фиг. 2 иллюстрирует сторону декодера. Демультиплексор 20 битового потока принимает представления коэффициента усиления и вектора формы. Представления коэффициента усиления направляются в деквантователь 42 огибающей. Сформированные энергии огибающей К(b) направляются в блок 44 выделения битов, который определяет выделение битов R(b) принятых векторов формы. Представления векторов формы направляются в деквантователь 46 тонкой структуры, который управляется посредством выделения R(b) битов. Декодированные векторы формы направляются в блок 48 формирования огибающей, который масштабирует их с помощью соответствующих энергий огибающей К(b) для формирования воссозданного частотного преобразования. Это преобразование направляется в обратный частотный преобразователь 50, например, основанный на обратном модифицированном дискретном косинусном преобразовании (IMDCT), который производит выходной сигнал, представляющий синтезированное аудио.

Фиг. 3A-C иллюстрируют описанное выше векторное квантование по схеме коэффициента усиления и вектора формы в упрощенном случае, когда частотная полоса b представлена двухмерным вектором X(b) на фиг. 3A. Этот случай является достаточно простым для иллюстрации на чертеже, но также и достаточно общим, чтобы проиллюстрировать проблему с квантованием по схеме коэффициента усиления и вектора формы (на практике векторы обычно имеют 8 или больше размерностей). Правая сторона фиг. 3A иллюстрирует точное представление по схеме коэффициента усиления и вектора формы вектора X(b) с коэффициентом усиления E(b) и вектором формы (вектором единичной длины) N'(b).

Однако, как проиллюстрировано на фиг. 3B, точный коэффициент усиления E(b) кодируется в квантованный коэффициент усиления К(b) на стороне кодера. Поскольку обратная величина квантованного усиления К(b) используется для масштабирования вектора X(b), получающийся в результате масштабированный вектор N(b) будет указывать в верном направлении, но не обязательно будет единичной длины. Во время квантования вектора формы масштабированный вектор N(b) квантуется в квантованный вектор формы N ^ (b). В этом случае квантование основано на схеме импульсного кодирования [3], которая создает вектор формы (или направление) из суммы целочисленных импульсов со знаком. Импульсы могут быть добавлены друг к другу для каждой размерности. Это означает, что разрешенные позиции квантования вектора формы представлены большими точками в прямоугольных решетках, проиллюстрированных на фиг. 3B-C. Результат состоит в том, что квантованный вектор формы N ^ (b) в общем случае не будет совпадать с вектором формы (направлением) N(b) (и N'(b)).

Фиг. 3C иллюстрирует, что точность квантования вектора формы зависит от выделенных битов R(b) или, эквивалентно, от общего количества импульсов, доступных для квантования вектора формы. В левой части фиг. 3C квантование вектора формы основано на 8 импульсах, тогда как квантование вектора формы в правой части использует только 3 импульса (пример на фиг. 3B использует 4 импульса).

Таким образом, понятно, что в зависимости от точности квантователя вектора формы значение К(b) коэффициента усиления, используемое для воссоздания вектора X(b) на стороне декодера, может быть более или менее соответствующим. В соответствии с настоящей технологией коррекция коэффициента усиления может быть основана на показателе точности квантованного вектора формы.

Показатель точности, используемый для коррекции коэффициента усиления, может быть получен из параметров, уже доступных в декодере, но он также может зависеть от дополнительных параметров, назначенных для показателя точности. Как правило, параметры могут включать в себя количество выделенных битов для вектора формы и сам вектор формы, но они также могут включать в себя значение коэффициента усиления, соответствующее вектору формы, и предварительно сохраненную статистику о сигналах, которые типичны для системы декодирования и кодирования. Краткий обзор системы, включающей в себя показатель точности и коррекцию или регулировку коэффициента усиления, показан на фиг. 4.

Фиг. 4 иллюстрирует примерный декодер 300 области преобразования, использующий показатель точности для определения коррекции огибающей. Во избежание нагромождений на чертеже проиллюстрирована только сторона декодера. Сторона кодера может быть реализована, как показано на фиг. 2. Новая функциональная возможность состоит в устройстве 60 регулировки коэффициента усиления. Устройство 60 регулировки коэффициента усиления включает в себя измеритель 62 точности, выполненный с возможностью оценивать показатель точности A(b) представления вектора формы N ^ (b) и определять коррекцию коэффициента усиления gc(b) на основе предполагаемого показателя точности A(b). Оно также включает в себя регулятор 64 огибающей, выполненный с возможностью регулировать представление коэффициента усиления К(b) на основе определенной коррекции коэффициента усиления.

Как указано выше, коррекция коэффициента усиления в некоторых вариантах осуществления может выполняться без затрат дополнительных битов. Это делается посредством оценки коррекции коэффициента усиления из параметров, уже доступных в декодере. Этот процесс может быть описан как оценка точности закодированного вектора формы. Обычно эта оценка включает в себя получение показателя точности A(b) из характеристик квантования вектора формы, указывающих разрешение квантования вектора формы.

Вариант осуществления 1

В одном варианте осуществления настоящая технология используется в системе кодера/декодера аудио. Система основана на преобразовании, и используемое преобразование является модифицированным дискретным косинусным преобразованием (MDCT), использующим синусоидальные окна с 50%-ным перекрытием. Однако следует понимать, что любое преобразование, подходящее для кодирования с преобразованием, может использоваться вместе с соответствующей сегментацией и окнами.

Кодер варианта осуществления 1

Входное аудио извлекается в кадры с использованием 50%-ного перекрытия с помощью симметричного синусоидального окна. Каждый взятый в окно кадр затем преобразовывается в спектр X преобразования MDCT. Спектр разделяется на подполосы для обработки, причем ширина подполос неоднородна. Спектральные коэффициенты кадра m, принадлежащего полосе b, обозначается как X(b, m) и имеют полосу пропускания BW(b). Поскольку большинство этапов кодера и декодера может быть описано в пределах одного кадра, мы опускаем индекс кадра и используем нотацию только X(b). Полоса пропускания должна предпочтительно увеличиться с увеличением частоты, чтобы соответствовать частотному разрешению слуховой системы человека. Среднеквадратичное значение (RMS) каждой полосы используется в качестве коэффициента нормализации и обозначается E(b):

где X(b)T обозначает транспонирование X(b).

Среднеквадратичное значение может рассматриваться как значение энергии на коэффициент. Последовательность коэффициентов нормализации E(b) для b=1, 2,..., Nbands формирует огибающую спектра MDCT, где Nbands обозначает количество полос. Далее последовательность квантуется для передачи декодеру. Чтобы гарантировать, что нормализация может быть инвертирована в декодере, получается квантованная огибающая К(b). В этом примерном варианте осуществления коэффициенты огибающей являются скаляром, квантованным в логарифмической области с использованием размера шага 3 дБ, и индексы квантователя дифференцированно кодируются с использованием кодирования Хаффмана. Квантованная огибающая используется для нормализации спектральных полос, то есть:

Следует отметить, что если бы для нормализации использовалась не квантованная огибающая E(b), вектор формы имел бы среднеквадратичное значение 1, то есть:

Посредством использования квантованной огибающей К(b) вектор формы будет иметь среднеквадратичное значение, близкое к 1. Эта возможность будет использована в декодере для создания приближения значения коэффициента усиления.

Объединение нормализованных векторов формы N(b) формирует тонкую структуру спектра MDCT. Квантованная огибающая используется для получения выделения битов R(b) для кодирования нормализованных векторов формы N(b). Алгоритм выделения битов предпочтительно использует слуховую модель для выделения битов для наиболее важных для восприятия частей. Любая схема квантователя может использоваться для кодирования вектора формы. Общим для всех схем является то, что они могут быть разработаны в предположении, что ввод нормализован, и это упрощает конфигурацию квантователя. В этом варианте осуществления квантование вектора формы делается с использованием схемы импульсного кодирования, которая создает синтезированный вектор формы из суммы целочисленных импульсов со знаком [3]. Импульсы могут быть добавлены друг к другу для формирования импульсов разной высоты. В этом варианте осуществления выделение битов R(b) обозначает количество импульсов, присвоенных полосе b.

Индексы квантователя из квантования огибающей и квантования вектора формы мультиплексируются в битовый поток, который будет сохранен или передан декодеру.

Декодер варианта осуществления 1

Декодер демультиплексирует индексы из битового потока и передает соответствующие индексы каждому модулю декодирования. Сначала получается квантованная огибающая К(b). Затем из квантованной огибающей выводится выделение битов тонкой структуры с использованием выделения битов, идентичного использованному в кодере. Векторы формы N ^ (b) тонкой структуры декодируются с использованием индексов и полученного выделения битов R(b).

Теперь перед масштабированием декодированной тонкой структуры с помощью огибающей определяются дополнительные коэффициенты коррекции усиления. Сначала получаются среднеквадратичные значения, соответствующие коэффициентам усиления:

Коэффициент gRMS(b) являются масштабным коэффициентом, который нормализует среднеквадратичное значение в 1, то есть:

В этом варианте осуществления мы стремимся минимизировать среднеквадратичную ошибку (MSE) синтеза:

с помощью решения

Поскольку gMSE(b) зависит от входного вектора формы N(b), он не известен в декодере. В этом варианте осуществления оценивается воздействие с использованием показателя точности. Отношение этих коэффициентов усиления определяется как коэффициент коррекции усиления gc(b):

Когда точность квантования вектора формы является хорошей, коэффициент коррекции близок к 1, то есть:

Однако, когда точность N ^ (b) является низкой, gMSE(b), и gRMS(b) будут отклоняться. В этом варианте осуществления, когда вектор формы кодируется с использованием импульсной схемы кодирования, низкая скорость сделает вектор формы разреженным, и gRMS даст завышенную оценку соответствующего коэффициента усиления с точки зрения MSE. Для этого случая gc(b) должен быть ниже 1, чтобы компенсировать выброс. На фиг. 5A-B приведена иллюстрация случая вектора формы импульса с низкой скоростью. Фиг. 5A-B иллюстрирует пример масштабирования синтеза с помощью коэффициентов усиления gMSE (фиг. 5B) и gRMS (фиг. 5A), когда вектор формы является разреженным импульсным вектором. Масштабирование с помощью gRMS дает импульсы, которые слишком высоки в смысле MSE.

С другой стороны, остроконечный или разреженный целевой сигнал может быть хорошо представлен с помощью импульсного вектора формы. Хотя разреженность входного сигнала может не быть известна на стадии синтеза, разреженность формы синтеза может служить индикатором точности синтезированного вектора формы. Одним способом измерить разреженность формы синтеза является высота максимального пика в векторе формы. Смысл этого состоит в том, что разреженный входной сигнал более вероятно формирует высокие пики в векторе формы синтеза. На фиг. 6A-B приведена иллюстрация того, как пиковая высота может указать точность двух импульсных векторов с равной скоростью. На фиг. 6A имеется 5 доступных импульсов (R(b)=5) для представления изображенной пунктиром формы. Поскольку форма является довольно постоянной, кодирование сформировало 5 выделенных импульсов равной высоты 1, то есть pmax=1. На фиг. 6B также имеется 5 доступных импульсов для представления изображенной пунктиром формы. Однако в этом случае форма является остроконечной или разреженной, и самый большой пик представлен тремя импульсами друг на друге, то есть pmax=3. Это указывает, что коррекция коэффициента усиления gc(b) зависит от оцененной разреженности pmax квантованного вектора формы.

Как отмечено выше, входной вектор формы N(b) не известен декодеру. Поскольку gMSE (b) зависит от входного вектора формы N(b), это означает, что коррекция или компенсация коэффициента усиления gc(b) на практике не может основываться на идеальном уравнении (8). В этом варианте осуществления коррекция коэффициента усиления gc(b) вместо этого основывается на битовой скорости с точки зрения количества импульсов R(b), высоте самого большого импульса в векторе формы pmax(b) и частотной полосе, то есть:

Было замечено, что более низкие скорости обычно требуют затухания коэффициента усиления для минимизации MSE. Зависимость от скорости может быть реализована как поисковая таблица t(R(b)), которая обучается на соответствующих данных аудиосигнала. Примерная поисковая таблица может быть видна на фиг. 7. Поскольку векторы формы в этом варианте осуществления имеют разные ширины, скорость предпочтительно может быть выражена как количество импульсов на отсчет. Таким образом, для всех полос пропускания может использоваться одно и то же зависимое от скорости затухание. Альтернативное решение, которое используется в этом варианте осуществления, состоит в том, чтобы использовать размер шага T в таблице в зависимости от ширины полосы. Здесь мы используем 4 разных полосы пропускания в 4 разных группах и, следовательно, требуем 4 размера шага. Пример размеров шагов находится в таблице 1. С использованием размера шага значение поиска получается посредством использования операции округления t(⌊R (b) · T ⌋]), где ⌊ ⌋ представляет округление до ближайшего целого числа.

Таблица 1
Группа полос Ширина полосы Размер шага T
1 8 4
2 16 4/3
3 24 2
4 34 1

Другая примерная поисковая таблица дана в таблице 2.

Таблица 2
Группа полос Ширина полосы Размер шага T
1 8 4
2 16 4/3
3 24 2
4 32 1

Оцененная разреженность может быть реализована как другая поисковая таблица u(R(b), pmax(b)), основанная и на количестве импульсов R(b), и на высоте максимального импульса pmax(b). Примерная поисковая таблица показана на фиг. 8. Поисковая таблица u служит показателем точности A(b) для полосы b, то есть:

Было отмечено, что приближение gMSE было более подходящим для нижнего частотного диапазона с точки зрения восприятия. Для более высоких частот тонкая структура становится менее важной для восприятия, и соответствие энергии или значение RMS становится жизненно важным. Поэтому затухание коэффициента усиления может быть применено только ниже некоторого номера полосы bTHR. В этом случае коррекция коэффициента усиления gc(b) будет иметь явную зависимость от частотной полосы b. Получающаяся в результате функция коррекции коэффициента усиления может в этом случае быть определена как:

Описание до этого момента также может использоваться для описания существенных особенностей примерного варианта осуществления на фиг. 4. Таким образом, в варианте осуществления на фиг. 4 заключительный синтез X ^ (b) вычисляется как:

В качестве альтернативы функция u(R(b), pmax(b)) может быть реализована как линейная функция максимальной импульсной высоты pmax и выделенной битовой скорости R(b), например как:

где наклон k определяется посредством:

Функция зависит от параметра настройки amin, который дает начальный коэффициент затухания для R(b)=1 и pmax(b) =1. Функция проиллюстрирована на фиг. 9 с параметром настройки amin=0,41. Обычно umaxε[0,7, 1,4] и uminε[0, umax]. В уравнении (14) u является линейной в различии между pmax(b) и R(b). Другая возможность состоит в том, чтобы иметь разные коэффициенты наклона для pmax(b) и R(b).

Битовая скорость для данной полосы может существенно измениться для данной полосы между смежными кадрами. Это может привести к быстрым изменениям коррекции коэффициента усиления. Такие изменения являются особенно критическими, когда огибающая довольно стабильная, то есть общие изменения между кадрами являются довольно небольшими. Это часто происходит для музыкальных сигналов, которые обычно имеют более стабильные энергетические огибающие. Во избежание того, чтобы затухание коэффициента усиления вносило нестабильность, может быть добавлена дополнительная адаптация. Краткий обзор такого варианта осуществления дан на фиг. 10, на которой измеритель 66 стабильности добавлен к устройству 60 регулировки коэффициента усиления в декодере 300.

Адаптация может быть основана, например, на показателе стабильности огибающей К(b). Пример такого показателя должен вычислять квадрат эвклидова расстояния между смежными векторами огибающей log2:

Здесь ΔE(m) обозначает квадрат эвклидова расстояния между векторами огибающей для кадра m и кадра m-1. показатель стабильности также может быть подвергнут низкочастотной фильтрации для более гладкой адаптации:

Подходящим значением для коэффициента α может быть 0,1. Сглаженный показатель стабильности может затем использоваться для создания ограничения использования затухания, например, сигмоидальная функция, такая как:

где параметры могут быть установлены как C1=6, C2=2 и C3=1,9. Следует отметить, что эти параметры должны рассматриваться как примеры, в то время как фактические значения могут быть выбраны с большей свободой. Например:

C1 ε[1, 10]

C2 ε[1, 4]

C3 ε[-5, 10]

Фиг. 11 иллюстрирует пример функции отображения показателя стабильности ΔẼ(m) на коэффициент ограничения регулировки усиления gmin. Приведенное выше выражение для gmin предпочтительно реализовано как поисковая таблица или с помощью простой ступенчатой функции, такой как:

Переменная ограничения затухания gmin ε[0, 1] может использоваться для создания адаптированной по стабильности модификации коэффициента усиления g ^ c (b) как:

После оценки коэффициента усиления заключительный синтез X ^ (b) вычисляется как:

В описанных изменениях варианта осуществления 1 объединение синтезированных векторов X ^ (b) формирует синтезированный спектр X ^ , который далее обрабатывается с использованием обратного преобразования MDCT с симметричным синусоидальным окном и добавляется к выходному синтезу с использованием стратегии перекрывания и добавления.

Вариант осуществления 2

В другом примерном варианте осуществления вектор формы квантуется с использованием набора квадратурных зеркальных фильтров (QMF) и схемы адаптивной