2643646 - Кодер для кодирования аудиосигнала, система передачи аудио и способ определения значений коррекции

Кодер для кодирования аудиосигнала, система передачи аудио и способ определения значений коррекции

Иллюстрации

Показать все

Изобретение относится к области кодирования и передачи аудиосигналов. Технический результат заключается в повышении точности кодирования аудиосигнала. Технический результат достигается за счет вычисления первого множества (IHM) первых весовых коэффициентов для каждого аудиосигнала набора аудиосигналов и на основе первого правила определения, вычисления второго множества вторых весовых коэффициентов для каждого аудиосигнала набора аудиосигналов на основе второго правила определения, причем каждый из второго множества весовых коэффициентов связан с первым весовым коэффициентом, вычисления третьего множества значений (d_i) расстояния, причем каждое значение (d_i) расстояния имеет значение, связанное с расстоянием между первым весовым коэффициентом и вторым весовым коэффициентом (142”), связанным с частью аудиосигнала (102), и вычисления четвертого множества значений коррекции, адаптированных для уменьшения значений (d_i) расстояния при объединении с первыми весовыми коэффициентами. 6 н. и 9 з.п. ф-лы, 11 ил.

Реферат

Настоящее изобретение относится к кодеру для кодирования аудио сигнала, системе передачи аудио, способу определения значений коррекции и компьютерной программе. Кроме того, изобретение относится к взвешиванию частот спектральных иммитансов/частот спектральных линий.

В современных кодеках речи и аудио, согласно уровню техники, осуществляется извлечение огибающей спектра речевого или аудиосигнала путем линейного предсказания и последующее квантование и кодирование преобразования коэффициентов линейного предсказания (LPC). Такими преобразованиями являются, например, частоты спектральных линий (LSF) или частоты спектральных иммитансов (ISF).

Векторное квантование (VQ), как правило, предпочтительнее скалярного квантования для квантования LPC ввиду повышения производительности. Однако было установлено, что оптимальное кодирование LPC показывает различную скалярную чувствительность для каждой частоты вектора LSF или ISF. Как прямое следствие, использование классического евклидова расстояния в качестве метрики в шаге квантования приведет к неоптимальной системе. Это можно объяснить тем фактом, что производительность квантования LPC обычно измеряется расстоянием, подобным логарифмическому спектральному расстоянию (LSD) или взвешенному логарифмическому спектральному расстоянию (WLSD), которые не имеют прямой пропорциональной зависимости от евклидова расстояния.

LSD определяется как логарифм евклидова расстояния спектральных огибающих исходных коэффициентов LPC и их квантованной версии. WLSD представляет собой взвешенную версию, которая учитывает, что низкие частоты являются перцептивно более релевантными, чем высокие частоты.

Как LSD, так и WLSD слишком сложны, чтобы вычисляться в рамках схемы квантования LPC. Поэтому большинство схем кодирования LPC используют либо простое евклидово расстояние, либо его взвешенную версию (WED), определяемую как

где lsfi является параметром, подлежащим квантованию, и qlsfi является квантованным параметром, w являются весами, придающими больше искажения для некоторых коэффициентов и меньше для других.

В Laroia et al. [1] представлен эвристический подход, известный как метод инверсного гармонического среднего для вычисления весовых коэффициентов, которые придают большую важность LSF, близким к областям формант. Если два параметра LSF близки друг к другу спектр сигнала, как ожидается, будет содержать пик вблизи этой частоты. Следовательно, LSF, которая близка к одной из своих соседей, имеет высокую скалярную чувствительность, и ей должен быть присвоен более высокий вес

Первый и последний весовые коэффициенты вычисляются с помощью этих псевдо-LSF:

lsf0=0 и lsfр+1=π, где р - порядок модели LP. Порядок, как правило, 10 для речевого сигнала, дискретизированного с частотой 8 кГц, и 16 для речевого сигнала, дискретизированного с частотой 16 кГц.

Gardner и Rao [2] вывели индивидуальную скалярную чувствительность для LSF из приближения высокой скорости (например, при использовании VQ с 30 или более бит). В таком случае полученные веса являются оптимальными и минимизируют LSD. Скалярные веса образуют диагональ так называемой матрицы чувствительности, задаваемой посредством

где RА является автокорреляционной матрицей импульсного отклика фильтра синтеза 1/А(z), полученного из исходных предиктивных коэффициентов анализа LPC. Jω(ω) является якобианом, преобразующим LSF в коэффициенты LPC.

Основным недостатком этого решения является сложность вычислений для вычисления матрицы чувствительности.

ITU-рекомендация G.718 [3] расширяет подход Гарднера путем добавки некоторых психоакустических факторов. Вместо рассмотрения матрицы RА, рассматривается импульсный отклик перцепционно взвешенного фильтра синтеза W(Z)

где WB(z) является фильтром IIR, аппроксимирующим взвешивающий фильтр Барка, придающим большую важность низким частотам. Матрица чувствительности затем вычисляется путем замены 1/А(z) на W(z).

Хотя взвешивание, используемое в G.718, теоретически является почти оптимальным подходом, оно наследует от подхода Гарднера очень высокую сложность. Современные аудиокодеки стандартизированы с ограничением в сложности и, следовательно, компромисс между сложностью и выигрышем в перцепционном качестве не удовлетворяется при этом подходе.

Подход, представленный Laroia et al., может давать субоптимальные веса, но он имеет низкую сложность. Веса, генерируемые при таком подходе, рассматривают весь частотный диапазон в равной степени, хотя чувствительность человеческого уха является весьма нелинейной. Искажение на более низких частотах является намного более слышимым, чем искажение на более высоких частотах.

Таким образом, существует необходимость в усовершенствовании схем кодирования.

Задачей настоящего изобретения является создание схем кодирования, которые допускают вычислительную сложность алгоритмов и/или обеспечивают их повышенную точности при поддержании хорошего качества аудио при декодировании кодированного аудиосигнала.

Эта задача решается кодером согласно пункту 1 формулы изобретения, системой передачи аудио согласно пункту 10, способом согласно пункту 11 и компьютерной программой согласно пункту 15.

Авторы настоящего изобретения обнаружили, что путем определения спектральных весовых коэффициентов с использованием способа, имеющего низкую вычислительную сложность, и посредством по меньшей мере частичной коррекции полученных спектральных весовых коэффициентов с использованием предварительно вычисленной информации коррекции, полученные скорректированные спектральные весовые коэффициенты могут обеспечить возможность кодирования и декодирования аудиосигнала с низкими вычислительными затратами при поддержании точности кодирования и/или уменьшения сниженных расстояний спектральных линий (LSD).

В соответствии с вариантом осуществления настоящего изобретения, кодер для кодирования аудиосигнала содержит анализатор для анализа аудиосигнала и для определения коэффициентов предсказания анализа из аудиосигнала. Кодер дополнительно содержит преобразователь, сконфигурированный для получения преобразованных коэффициентов предсказания из коэффициентов предсказания анализа, и память, сконфигурированную для хранения множества значений коррекции. Кодер дополнительно содержит вычислитель и формирователь битового потока. Вычислитель содержит процессор, объединитель и квантователь, причем процессор сконфигурирован для обработки преобразованных коэффициентов предсказания для получения спектральных весовых коэффициентов. Объединитель сконфигурирован для объединения спектральных весовых коэффициентов и множества значений коррекции для получения скорректированных весовых коэффициентов. Квантователь сконфигурирован для квантования преобразованных коэффициентов предсказания с использованием скорректированных весовых коэффициентов для получения квантованного представления преобразованных коэффициентов предсказания, например, значения, связанного с записью коэффициентов предсказания в базе данных. Формирователь битового потока сконфигурирован для формирования выходного сигнала на основе информации, связанной с квантованным представлением преобразованных коэффициентов предсказания, и на основе аудиосигнала. Преимуществом этого варианта осуществления является то, что процессор может получать спектральные весовые коэффициенты с использованием методов и/или концепций, имеющих низкую вычислительную сложность. Возможно, полученная погрешность относительно других концепций или способов может быть скорректирована по меньшей мере частично путем применения множества значений коррекции. Это обеспечивает сниженную вычислительную сложность получения весов по сравнению с правилом определения на основе [3] и сниженные LSD по сравнению с правилом определения в соответствии с [1].

Другие варианты осуществления обеспечивают кодер, в котором объединитель сконфигурирован для объединения спектральных весовых коэффициентов, множества значений коррекции и дополнительной информации, связанной с входным сигналом, чтобы получать скорректированные весовые коэффициенты. Путем использования дополнительной информации, связанной с входным сигналом, может быть достигнуто дальнейшее улучшение полученных скорректированных весовых коэффициентов при сохранении низкой вычислительной сложности, в частности, когда дополнительная информация, связанная с входным сигналом, по меньшей мере, частично получена в ходе других этапов кодирования, так что дополнительная информация может повторно использоваться.

Другие варианты осуществления обеспечивают кодер, в котором объединитель сконфигурирован для циклического, в каждом цикле, получения скорректированных весовых коэффициентов. Вычислитель содержит сглаживатель, сконфигурированный для взвешенного объединения первых квантованных весовых коэффициентов, полученных для предыдущего цикла, и вторых квантованных весовых коэффициентов, полученных для цикла, следующего за предыдущим циклом, чтобы получить сглаженные скорректированные весовые коэффициенты, содержащие значение между значениями первых и вторых квантованных весовых коэффициентов. Это позволяет уменьшить или предотвратить переходные искажения, особенно в случае, когда скорректированные весовые коэффициенты двух последовательных циклов определены таким образом, что они имеют большое различие, когда сравниваются друг с другом.

Другие варианты осуществления обеспечивают систему передачи аудио, содержащую кодер и декодер, сконфигурированный для приема выходного сигнала кодера или сигнала, полученного из него, и для декодирования принятого сигнала, чтобы обеспечить синтезированный аудиосигнал, при этом выходной сигнал кодера передается через среду передачи, такую как проводная или беспроводная среда. Преимуществом системы передачи аудио является то, что декодер может декодировать выходной сигнал, соответственно аудиосигнал, на основе неизмененных способов.

Другие варианты осуществления обеспечивают способ для определения значений коррекции для первого множества первых весовых коэффициентов. Каждый весовой коэффициент адаптирован для взвешивания части аудиосигнала, например, представленного как частота спектральной линии или частота спектрального иммитанса. Первое множество первых весовых коэффициентов определяется на основе первого правила определения для каждого аудиосигнала. Второе множество вторых весовых коэффициентов вычисляется для каждого аудиосигнала из набора аудиосигналов на основе второго правила определения. Каждый из второго множества весовых коэффициентов связан с первым весовым коэффициентом, т.е. весовой коэффициент может быть определен для части аудиосигнала на основе первого правила определения и на основе второго правила определения для получения двух результатов, которые могут быть различными. Вычисляется третье множество значений расстояния, причем значения расстояния имеют значение, связанное с расстоянием между первым весовым коэффициентом и вторым весовым коэффициентом, оба из которых относятся к части аудиосигнала. Вычисляется четвертое множество значений коррекции, адаптированное для уменьшения значений расстояния при объединении с первыми весовыми коэффициентами, так что когда первые весовые коэффициенты объединяются с четвертым множеством значений коррекции, расстояние между скорректированными первыми весовыми коэффициентами уменьшается по сравнению с вторыми весовыми коэффициентами. Это обеспечивает возможность вычисления весовых коэффициентов на основании обучающего набора данных один раз на основе второго правила определения, имеющего высокую вычислительную сложность и/или высокую точность, а другой раз на основе первого правила определения, которое может иметь более низкую вычислительную сложность и может быть меньшей точности, причем пониженная точность компенсируется или сокращается по меньшей мере частично посредством коррекции.

Другие варианты осуществления обеспечивают способ, в котором расстояние уменьшается путем адаптации полинома, причем коэффициенты полинома связаны со значениями коррекции. Другие варианты осуществления обеспечивают компьютерную программу.

Предпочтительные варианты осуществления настоящего изобретения будут описаны подробно со ссылкой на приложенные чертежи, на которых:

Фиг.1 показывает блок-схему кодера для кодирования аудиосигнала в соответствии с вариантом осуществления;

Фиг. 2 показывает блок-схему вычислителя в соответствии с вариантом осуществления, в котором вычислитель модифицирован по сравнению с вычислителем, показанным на фиг. 1;

Фиг. 3 показывает блок-схему кодера, дополнительно содержащего спектральный анализатор и спектральный процессор в соответствии с вариантом осуществления;

Фиг. 4а иллюстрирует вектор, содержащий 16 значений частот спектральных линий, которые получены преобразователем на основе определенных коэффициентов предсказания согласно варианту осуществления;

Фиг. 4b иллюстрирует правило определения, выполняемое объединителем, согласно варианту осуществления;

Фиг. 4с показывает примерное правило определения для иллюстрации этапа получения скорректированных весовых коэффициентов согласно варианту осуществления;

Фиг. 5а изображает примерную схему определения, которая может быть реализована посредством квантователя для определения квантованного представления преобразованных коэффициентов предсказания согласно варианту осуществления;

Фиг. 5b показывает примерный вектор значений квантования, которые могут быть объединены в их наборы, согласно варианту осуществления;

Фиг. 6 показывает блок-схему системы передачи аудио согласно варианту осуществления;

Фиг. 7 иллюстрирует вариант осуществления для получения значений коррекции; и

Фиг. 8 показывает блок-схему последовательности операций способа кодирования аудиосигнала согласно варианту осуществления.

Одинаковые или эквивалентные элементы или элементы с одинаковой или эквивалентной функциональностью, обозначены в нижеследующем описании одинаковыми или эквивалентными ссылочными позициями, даже если они имеются на различных фигурах.

В последующем описании множество деталей изложено для обеспечения более полного объяснения вариантов осуществления настоящего изобретения. Однако специалистам в данной области техники должно быть понятно, что варианты осуществления настоящего изобретения могут быть осуществлены без этих конкретных деталей. В других случаях, хорошо известные структуры и устройства показаны в виде блок-схемы, а не в деталях, чтобы избежать затенения вариантов осуществления настоящего изобретения. Кроме того, признаки различных вариантов осуществления, описанных ниже, могут быть объединены друг с другом, если специально не оговорено иное.

На фиг.1 показана блок-схема кодера 100 для кодирования аудиосигнала. Аудиосигнал может быть получен кодером 100 как последовательность кадров 102 аудиосигнала. Кодер 100 содержит анализатор для анализа кадра 102 и для определения коэффициентов 112 предсказания анализа из аудиосигнала 102. Коэффициенты 112 предсказания анализа (коэффициенты предсказания) могут быть получены, например, как коэффициенты линейного предсказания (LPC). В качестве альтернативы, также могут быть получены коэффициенты нелинейного предсказания, причем коэффициенты линейного предсказания могут быть получены с использованием меньшей вычислительной мощности и, следовательно, могут быть получены быстрее.

Кодер 100 содержит преобразователь 120, сконфигурированный для получения преобразованных коэффициентов 122 предсказания из коэффициентов 112 предсказания. Преобразователь 120 может быть сконфигурирован для определения преобразованных коэффициентов 122 предсказания, например, частот спектральных линий (LSF) и/или частот спектральных иммитансов (ISF). Преобразованные коэффициенты 122 предсказания могут иметь более высокую устойчивость по отношению к погрешностям квантования в последующем квантовании по сравнению с коэффициентами 112 предсказания. Поскольку квантование обычно выполняется нелинейно, квантование коэффициентов линейного предсказания может привести к искажениям декодированного аудиосигнала.

Кодер 100 содержит вычислитель 130. Вычислитель 130 содержит процессор 140, который сконфигурирован для обработки преобразованных коэффициентов 122 предсказания для получения спектральных весовых коэффициентов 142. Процессор может быть сконфигурирован для вычисления и/или для определения весовых коэффициентов 142 на основе одного или более из множества известных правил определения, таких как инверсное гармоническое среднее (IHM), как это известно из [1], или в соответствии с более сложным подходом, как описано в [2]. Стандарт G.718 Международного союза электросвязи (ITU) описывает другой подход определения весовых коэффициентов путем расширения подхода [2], как описано в [3]. Предпочтительно процессор 140 сконфигурирован, чтобы определять весовые коэффициенты 142 на основе правила определения, имеющего низкую вычислительную сложность. Это может обеспечить высокую пропускную способность кодированных аудиосигналов и/или простую реализацию кодера 100 ввиду аппаратных средств, которые могут потреблять меньше энергии на основе меньших вычислительных затрат.

Вычислитель 130 включает в себя объединитель 150, сконфигурированный для объединения спектральных весовых коэффициентов 142 и множества значений 162 коррекции, чтобы получать скорректированные весовые коэффициенты 152. Множество значений коррекции предоставляется из памяти 160, в которой хранятся значения 162 коррекции. Значения 162 коррекции могут быть статическими или динамическими, т.е. значения 162 коррекции могут быть обновлены во время работы кодера 100 или могут оставаться неизменными в процессе работы и/или могут быть обновлены только во время процедуры калибровки для калибровки кодера 100. Предпочтительно, память 160 содержит статические значения 162 коррекции. Значения 162 коррекции могут быть получены, например, с помощью процедуры предварительного вычисления, как описано в дальнейшем. В качестве альтернативы, память 160 может альтернативно содержаться в вычислителе 130, как указано пунктирными линиями.

Вычислитель 130 содержит квантователь 170, сконфигурированный для квантования преобразованных коэффициентов 122 предсказания с использованием скорректированных весовых коэффициентов 152. Квантователь 170 сконфигурирован для вывода квантованного представления 172 преобразованных коэффициентов 122 предсказания. Квантователь 170 может быть линейным квантователем, нелинейным квантователем, таким как логарифмический квантователь, или векторно-подобным квантователем, векторным квантователем, соответственно. Векторно-подобный квантователь может быть сконфигурирован для квантования множества pf частей скорректированных весовых коэффициентов 152 во множество квантованных значений (частей). Квантователь 170 может быть сконфигурирован для взвешивания преобразованных коэффициентов 122 предсказания скорректированными весовыми коэффициентами 152. Квантователь может быть дополнительно сконфигурирован для определения расстояния от взвешенных преобразованных коэффициентов 122 предсказания до записей базы данных квантователя 170 и для выбора кодового слова (представления), которое связано с записью в базе данных, причем запись может содержать наименьшее расстояние до взвешенных преобразованных коэффициентов 122 предсказания. Такая процедура иллюстративно описана ниже. Квантователь 170 может быть стохастическим векторным квантователем (VQ). В качестве альтернативы, квантователь 170 может также быть сконфигурирован для применения других векторных квантователей, таких как решеточный VQ или любой скалярный квантователь. В качестве альтернативы, квантователь 170 может быть также сконфигурирован для применения линейного или логарифмического квантования.

Квантованное представление 172 преобразованных коэффициентов 122 предсказания, то есть кодовое слово, выдается на формирователь 180 битового потока кодера 100. Кодер 100 может содержать блок 190 обработки аудио, сконфигурированный для обработки некоторой или всей из аудио информации аудиосигнала 102 и/или дополнительной информации. Блок 190 обработки аудио сконфигурирован для предоставления аудиоданных 192, таких как вокализованная сигнальная информации или невокализованная сигнальная информация, на формирователь 180 битового потока. Формирователь 180 битового потока сконфигурирован для формирования выходного сигнала (битового потока) 182 на основе квантованного представления 172 преобразованных коэффициентов 122 предсказания и на основе аудио информации 192, которая основана на аудиосигнале 102.

Преимуществом кодера 100 является то, что процессор 140 может быть сконфигурирован так, чтобы получать, например, вычислять весовые коэффициенты 142 с использованием правила определения, которое имеет низкую вычислительную сложность. Значения 162 коррекции могут быть получены посредством, при выражении в упрощенном виде, сравнения набора весовых коэффициентов, полученных с помощью (опорного) правила определения с высокой вычислительной сложностью, но поэтому с высокой точностью и/или хорошим качеством аудио и/или низким LSD, с весовыми коэффициентами, полученными с помощью правила определения, выполняемого процессором 140. Это может быть сделано для множества аудиосигналов, причем для каждого из аудиосигналов получают ряд весовых коэффициентов на основе обоих правил определения. Для каждого аудиосигнала, полученные результаты можно сравнивать, чтобы получать информацию, относящуюся к рассогласованию или погрешности. Информация, относящаяся к рассогласованию или погрешности, может суммироваться и/или усредняться по множеству аудиосигналов для получения информации, относящейся к средней погрешности, которая создана процессором 140 по отношению к опорному правилу определения при выполнении правила определения с более низкой вычислительной сложностью. Полученная информация, относящаяся к средней погрешности и/или рассогласованию, может быть представлена в значениях 162 коррекции, так что весовые коэффициенты 142 могут быть объединены со значениями 162 коррекции объединителем, чтобы уменьшить или скомпенсировать среднюю погрешность. Это позволяет уменьшить или почти скомпенсировать погрешность весовых коэффициентов 142 по сравнению с опорным правилом определения, используемым офлайн, в то же время позволяя выполнять менее сложное определение весовых коэффициентов 142.

Фиг. 2 показывает блок-схему модифицированного вычислителя 130’. Вычислитель 130’ содержит процессор 140’, сконфигурированный для вычисления весов инверсного гармонического среднего (IHM) из LSF 122’, которые представляют преобразованные коэффициенты предсказания. Вычислитель 130’ содержит объединитель 150’, который, по сравнению с объединителем 150, сконфигурирован для объединения IHM-весов 142’ процессора 140’, значений 162 коррекции и дополнительной информации 114 аудиосигнала 102, указанной как “коэффициенты отражения”, причем дополнительная информация 114 не ограничивается этим. Дополнительная информация может быть промежуточным результатом других этапов кодирования, например, коэффициенты 114 отражения могут быть получены анализатором 110 при определении коэффициентов 112 предсказания, как представлено на фиг. 1. Коэффициенты линейного предсказания могут быть определены анализатором 110 при выполнении правила определения в соответствии с алгоритмом Левинсона-Дарбина, в котором определяются алгоритмы отражения. Кроме того, может быть получена информация, относящаяся к спектру мощности (энергетическому спектру), при вычислении коэффициентов 112 предсказания. Возможная реализация объединителя 150’ описана далее. В качестве альтернативы или в дополнение, дополнительная информация 114 может быть объединена с весами 142 или 142’ и параметрами 162 коррекции, например, информацией, относящейся к энергетическому спектру аудиосигнала 102. Дополнительная информация 114 позволяет дополнительно уменьшить разницу между весами 142 или 142’, определяемыми вычислителем 130 или 130’, и опорными весами. Увеличение вычислительной сложности может иметь лишь незначительные эффекты, так как дополнительная информация 114 может уже быть определена другими компонентами, такими как анализатор 110, в ходе других этапов кодирования аудио.

Вычислитель 130’ дополнительно содержит сглаживатель 155, сконфигурированный для приема скорректированных весовых коэффициентов 152’ от объединителя 150’ и опциональной информации 157 (флага управления), обеспечивающей возможность операции управления (состояния включения/выключения) сглаживателя 155. Флаг 157 управления может быть получен, например, из анализатора, указывающего, что сглаживание должно быть выполнено для того, чтобы смягчить резкие переходы. Сглаживатель 155 сконфигурирован для объединения скорректированных весовых коэффициентов 152’ и скорректированных весовых коэффициентов 152”’, которые являются задержанным представлением скорректированных весовых коэффициентов, определенных для предыдущего кадра или подкадра аудиосигнала, т.е. скорректированных весовых коэффициентов, определенных в предыдущем цикле в состоянии включения. Сглаживатель 155 может быть реализован в виде фильтра с бесконечным импульсным откликом (IIR). Таким образом, вычислитель 130’ содержит блок 159 задержки, сконфигурированный для приема и задержки скорректированных весовых коэффициентов 152”, обеспеченных сглаживателем 155 в первом цикле, и обеспечения тех весовых коэффициентов как скорректированных весовых коэффициентов 152”’ в следующем цикле.

Блок 159 задержки может быть реализован, например, как фильтр задержки или как память, сконфигурированная для сохранения принятых скорректированных весовых коэффициентов 152”. Сглаживатель 155 сконфигурирован для весового объединения принятых скорректированных весовых коэффициентов 152’ и принятых скорректированных весовых коэффициентов 152”’ из прошлого. Например, (текущие) скорректированные весовые коэффициенты 152’ могут содержать долю 25%, 50% , 75% или любое другое значение в сглаженных скорректированных весовых коэффициентах 152”, причем (прошлые) весовые коэффициенты 152”’ могут содержать долю, равную (1-доля скорректированных весовых коэффициентов 152’). Это позволяет избежать резких переходов между последовательными аудиокадрами, когда аудиосигнал, то есть его два последовательных кадра приводят к различным скорректированным весовым коэффициентам, которые привели бы к искажениям в декодированном аудиосигнале. В состоянии выключения, сглаживатель 155 сконфигурирован для пересылки скорректированных весовых коэффициентов 152’. В качестве альтернативы или в дополнение, сглаживание может обеспечить повышенное качество аудио для аудиосигналов, содержащих высокий уровень периодичности.

В качестве альтернативы, сглаживатель 155 может быть сконфигурирован, чтобы дополнительно объединять скорректированные весовые коэффициенты нескольких предыдущих циклов. В качестве альтернативы или в дополнение, преобразованные коэффициенты 122’ предсказания могут также быть частотами спектральных иммитансов.

Весовой коэффициент w_i может быть получен, например, на основе инверсного гармонического среднего (IHM). Правило определение может быть основано на форме:

где w_i обозначает определенный вес 142’ с индексом i, LSF_i обозначает частоту спектральной линии с индексом i. Индекс i соответствует числу полученных спектральных весовых коэффициентов и может быть равен числу коэффициентов предсказания, определенных анализатором. Число коэффициентов предсказания и, следовательно, число преобразованных коэффициентов может быть, например, равно 16. В качестве альтернативы, это число может также быть равно 8 или 32. В качестве альтернативы, число преобразованных коэффициентов также может быть ниже, чем число коэффициентов предсказания, например, если преобразованные коэффициенты 122 определены как частоты спектральных иммитансов, которые могут содержать меньшее число по сравнению с числом коэффициентов предсказания.

Другими словами, фиг. 2 детализирует обработку, выполняемую на этапе получения веса, исполняемого преобразователем 120. Сначала IHM-веса вычисляются из LSF. В соответствии с одним вариантом осуществления, порядок LPC, равный 16, используется для сигнала, дискретизированного с частотой 16 кГц. Это означает, что LSF ограничены между 0 и 8 кГц. В соответствии с другим вариантом осуществления, LPC имеет порядок 16, и сигнал дискретизируется с частотой 12,8 кГц. В этом случае, LSF ограничены между 0 и 6,4 кГц. В соответствии с другим вариантом осуществления, сигнал дискретизируется с частотой 8 кГц, что может называться узкополосной дискретизацией. IHM-веса могут затем объединяться с дополнительной информацией, например, относящейся к некоторым из коэффициентов отражения, в полиноме, для которого коэффициенты оптимизируются офлайн на этапе обучения. И, наконец, полученные веса могут быть сглажены предыдущим набором весов в некоторых случаях, например, для стационарных сигналов. В соответствии с одним вариантом осуществления, сглаживание никогда не выполняется. В соответствии с другими вариантами осуществления, оно выполняется только тогда, когда входной кадр классифицируется как вокализованный, то есть сигнал, детектируемый как в высокой степени периодический.

Далее будут сделаны ссылки на детали коррекции полученных весовых коэффициентов. Например, анализатор сконфигурирован для определения коэффициентов линейного предсказания (LPC) порядка 10 или 16, то есть числа 10 или 16 LPC. Хотя анализатор может быть также сконфигурирован для определения любого другого числа коэффициентов линейного предсказания или другого типа коэффициента, следующее описание сделано со ссылкой на 16 коэффициентов, так как это число коэффициентов используется в мобильной связи.

На фиг. 3 показана блок-схема кодера 300, дополнительно содержащего спектральный анализатор 115 и спектральный процессор 145, по сравнению с кодером 100. Спектральный анализатор 115 сконфигурирован для получения спектральных параметров 116 из аудиосигнала 102. Спектральные параметры могут быть, например, огибающей кривой спектра аудиосигнала либо его кадра и/или параметрами, характеризующими огибающую кривую. В качестве альтернативы, могут быть получены коэффициенты, связанные с энергетическим спектром.

Спектральный процессор 145 содержит вычислитель 145а энергии, который сконфигурирован для вычисления величины или меры 146 для энергии частотных бинов спектра аудиосигнала 102 на основе спектральных параметров 116. Спектральный процессор дополнительно содержит нормализатор 145b для нормализации преобразованных коэффициентов 122’ предсказания (LSF) для получения нормализованных коэффициентов 147 предсказания. Преобразованные коэффициенты предсказания могут быть нормализованы, например, относительным образом, по отношению к максимальному значению множества LSF и/или абсолютным образом, т.е. по отношению к предопределенному значению, такому как максимальное значение, ожидаемое или представимое используемыми переменными вычисления.

Спектральный процессор 145 дополнительно содержит первый определитель 145c, сконфигурированный для определения энергии бина для каждого нормализованного параметра предсказания, то есть, чтобы связывать каждый нормированный параметр 147 предсказания, полученный из нормализатора 45b, с вычисленным в качестве меры 146, чтобы получать вектор W1, содержащий энергию бина для каждой LSF. Спектральный процессор 145 дополнительно содержит второй определитель 145d, сконфигурированный для нахождения (определения) частотного взвешивания для каждой нормализованной LSF, чтобы получать вектор W2, содержащий частотные взвешивания. Дополнительная информация 114 содержит векторы W1 и W2, т.е. векторы W1 и W2 являются признаком, представляющим дополнительную информацию 114.

Процессор 142’ сконфигурирован для определения IHM на основе преобразованных параметров 122’ предсказания и степени IHM, например, второй степени, причем в качестве альтернативы или в дополнение также может вычисляться более высокая степень, при этом IHM и его степень(и) формируют весовые коэффициенты 142’.

Объединитель 150” сконфигурирован для определения скорректированных весовых коэффициентов (скорректированных весов LSF) 152’ на основе дополнительной информации 114 и весовых коэффициентов 142’.

В качестве альтернативы, процессор 140’, спектральный процессор 145 и/или объединитель могут быть реализованы как один блок обработки, такой как центральный процессорный блок, (микро) контроллер, программируемая вентильная матрица или т.п.

Другими словами, первой и второй записью для объединителя являются IHM и IHM², т.е. весовые коэффициенты 142’. Третья запись для каждого элемента i LSF-вектора будет

где wfft представляет собой комбинацию W1 и W2 и где min является минимумом wfft.

i=0…М, где М может быть равно 16, когда 16 коэффициентов предсказания получают из аудиосигнала и

где binEner содержит энергию каждого бина спектра, т.е. binEner соответствует мере 146.

Отображение представляет собой грубое приближение энергии форманты в спектральной огибающей. FreqWTable представляет собой вектор, содержащий дополнительные веса, которые выбираются в зависимости от входного сигнала, являющегося вокализованным или невокализованным.

Wfft является приближением спектральной энергии, близкой к коэффициенту предсказания, такому как коэффициент LSF. Проще говоря, если коэффициент предсказания (LSF) содержит значение X, это означает, что спектр аудиосигнала (кадра) содержит максимум энергии (форманту) на частоте X или ниже нее. wfft является логарифмическим выражением энергии на частоте X, то есть, оно соответствует логарифмической энергии в этом местоположении. По сравнению с вариантами осуществления, описанными ранее, с использованием коэффициентов отражения в качестве дополнительной информации, в качестве альтернативы или в дополнение, комбинация wfft (W1) и FrequWTable (W2) может быть использована для получения дополнительной информации 114. FreqWTable описывает одну из множества возможных таблиц, подлежащих использованию. На основе “режима кодирования” кодера 300, например, вокализованного, фрикативного и т.п., может быть выбрана по меньшей мере одна из множества таблиц. Одна или более из множества таблиц может обучаться (программироваться и адаптироваться) во время работы кодера 300.

Решение использовать wfft направлено на улучшение кодирования преобразованных коэффициентов предсказания, которые представляют форманту. В отличие от классического формирования шума, где шум имеется на частотах, содержащих большие количества энергии (сигнала), описанный подход относится к квантованию кривой спектральной огибающей. Когда энергетический спектр содержит большое количество энергии (большую меру) на частотах, содержащихся или расположенных рядом с частотой преобразованного коэффициента предсказания, этот преобразованный коэффициент предсказания (LSF) может быть квантован лучше, то есть с меньшими погрешностями, полученными за счет более высокого взвешивания, чем другие коэффициенты, содержащие более низкую меру энергии.

Фиг. 4a иллюстрирует вектор LSF, содержащий 16 значений записей определенных частот спектральных линий, которые получены с помощью преобразователя на основе определенных коэффициентов предсказания. Про

Кодер для кодирования аудиосигнала, система передачи аудио и способ определения значений коррекции

Патент 2643646