2646357 - Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием информации формирования речевого спектра

Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием информации формирования речевого спектра

Иллюстрации

Показать все

Изобретение относится к кодированию аудиосигнала. Технический результат изобретения заключается в возможности поддерживать качество речи при уменьшении скорости передачи битов. Кодер содержит анализатор, выполненный с возможностью извлечения коэффициентов прогнозирования и остаточного сигнала из кадра аудиосигнала. Кодер содержит модуль вычисления информации формант для вычисления информации формирования речевого спектра из коэффициентов прогнозирования, модуль вычисления параметров усиления, выполненный с возможностью вычисления параметра усиления из невокализованного остаточного сигнала и информации формирования спектра, и модуль формирования потоков битов, выполненный с возможностью формирования выходного сигнала на основе информации, связанной с вокализованным кадром сигнала, параметром усиления или параметром квантованного усиления и коэффициентами прогнозирования. 6 н. и 12 з.п. ф-лы, 17 ил.

Реферат

Настоящее изобретение относится к кодерам для кодирования аудиосигнала, в частности, речевого аудиосигнала. Настоящее изобретение также относится к декодерам и способам для декодирования кодированного аудиосигнала. Настоящее изобретение дополнительно относится к кодированным аудиосигналам и к усовершенствованному кодированию невокализованной речи на низких скоростях передачи битов.

На низкой скорости передачи битов, кодирование речи может извлекать выгоду из специальной обработки для невокализованных кадров, чтобы поддерживать качество речи при уменьшении скорости передачи битов. Невокализованные кадры могут перцепционно моделироваться в качестве случайного возбуждения, которое формируется в частотной и временной области. Поскольку форма сигнала и возбуждение выглядит и звучит почти идентично с белым гауссовым шумом, его кодирование на основе формы сигналов может ослабляться и заменяться посредством синтетически сформированного белого шума. В таком случае кодирование должно состоять из кодирования форм во временной и частотной области сигнала.

Фиг. 16 показывает принципиальную блок-схему схемы параметрического невокализованного кодирования. Синтезирующий фильтр 1202 выполнен с возможностью моделирования речевого тракта и параметризован посредством параметров LPC (линейного прогнозирующего кодирования). Из извлеченного LPC-фильтра, содержащего функцию A(z) фильтра, перцепционный взвешивающий фильтр может извлекаться посредством взвешивания LPC-коэффициентов. Перцепционный фильтр fw(n) обычно имеет передаточную функцию следующей формы:

где w ниже 1. Параметр g_n усилениявычисляется для получения синтезированной энергии, совпадающей с исходной энергией в перцепционной области, согласно следующему:

где sw(n) и nw(n) являются входным сигналом и сформированным шумом, соответственно, фильтруемыми посредством перцепционного фильтра fw(n). Усиление g_n вычисляется для каждого субкадра размера Ls. Например, аудиосигнал может быть разделен на кадры с длиной в 20 мс. Каждый кадр может подразделяться на субкадры, например, на четыре субкадра, каждый из которых имеет длину в 5 мс.

Схема кодирования на основе линейного прогнозирования с возбуждением по коду (CELP) широко используется в речевой связи и представляет собой очень эффективный способ кодирования речи. Она обеспечивает более естественное качество речи, чем параметрическое кодирование, но она также запрашивает более высокие скорости. CELP синтезирует аудиосигнал посредством передачи в линейный прогнозирующий фильтр, называемый синтезирующим LPC-фильтром, который может содержать форму 1/A(z), суммы двух возбуждений. Одно возбуждение исходит из декодированного прошлого, что называется адаптивной таблицей кодирования. Другая доля исходит из изобретаемой таблицы кодирования, заполненной посредством фиксированных кодов. Тем не менее, на низких скоростях передачи битов изобретаемая таблица кодирования недостаточно заполняется для эффективного моделирования точной структуры речи или шумоподобного возбуждения невокализованной речи. Следовательно, перцепционное качество ухудшается, в частности, невокализованные кадры, которые в таком случае звучат трескуче и неестественно.

Для уменьшения артефактов кодирования на низких скоростях передачи битов, уже предложены различные решения. В G.718[1] и в [2], коды изобретаемой таблицы кодирования адаптивно и спектрально формируются посредством улучшения спектральных областей, соответствующих формантам текущего кадра. Позиции и формы формант могут быть выведены непосредственно из LPC-коэффициентов, причем коэффициенты уже доступны на сторонах кодера и декодера. Улучшение формант кодов c(n) выполняется посредством простой фильтрации согласно следующему:

где * обозначает оператор свертки, и где fe(n) является импульсной характеристикой фильтра передаточной функции следующим образом:

где w1 и w2 являются двумя весовыми константами, подчеркивающими более или менее формантную структуру передаточной функции Ffe(z). Результирующие коды определенной формы наследуют характеристику речевого сигнала, и синтезированный сигнал звучит чище.

В CELP, также обычно добавляется спектральный наклон в декодер изобретаемой таблицы кодирования. Это выполняется посредством фильтрации кодов с помощью следующего фильтра:

Коэффициент β обычно связан с вокализацией предыдущего кадра и зависит, т.е. он варьируется. Вокализация может оцениваться из доли энергии из адаптивной таблицы кодирования. Если предыдущий кадр является вокализованным, предполагается, что текущий кадр также является вокализованным, и что коды должны иметь большую энергию на низких частотах, т.е. должны показывать отрицательный наклон. Наоборот, добавленный спектральный наклон является положительным для невокализованных кадров, и большая энергия должна распределяться в направлении высоких частот.

Использование формирования спектра для улучшения речи и уменьшения уровня шума выхода декодера является обычной практикой. Так называемое улучшение формант в качестве постфильтрации состоит из адаптивной постфильтрации, для которой коэффициенты извлекаются из LPC-параметров декодера. Постфильтр похож на постфильтр (fe(n)), используемый для формирования изобретаемого возбуждения в определенных CELP-кодерах, как пояснено выше. Тем не менее, в этом случае, постфильтрация применяется только на конце процесса декодера, а не на стороне кодера.

В традиционном CELP (CELP – линейное прогнозирование с возбуждением по таблицам кодирования), форма частоты моделируется посредством синтезирующего фильтра на основе LP (линейного прогнозирования), в то время как форма во временной области может быть аппроксимирована посредством усиления при возбуждении, отправленного в каждый субкадр, хотя долговременное прогнозирование (LTP) и изобретаемая таблица кодирования обычно не подходят для моделирования шумоподобного возбуждения невокализованных кадров. CELP требует относительно высокой скорости передачи битов для достижения хорошего качества невокализованной речи.

Определение вокализованных или невокализованных характеристик может быть связано с сегментацией речи на части и ассоциированием каждой из них с различной исходной моделью речи. Исходные модели, когда они используются в схеме CELP-кодирования речи, основываются на адаптивном гармоническом возбуждении, моделирующем поток воздуха, выходящий из голосовой щели, и резонансном фильтре, моделирующем речевой тракт, возбужденный посредством сформированного потока воздуха. Такие модели могут предоставлять хорошие результаты для фонем, таких как вокалы, но могут приводить к некорректному моделированию для речевых частей, которые не формируются посредством голосовой щели, в частности, когда голосовые связки не вибрируют, к примеру, невокализованных фонем "s" или "f".

С другой стороны, параметрические речевые кодеры также называются вокодерами и приспосабливают одну исходную модель для невокализованных кадров. Она позволяет достигать очень низких скоростей передачи битов при достижении так называемого синтетического качества, не настолько естественного, насколько качество, обеспечиваемое посредством схем CELP-кодирования на гораздо более высоких скоростях.

Таким образом, имеется потребность в улучшении аудиосигналов.

Цель настоящего изобретения заключается в том, чтобы повышать качество звука на низких скоростях передачи битов и/или уменьшать скорости передачи битов для хорошего качества звука.

Это цель достигается посредством кодера, декодера, кодированного аудиосигнала и способов согласно независимым пунктам формулы изобретения.

Авторы изобретения выяснили, что в первом аспекте, качество декодированного аудиосигнала, связанного с невокализованным кадром аудиосигнала, может увеличиваться, т.е. повышаться, посредством определения информации формирования речевого спектра таким образом, что информация параметров усиления для усиления сигналов может извлекаться из информации формирования речевого спектра. Кроме того информация формирования речевого спектра может использоваться для спектрального формирования декодированного сигнала. Частотные области, содержащие более высокую важность для речи, например, низкие частоты ниже 4 кГц, в силу этого могут обрабатываться таким образом, что они содержат меньше ошибок.

Авторы изобретения дополнительно выяснили, что во втором аспекте, посредством формирования первого сигнала возбуждения из детерминированной таблицы кодирования для кадра или субкадра (части) синтезированного сигнала и посредством формирования второго сигнала возбуждения из шумоподобного сигнала для кадра или субкадра синтезированного сигнала и посредством комбинирования первого сигнала возбуждения и второго сигнала возбуждения для формирования комбинированного сигнала возбуждения качество звука синтезированного сигнала может увеличиваться, т.е. повышаться. В частности, для частей аудиосигнала, содержащего речевой сигнал с фоновым шумом, качество звука может повышаться посредством добавления шумоподобных сигналов. Параметр усиления для необязательного усиления первого сигнала возбуждения может определяться в кодере, и информация, связанная с ним, может передаваться с кодированным аудиосигналом.

Альтернативно или помимо этого, улучшение синтезированного аудиосигнала может быть, по меньшей мере, частично использовано для уменьшения скоростей передачи битов для кодирования аудиосигнала.

Кодер согласно первому аспекту содержит анализатор, выполненный с возможностью извлечения коэффициентов прогнозирования и остаточного сигнала из кадра аудиосигнала. Кодер дополнительно содержит модуль вычисления информации формант, выполненный с возможностью вычисления информации формирования речевого спектра из коэффициентов прогнозирования. Кодер дополнительно содержит модуль вычисления параметров усиления, выполненный с возможностью вычисления параметра усиления из невокализованного остаточного сигнала и информации формирования спектра, и модуль формирования потоков битов, выполненный с возможностью формирования выходного сигнала на основе информации, связанной с вокализованным кадром сигнала, параметром усиления или параметром квантованного усиления и коэффициентами прогнозирования.

Дополнительные варианты осуществления первого аспекта предоставляют кодированный аудиосигнал, содержащий информацию коэффициентов прогнозирования для вокализованного кадра и невокализованного кадра аудиосигнала, дополнительную информацию, связанную с вокализованным кадром сигнала, и параметр усиления либо параметр квантованного усиления для невокализованного кадра. Это дает возможность эффективной передачи речевой информации, чтобы обеспечивать декодирование кодированного аудиосигнала с тем, чтобы получать синтезированный (восстановленный) сигнал с высоким качеством звука.

Дополнительные варианты осуществления первого аспекта предоставляют декодер для декодирования принимаемого сигнала, содержащего коэффициенты прогнозирования. Декодер содержит модуль вычисления информации формант, генератор шума, формирователь и синтезатор. Модуль вычисления информации формант выполнен с возможностью вычисления информации формирования речевого спектра из коэффициентов прогнозирования. Генератор шума выполнен с возможностью формирования шумоподобного сигнала для декодирования. Формирователь выполнен с возможностью придания определенной формы спектру шумоподобного сигнала для декодирования или его усиленному представлению с использованием информации формирования спектра, чтобы получать шумоподобный сигнал для декодирования определенной формы. Синтезатор выполнен с возможностью синтезирования синтезированного сигнала из усиленного шумоподобного сигнала для кодирования определенной формы и коэффициентов прогнозирования.

Дополнительные варианты осуществления первого аспекта относятся к способу для кодирования аудиосигнала, к способу для декодирования принимаемого аудиосигнала и к компьютерной программе.

Варианты осуществления второго аспекта предоставляют кодер для кодирования аудиосигнала. Кодер содержит анализатор, выполненный с возможностью извлечения коэффициентов прогнозирования и остаточного сигнала из невокализованного кадра аудиосигнала. Кодер дополнительно содержит модуль вычисления параметров усиления, выполненный с возможностью вычисления информации первых параметров усиления для задания первого сигнала возбуждения, связанного с детерминированной таблицей кодирования, и вычисления информации вторых параметров усиления для задания второго сигнала возбуждения, связанного с шумоподобным сигналом для невокализованного кадра. Кодер дополнительно содержит модуль формирования потоков битов, выполненный с возможностью формирования выходного сигнала на основе информации, связанной с вокализованным кадром сигнала, информации первых параметров усиления и информации вторых параметров усиления.

Дополнительные варианты осуществления второго аспекта предоставляют декодер для декодирования принимаемого аудиосигнала, содержащего информацию, связанную с коэффициентами прогнозирования. Декодер содержит генератор первых сигналов, выполненный с возможностью формирования первого сигнала возбуждения из детерминированной таблицы кодирования для части синтезированного сигнала. Декодер дополнительно содержит генератор вторых сигналов, выполненный с возможностью формирования второго сигнала возбуждения из шумоподобного сигнала для части синтезированного сигнала. Декодер дополнительно содержит модуль комбинирования и синтезатор, при этом модуль комбинирования выполнен с возможностью комбинирования первого сигнала возбуждения и второго сигнала возбуждения для формирования комбинированного сигнала возбуждения для части синтезированного сигнала. Синтезатор выполнен с возможностью синтезирования части синтезированного сигнала из комбинированного сигнала возбуждения и коэффициентов прогнозирования.

Дополнительные варианты осуществления второго аспекта предоставляют кодированный аудиосигнал, содержащий информацию, связанную с коэффициентами прогнозирования, информацию, связанную с детерминированной таблицей кодирования, информацию, связанную с первым параметром усиления и вторым параметром усиления, и информацию, связанную с вокализованным и невокализованным кадром сигнала.

Дополнительные варианты осуществления второго аспекта предоставляют способы для кодирования и декодирования аудиосигнала, принимаемого аудиосигнала, соответственно, и компьютерную программу.

Далее описываются предпочтительные варианты осуществления настоящего изобретения со ссылками на прилагаемые чертежи, на которых:

Фиг. 1 показывает принципиальную блок-схему кодера для кодирования аудиосигнала согласно варианту осуществления первого аспекта;

Фиг. 2 показывает принципиальную блок-схему декодера для декодирования принимаемого входного сигнала согласно варианту осуществления первого аспекта;

Фиг. 3 показывает принципиальную блок-схему дополнительного кодера для кодирования аудиосигнала согласно варианту осуществления первого аспекта;

Фиг. 4 показывает принципиальную блок-схему кодера, содержащего отличающийся модуль вычисления параметров усиления относительно фиг. 3, согласно варианту осуществления первого аспекта;

Фиг. 5 показывает принципиальную блок-схему модуля вычисления параметров усиления, выполненного с возможностью вычисления информации первых параметров усиления и формирования сигнала с возбуждением по коду по согласно варианту осуществления второго аспекта;

Фиг. 6 показывает принципиальную блок-схему кодера для кодирования аудиосигнала, содержащего модуль вычисления параметров усиления, описанного на фиг. 5, согласно варианту осуществления второго аспекта;

Фиг. 7 показывает принципиальную блок-схему модуля вычисления параметров усиления, который содержит дополнительный формирователь, выполненный с возможностью формирования шумоподобного сигнала, относительно фиг. 5, согласно варианту осуществления второго аспекта;

Фиг. 8 показывает принципиальную блок-схему схемы невокализованного кодирования для CELP согласно варианту осуществления второго аспекта;

Фиг. 9 показывает принципиальную блок-схему параметрического невокализованного кодирования согласно варианту осуществления первого аспекта;

Фиг. 10 показывает принципиальную блок-схему декодера для декодирования кодированного аудиосигнала согласно варианту осуществления второго аспекта;

Фиг. 11a показывает принципиальную блок-схему формирователя, реализующую альтернативную структуру относительно формирователя, показанного на фиг. 2, согласно варианту осуществления первого аспекта;

Фиг. 11b показывает принципиальную блок-схему дополнительного формирователя, реализующего дополнительную альтернативу относительно формирователя, показанного на фиг. 2, согласно варианту осуществления первого аспекта;

Фиг. 12 показывает блок-схему последовательности операций способа для кодирования аудиосигнала согласно варианту осуществления первого аспекта;

Фиг. 13 показывает блок-схему последовательности операций способа для декодирования принимаемого аудиосигнала, содержащего коэффициенты прогнозирования и параметр усиления, согласно варианту осуществления первого аспекта;

Фиг. 14 показывает блок-схему последовательности операций способа для кодирования аудиосигнала согласно варианту осуществления второго аспекта; и

Фиг. 15 показывает блок-схему последовательности операций способа для декодирования принимаемого аудиосигнала согласно варианту осуществления второго аспекта.

Идентичные или эквивалентные элементы или элементы с идентичной или эквивалентной функциональностью обозначаются в нижеприведенном описании посредством идентичных или эквивалентных ссылок с номерами даже при возникновении на различных чертежах.

В нижеприведенном описании, множество деталей изложено с тем, чтобы предоставлять более полное пояснение вариантов осуществления настоящего изобретения. Тем не менее, специалистам в данной области техники должно быть очевидным, что варианты осуществления настоящего изобретения могут быть использованы на практике без этих конкретных деталей. В других случаях, известные структуры и устройства показаны в форме блок-схемы, а не подробно, чтобы не затруднять понимание вариантов осуществления настоящего изобретения. Помимо этого, признаки различных вариантов осуществления, описанных далее, могут комбинироваться между собой, если прямо не указано иное.

Далее приводятся сведения по модификации аудиосигнала. Аудиосигнал может модифицироваться посредством усиления и/или ослабления частей аудиосигнала. Часть аудиосигнала, например, может представлять собой последовательность аудиосигнала во временной области и/или его спектра в частотной области. Относительно частотной области, спектр может модифицироваться посредством усиления или ослабления спектральных значений, размещаемых на/в частотах или частотных диапазонах. Модификация спектра аудиосигнала может содержать последовательность операций, таких как усиление и/или ослабление первой частоты или частотного диапазона и впоследствии усиление и/или ослабление второй частоты или частотного диапазона. Модификации в частотной области могут представляться как вычисление, например, умножение, деление, суммирование и т.п., спектральных значений и значений усиления и/или значений ослабления. Модификации могут выполняться последовательно, к примеру, умножение спектральных значений сначала на первое значение умножения, а затем на второе значение умножения. Умножение на второе значение умножения, а затем на первое значение умножения может обеспечивать возможность приема идентичного или почти идентичного результата. Кроме того, первое значение умножения и второе значение умножения могут сначала комбинироваться и затем применяться с точки зрения комбинированного значения умножения к спектральным значениям при приеме идентичного или сравнимого результата операции. Таким образом, этапы модификации, выполненные с возможностью формировать или модифицировать спектр аудиосигнала, описанные ниже, не ограничены описанным порядком, но также могут выполняться в измененном порядке при приеме идентичного результата и/или эффекта.

Фиг. 1 показывает принципиальную блок-схему кодера 100 для кодирования аудиосигнала 102. Кодер 100 содержит компоновщик 110 кадров, выполненный с возможностью формировать последовательность 112 кадров на основе аудиосигнала 102. Последовательность 112 содержит множество кадров, при этом каждый кадр аудиосигнала 102 имеет длину (длительность) во временной области. Например, каждый кадр может иметь длину в 10 мс, 20 мс или 30 мс.

Кодер 100 содержит анализатор 120, выполненный с возможностью извлечения коэффициентов 122 прогнозирования (LPC – коэффициентов линейного прогнозирования) и остаточного сигнала 124 из кадра аудиосигнала. Компоновщик 110 кадров или анализатор 120 выполнен с возможностью определять представление аудиосигнала 102 в частотной области. Альтернативно, аудиосигнал 102 уже может быть представлением в частотной области.

Коэффициенты 122 прогнозирования, например, могут представлять собой коэффициенты линейного прогнозирования. Альтернативно, также нелинейное прогнозирование может применяться таким образом, что модуль 120 прогнозирования выполнен с возможностью определять коэффициенты нелинейного прогнозирования. Преимущество линейного прогнозирования заключается в уменьшенных вычислительных затратах для определения коэффициентов прогнозирования.

Кодер 100 содержит решающий модуль 130 по вокализованным/невокализованным характеристикам, выполненный с возможностью определения того, определен или нет остаточный сигнал 124 из невокализованного аудиокадра. Решающий модуль 130 выполнен с возможностью предоставления остаточного сигнала в кодер 140 вокализованных кадров, если остаточный сигнал 124 определен из вокализованного кадра сигнала, и предоставления остаточного сигнала в модуль 150 вычисления параметров усиления, если остаточный сигнал 124 определен из невокализованного аудиокадра. Для определения того, определен остаточный сигнал 122 из вокализованного или невокализованного кадра сигнала, решающий модуль 130 может использовать разные подходы, такие как автокорреляция выборок остаточного сигнала. Способ для определения того, является кадр сигнала вокализованным или невокализованным, предоставляется, например, в стандарте G.718 ITU (Международного союза по телекоммуникациям) – T (Сектор стандартизации связи). Большая величина энергии, размещаемой на низких частотах, может указывать вокализованную часть сигнала. Альтернативно, невокализованный сигнал может приводить к большим величинам энергии на высоких частотах.

Кодер 100 содержит модуль 160 вычисления информации формант, выполненный с возможностью вычисления информации формирования речевого спектра из коэффициентов 122 прогнозирования.

Информация формирования речевого спектра может рассматривать информацию формант, например, посредством определения частот или частотных диапазонов обработанного аудиокадра, которые содержат большую величину энергии, чем окружение. Информация формирования спектра имеет возможность сегментировать спектр абсолютной величины речи на формантные (т.е. пики) и неформантные (т.е. впадины) частотные области. Области формант спектра, например, могут извлекаться посредством использования представления в форме частот спектральных иммитансов (ISF) или частот спектральных линий (LSF) коэффициентов 122 прогнозирования. Фактически, ISF или LSF представляют частоты, для которых синтезирующий фильтр с использованием коэффициентов 122 прогнозирования резонирует.

Информация 162 формирования речевого спектра и невокализованные остатки перенаправляются в модуль 150 вычисления параметров усиления, который выполнен с возможностью вычислять параметр g_n усиления из невокализованного остаточного сигнала и информации 162 формирования спектра. Параметр g_n усиления может быть скалярным значением или их множеством, т.е. параметр усиления может содержать множество значений, связанных с усилением или ослаблением спектральных значений во множестве частотных диапазонов спектра сигнала, который должен усиливаться или ослабляться. Декодер может быть выполнен с возможностью применять параметр g_n усиления к информации принимаемого кодированного аудиосигнала таким образом, что части принимаемых кодированных аудиосигналов усиливаются или ослабляются на основе параметра усиления в ходе декодирования. Модуль 150 вычисления параметров усиления может быть выполнен с возможностью определять параметр g_n усиления посредством одного или более математических выражений или правил определения, приводящих к непрерывному значению. Операции, выполняемые в цифровой форме, например, посредством процессора, выражающие результат в переменной с ограниченным числом битов, могут приводить к квантованному усилению . Альтернативно, результат дополнительно может квантоваться согласно схеме квантования таким образом, что получается информация квантованного усиления. Следовательно, кодер 100 может содержать квантователь 170. Квантователь 170 может быть выполнен с возможностью квантовать определенное усиление g_n в ближайшее цифровое значение, поддерживаемое посредством цифровых операций кодера 100. Альтернативно, квантователь 170 может быть выполнен с возможностью применять функцию квантования (линейного или нелинейного) к уже оцифрованному и в силу этого квантованному коэффициенту g_n усиления. Функция нелинейного квантования может считать, например, логарифмические зависимости человеческого слуха очень чувствительными при низких уровнях звукового давления и менее чувствительными при высоких уровнях давления.

Кодер 100 дополнительно содержит модуль 180 извлечения информации, выполненный с возможностью извлечения связанной с коэффициентами прогнозирования информации 182 из коэффициентов 122 прогнозирования. Коэффициенты прогнозирования, такие как коэффициенты линейного прогнозирования, используемые для возбуждения изобретаемых таблиц кодирования, содержат низкую устойчивость к искажениям или ошибкам. Следовательно, например, известно преобразовывать коэффициенты линейного прогнозирования в межспектральные частоты (ISF) и/или извлекать пары спектральных линий (LSP) и передавать информацию, связанную с ними, вместе с кодированным аудиосигналом. Информация LSP и/или ISF содержит более высокую устойчивость к искажениям в средах передачи, например, к ошибке или ошибкам модуля вычисления. Модуль 180 извлечения информации дополнительно может содержать квантователь, выполненный с возможностью предоставлять квантованную информацию относительно LSF и/или ISP.

Альтернативно, модуль извлечения информации может быть выполнен с возможностью перенаправлять коэффициенты 122 прогнозирования. Альтернативно, кодер 100 может быть реализован без модуля 180 извлечения информации. Альтернативно, квантователь может представлять собой функциональный блок модуля 150 вычисления параметров усиления или модуля 190 формирования потоков битов, так что модуль 190 формирования потоков битов выполнен с возможностью принимать параметр g_n усиления и извлекать квантованное усиление на его основе. Альтернативно, когда параметр g_n усиленияуже квантован, кодер 100 может быть реализован без квантователя 170.

Кодер 100 содержит модуль 190 формирования потоков битов, выполненный с возможностью принимать вокализованный сигнал, вокализованную информацию 142, связанную с вокализованным кадром кодированного аудиосигнала, соответственно, предоставленного посредством кодера 140 вокализованных кадров, принимать квантованное усиление и связанную с коэффициентами прогнозирования информацию 182 и формировать выходной сигнал 192 на их основе.

Кодер 100 может представлять собой часть устройства речевого кодирования, такого как стационарный или мобильный телефон, либо устройства, содержащего микрофон для передачи аудиосигналов, такого как компьютер, планшетный PC и т.п. Выходной сигнал 192 или сигнал, извлекаемый из него, могут передаваться, например, через мобильную связь (беспроводную связь) или через проводную связь, к примеру, сетевой сигнал.

Преимущество кодера 100 состоит в том, что выходной сигнал 192 содержит информацию, извлекаемую из информации формирования спектра, преобразованной в квантованное усиление . Следовательно, декодирование выходного сигнала 192 может обеспечивать возможность достижения или получения дополнительной информации, которая является речевой, и в силу этого декодировать сигнал таким образом, что полученный декодированный сигнал содержит высокое качество относительно воспринимаемого уровня качества речи.

Фиг. 2 показывает принципиальную блок-схему декодера 200 для декодирования принимаемого входного сигнала 202. Принимаемый входной сигнал 202 может соответствовать, например, выходному сигналу 192, предоставленному посредством кодера 100, при этом выходной сигнал 192 может кодироваться посредством высокоуровневых кодеров, передаваться через среду, приниматься посредством приемного устройства, декодироваться на верхних уровнях, приводя к входному сигналу 202 для декодера 200.

Декодер 200 содержит модуль обратного формирования потоков битов (демультиплексор; демультиплексор) для приема входного сигнала 202. Модуль 210 обратного формирования потоков битов выполнен с возможностью предоставлять коэффициенты 122 прогнозирования, квантованное усиление и вокализованную информацию 142. Для получения коэффициентов 122 прогнозирования модуль обратного формирования потоков битов может содержать модуль обратного извлечения информации, выполняющий обратную операцию относительно модуля 180 извлечения информации. Альтернативно, декодер 200 может содержать непоказанный модуль обратного извлечения информации, выполненный с возможностью выполнения обратной операции относительно модуля 180 извлечения информации. Другими словами, коэффициенты прогнозирования декодируются, т.е. восстанавливаются.

Декодер 200 содержит модуль 220 вычисления информации формант, выполненный с возможностью вычисления информации формирования речевого спектра из коэффициентов 122 прогнозирования, как описано для модуля 160 вычисления информации формант. Модуль 220 вычисления информации формант выполнен с возможностью предоставлять информацию 222 формирования речевого спектра. Альтернативно, входной сигнал 202 также может содержать информацию 222 формирования речевого спектра, при этом передача коэффициентов прогнозирования или информации, связанной с ними, такой как, например, квантованная LSF и/или ISF, вместо информации 222 формирования речевого спектра обеспечивает более низкую скорость передачи битов входного сигнала 202.

Декодер 200 содержит генератор 240 случайного шума, выполненный с возможностью формирования шумоподобного сигнала, который может упрощенный обозначаться как шумовой сигнал. Генератор 240 случайного шума может быть выполнен с возможностью воспроизводить шумовой сигнал, который получен, например, при измерении и сохранении шумового сигнала. Шумовой сигнал может измеряться и записываться, например, посредством формирования теплового шума в сопротивлении или другом электрическом компоненте и посредством сохранения записанных данных в запоминающем устройстве. Генератор 240 случайного шума выполнен с возможностью предоставлять шумо(подобный) сигнал n(n).

Декодер 200 содержит формирователь 250, содержащий процессор 252 формирования и регулируемый усилитель 254. Формирователь 250 выполнен с возможностью придания определенной формы спектру шумового сигнала n(n). Процессор 252 формирования выполнен с возможностью приема информации формирования речевого спектра и придания определенной формы спектру шумового сигнала n(n), например, посредством умножения спектральных значений спектра шумового сигнала n(n) и значений информации формирования спектра. Операция также может выполняться во временной области посредством свертки шумового сигнала n(n) с помощью фильтра, заданного посредством информации формирования спектра. Процессор 252 формирования выполнен с возможностью предоставления шумового сигнала 256 определенной формы, его спектра, соответственно, в регулируемый усилитель 254. Регулируемый усилитель 254 выполнен с возможностью приема параметра g_n усиления и усиления спектра шумового сигнала 256 определенной формы, чтобы получать усиленный шумовой сигнал 258 определенной формы. Усилитель может быть выполнен с возможностью умножать спектральные значения шумового сигнала 256 определенной формы на значения параметра g_n усиления. Как указано выше, формирователь 250 может реализовываться таким образом, что регулируемый усилитель 254 выполнен с возможностью принимать шумовой сигнал n(n) и предоставлять усиленный шумовой сигнал в процессор 252 формирования, выполненный с возможностью формирования усиленного шумового сигнала. Альтернативно, процессор 252 формирования может быть выполнен с возможностью принимать информацию 222 формирования речевого спектра и параметр g_n усиления и применять последовательно, по одной, оба вида информации к шумовому сигналу n(n) либо комбинировать оба вида информации, например, посредством умножения или других вычислений и применять комбинированный параметр к шумовому сигналу n(n).

Шумоподобный сигнал n(n) или его усиленная версия, сформированная с информацией формирования речевого спектра, обеспечивают декодированный аудиосигнал 282, содержащий более речевое (естественное) качество звука. Это обеспечивает возможность получения высококачественных аудиосигналов и/или уменьшение скоростей передачи битов на стороне кодера при поддержании или улучшении выходного сигнала 282 в декодере с уменьшенным охватом.

Декодер 200 содержит синтезатор 260, выполненный с возможностью приема коэффициентов 122 прогнозирования и усиленного шумового сигнала 258 определенной формы и синтезирования синтезированного сигнала 262 из усиленного шумоподобного сигнала 258 определенной формы и коэффициентов 122 прогнозирования. Синтезатор 260 может содержать фильтр и может быть выполнен с возможностью адаптации фильтра с коэффициентами прогнозирования. Синтезатор может быть выполнен с возможностью фильтровать усиленный шумоподобный сигнал 258 определенной формы с помощью фильтра. Фильтр может реализовываться как программное обеспечение или как аппаратная структура и может содержать структуру с бесконечной импульсной характеристикой (IIR) или с конечной импульсной характеристикой (FIR).

Синтезированный сигнал соответствует невокализованному декодированному кадру выходного сигнала 282 декодера 200. Выходной сигнал 282 содержит последовательность кадров, которые могут преобразовываться в непрерывный аудиосигнал.

Модуль 210 обратного формирования потоков битов выполнен с возможностью разделения и предоставления сигнала 142 вокализованной информации из входного сигнала 202. Декодер 200 содержит декодер 270 вокализованных кадров, выполненный с возможностью предоставления вокализованного кадра на основе вокализованной информации 142. Декодер вокализ

Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием информации формирования речевого спектра

Патент 2646357