Системы и способы для подавления потенциальной нестабильности кадра
Иллюстрации
Показать всеИзобретение относится к электронным устройствам. Технический результат направлен на повышение надежности передачи кадра. В способе подавления потенциальной нестабильности кадра электронным устройством получают кадр речевого сигнала, определяют, является ли кадр потенциально нестабильным, принимают весовое значение заместителя для генерации стабильного параметра кадра, если кадр потенциально нестабилен, причем стабильный параметр кадра является промежуточным вектором линейно спектральной частоты кадра между векторами линейной спектральной частоты подкадров. 4 н. и 36 з.п. ф-лы, 19 ил.
Реферат
Родственные заявки
[0001] Данная заявка относится к и испрашивает приоритет по предварительной заявке на патент США № 61/767431, поданной 21 февраля 2013 г., под названием “SYSTEMS AND METHODS FOR CORRECTING A POTENTIAL LINE SPECTRAL FREQUENCY INSTABILITY”.
Область техники, к которой относится изобретение
[0002] Изобретение относится в целом к электронным устройствам. В частности, настоящее изобретение относится к системам и способам для подавления потенциальной нестабильности кадра.
Уровень техники
[0003] В последние несколько десятилетий стали широко использоваться электронные устройства. В частности, развитие электронной технологии привело к снижению стоимости все более сложных и полезных электронных устройств. Снижение стоимости и потребности потребителя способствовали использованию электронных устройств, что привело к их практически повсеместному распространению в современном обществе. По мере расширения использования электронных устройств, требуются новые и усовершенствованные признаки электронных устройств. В частности, электронные устройства, которые осуществляют новые функции и/или которые осуществляют функции быстрее, более эффективно или с более высоким качеством, пользуются повышенным спросом.
[0004] Некоторые электронные устройства (например, сотовые телефоны, смартфоны, устройства звукозаписи, бытовые видеокамеры, компьютеры и т.д.) используют аудиосигналы. Эти электронные устройства может кодировать, сохранять и/или передавать аудиосигналы. Например, смартфон может получать, кодировать и передавать речевой сигнал для телефонного вызова, тогда как другой смартфон может принимать и декодировать речевой сигнал.
[0005] Однако при кодировании, передаче и декодировании аудиосигналов возникают конкретные проблемы. Например, аудиосигнал можно кодировать для сокращения величины полосы необходимой для передачи аудиосигнала. Когда часть аудиосигнала теряется при передаче, может быть трудно точно представлять декодированный аудиосигнал. Из этого рассмотрения следует, что могут быть полезны системы и способы, улучшающие декодирование.
Сущность изобретения
[0006] Описан способ подавления потенциальной нестабильности кадра электронным устройством. Способ включает в себя получение кадра, следующего по времени за удаленным кадром. Способ также включает в себя определение, является ли кадр потенциально нестабильным. Способ дополнительно включает в себя применение весового значения заместителя для генерации стабильного параметра кадра, если кадр потенциально нестабилен. Параметром кадра может быть промежуточный вектор линейной спектральной частоты кадра. Способ может включать в себя применение принятого весового вектора для генерации промежуточного вектора линейной спектральной частоты текущего кадра.
[0007] Весовое значение заместителя может быть заключено между 0 и 1. Генерация стабильного параметра кадра может включать в себя применение весового значения заместителя к концевому вектору линейной спектральной частоты текущего кадра и концевому вектору линейной спектральной частоты предыдущего кадра. Генерация стабильного параметра кадра может включать в себя определение промежуточного вектора линейной спектральной частоты заместителя текущего кадра, который равен произведению концевого вектора линейной спектральной частоты текущего кадра и весового значения заместителя плюс произведение концевого вектора линейной спектральной частоты предыдущего кадра и разности единицы и весового значения заместителя. Весовое значение заместителя можно выбирать на основании по меньшей мере одной из классификации двух кадров и разности линейных спектральных частот между двумя кадрами.
[0008] Определение, является ли кадр потенциально нестабильным, может осуществляться на основании того, упорядочена ли промежуточная линейная спектральная частота текущего кадра в соответствии с правилом до всякого переупорядочения. Определение, является ли кадр потенциально нестабильным, может осуществляться на основании того, находится ли кадр в пределах порогового количества кадров после удаленного кадра. Определение, является ли кадр потенциально нестабильным, может осуществляться на основании того, использует ли какой-либо кадр между кадром и удаленным кадром квантование без прогнозирования.
[0009] Описано также электронное устройство для подавления потенциальной нестабильности кадра. Электронное устройство включает в себя схему определения параметра кадра, которая получает кадр, следующий по времени за удаленным кадром. Электронное устройство также включает в себя схему определения стабильности, подключенную к схеме определения параметра кадра. Схема определения стабильности определяет, является ли кадр потенциально нестабильным. Электронное устройство дополнительно включает в себя схему замещения весового значения, подключенную к схеме определения стабильности. Схема замещения весового значения применяет весовое значение заместителя для генерации стабильного параметра кадра, если кадр потенциально нестабилен.
[0010] Описан также компьютерный программный продукт для подавления потенциальной нестабильности кадра. Компьютерный программный продукт включает в себя нетранзиторный вещественный компьютерно-считываемый носитель с инструкциями. Инструкции включают в себя код, предписывающий электронному устройству получать кадр, следующий по времени за удаленным кадром. Инструкции также включают в себя код, предписывающий электронному устройству определять, является ли кадр потенциально нестабильным. Инструкции дополнительно включают в себя код, предписывающий электронному устройству применять весовое значение заместителя для генерации стабильного параметра кадра, если кадр потенциально нестабилен.
[0011] Описано также устройство для подавления потенциальной нестабильности кадра. Устройство включает в себя средство для получения кадра, следующего по времени за удаленным кадром. Устройство также включает в себя средство для определения, является ли кадр потенциально нестабильным. Устройство дополнительно включает в себя средство для применения весового значения заместителя для генерации стабильного параметра кадра, если кадр потенциально нестабилен.
Краткое описание чертежей
[0012] Фиг. 1 - блок-схема, демонстрирующая общий пример кодера и декодера;
[0013] фиг. 2 - блок-схема, демонстрирующая пример базовой реализации кодера и декодера;
[0014] фиг. 3 - блок-схема, демонстрирующая пример широкополосного речевого кодера и широкополосного речевого декодера;
[0015] фиг. 4 - блок-схема, демонстрирующая более конкретный пример кодера;
[0016] фиг. 5 - схема, демонстрирующая пример кадров в зависимости от времени;
[0017] фиг. 6 - блок-схема операций, демонстрирующая одну конфигурацию способа кодирования речевого сигнала кодером;
[0018] фиг. 7 - схема, демонстрирующая пример определения вектора линейной спектральной частоты (LSF);
[0019] фиг. 8 включает в себя две схемы, демонстрирующие примеры интерполяции и экстраполяции LSF;
[0020] фиг. 9 - блок-схема операций, демонстрирующая одну конфигурацию способа декодирования кодированного речевого сигнала декодером;
[0021] фиг. 10 - схема, демонстрирующая один пример кластеризованных измерений LSF;
[0022] фиг. 11 - график, демонстрирующий пример артефактов вследствие кластеризованных измерений LSF;
[0023] фиг. 12 - блок-схема, демонстрирующая одну конфигурацию электронного устройства выполненного с возможностью подавления потенциальной нестабильности кадра;
[0024] фиг. 13 - блок-схема операций, демонстрирующая одну конфигурацию способа подавления потенциальной нестабильности кадра;
[0025] фиг. 14 - блок-схема операций, демонстрирующая более конкретную конфигурацию способа подавления потенциальной нестабильности кадра;
[0026] фиг. 15 - блок-схема операций, демонстрирующая другую более конкретную конфигурацию способа подавления потенциальной нестабильности кадра;
[0027] фиг. 16 - блок-схема операций, демонстрирующая другую более конкретную конфигурацию способа подавления потенциальной нестабильности кадра;
[0028] фиг. 17 - график, демонстрирующий пример синтезированного речевого сигнала;
[0029] фиг. 18 - блок-схема, демонстрирующая одну конфигурацию устройства беспроводной связи, в котором можно реализовать системы и способы для подавления потенциальной нестабильности кадра;
[0030] фиг. 19 демонстрирует различные компоненты, которые можно использовать в электронном устройстве.
Подробное описание
[0031] Различные конфигурации описаны ниже со ссылкой на чертежи, где аналогичные ссылочные позиции могут указывать функционально сходные элементы. Системы и способы, описанные и проиллюстрированные в целом здесь на чертежах, могут быть сконструированы в самых разнообразных конфигурациях. Таким образом, нижеследующее более подробное описание нескольких конфигураций, представленных на чертежах, не призвано ограничивать объем заявленного изобретения, но лишь представляет системы и способы.
[0032] На фиг. 1 показана блок-схема, демонстрирующая общий пример кодера 104 и декодера 108. Кодер 104 принимает речевой сигнал 102. Речевой сигнал 102 может быть речевым сигналом в любом диапазоне частот. Например, речевой сигнал 102 может быть сигналом полной полосы с приблизительным диапазоном частот 0-24 килогерц (кГц), сверхширокоплосным сигналом с приблизительным диапазоном частот 0-16 кГц, широкополосным сигналом с приблизительным диапазоном частот 0-8 кГц, узкополосным сигналом с приблизительным диапазоном частот 0-4 кГц, сигналом нижней полосы с приблизительным диапазоном частот 50-300 герц (Гц) или сигналом верхней полосы с приблизительным диапазоном частот 4-8 кГц. Другие возможные диапазоны частот для речевого сигнала 102 включают в себя 300-3400 Гц (например, диапазон частот коммутируемой телефонной сети общего пользования (PSTN)), 14-20 кГц, 16-20 кГц и 16-32 кГц. В некоторых конфигурациях речевой сигнал 102 может дискретизироваться с частотой 16 кГц и может иметь приблизительный диапазон частот 0-8 кГц.
[0033] Кодер 104 кодирует речевой сигнал 102 для формирования кодированного речевого сигнала 106. В общем случае кодированный речевой сигнал 106 включает в себя один или более параметров, которые представляют речевой сигнал 102. Один или более из параметров можно квантовать. Примеры одного или более параметров включают в себя параметры фильтрации (например, весовые коэффициенты, линейные спектральные частоты (LSF), линейные спектральные пары (LSP), спектральные частоты иммитанса (ISF), спектральные пары иммитанса (ISP), коэффициенты частичной корреляции (PARCOR), коэффициенты отражения и/или значения логарифмического отношения площадей и т.д.) и параметры, включенные в кодированный сигнал возбуждения (например, коэффициенты усиления, индексы адаптивной кодовой книги, коэффициенты усиления адаптивной кодовой книги, индексы фиксированной кодовой книги и/или коэффициенты усиления фиксированной кодовой книги и т.д.). Параметры могут соответствовать одной или более полосам частот. Декодер 108 декодирует кодированный речевой сигнал 106 для формирования декодированного речевого сигнала 110. Например, декодер 108 строит декодированный речевой сигнал 110 на основании одного или более параметров, включенных в кодированный речевой сигнал 106. Декодированный речевой сигнал 110 может быть приближенным воспроизведением исходного речевого сигнала 102.
[0034] Кодер 104 можно реализовать в оборудовании (например, схеме), программном обеспечении или их комбинации. Например, кодер 104 можно реализовать в виде специализированной интегральной схемы (ASIC) или в виде процессора с инструкциями. Аналогично, декодер 108 можно реализовать в оборудовании (например, схеме), программном обеспечении или их комбинации. Например, декодер 108 можно реализовать в виде специализированной интегральной схемы (ASIC) или в виде процессора с инструкциями. Кодер 104 и декодер 108 можно реализовать на отдельных электронных устройствах или на одном и том же электронном устройстве.
[0035] На фиг. 2 показана блок-схема, демонстрирующая пример базовой реализации кодера 204 и декодера 208. Кодер 204 может быть одним примером кодера 104, описанным в связи с фиг. 1. Кодер 204 может включать в себя модуль 212 анализа, преобразование 214 коэффициентов, блок 216 квантования A, блок 218 обратного квантования A, обратное преобразование 220 коэффициентов A, анализирующий фильтр 222 и блок 224 квантования B. Один или более из компонентов кодера 204 и/или декодера 208 можно реализовать в оборудовании (например, схеме), программном обеспечении или их комбинации.
[0036] Кодер 204 принимает речевой сигнал 202. Следует отметить, что речевой сигнал 202 может включать в себя любой диапазон частот, как описано выше в связи с фиг. 1 (например, всю полосу речевых частот или поддиапазон речевых частот).
[0037] В этом примере модуль 212 анализа кодирует спектральную огибающую речевого сигнала 202 как набор коэффициентов линейного прогнозирования (LP) (например, коэффициенты A(z) анализирующего фильтра, которые можно применять для формирования всеполюсного синтезирующего фильтра 1/A(z), где z-комплексное число). Модуль 212 анализа обычно обрабатывает входной сигнал как последовательность неперекрывающихся кадров речевого сигнала 202, причем новый набор коэффициентов вычисляется для каждого кадра или подкадра. В некоторых конфигурациях период кадра может быть периодом, в течение которого можно ожидать, что речевой сигнал 202 является локально стационарным. Один общий пример периода кадра составляет 20 миллисекунд (мс) (эквивалентно, например, 160 выборкам при частоте дискретизации 8 кГц). В одном примере модуль 212 анализа выполнен с возможностью вычисления набора из десяти коэффициентов линейного прогнозирования для характеризации формантной структуры каждого 20-мс кадра. Можно также реализовать модуль 212 анализа для обработки речевого сигнала 202 как последовательности перекрывающихся кадров.
[0038] Модуль 212 анализа может быть выполнен с возможностью непосредственного анализа выборок каждого кадра, или выборки сначала могут взвешиваться согласно вырезающей функции (например, взвешивающей функции Хэмминга). Анализ также может осуществляться в пределах окна, превышающего кадр, например 30-мс окна. Это окно может быть симметричным (например, 5-20-5, то есть включающим в себя 5 миллисекунд непосредственно до и после 20-миллисекундного кадра) или асимметричным (например, 10-20, то есть включающим в себя последние 10 миллисекунд предыдущего кадра). Модуль 212 анализа обычно выполнен с возможностью вычисления коэффициентов линейного прогнозирования с использованием рекурсии Левинсона-Дурбина или алгоритма Леру-Гогена. В другой реализации модуль анализа может быть выполнен с возможностью вычисления набора кепстральных коэффициентов для каждого кадра вместо набора коэффициентов линейного прогнозирования.
[0039] Выходную скорость кодера 204 можно значительно снизить без особого ущерба для качества воспроизведения, посредством квантования коэффициентов. Коэффициенты линейного прогнозирования трудно эффективно квантовать и обычно отображаются в другое представление, например LSF, для квантования и/или энтропийного кодирования. В примере, приведенном на фиг. 2, преобразование 214 коэффициентов преобразует набор коэффициентов в соответствующий вектор LSF (например, набор измерений LSF). Другие взаимно-однозначные представления коэффициентов включают в себя LSP, коэффициенты PARCOR, коэффициенты отражения, значения логарифмического отношения площадей, ISP и ISF. Например, ISF можно использовать в AMR-WB (адаптивном многоскоростном широкополосном) кодеке GSM (глобальной системы мобильной связи). Для удобства, термин “линейные спектральные частоты”, “измерения LSF”, “векторы LSF” и родственные термины можно использовать в отношении одного или более из LSF, LSP, ISF, ISP, коэффициентов PARCOR, коэффициентов отражения и значений логарифмического отношения площадей. Обычно преобразование между набором коэффициентов и соответствующим вектором LSF обратимо, но некоторые конфигурации могут включать в себя реализации кодера 204, в которых преобразование невозможно обратить без ошибки.
[0040] Блок 216 квантования A выполнен с возможностью квантования вектора LSF (или другого представления коэффициентов). Кодер 204 может выводить результат этого квантования в виде параметров 228 фильтрации. Блок 216 квантования A обычно включает в себя блок квантования вектора, который кодирует входной вектор (например, вектор LSF) как индекс соответствующей записи вектора в таблице или кодовой книге.
[0041] Как следует из фиг. 2, кодер 204 также генерирует остаточный сигнал, пропуская речевой сигнал 202 через анализирующий фильтр 222 (также именуемый отбеливающим фильтром или фильтром ошибок прогнозирования), сконфигурированный согласно набору коэффициентов. Анализирующий фильтр 222 можно реализовать как фильтр с конечной импульсной характеристикой (FIR) или фильтр с бесконечной импульсной характеристикой (IIR). Этот остаточный сигнал обычно содержит перцепционно важную информацию речевого кадра, например долговременную структуру, относящуюся к основному тону, которая не представлена в параметрах 228 фильтрации. Блок 224 квантования B выполнен с возможностью вычисления квантованного представления этого остаточного сигнала для вывода в качестве кодированного сигнала 226 возбуждения. В некоторых конфигурациях блок 224 квантования B включает в себя блок квантования вектора, который кодирует входной вектор как индекс соответствующей записи вектора в таблице или кодовой книге. Дополнительно или альтернативно, блок 224 квантования B может быть выполнен с возможностью отправки одного или более параметров, из которых на декодере может динамически генерироваться вектор, вместо того чтобы извлекать их из хранилища, как в способе разреженной кодовой книги. Такой способ используется в таких схемах кодирования, как алгебраическое CELP (линейное прогнозирование с кодовым возбуждением) и в таких кодеках, как EVRC (улучшенный кодек переменной скорости) 3GPP2 (проекта партнерства третьего поколения 2). В некоторых конфигурациях кодированный сигнал 226 возбуждения и параметры 228 фильтрации могут быть включены в кодированный речевой сигнал 106.
[0042] Может быть полезно, чтобы кодер 204 генерировал кодированный сигнал 226 возбуждения согласно тем же значениям параметров фильтрации, которые будут доступны соответствующему декодеру 208. Таким образом, результирующий кодированный сигнал 226 возбуждения может уже до некоторой степени учитывать отклонения от идеала в этих значениях параметров, например ошибку квантования. Соответственно может быть полезно конфигурировать анализирующий фильтр 222 с использованием тех же значений коэффициентов, которые будут доступны на декодере 208. В базовом примере кодера 204, проиллюстрированном на фиг. 2, блок 218 обратного квантования A деквантует параметры 228 фильтрации. Обратное преобразование 220 коэффициентов A отображает результирующие значения обратно в соответствующий набор коэффициентов. Этот набор коэффициентов используется для конфигурирования анализирующего фильтра 222 для генерации остаточного сигнала, квантованного блоком 224 квантования B.
[0043] Некоторые реализации кодера 204 выполнены с возможностью вычисления кодированного сигнала 226 возбуждения путем идентификации одного из набора векторов кодовой книги, который наилучшим образом согласуется с остаточным сигналом. Заметим, однако, что кодер 204 можно также реализовать для вычисления квантованного представления остаточного сигнала без фактической генерации остаточного сигнала. Например, кодер 204 может быть выполнен с возможностью использования нескольких векторов кодовой книги для генерации соответствующих синтезированных сигналов (согласно, например, текущему набору параметров фильтрации) и выбора вектора кодовой книги, связанного со сгенерированным сигналом, который наилучшим образом согласуется с исходным речевым сигналом 202 в перцепционно взвешенной области.
[0044] Декодер 208 может включать в себя блок 230 обратного квантования B, блок 236 обратного квантования C, обратное преобразование 238 коэффициентов B и синтезирующий фильтр 234. Блок 236 обратного квантования C деквантует параметры 228 фильтрации (например, вектор LSF), и обратное преобразование 238 коэффициентов B преобразует вектор LSF в набор коэффициентов (например, как описано выше со ссылкой на блок 218 обратного квантования A и обратное преобразование 220 коэффициентов A кодера 204). Блок 230 обратного квантования B деквантует кодированный сигнал 226 возбуждения для формирования сигнала 232 возбуждения. На основании коэффициентов и сигнала 232 возбуждения, синтезирующий фильтр 234 синтезирует декодированный речевой сигнал 210. Другими словами, синтезирующий фильтр 234 выполнен с возможностью формирования спектра сигнала 232 возбуждения согласно деквантованным коэффициентам для формирования декодированного речевого сигнала 210. В некоторых конфигурациях декодер 208 также может выдавать сигнал 232 возбуждения на другой декодер, который может использовать сигнал 232 возбуждения для получения сигнала возбуждения другой полосы частот (например, верхней полосы). В некоторых реализациях декодер 208 может быть выполнен с возможностью предоставления другому декодеру дополнительной информации, которая относится к сигналу 232 возбуждения, например спектральный наклон, коэффициент усиления и отставание основного тона и речевой режим.
[0045] Система кодера 204 и декодера 208 является базовым примером речевого кодека на основе анализа через синтез. Кодирование на основе линейного прогнозирования с возбуждением кодовой книгой является одним популярным семейством кодирования посредством анализа через синтез. Реализации таких кодеров могут осуществлять кодирование формы волны остатка, включающее в себя такие операции, как выбор записей из фиксированных и адаптивных кодовых книг, операции минимизации ошибок и/или операции перцептивного взвешивания. Другие реализации кодирования посредством анализа через синтез включают в себя кодирование на основе линейного прогнозирования со смешанным возбуждением (MELP), алгебраического CELP (ACELP), релаксационного CELP (RCELP), регулярного импульсного возбуждения (RPE), многоимпульсного возбуждения (MPE), многоимпульсного CELP (MP-CELP) и линейного прогнозирования с возбуждением векторной суммой (VSELP). Родственные способы кодирования включают в себя кодирование на основе многополосного возбуждения (MBE) и интерполяции формы волны прототипа (PWI). Примеры стандартизованных речевых кодеков на основе анализа через синтез включают в себя полноскоростной кодек ETSI (Европейский институт телекоммуникационных стандартов)-GSM (GSM 06.10) (который использует линейное прогнозирование с остаточным возбуждением (RELP)), улучшенный полноскоростной кодек GSM (ETSI-GSM 06.60), стандартный кодер 11.8 килобит в секунду (кбит/с) ITU (Международный союз телекоммуникаций) G.729 приложение E, кодеки IS (внутренний стандарт)-641 для IS-136 (схема множественного доступа с временным разделением), адаптивные многоскоростные кодеки GSM (GSM-AMR) и кодек 4GV™ (Fourth-Generation Vocoder ™) (QUALCOMM Incorporated, San Diego, Calif.). Кодер 204 и соответствующий декодер 208 можно реализовать согласно любой из этих технологий или любой другой технологии кодирования речи (известной или перспективной), которая представляет речевой сигнал как (A) набор параметров, которые описывают фильтр, и (B) сигнал возбуждения, используемый для возбуждения описанного фильтра для воспроизведения речевого сигнала.
[0046] Даже после того как анализирующий фильтр 222 удаляет грубую спектральную огибающую из речевого сигнала 202, могут оставаться значительный объем тонкой гармонической структуры, в особенности для вокализованной речи. Периодическая структура относится к основному тону, и разные вокализованные звуки, издаваемые одним и тем же говорящим, могут иметь разные формантные структуры, но сходные структуры основного тона.
[0047] Эффективность кодирования и/или качество речи можно повысить с использованием одного или более значений параметров для кодирования характеристик структуры основного тона. Одной важной характеристикой структуры основного тона является частота первой гармоники (также именуемой основной частотой), которая обычно составляет в пределах от 60 до 400 герц (Гц). Эта характеристика обычно кодируется как величина, обратная основной частоте, также именуемая отставанием основного тона. Отставание основного тона указывает количество выборок в одном периоде основного тона и может кодироваться как один или более индексов кодовой книги. Речевым сигналам от говорящих мужского пола свойственно иметь отставания основного тона большей величины, чем речевые сигналы от говорящих женского пола.
[0048] Другой характеристикой сигнала, относящейся к структуре основного тона, является периодичность, которая указывает силу гармонической структуры или, другими словами, до какой степени сигнал является гармоническим или ангармоническим. Двумя типичными индикаторами периодичности являются пересечения нуля и нормализованные автокорреляционные функции (NACF). Периодичность также может быть указана коэффициентом усиления основного тона, который обычно кодируется как коэффициент усиления кодовой книги (например, квантованный коэффициент усиления адаптивной кодовой книги).
[0049] Кодер 204 может включать в себя один или более модулей, выполненных с возможностью кодирования долговременной гармонической структуры речевого сигнала 202. В некоторых подходах к кодированию на основе CELP кодер 204 включает в себя модуль анализа на основе кодирования с линейный прогнозированием (LPC) открытого цикла, который кодирует кратковременные характеристики или грубую спектральную огибающую, после которого следует стадия анализа на основе долгосрочного прогнозирования замкнутого цикла, который кодирует тонкую структуру основного тона или гармоническую структуру. Кратковременные характеристики кодируются как коэффициенты (например, параметры 228 фильтрации), и долговременные характеристики кодируются как значения параметров, например, отставание основного тона и коэффициент усиления основного тона. Например, кодер 204 может быть выполнен с возможностью вывода кодированного сигнала 226 возбуждения в форме, которая включает в себя один или более индексов кодовой книги (например, индекс фиксированной кодовой книги и индекс адаптивной кодовой книги) и соответствующие значения коэффициента усиления. Вычисление этого квантованного представления остаточного сигнала (например, блоком 224 квантования B) может включать в себя выбор таких индексов и вычисление таких значений. Кодирование структуры основного тона также может включать в себя интерполяцию формы волны прототипа основного тона, и эта операция может включать в себя вычисление разности между последовательными импульсами основного тона. Моделирование долговременной структуры может быть запрещено для кадров, соответствующих невокализованной речи, которая обычно шумоподобна и не структурирована.
[0050] Некоторые реализации декодера 208 могут предусматривать возможность вывода сигнала 232 возбуждения на другой декодер (например, декодер верхней полосы) после восстановления долговременной структуры (основного тона или гармонической структуры). Например, такой декодер может быть выполнен с возможностью вывода сигнала 232 возбуждения как деквантованной версией кодированного сигнала 226 возбуждения. Конечно, можно также реализовать декодер 208 таким образом, что другой декодер осуществляет деквантование кодированного сигнала 226 возбуждения для получения сигнала 232 возбуждения.
[0051] На фиг. 3 показана блок-схема, демонстрирующая пример широкополосного речевого кодера 342 и широкополосного речевого декодера 358. Один или более компонентов широкополосного речевого кодера 342 и/или широкополосного речевого декодера 358 можно реализовать в оборудовании (например, схеме), программном обеспечении или их комбинации. Широкополосный речевой кодер 342 и широкополосный речевой декодер 358 можно реализовать на отдельных электронных устройствах или на одном и том же электронном устройстве.
[0052] Широкополосный речевой кодер 342 включает в себя набор 344 фильтров A, кодер 348 первой полосы и кодер 350 второй полосы. Набор 344 фильтров A выполнен с возможностью фильтрации широкополосного речевого сигнала 340 для формирования сигнала 346a первой полосы (например, узкополосного сигнала) и сигнала 346b второй полосы (например, сигнала верхней полосы).
[0053] Кодер 348 первой полосы выполнен с возможностью кодирования сигнала 346a первой полосы для формирования параметров 352 фильтрации (например, параметров узкополосной (NB) фильтрации) и кодированного сигнала 354 возбуждения (например, кодированного узкополосного сигнала возбуждения). В некоторых конфигурациях кодер 348 первой полосы может формировать параметры 352 фильтрации и кодированный сигнал 354 возбуждения как индексы кодовой книги или в другой квантованной форме. В некоторых конфигурациях кодер 348 первой полосы можно реализовать в соответствии с кодером 204, описанным в связи с фиг. 2.
[0054] Кодер 350 второй полосы выполнен с возможностью кодирования сигнала 346b второй полосы (например, сигнала верхней полосы) согласно информации в кодированном сигнале 354 возбуждения для формирования параметров 356 кодирования второй полосы (например, параметров кодирования верхней полосы). Кодер 350 второй полосы может быть выполнен с возможностью формирования параметров 356 кодирования второй полосы как индексы кодовой книги или в другой квантованной форме. Один конкретный пример широкополосного речевого кодера 342 выполнен с возможностью кодирования широкополосного речевого сигнала 340 на скорости около 8.55 кбит/с, причем около 7.55 кбит/с используется для параметров 352 фильтрации и кодированного сигнала 354 возбуждения, и около 1 кбит/с используется для параметров 356 кодирования второй полосы. В некоторых реализациях параметры 352 фильтрации, кодированный сигнал 354 возбуждения и параметры 356 кодирования второй полосы могут быть включены в кодированный речевой сигнал 106.
[0055] В некоторых конфигурациях кодер 350 второй полосы можно реализовать аналогично кодеру 204, описанному в связи с фиг. 2. Например, кодер 350 второй полосы может формировать параметры фильтрации второй полосы (например, в составе параметров 356 кодирования второй полосы) как описано в связи с кодером 204, описанным в связи с фиг. 2. Однако кодер 350 второй полосы может отличаться в некоторых отношениях. Например, кодер 350 второй полосы может включать в себя генератор возбуждения второй полосы, который может генерировать сигнал второй полосы возбуждения на основании кодированного сигнала 354 возбуждения. Кодер 350 второй полосы может использовать сигнал второй полосы возбуждения для формирования синтезированного сигнала второй полосы и для определения коэффициента усиления второй полосы. В некоторых конфигурациях кодер 350 второй полосы может квантовать коэффициент усиления второй полосы. Соответственно примеры параметров 356 кодирования второй полосы включают в себя параметры фильтрации второй полосы и квантованный коэффициент усиления второй полосы.
[0056] Может быть полезно объединять параметры 352 фильтрации, кодированный сигнал 354 возбуждения и параметры 356 кодирования второй полосы в единый битовый поток. Например, может быть полезно мультиплексировать кодированные сигналы друг с другом для передачи (например, по проводному, оптическому или беспроводному каналу передачи) или для сохранения в качестве кодированного широкополосного речевого сигнала. В некоторых конфигурациях широкополосный речевой кодер 342 включает в себя мультиплексор (не показан), выполненный с возможностью объединения параметров 352 фильтрации, кодированного сигнала 354 возбуждения и параметров 356 кодирования второй полосы в мультиплексированный сигнал. Параметры 352 фильтрации, кодированный сигнал 354 возбуждения и параметры 356 кодирования второй полосы могут быть примерами параметров, включенных в кодированный речевой сигнал 106, как описано в связи с фиг. 1.
[0057] В некоторых реализациях электронное устройство который включает в себя широкополосный речевой кодер 342 также может включать в себя схему, выполненную с возможностью передачи мультиплексированного сигнала в канал передачи, например, проводной, оптический или беспроводной канал. Такое электронное устройство также может быть выполнено с возможностью осуществления одной или более операций кодирования канала на сигнале, например кодирования с исправлением ошибок (например, совместимого по скорости сверточного кодирования) и/или кодирования, с обнаружением ошибок (например, циклического избыточностного кодирования) и/или одного или более уровней кодирования сетевого протокола (например, Ethernet, протокола управления передачей/интернет-протокола (TCP/IP), cdma2000 и т.д.).
[0058] Может быть полезно, чтобы мультиплексор был выполнен с возможностью внедрения параметров 352 фильтрации и кодированного сигнала 354 возбуждения в качестве отделимого подпотока мультиплексированного сигнала таким образом, что параметры 352 фильтрации и кодированный сигнал 354 возбуждения могут восстанавливаться и декодироваться независимо от другой части мультиплексированного сигнала, например, сигнала верхней полосы и/или нижней полосы. Например, мультиплексированный сигнал может быть сконфигурирован таким образом, что параметры 352 фильтрации и кодированный сигнал 354 возбуждения можно восстанавливать путем удаления параметров 356 кодирования второй полосы. Окно потенциальное преимущество такого признака состоит в возможности избегать необходимости перекодирования параметров 356 кодирования второй полосы до их передачи системе, которая поддерживает декодирование параметров 352 фильтрации и кодированного сигнала 354 возбуждения, но не поддерживает декодирование параметров 356 кодирования второй полосы.
[0059] Широкополосный речевой декодер 358 может включать в себя декодер 360 первой полосы, декодер 366 второй полосы и набор 368 фильтров B. Декодер 360 первой полосы (например, узкополосный декодер) выполнен с возможностью декодирования параметров 352 фильтрации и кодированного сигнала 354 возбуждения для формирования декодированного сигнала 362a первой полосы (например, декодированного узкополосного сигнала). Декодер 366 второй полосы выполнен с возможностью декодирования параметров 356 кодирования второй полосы согласно сигналу 364 возбуждения (например, узкополосного сигнала возбуждения), на основании кодированного сигнала 354 возбуждения, для формирования декодированного сигнала 362b второй полосы (например, декодированного сигнала верхней полосы). В этом примере декодер 360 первой полосы выполнен с возможностью выдачи сигнала 364 возбуждения на декодер 366 второй полосы. Набор 368 фильтров выполнен с возможностью объединения декодированного сигнала 362a первой полосы и декодированного сигнала 362b второй полосы для формирования декодированного широкополосного речевого сигнала 370.
[0060] Некоторые реализации широкополосного речевого декодера 358 могут включать в себя демультиплексор (не показан), выполненный с возможностью формирования параметров 352 фильтрации, кодированного сигнала 354 возбуждения и параметров 356 кодирования второй полосы из мультиплексированного сигнала. Электронное устройство, включающее в себя широкополосный речевой декодер 358, может включать в себя схему, выполненную с возможностью приема мультиплексированного сигнала из канала передачи, например проводного, оптического или беспроводного канала. Такое электронное устройство также может быть выполнено с возможностью осуществления одной или более операций декодирования канала на сигнале, например декодирования с исправлением ошибок (например, совместимого по скорости сверточного декодирования) и/или декодирования с обнаружением ошибок (например, циклического избыточностного декодирования) и/или одного или более уровней декодирования сетевого протокола (например, Ethernet, TCP/IP, cdma2000).
[0061] Набор 344 фильтров A в широкополосном речевом кодере 342 выполнен с возможностью фильтрации входного сигнала согласно схеме разделения полос для формирования сигнала 346a первой полосы (например, узкополосного сигнала или низ