Способ и устройство для векторного квантования с надежным предсказанием параметров линейного предсказания в кодировании речи с переменной битовой скоростью

Патент 2326450

Авторы

ЖЕЛИНЕК Милан (CA)

Правообладатели

НОКИА КОРПОРЕЙШН (FI)

Классы МПК

G10L19/14 - детали, не отнесенные к группам G10L 19/06-G10L 19/12, например кодирование усиления, постфильтрационная схема, структура вокадера

Способ и устройство для векторного квантования с надежным предсказанием параметров линейного предсказания в кодировании речи с переменной битовой скоростью

Иллюстрации

Показать все

Изобретение относится к способу и устройству для квантования параметров линейного предсказания в кодировании звукового сигнала с переменной битовой скоростью, при котором принимают входной вектор параметров линейного предсказания, классифицируют кадр звукового сигнала, соответствующий входному вектору параметров линейного предсказания, вычисляют вектор предсказания, вычисленный вектор предсказания удаляют из входного вектора параметров линейного предсказания для создания вектора ошибки предсказания, и вектор ошибки предсказания квантуют. Вычисление вектора предсказания включает в себя выбор одной из множества схем предсказания в отношении классификации кадра звукового сигнала и обработку вектора ошибки предсказания посредством выбранной схемы предсказания. Изобретение относится к способу и устройству для обратного квантования параметров линейного предсказания в декодировании звукового сигнала с переменной битовой скоростью, при котором принимают, по меньшей мере, один индекс квантования и информацию классификации кадра звукового сигнала, соответствующую индексу квантования, восстанавливают вектор ошибки предсказания посредством применения индекса по меньшей мере к одной таблице квантования, воссоздают вектор предсказания, и создают вектор параметров линейного предсказания в зависимости от восстановленного вектора ошибки предсказания и воссозданного вектора предсказания. Воссоздание вектора предсказания включает в себя обработку восстановленного вектора ошибки предсказания посредством одной из множества схем предсказания в зависимости от информации классификации кадра. Технический результат - уменьшение ошибок квантования. 6 н. и 51 з.п ф-лы, 8 ил.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение относится к усовершенствованному способу цифрового кодирования звукового сигнала, в частности речевого сигнала и т.д., с точки зрения передачи и синтезирования указанного звукового сигнала. Более конкретно, настоящее изобретение имеет отношение к способу и устройству для векторного квантования параметров линейного предсказания в кодировании, основанном на линейном предсказании, с переменной битовой скоростью (скоростью передачи битов).

УРОВЕНЬ ТЕХНИКИ

Кодирование речи и квантование параметров линейного предсказания (ЛП, LP).

Системы цифровой речевой связи, например, системы радиосвязи, используют речевые кодеры для увеличения пропускной способности при поддержании высокого качества речи. Речевой кодер осуществляет преобразование речевого сигнала в цифровой поток битов, который передается через канал связи или сохраняется на носителе информации. Речевой сигнал оцифровывается, то есть дискретизируется и квантуется, обычно, 16-битами на выборку. Назначение речевого кодера состоит в представлении указанных цифровых выборок меньшим количеством битов при поддержании хорошего субъективного качества речи. Речевой декодер или синтезатор функционирует на переданном или сохраненном потоке битов и преобразует его обратно в звуковой сигнал.

Способы цифрового кодирования речи, основанные на анализе линейного предсказания, были очень удачны для кодирования речи с низкой битовой скоростью. В частности, одним из наилучших известных способов для достижения хорошего компромисса между субъективным качеством и битовой скоростью являетсякодирование с кодовым линейным предсказанием (CELP). Указанный способ кодирования является базовым для нескольких стандартов кодирования речи в приложениях проводной связи и радиосвязи. В CELP-кодировании дискретизированный речевой сигнал обрабатывается в последовательных блоках из N выборок, обычно называемых кадрами, где N является предварительно определенным числом, обычно соответствующим 10-30 мс. Каждый кадр вычисляется, кодируется, и передается фильтр A(z) линейного предсказания (LP). Обычно вычисление LP-фильтра A(z) требует просмотра вперед, включающего сегмент речи в 5-15 мс из последующего кадра. Кадр из N выборок делится на меньшие блоки, называемые подкадрами. Обычно количество подкадров составляет три или четыре, что приводит к подкадрам в 4-10 мс. В каждом подкадре сигнал возбуждения обычно получается из двух составляющих, прошлого возбуждения и нового возбуждения, устанавливаемого по кодовой книге. Составляющая, формируемая из прошлого возбуждения, часто определяется как возбуждение основным тоном или по адаптивной кодовой книге. Параметры, характеризующие сигнал возбуждения, кодируются и передаются в декодер, где воссозданный сигнал возбуждения используется в качестве входных данных синтезирующего LP-фильтра.

Синтезирующий LP-фильтр задается следующим образом:

где a_i являются коэффициентами линейного предсказания, а М является порядком LP-анализа. Синтезирующий LP-фильтр моделирует огибающую спектра речевого сигнала. В декодере при фильтровании декодируемого возбуждения через синтезирующий LP-фильтр воссоздается речевой сигнал.

Набор коэффициентов линейного предсказания a_i вычисляется так, чтобы минимизировалась ошибка предсказания

где s(n) является входным сигналом в момент времени n, а (n) является сигналом, предсказанным на основе М последних выборок, заданным следующим образом:

Соответственно, ошибка предсказания задана следующим образом:

Это соответствует в области z-преобразования:

где A(z) является LP-фильтром порядка М, заданным следующим образом:

Обычно коэффициенты линейного предсказания a_i вычисляются посредством минимизации среднеквадратичной ошибки предсказания по блоку L выборок, L является целым числом, обычно не меньшим N (L обычно соответствует 20-30 мс). Специалистам в данной области техники известны иные способы вычисления коэффициентов линейного предсказания. Возможный вариант такого вычисления приведен в [Рекомендации ITU-T G.722.2 "Wideband coding of speech at round 16 kbit/s using adaptive multi-rate wideband (AMR-WB)", Женева, 2002].

Коэффициенты линейного предсказания a_i не могут непосредственно квантоваться для передачи в декодер. Причина этого состоит в том, что малые ошибки квантования на коэффициентах линейного предсказания могут создавать большие спектральные ошибки в функции преобразования LP-фильтра и могут даже привести к неустойчивости фильтра. Следовательно, до квантования к коэффициентам линейного предсказания a_i применяется преобразование. Преобразование выдает то, что называется представлением коэффициентов линейного предсказания a_i. Следовательно, после приема квантованных преобразованных коэффициентов линейного предсказания a_i, декодер может применить обратное преобразование для получения квантованных коэффициентов линейного предсказания. Одним широко используемым представлением для коэффициентов линейного предсказания a_i являются частоты спектральных линий(ЧСЛ, LSF), также известные как пары спектральных линий (ПСЛ, LSP). Подробности вычисления частот спектральных линий могут быть найдены в [Рекомендации ITU-T G.729 "Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP)", Женева, март 1996].

Подобным представлением являются частоты спектрального иммитанса(ЧСИ, ISF), которые использовались в стандарте кодирования AMR-WB [Рекомендации ITU-T G.722.2 "Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)", Женева, 2002]. Возможны и использовались также другие представления. Без потери общности в последующем описании будет рассмотрен конкретный случай представления ISF.

Так полученные параметры LP (частоты LSF, ISF и т.д.) квантуются с использованием или скалярного квантования (СК, SQ) или векторного квантования (ВК, VQ). В скалярном квантовании параметры LP квантуются по отдельности и обычно требуется 3 или 4 бита на параметр. В векторном квантовании параметры LP группируются в вектор и квантуются как объект. Хранится кодовая книга, или таблица, содержащая набор квантованных векторов. Квантователь ищет кодовую книгу для элемента кодовой книги, который наиболее близок к входному вектору в соответствии с определенным показателем расстояния. Индекс выбранного квантованного вектора передается в декодер. Векторное квантование дает более высокую эффективность, чем скалярное квантование, но за счет повышенных требований на память и сложности.

Обычно для уменьшения сложности и требований на память VQ используется структурированное векторное квантование. В VQ с разделением вектор параметров LP разделяется по меньшей мере на два субвектора, которые квантуются по отдельности. В многоэтапном VQ квантованный вектор является суммой элементов из отдельных кодовых книг. VQ с разделением и многоэтапное VQ приводят к понижению сложности и уменьшению памяти при поддержании высокой эффективности квантования. Кроме того, интересующий подход должен объединять многоэтапное VQ и VQ с разделением для дополнительного понижения сложности и требования на память. Согласно [Рекомендации ITU-T G.729 "Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP)", Женева, март 1996], квантование вектора параметров LP осуществляется на двух этапах, где вектор второго этапа разделяется на два субвектора.

Параметры LP проявляют сильную корреляцию между последовательными кадрами, и это обычно используется при применении квантования с предсказанием для повышения эффективности. В векторном квантовании с предсказанием на основе информации из прошлых кадров вычисляется предсказанный вектор параметров LP. Затем предсказанный вектор удаляется из входного вектора, и осуществляется векторное квантование ошибки предсказания. Обычно используются два вида предсказания: (АР, AR) предсказание авторегрессией и предсказание скользящим средним значением (СС, MA). В AR предсказании предсказанный вектор вычисляется как комбинация квантованных векторов из прошлых кадров. В MA предсказании предсказанный вектор вычисляется как комбинация векторов ошибки предсказания из прошлых кадров. AR предсказание выдает лучшую эффективность. Однако AR предсказание не является надежным в условиях потери кадров, с которыми сталкиваются в системах радиосвязи и системах связи, основанных на пакетах. В случае потерянных кадров ошибка распространяется на последующие кадры, так как предсказание основывается на предыдущих разрушенных кадрах.

Кодирование с переменной битовой скоростью (ПБС, VBR)

В некоторых системах связи, например системах радиосвязи, использующих технологию множественного доступа с кодовым разделением каналов (МДКР, CDMA), использование кодирования речи с переменной битовой скоростью (VBR), управляемого источником, существенно повышает пропускную способность системы. В кодировании VBR, управляемом источником, кодер может функционировать при нескольких битовых скоростях, и используется блок выбора скорости для определения битовой скорости, используемой при кодировании каждого кадра речи, на основе характеристики кадра речи, например вокализованный, невокализованный, переходной, фоновый шум и т.д. Задача состоит в получении наилучшего качества речи при заданной средней битовой скорости, также определенной, как средняя скорость передачи данных (СПД, ADR). Кодер также может действовать в соответствии с различными режимами функционирования посредством настройки блока выбора скорости для получения различных ADR для различных режимов, где с увеличением ADR повышается эффективность кодера. Это обеспечивает кодер механизмом компромисса между качеством речи и пропускной способностью системы. В системах CDMA, например CDMA-one и CDMA2000, обычно используется 4 битовых скорости, определяемых как полноскоростная (ПС, FR), полускоростная (ПуС, HR), четвертьскоростная (ЧС, QR) и 1/8-скоростная (ER). В этой системе CDMA поддерживаются два набора скоростей и определяются, как Набор скоростей I и Набор скоростей II. В Наборе скоростей II кодер с переменной битовой скоростью с механизмом выбора скорости функционирует при битовых скоростях, управляемых источником, в 13,3 (FR); 6,2 (HF); 2,7 (QR) и 1,0 (ER) кбит/с, соответствующих большим битовым скоростям в 14,4; 7,2; 3,6 и 1,8 кбит/с (с некоторыми битами, добавленными для обнаружения ошибок).

Широкополосный кодек, известный как адаптивный многоскоростной широкополосный (AMR-WB) речевой кодек, недавно был выбран ITU-T (Международным телекоммуникационным союзом - Сектором стандартизации коммуникаций) для отдельной широкополосной речевой телефонной связи и услуг, и 3GPP (Проектом Партнерства третьего Поколения) для GSM (глобальной системы мобильной связи (ГСМС)) и W-CDMA (широкополосных множественного доступа с кодовым разделением каналов) систем радиосвязи третьего поколения. Кодек AMR-WB включает в себя девять битовых скоростей в диапазоне от 6,6 до 23,85 кбит/с. Разработка для системы CDMA2000 кодека VBR, управляемого источником, основанного на AMR-WB, имеет преимущество обеспечения возможности взаимодействия между CDMA2000 и другими системами, использующими кодек AMR-WB. Битовая скорость AMR-WB в 12,65 кбит/с является наиболее близкой скоростью, которая может соответствовать полноскоростной 13,3 кбит/с Набора Скоростей II CDMA2000, скорость в 12,65 кбит/с может использоваться как общая скорость между широкополосным VBR кодеком CDMA2000 и кодеком AMR-WB, которая обеспечивает возможность взаимодействия без транскодирования, которое ухудшает качество речи. Должна быть добавлена половинная скорость в 6,2 кбит/с для обеспечения возможности эффективного функционирования в структуре Набора II скоростей. Полученный в результате кодек может функционировать в некоторых режимах, определенных для CDMA2000, и включает в себя режим, обеспечивающий возможность взаимодействия с системами, использующими кодек AMR-WB.

Обычно полускоростное кодирование выбирается в кадрах, где входной речевой сигнал является стационарным. При менее частом обновлении параметров кодирования или при использовании меньшего количества битов для кодирования некоторых из этих параметров кодирования достигается экономия битов по сравнению с полноскоростным кодированием. Более конкретно, в стационарных вокализованных сегментах информация основного тона кодируется только один раз на кадр, и меньшее количество битов используется для представления фиксированных параметров кодовой книги и коэффициентов линейного предсказания.

Так как VQ с предсказанием с MA-предсказанием обычно применяется для кодирования коэффициентов линейного предсказания, то может наблюдаться излишнее повышение шума квантования в указанных коэффициентах линейного предсказания. MA-предсказание, в противоположность AR-предсказанию, используется для повышения надежности в отношении потерь кадров; однако, в стационарных кадрах коэффициенты линейного предсказания развиваются так медленно, что использование AR-предсказания в этом конкретном случае меньше влияет на распространение ошибки в случае потерянных кадров. При наблюдении можно заметить, что в случае отсутствия кадров, большинство декодеров применяет процедуру скрытия, которая по существу экстраполирует коэффициенты линейного предсказания последнего кадра. Если отсутствующий кадр является стационарным вокализованным кадром, то указанная экстраполяция создает значения, точно подобные переданным в действительности, но не принятым, параметрам LP. Соответственно, воссозданный вектор параметров LP является близким к тому, который должен был быть декодирован, если бы кадр не был потерян. Следовательно, в этом конкретном случае использование AR-предсказания в процедуре квантования коэффициентов линейного предсказания не может влиять слишком неблагоприятно на распространение ошибки квантования.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Согласно настоящему изобретению, предложен способ квантования параметров линейного предсказания в кодировании звукового сигнала с переменной битовой скоростью, включающий в себя прием входного вектора параметров линейного предсказания, классификацию кадра звукового сигнала, соответствующего входному вектору параметров линейного предсказания, вычисление вектора предсказания, удаление вычисленного вектора предсказания из входного вектора параметров линейного предсказания для создания вектора ошибки предсказания, масштабирование вектора ошибки предсказания и квантование масштабированного вектора ошибки предсказания. Вычисление вектора предсказания включает выбор одной из множества схем предсказания в отношении классификации кадра звукового сигнала и вычисление вектора предсказания в соответствии с выбранной схемой предсказания. Масштабирование вектора ошибки предсказания включает выбор по меньшей мере одной из множества схем масштабирования в отношении выбранной схемы предсказания, и масштабирование вектора ошибки предсказания в соответствии с выбранной схемой масштабирования.

Также, согласно настоящему изобретению, предложено устройство для квантования параметров линейного предсказания в кодировании звукового сигнала с переменной битовой скоростью, содержащее средство приема входного вектора параметров линейного предсказания, средство классификации кадра звукового сигнала, соответствующего входному вектору параметров линейного предсказания, средство вычисления вектора предсказания, средство удаления вычисленного вектора предсказания из входного вектора параметров линейного предсказания для создания вектора ошибки предсказания, средство масштабирования вектора ошибки предсказания и средство квантования масштабированного вектора ошибки предсказания. Средство вычисления вектора предсказания содержит средство выбора одной из множества схем предсказания в отношении классификации кадра звукового сигнала, и средство вычисления вектора предсказания в соответствии с выбранной схемой предсказания. Также средство масштабирования вектора ошибки предсказания содержит средство выбора по меньшей мере одной из множества схем масштабирования в отношении выбранной схемы предсказания и средство масштабирования вектора ошибки предсказания в соответствии с выбранной схемой масштабирования.

Настоящее изобретение также относится к устройству для квантования параметров линейного предсказания в кодировании звукового сигнала с переменной битовой скоростью, содержащему вход для приема входного вектора параметров линейного предсказания, классификатор кадра звукового сигнала, соответствующего входному вектору параметров линейного предсказания, вычислитель вектора предсказания, вычитатель для удаления вычисленного вектора предсказания из входного вектора параметров линейного предсказания для создания вектора ошибки предсказания, блок масштабирования, снабжаемый вектором ошибки предсказания, этот блок масштабирует вектор ошибки предсказания, и квантователь масштабированного вектора ошибки предсказания. Вычислитель вектора предсказания содержит селектор одной из множества схем предсказания в отношении классификации кадра звукового сигнала для вычисления вектора предсказания в соответствии с выбранной схемой предсказания. Блок масштабирования содержит селектор по меньшей мере одной из множества схем масштабирования в отношении выбранной схемы предсказания для масштабирования вектора ошибки предсказания в соответствии с выбранной схемой масштабирования.

Настоящее изобретение, дополнительно, относится к способу обратного квантования параметров линейного предсказания в декодировании звукового сигнала с переменной битовой скоростью, включающему в себя прием по меньшей мере одного индекса квантования, прием информации относительно классификации кадра звукового сигнала, соответствующего упомянутому по меньшей мере одному индексу квантования, восстановление вектора ошибки предсказания посредством применения по меньшей мере одного индекса по меньшей мере к одной таблице квантования, воссоздание вектора предсказания и создание вектора параметров линейного предсказания в зависимости от восстановленного вектора ошибки предсказания и воссозданного вектора предсказания. Воссоздание вектора предсказания включает обработку восстановленного вектора ошибки предсказания посредством одной из множества схем предсказания в зависимости от информации классификации кадра.

Настоящее изобретение еще дополнительно относится к устройству для обратного квантования параметров линейного предсказания в декодировании звукового сигнала с переменной битовой скоростью, содержащему средство приема по меньшей мере одного индекса квантования, средство приема информации относительно классификации кадра звукового сигнала, соответствующего по меньшей мере одному индексу квантования, средство восстановления вектора ошибки предсказания посредством применения по меньшей мере одного индекса по меньшей мере к одной таблице квантования, средство воссоздания вектора предсказания и средство создания вектора параметров линейного предсказания в зависимости от восстановленного вектора ошибки предсказания и воссозданного вектора предсказания. Средство воссоздания вектора предсказания содержит средство обработки восстановленного вектора ошибки предсказания посредством множества схем предсказания в зависимости от информации классификации кадра.

В соответствии с последним аспектом настоящего изобретения, предложено устройство для обратного квантования параметров линейного предсказания в декодировании звукового сигнала с переменной битовой скоростью, содержащее средство приема по меньшей мере одного индекса квантования, средство приема информации относительно классификации кадра звукового сигнала, соответствующего по меньшей мере одному индексу квантования, по меньшей мере одну таблицу квантования, снабжаемую упомянутым по меньшей мере одним индексом квантования для восстановления вектора ошибки предсказания, блок воссоздания вектора предсказания и формирователь вектора параметров линейного предсказания в зависимости от восстановленного вектора ошибки предсказания и воссозданного вектора предсказания. Блок воссоздания вектора предсказания содержит по меньшей мере один предсказатель, снабжаемый восстановленным вектором ошибки предсказания для обработки восстановленного вектора ошибки предсказания посредством одной из множества схем предсказания в зависимости от информации классификации кадра.

Изложенные и другие задачи, преимущества и признаки настоящего изобретения станут более ясны после прочтения, согласно приложенным чертежам, не предназначенного для ограничения последующего описания его иллюстративных вариантов осуществления, приведенных исключительно в виде возможного варианта.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг.1 - блок-схема, иллюстрирующая возможный вариант, не предназначенный для ограничения, многоэтапного векторного квантователя.

Фиг.2 - блок-схема, иллюстрирующая возможный вариант, не предназначенный для ограничения, векторного квантователя с разделением вектора.

Фиг.3 - блок-схема, иллюстрирующая возможный вариант, не предназначенный для ограничения, векторного квантователя с предсказанием, использующего (AR) предсказание авторегрессией.

Фиг.4 - блок-схема, иллюстрирующая возможный вариант, не предназначенный для ограничения, векторного квантователя с предсказанием, использующего (MA) предсказание скользящим средним значением.

Фиг.5 - блок-схема возможного варианта переключаемого векторного квантователя с предсказанием в кодере, согласно иллюстративному варианту осуществления настоящего изобретения, не предназначенному для ограничения.

Фиг.6 - блок-схема возможного варианта переключаемого векторного квантователя с предсказанием в декодере, согласно иллюстративному варианту осуществления настоящего изобретения, не предназначенному для ограничения.

Фиг.7 - иллюстративный возможный вариант, не предназначенный для ограничения, распределения ISF по частоте, в котором каждое распределение является функцией вероятности обнаружения ISF в данной позиции в векторе ISF.

Фиг.8 - график, изображающий стандартный возможный вариант развития параметров ISF по последовательным кадрам речи.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

Хотя в последующем описании иллюстративные варианты осуществления настоящего изобретения будут описаны в отношении применения к речевому сигналу, должно учитываться, что настоящее изобретение также может быть применено к другим видам звуковых сигналов.

Наиболее современные способы кодирования речи основаны на анализе линейного предсказания, например, кодирование CELP. Параметры LP вычисляются и квантуются в кадрах в 10-30 мс. В настоящем иллюстративном варианте осуществления используются кадры в 20 мс и предполагается порядок анализа LP, равный 16. Возможный вариант вычисления параметров LP в системе кодирования речи можно обнаружить при обращении к [Рекомендации ITU-T G.722.2 "Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)", Женева, 2002]. В указанном иллюстративном возможном варианте предварительно обработанный речевой сигнал обрабатывается методом окна, и вычисляются автокорреляции речи, обработанной методом окна. Затем используется рекурсия Левинсона-Дюрбина (Levinson-Durbin) для вычисления коэффициентов линейного предсказания a_i, i = 1,..., М из автокорреляций R(k), k=0,...,М, где М является порядком предсказания.

Коэффициенты линейного предсказания a_i не могут непосредственно квантоваться для передачи в декодер. Причина состоит в том, что малые ошибки квантования на коэффициентах линейного предсказания могут создавать большие спектральные ошибки в функции преобразования LP-фильтра, и даже могут привести к неустойчивости фильтра. Следовательно, до квантования к коэффициентам линейного предсказания a_i применяется преобразование. Преобразование выдает то, что называется представлением коэффициентов линейного предсказания a_i. Следовательно, после приема квантованных преобразованных коэффициентов линейного предсказания a_i, декодер может применить обратное преобразование для получения квантованных коэффициентов линейного предсказания. Одним широко используемым представлением для коэффициентов линейного предсказания a_i являются частоты спектральных линий (LSF), также известные как пары спектральных линий (LSP). Подробности вычисления частот LSF могут быть найдены в [Рекомендации ITU-T G.729 "Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP)", Женева, март 1996]. Частоты LSF состоят из полюсов полиномов

Для четных значений М, каждый полином имеет M/2 сопряженных корня на единичной окружности (e^±jωi). Соответственно, полиномы могут быть записаны как

где q_i=cos(ω_i) с ω_i, являющимися частотами спектральных линий (LSF), удовлетворяющими свойству упорядочения 0 < ω₁ < ω₂ < ... < ω_M < π. В этом конкретном возможном варианте частоты LSF составляют параметры LP (линейного предсказания).

Подобным представлением являются пары спектрального иммитанса (ISP) или частоты спектрального иммитанса (ISF), которые использовались в стандарте кодирования AMR-WB. Подробности вычисления частот ISF могут быть найдены при обращении к [Рекомендации ITU-T G.722.2 "Wideband coding of speech at round 16 kbit/s using adaptive multi-rate wideband (AMR-WB)", Женева, 2002]. Также возможны и использовались другие представления. Без потери общности в последующем описании будет рассматриваться случай представления ISF как иллюстративный возможный вариант, не предназначенный для ограничения.

Для LP-фильтра M-го порядка, где М является четным, пары ISP определяются как корни полиномов:

Полиномы F₁(z) и F₂(z) имеют M/2 и M/2-1 сопряженных корня на единичной окружности (e±jwi), соответственно. Следовательно, полиномы могут быть записаны как

где q_i=cos(ω_i) с ω_i, являющимися частотами спектрального иммитанса (ISF), и a_M является последним коэффициентом линейного предсказания. Частоты ISF удовлетворяют свойству упорядочения 0 < ω₁ < ω₂ < ... < ω_M < π. В этом конкретном возможном варианте частоты LSF составляют параметры LP (линейного предсказания). Соответственно, частоты ISF состоят из M-1 частот дополнительно к последним коэффициентам линейного предсказания. В представленном иллюстративном варианте осуществления частоты ISF отображаются в частоты в диапазоне от 0 до f_S/2, где f_S является частотой дискретизации, с использованием следующего отношения:

Частоты LSF и ISF (параметры LP) широко использовались благодаря некоторым свойствам, которые делают их применимыми для квантования. Среди этих свойств имеются хорошо определенный динамический диапазон, их гладкое развитие, приводящее к сильным корреляциям внутри кадра и между кадрами, и наличие свойства упорядочения, которое обеспечивает устойчивость квантуемого LP-фильтра.

В этом документе, термин "параметр LP" используется для определения любого представления коэффициентов LP, например, LSF, ISF, LSF с удаленным средним значением или ISF с удаленным средним значением.

Теперь для понимания используемых подходов квантования будут описаны основные свойства частот ISF (параметров LP (линейного предсказания)). На фиг.7 изображен типичный возможный вариант функции распределения вероятностей (ФРВ, PDF) коэффициентов ISF. Каждая кривая представляет PDF отдельного коэффициента ISF. На горизонтальной оси показано среднее значение каждого распределения (μ_k). Например, кривая для ISF₁ указывает все значения с вероятностью их возникновения, которые может принимать первый коэффициент ISF в кадре. Кривая для ISF₂ указывает все значения с вероятностью их возникновения, которые может принимать второй коэффициент ISF в кадре, и так далее. Функция PDF обычно получается применением гистограммы к значениям, принимаемым данным коэффициентом, как наблюдается по нескольким последовательным кадрам. Видно, что каждый коэффициент ISF занимает ограниченный интервал по всем возможным значениям ISF. Это действительно уменьшает пространство, которое должен охватывать квантователь и повышает эффективность битовой скорости. Также важно отметить что, хотя функции PDF коэффициентов ISF могут перекрываться, коэффициенты ISF в заданном кадре всегда упорядочены (ISF_k+1 - ISF_k > 0, где k является позицией коэффициента ISF внутри вектора коэффициентов ISF).

При длительностях кадра от 10 до 30 мс, обычных в речевом кодере, коэффициенты ISF проявляют корреляцию между кадрами. Фиг.8 иллюстрирует развитие коэффициентов ISF по кадрам в речевом сигнале. Фиг.8 был получена при выполнении анализа LP более чем по 30 последовательным кадрам в 20 мс в речевом сегменте, содержащем вокализованные и невокализованные кадры. Коэффициенты LP (16 на кадр) были преобразованы в коэффициенты ISF. На фиг.8 изображено, что линии никогда не пересекают друг друга, что означает, что частоты ISF всегда упорядочены. Фиг.8 также отражает, что коэффициенты ISF обычно развиваются медленно по сравнению с частотой кадров. Это на практике означает, что квантование с предсказанием может применяться для уменьшения ошибки квантования.

Фиг.3 иллюстрирует возможный вариант векторного квантователя 300 с предсказанием, использующего (AR) предсказание авторегрессией. Как изображено на фиг.3, сначала получается вектор ошибки предсказания e_n посредством вычитания (Процессор 301) вектора предсказания p_n из входного вектора параметров LP, который должен квантоваться, x_n. Символ n здесь относится к индексу кадра во времени. Вектор предсказания p_n вычисляется предсказателем P (Процессор 302) с использованием прошлых квантованных векторов параметров LP, и т.д. Затем вектор ошибки предсказания e_n квантуется (Процессор 303) для создания индекса i для передачи, например, через канал, и квантованного вектора ошибки предсказания к_n. Полный квантованный вектор параметров LP получается посредством суммирования (Процессор 304) квантованного вектора ошибки предсказания к_n и вектора предсказания p_n. Общий вид предсказателя P (Процессор 302) является следующим:

где A_k являются матрицами предсказания размерностью MxM, а K является порядком предсказателя. В простом виде предсказателя P (Процессор 302) используется предсказание первого порядка:

где A является матрицей предсказания размерности MxM, где М является размерностью вектора параметров LP x_n. Простым видом матрицы предсказания является диагональная матрица с диагональными элементами α₁, α₂,..., α_M, где α_i являются коэффициентами предсказания для отдельных параметров LP. Если для всех параметров LP используется идентичный коэффициент α, то уравнение 2 сокращается до

Если используется простой вид предсказания Уравнения (3), то на фиг.3 квантованный вектор параметров LP задается следующим (AR) отношением авторегрессии:

Рекурсивный вид Уравнения (4) подразумевает, что при использовании квантователя 300 с AR предсказанием вида, изображенного на фиг.3, ошибки канала распространятся по нескольким кадрам. Это может быть более заметно, если Уравнение (4) записано в следующем математически эквивалентном виде

Из этого вида ясно видно, что в принципе каждый прошлый декодированный вектор ошибки предсказания к_n-k вносит вклад в значение квантованного вектора параметров LP Следовательно, в случае ошибок канала, которые должны изменять значение к_n, принимаемое декодером, относительно того значения, которое было передано кодером, декодированный вектор полученный в Уравнении (4), не будет идентичным в декодере и в кодере. Из-за рекурсивного характера предсказателя P это несоответствие декодера с кодером распространится на будущее и повлияет на следующие векторы и т.д., даже если ошибки канала в последующих кадрах отсутствуют. Следовательно, векторное квантование с предсказанием не является надежнымв отношении ошибок канала, особенно, когда коэффициенты предсказания являются большими (α близко к 1 в Уравнениях (4) и (5)).

Чтобы смягчить указанную проблему распространения, вместо AR предсказания может использоваться (MA) предсказание скользящим средним значением. В MA предсказании бесконечная последовательность Уравнения (5) обрезается до конечного количества членов. Идея состоит в аппроксимации авторегрессионного вида предсказателя P в Уравнении (4) посредством использования малого количества членов в Уравнении (5). Следует отметить, что для лучшей аппроксимации предсказателя P Уравнения (4) могут быть изменены веса в суммировании.

Возможный вариант, не предназначенный для ограничения, векторного квантователя 400 с MA предсказанием изображен на фиг.4, при этом процессоры 401, 402, 403 и 404 соответствуют процессорам 301, 302, 303 и 304, соответственно. Общий вид предсказателя P (Процессор 402) является следующим:

где B_k являются матрицами предсказания с размерностью MxM, а K является порядком предсказателя. Следует отметить, что в MA предсказании ошибки передачи распространяются только на следующие K кадров.

В простом виде предсказателя P (Процессор 402) используется предсказание первого порядка:

где B является матрицей предсказания с размерностью MxM, где М является размерностью вектора параметров LP. Простым видом матрицы предсказания является диагональная матрица с диагональными элементами β₁, β₂, ..., β_M, где β_i являются коэффициентами предсказания для отдельных параметров LP. Если для всех параметров LP используется идентичный коэффициент β, то Уравнение (6) сокращается до

Если используется простой вид предсказания Уравнения (7), то на фиг.4 квантованный вектор параметров LP задается следующим отношением для скользящего среднего (MA) значения:

В иллюстративном возможном варианте векторного квантователя 400 с предсказанием, использующего MA предсказание, как изображено на фиг.4, память предсказателя (в Процессоре 402) сформирована прошлыми декодированными векторами ошибки предсказания к_n-1, к_n-2 и т.д. Следовательно, максимальным количеством кадров, по которым может распространяться ошибка канала, является порядок предсказателя P (Процессор 402). В иллюстративном возможном варианте предсказателя Ура