Многорежимное устройство кодирования

Иллюстрации

Показать все

Изобретение относится к системам передачи речи и, более конкретно, к системам для цифрового кодирования речи. Система сжатия речи обеспечивает кодирование речевого сигнала в поток битов для последующего декодирования для генерирования синтезированной речи, которая содержит кодек полной скорости, кодек половинной скорости, кодек одной четверти скорости и кодек одной восьмой скорости, которые селективно активизируются на основе выбора скорости. Кроме того, кодеки полной и половинной скорости селективно активизируются на основе классификации типа. Каждый кодек селективно активизируется для кодирования и декодирования речевого сигнала при различных скоростях передачи в битах, чтобы акцентировать различные аспекты речевого сигнала для повышения общего качества синтезированного речевого сигнала. Техническим результатом, достигаемым при реализации изобретения, является оптимизация ширины полосы, требуемой для потока битов путем компромисса между желательной средней скоростью передачи в битах и перцепционным качеством восстановленной речи. 11 н. и 55 з.п. ф-лы, 12 ил., 9 табл.

Реферат

Ссылка на уведомление об авторском праве

Часть раскрытия настоящего патентного документа содержит материал, являющийся объектом защиты нормами авторского права. Владелец авторского права не препятствует факсимильному воспроизведению любым лицом патентного документа или патентного раскрытия в том виде, в котором оно может иметь место в патентном файле или при регистрации в Ведомстве по патентам и товарным знакам США, но в остальном сохраняет за собой все права, вытекающие из норм авторского права.

Область техники

Настоящее изобретение относится к системам передачи речи и, более конкретно, к системам для цифрового кодирования речи.

Предшествующий уровень техники

Преобладающая форма информационного обмена между людьми связана с использованием систем связи. Системы связи включают как проводные, так и беспроводные системы, основанные на использовании радиосвязи. Беспроводные системы связи электрически соединены с проводными системами и осуществляют связь с мобильными устройствами связи с использованием передач на радиочастоте. В настоящее время радиочастоты, доступные для связи, например, в сотовых системах, находятся в диапазоне частот сотовых систем связи с центральной частотой 900 МГц и в диапазоне частот услуг персональной связи с центральной частотой 1900 МГц. Передачи данных и речи в беспроводной системе имеют полосу частот, занимающую часть радиочастотного диапазона. Ввиду увеличения графика, что обусловлено ростом популярности устройств беспроводной связи, таких как сотовые телефоны, желательно уменьшить ширину полосы передач в беспроводных системах.

Цифровые передачи в беспроводных системах связи все более широко применяются для передачи как речи, так и данных ввиду устойчивости по отношению к шумам, надежности, компактности оборудования и возможности реализации сложных функций обработки сигналов с использованием цифровых методов. Цифровая передача речевых сигналов связана с этапами дискретизации аналогового речевого сигнала с помощью аналого-цифрового преобразователя, сжатия речи (кодирования), передачи, декомпрессии речи (декодирования), цифроаналогового преобразования и воспроизведения в наушниках или через громкоговоритель. Дискретизация аналогового речевого сигнала с помощью аналого-цифрового преобразователя создает цифровой сигнал. Однако количество битов, используемых в цифровом сигнале для представления аналогового речевого сигнала, создает относительно широкую полосу. Например, речевой сигнал, который дискретизируется с частотой 8000 Гц (одна выборка каждые 0,125 секунды), где каждая выборка представлена 16 битами, приводит в результате к скорости передачи в битах 128000 (16×8000) битов в секунду или 128 Кбит/с.

Сжатие речи может быть использовано для уменьшения количества битов, которые представляют речевой сигнал, тем самым уменьшая ширину полосы, требуемую для передачи. Однако сжатие речи может привести к ухудшению качества сжатого сигнала. В общем случае, более высокая скорость передачи в битах приводит к более высокому качеству, в то время как более низкая скорость передачи в битах приводит в результате к снижению качества. Однако современные методы сжатия речи, такие как методы кодирования, могут формировать речь после декомпрессии с относительно высоким качеством при относительно низких скоростях передачи в битах. В общем случае, современные методы кодирования пытаются воспроизвести важные для восприятия признаки речевого сигнала без сохранения действительной формы речевого сигнала.

Один из способов кодирования, используемый для снижения скорости передачи в битах, связан с изменением степени сжатия (компрессии) речи (т.е. изменением скорости передачи в битах) в зависимости от части речевого сигнала, подвергаемой сжатию. В типовом случае, части речевого сигнала, для которых адекватно воспринимаемое воспроизведение является более трудным (такие как звонкие части речи, взрывные звуки, звонкие начальные части речи), кодируются и передаются с использованием большего числа битов. И, наоборот, части речевого сигнала, для которых адекватно воспринимаемое воспроизведение менее трудно (такие как оглушенные части речи или паузы между словами), кодируются с использованием меньшего количества битов. Получаемая в результате средняя скорость передачи в битах для речевого сигнала будет относительно ниже, чем она была бы в случае фиксированной скорости передачи в битах, которая обеспечивает получение речи после декомпрессии с тем же качеством.

Системы сжатия речи, обычно называемые кодеками, включают в себя устройство кодирования и устройство декодирования и могут быть использованы для снижения частоты следования битов цифровых речевых сигналов. Разработано множество алгоритмов для речевых кодеков, которые снижают число битов, требуемое для цифрового кодирования исходной речи при попытках поддержания высокого качества воспроизведенной речи. Методы кодирования, такие как линейное предсказание с кодовым возбуждением (метод CELP), как описано в статье "Code-Exited Linear Prediction: High-Quality Speech at Very Low Rates", M.R.Schroeder and B.S. Atal, Proc. ICASSP-85, рр.937-940, 1985, обеспечивают эффективный алгоритм кодирования речи. Пример речевого кодера, основанного на алгоритме CELP с переменной скоростью, представлен в стандарте TIA (Ассоциации промышленности средств связи) IS-127, который разработан для применений, относящихся к множественному доступу с кодовым разделением каналов (стандарт CDMA). Метод кодирования CELP использует различные методы прогнозирования для устранения избыточности из речевого сигнала. Метод кодирования CELP является основанным на кадрах в том смысле, что он предусматривает сохранение дискретизированных входных речевых сигналов в блоке выборок, называемых кадрами. Кадры данных могут затем обрабатываться для создания сжатого речевого сигнала в цифровой форме.

Метод кодирования CELP использует два типа средств (функций) прогнозирования: краткосрочное и долгосрочное. Краткосрочное средство прогнозирования в типовом случае применимо перед долгосрочным средством прогнозирования. Ошибка прогнозирования, обусловленная краткосрочным средством прогнозирования, обычно называется краткосрочным остатком, а ошибка прогнозирования, обусловленная долгосрочным средством прогнозирования, обычно называется долгосрочным остатком. Долгосрочный остаток может кодироваться с использованием фиксированного кодового справочника (кодовой книги), который включает множество фиксированных записей или векторов. Одна из записей может быть выбрана и умножена на фиксированный коэффициент кодового справочника для представления долгосрочного остатка. Краткосрочный остаток может также определяться как LPC (кодирование путем линейного предсказания - КЛП) или спектральное представление, и в типовом случае содержит 10 параметров прогнозирования. Долгосрочное средство прогнозирования также может быть определено как средство прогнозирования основного тона или адаптивный кодовый справочник (кодовая книга) и в типовом случае содержит параметр задержки и параметр усиления долгосрочного средства прогнозирования. Каждый параметр задержки также может быть определен как задержка основного тона, а каждый параметр усиления долгосрочного средства прогнозирования также может быть определен как коэффициент адаптивного кодового справочника. Параметр задержки определяет запись или вектор в адаптивном кодовом справочнике.

CELP-кодер выполняет анализ КЛП для определения параметров краткосрочного средства кодирования. Следуя анализу КЛП, можно определить параметры долгосрочного средства кодирования. Кроме того, осуществляется определение записи фиксированной кодовой книги и выигрыша, обеспечиваемого фиксированной кодовой книгой, наилучшим образом представляющего долгосрочный остаток. При CELP-кодировании используется эффективный принцип анализа через синтез. В методе анализа через синтез наилучший вклад, обеспечиваемый фиксированной кодовой книгой, наилучший выигрыш от использования фиксированной кодовой книги и наилучшие параметры долгосрочного средства прогнозирования могут быть найдены путем их синтеза с использованием инверсного фильтра прогнозирования и применения меры перцепционного взвешивания. Коэффициенты долгосрочного прогнозирования, выигрыш от применения фиксированной кодовой книги, а также параметр задержки и параметр долгосрочного выигрыша могут затем квантоваться. Индексы квантования, а также индексы фиксированной кодовой книги могут затем быть переданы от устройства кодирования к устройству декодирования.

CELP-декодер использует индексы фиксированной кодовой книги для извлечения вектора из фиксированной кодовой книги. Вектор может умножаться на выигрыш фиксированной кодовой книги для получения долгосрочного возбуждения при прогнозировании, известного также как вклад фиксированной кодовой книги. Вклад долгосрочного средства прогнозирования может суммироваться с долгосрочным возбуждением для получения краткосрочного возбуждения, которое обычно определяют просто как возбуждение. Вклад долгосрочного средства возбуждения включает в себя краткосрочное возбуждение из прошлого, умноженное на выигрыш долгосрочного средства прогнозирования. Добавление вклада долгосрочного прогнозирования может рассматриваться как вклад адаптивной кодовой книги или как долгосрочная фильтрация (основного тона). Краткосрочное возбуждение может проходить через краткосрочный инверсный фильтр прогнозирования (КЛП), который использует краткосрочные коэффициенты прогнозирования (КЛП), квантованные устройством кодирования для генерирования синтезированной речи. Синтезированная речь может затем пропускаться через пост-фильтр, который снижает перцепционные шумы кодирования.

Данные методы сжатия речи приводили к уменьшению ширины полосы, используемой для передачи речевого сигнала. Однако дальнейшее снижение ширины полосы особенно важно в системе связи, которая должна распределять свои ресурсы большому количеству пользователей. Соответственно имеется потребность в системах и способах кодирования речи, которые обеспечивают минимизацию средней скорости передачи в битах, требуемой для представления речи, при обеспечении высокого качества речи после декомпрессии.

Раскрытие изобретения

Настоящее изобретение обеспечивает системы для кодирования и декодирования речевых сигналов. В вариантах осуществления изобретения могут использоваться методы CELP-кодирования и кодирования, основанного на прогнозировании, в качестве основы для использования функций обработки сигналов, использующих методы согласования форм сигналов, и методы, связанные с перцепционными характеристиками. Эти методы позволяют генерировать синтезированную речь, которая в максимальной степени совпадает с исходной речью, путем включения перцепционных характеристик при поддержании относительно низкой скорости передачи в битах. Одним из применений вариантов осуществления изобретения являются системы беспроводной связи. В таком применении кодирование исходной речи или декодирование для генерирования синтезированной речи могут производиться в мобильных устройствах связи. Кроме того, кодирование и декодирование могут осуществляться в системах, основанных на проводных линиях связи, или в других системах беспроводной связи для обеспечения интерфейсов с системами, основанными на проводных линиях связи.

Одним из вариантов осуществления системы сжатия речи является кодек полной скорости, кодек половинной скорости, кодек одной четвертой скорости и кодек одной восьмой скорости, каждый из которых обеспечивает кодирование и декодирование речевых сигналов. Кодеки полной скорости, половинной скорости, одной четвертой скорости и одной восьмой скорости кодируют речевые сигналы при скоростях передачи в битах, равных 8,5 Кбит/с, 4 Кбит/с, 2 Кбит/с и 0,8 Кбит/с соответственно. Система сжатия речи выполняет селекцию скорости для кадра речевого сигнала, чтобы выбрать один из кодеков. Выбор скорости выполняется на покадровой основе. Кадры создаются делением речевого сигнала на сегменты конечной длины времени. Поскольку каждый кадр может кодироваться при различной скорости передачи в битах, система сжатия речи является системой сжатия речи переменной скорости, которая кодирует речь при средней скорости передачи в битах.

Выбор скорости определяется путем определения параметров каждого кадра речевого сигнала на основе части речевого сигнала, содержащегося в конкретном кадре. Например, кадры могут характеризоваться как стационарно голосовые (звонкие), нестационарно голосовые, неозвученные, шумы фона, паузы и т.д. Кроме того, выбор скорости основывается на режиме, в котором работает система сжатия речи. Различные режимы показывают желательную среднюю скорость передачи в битах. Кодеки проектируются на оптимизированное кодирование в рамках различного определения параметров речевых сигналов. Оптимальное кодирование является компромиссом между желанием обеспечить синтезированную речь наивысшего перцепционного качества при сохранении желательной средней скорости передачи в битах, максимизируя при этом использование доступной ширины полосы. В процессе работы система сжатия речи селективно активизирует кодеки на основе режима, а также определения параметров кадра в целях оптимизации перцепционного качества синтезированной речи.

Как только выбран кодек полной или половинной скорости в результате выбора скорости, производится классификация типов речевого сигнала, чтобы далее оптимизировать кодирование. Классификация типов может включать первый тип (т.е. Тип 1) для кадров, содержащих гармоническую структуру и формантную структуру, которая быстро не изменяется, или второй тип (т.е. Тип 0) для всех других кадров. Распределение битов кодеков полной или половинной скорости может подстраиваться в ответ на классификацию типов, чтобы далее оптимизировать кодирование кадра. Подстройка распределения битов обеспечивает улучшенное перцепционное качество воспроизводимого речевого сигнала путем подчеркивания других аспектов речевого сигнала в каждом кадре.

Соответственно устройство кодирования речи имеет возможность селективной активизации кодеков для максимизации качества в целом воспроизводимого речевого сигнала при сохранении желательной средней скорости передачи в битах. Другие системы, методы, признаки и преимущества изобретения станут очевидными для специалистов в данной области техники из прилагаемых чертежей и детального описания. Предполагается, что все такие дополнительные системы, методы, признаки и преимущества включены в объем изобретения и защищаются приложенной формулой изобретения.

Краткое описание чертежей

Элементы, представленные на чертежах, не обязательно следует рассматривать как соответственно масштабированные. Вместо этого, особое внимание уделено иллюстрации принципов изобретения. Кроме того, на чертежах одинаковыми ссылочными позициями обозначены соответствующие элементы на различных видах.

Фиг.1 изображает блок-схему варианта осуществления системы сжатия речи.

Фиг.2 - расширенная блок-схема возможного варианта системы кодирования, показанной на фиг.1.

Фиг.3 - расширенная блок-схема возможного варианта системы декодирования, показанной на фиг.1.

Фиг.4 - таблица, иллюстрирующая распределение битов в возможном варианте осуществления кодека полной скорости.

Фиг.5 - таблица, иллюстрирующая распределение битов в возможном варианте осуществления кодека половинной скорости.

Фиг.6 - таблица, иллюстрирующая распределение битов в возможном варианте осуществления кодека одной четвертой скорости.

Фиг.7 - таблица, иллюстрирующая распределение битов в возможном варианте осуществления кодека одной восьмой скорости.

Фиг.8 - расширенная блок-схема возможного варианта осуществления модуля препроцессинга (предварительной обработки), показанного на фиг.2.

Фиг.9 - расширенная блок-схема возможного варианта осуществления модуля обработки исходного кадра, показанного на фиг.2, для кодеков полной и половинной скорости.

Фиг.10 - расширенная блок-схема возможного варианта осуществления первого модуля обработки субкадра, показанного на фиг.2, для кодеков полной и половинной скорости.

Фиг.11 - расширенная блок-схема возможного варианта осуществления первого модуля обработки кадра, второго модуля обработки субкадра и второго модуля обработки кадра, показанного на фиг.2, для кодеков полной и половинной скорости.

Фиг.12 - расширенная блок-схема возможного варианта системы декодирования, показанной на фиг.3, для кодеков полной и половинной скорости.

Режимы осуществления изобретения

Варианты осуществления изобретения описаны ниже со ссылками на речевые сигналы, однако возможна обработка и других сигналов. Кроме того, следует иметь в виду, что численные значения, приведенные в описании, могут быть в числовом виде представлены с плавающей запятой, с фиксированной запятой, в десятичной форме или в ином подобном числовом представлении, что может вызвать незначительные отклонения в значениях, но не повлияет на выполнение функций. Кроме того, функциональные блоки, показанные как блоки, не обязательно должны представлять фиксированные структуры, но могут комбинироваться и далее подразделяться в различных вариантах осуществления.

На фиг.1 представлена блок-схема возможного варианта осуществления системы 10 сжатия речи. Система 10 сжатия речи также содержит систему 12 кодирования, среду 14 передачи и систему 16 декодирования, которые могут быть взаимосвязаны, как показано на чертеже. Система 10 сжатия речи может представлять собой любую систему, которая способна принимать и кодировать речевой сигнал 18, и затем декодировать его для формирования прошедшей постпроцессорную обработку синтезированной речи 20. В типовой системе связи система беспроводной связи электрически соединена с коммутируемой телефонной системой общего пользования (КТСОП) в системе связи, основанной на проводных линиях связи. В системе беспроводной связи множество базовых станций в типовом случае используются для обеспечения радиосвязи с устройствами мобильной связи, такими как сотовые телефоны или портативные радиоприемопередатчики.

Система 10 сжатия речи в процессе работы принимает речевой сигнал 18. Речевой сигнал 18, излучаемый передатчиком (не показан), может представлять собой, например, сигнал, принятый микрофоном (не показан) и преобразованный в цифровую форму с помощью аналого-цифрового преобразователя (не показан). Передатчик может быть образован человеческим голосом, музыкальным инструментом или любым другим устройством, которое способно излучать аналоговые сигналы. Речевой сигнал 18 может представлять любой тип звука, например озвученную речь, неозвученную речь, шумы фона, молчание (паузы), музыку и т.п.

Система 12 кодирования в процессе работы кодирует речевой сигнал 18. Система 12 кодирования может представлять собой часть устройства мобильной связи, базовой станции, или любого другого беспроводного или проводного устройства связи, которое способно принимать и кодировать речевые сигналы 18, преобразованные в цифровую форму аналого-цифровым преобразователем. Устройство проводной связи может включать в себя устройства и системы протокола VoIP (передачи речи через Интернет). Система 12 кодирования сегментирует речевой сигнал 18 на кадры для генерирования потока битов. Один из вариантов осуществления системы 10 сжатия речи использует кадры, которые содержат 160 выборок, что при частоте дискретизации 8000 Гц соответствует 20 мс на кадр. Кадры, представленные потоком битов, могут подаваться в среду 14 передачи.

Среда 14 передачи может представлять собой любой механизм передачи, такой как коммуникационный канал, радиоволны, микроволновое излучение, проводные передачи, волоконно-оптические передачи или любую другую среду, способную переносить потоки битов, генерируемые системой 12 кодирования. Среда 14 передачи может также включать передающие устройства и приемные устройства, используемые при передаче потока битов. Примеры вариантов осуществления среды 14 передачи могут включать в себя коммуникационные каналы, антенны, связанные с ними приемопередатчики для радиосвязи в системе беспроводной связи. Среда 14 передачи может также представлять собой механизм хранения данных, такой как устройство памяти, носитель данных или иное устройство, обеспечивающее хранение и извлечение потока битов, генерируемого системой 12 кодирования. Среда 14 передачи обеспечивает передачу потока битов, генерируемого системой 12 кодирования, к системе 16 декодирования.

Система 16 декодирования принимает поток битов от среды 14 передачи. Система 16 декодирования может представлять собой часть устройства связи, базовой станции или любого другого устройства беспроводной или проводной связи, которое имеет возможность приема потока битов. Система 16 декодирования в процессе работы декодирует поток битов и генерирует в результате постпроцессорной обработки синтезированную речь 20 в форме цифрового сигнала. Подвергнутая постпроцессорной обработке синтезированная речь 20 может затем преобразовываться в аналоговый сигнал с помощью цифроаналогового преобразователя (не показан). Аналоговый выходной сигнал цифроаналогового преобразователя может приниматься приемником (не показан), который может представлять собой орган слуха человека, устройство записи на магнитной ленте или иное устройство, имеющее возможность приема аналогового сигнала. Как вариант, для приема прошедшей постпроцессорную обработку синтезированной речи 20 может использоваться устройство цифровой записи, устройство распознавания речи или любое другое устройство, способное принимать цифровой сигнал.

В одном из вариантов осуществления система 10 сжатия речи также включает линию 21 режима. По линии 21 режима передается сигнал режима, который управляет системой 10 сжатия речи путем указания желательной средней скорости передачи в битах для потока битов. Сигнал режима может генерироваться внешним образом, например системой беспроводной связи, использующей модуль генерации сигнала режима. Модуль генерации сигнала режима определяет сигнал режима на основе множества факторов, таких как желательное качество прошедшей постпроцессорную обработку синтезированной речи 20, доступная ширина полосы, услуги, на которые подписан пользователь, и любые другие релевантные факторы. Сигнал режима контролируется и селектируется системой связи, в которой работает система 10 сжатия речи. Сигнал режима может быть подан на систему 12 кодирования для поддержки определения того, какой из множества кодов может быть активизирован в системе 12 кодирования.

Кодеки содержат секцию устройства кодирования и секцию устройства декодирования, которые размещены в системе 12 кодирования и в системе 16 декодирования соответственно. В возможном варианте осуществления системы 10 сжатия речи имеется 4 кодека, а именно: кодек 22 полной скорости, кодек 24 половинной скорости, кодек 26 одной четвертой скорости и кодек 28 одной восьмой скорости. Каждый из кодеков 22, 24, 26, 28 в процессе работы генерирует поток битов. Размер потока битов, генерируемого каждым из кодеков 22, 24, 26, 28, и, следовательно, ширина полосы, необходимая для передачи потока битов в среде 24 передачи, различаются.

В одном из вариантов осуществления кодек 22 полной скорости, кодек 24 половинной скорости, кодек 26 одной четвертой скорости и кодек 28 одной восьмой скорости генерируют соответственно 170 битов, 80 битов, 40 битов и 16 битов на кадр. Размер потока битов каждого кадра соответствует скорости передачи в битах, а именно 8,5 Кбит/с для кодека 22 полной скорости, 4,0 Кбит/с для кодека 24 половинной скорости, 2,0 Кбит/с для кодека 26 одной четвертой скорости и 0,8 Кбит/с для кодека 28 одной четвертой скорости. Однако в альтернативных вариантах возможно использование меньшего или большего числа кодеков, а также других частот следования битов. Путем обработки кадров речевого сигнала 18 с использованием различных кодеков обеспечивается получение средней скорости передачи в битах. Система 12 кодирования определяет, какой из кодеков 22, 24, 26, 28 может использоваться для кодирования конкретного кадра, на основе определения параметров кадра и от желательной средней скорости передачи в битах, обеспечиваемой сигналом режима. Определение параметров кадра основывается на части речевого сигнала 18, содержащейся в конкретном кадре. Например, кадры могут характеризоваться как стационарно звонкие (голосовые, озвученные), нестационарно звонкие, глухие (неозвученные), начальные, фоновые шумы, паузы и т.д.

Сигнал режима в линии 21 сигнала режима в одном из вариантов осуществления идентифицирует режим 0, режим 1 и режим 2. Каждый из трех режимов задает отличающуюся желательную среднюю скорость передачи в битах, которая может изменять процентное соотношение использования каждого из кодеков 22, 24, 26 и 28. Режим 0 может определяться как наивысший режим, в котором большая часть кадров может кодироваться кодеком 22 полной скорости; меньше кадров могут кодироваться кодеком 24 половинной скорости, и кадры, содержащие паузы и фоновые шумы, могут кодироваться кодеком 26 одной четвертой скорости и кодеком 28 одной восьмой скорости. Режим 1 может определяться как стандартный режим, в котором кадры с высоким информационным содержанием, такие как начальные и некоторые озвученные кадры, могут кодироваться кодеком 22 полной скорости. Кроме того, другие озвученные и неозвученные кадры могут кодироваться кодеком 24 половинной скорости, некоторые неозвученные кадры могут кодироваться кодеком 25 одной четвертой скорости и кадры пауз и фоновых шумов могут кодироваться кодеком 28 одной восьмой скорости.

Режим 2 может определяться как экономный режим, в котором лишь малое количество кадров с высоким информационным содержанием могут кодироваться кодеком 22 полной скорости. Большинство кадров в режиме 2 могут кодироваться с помощью кодека 24 половинной скорости за исключением некоторых неозвученных кадров, которые могут кодироваться с помощью кодека 26 одной четвертой скорости. В режиме 2 кадры пауз и фоновых шумов могут кодироваться кодеком 28 одной восьмой скорости. Соответственно путем варьирования выбора кодеков 22, 24, 26, 28 система 10 сжатия речи может вырабатывать восстановленную речь при желательной средней скорости передачи в битах, пытаясь поддерживать наивысшее возможное качество. Дополнительные режимы, такие как режим 3, работающий в сверхэкономичном режиме, или режим максимального кодека половинной скорости, при котором максимально активизируемым кодеком является кодек 24 половинной скорости, также возможны в альтернативных вариантах осуществления.

Дополнительное управление системой 10 сжатия речи может быть обеспечено с помощью линии 30 сигнала половинной скорости. Линия 30 сигнала половинной скорости обеспечивает флаг сигнализации половинной скорости. Флаг сигнализации половинной скорости может обеспечиваться внешним источником, таким как система беспроводной связи. При активизации флаг сигнализации половинной скорости предписывает системе 10 сжатия речи использовать кодек 24 половинной скорости соответственно максимальной скорости передачи. Определение того, когда активизировать флаг сигнализации половинной скорости выполняется системой связи, в которой работает система 10 сжатия речи. Подобно определению сигнала режима модуль сигнализации половинной скорости контролирует активизацию флага сигнализации половинной скорости на основе множества факторов, которые определяются системой связи. В альтернативных вариантах осуществления флаг сигнализации половинной скорости может предписывать системе 10 сжатия речи использовать один кодек 22, 24, 26 и 28 вместо другого или указывать один или более кодеков 22, 24, 26 и 28 как соответствующего максимальной или минимальной скорости передачи.

В одном из вариантов осуществления система 10 сжатия речи кодеки 22 и 24 соответственно полной и половинной скорости могут основываться на методе eX-CELP (расширенное линейное предсказание с кодовым возбуждением), а кодеки 26, 28 одной четвертой и одной восьмой скорости соответственно могут основываться на методе перцепционного согласования. Метод eX-CELP расширяет традиционный баланс между перцепционным согласованием и согласованием форм сигнала традиционного метода CELP. В частности, метод eX-CELP определяет параметры кадров с использованием выбора скорости и классификации типа, как описано ниже. Для различных категорий кадров могут быть использованы различные методы кодирования, которые имеют различное перцепционное согласование, различное согласование форм сигналов и различные распределения битов. Метод перцепционного согласования кодека 26 одной четвертой скорости и кодека 28 одной восьмой скорости не используют согласования форм сигналов, а вместо этого концентрируются на перцепционных аспектах при кодировании кадров.

Кодирование каждого кадра либо по методу eX-CELP, либо по методу перцепционного согласования может базироваться на дальнейшем делении кадра на множество субкадров. Субкадры могут быть различными по размерам и по числу для каждого кодека 22, 24, 26 и 28. Кроме того, что касается метода eX-CELP, субкадры могут быть различными для каждой категории. В пределах субкадров параметры речи и формы сигналов могут кодироваться с использованием различных скалярных и векторных методов квантования с предсказанием и без предсказания. При скалярном квантовании параметр речи или элемент могут быть представлены местоположением индекса наиболее близкой записи в репрезентативной таблице скаляров. При векторном квантовании различные параметры речи могут быть сгруппированы для формирования вектора. Вектор может быть представлен местоположением индекса наиболее близкой записи в репрезентативной таблице векторов.

При кодировании с предсказанием элемент может прогнозироваться из прошлого. Элемент может быть скаляром или вектором. Ошибка предсказания может затем квантоваться с использованием таблицы скаляров (скалярное квантование) или таблицы векторов (векторное квантование). Метод кодирования eX-CELP подобно традиционному методу CELP использует эффективную схему анализа через синтез для выбора наилучшего представления для различных параметров. В частности, параметры могут быть адаптивной кодовой книгой, фиксированной кодовой книгой и их соответствующими выигрышами. Схема анализа через синтез использует инверсные фильтры прогнозирования и меры перцепционного взвешивания для выбора наилучших записей кодовых книг.

Возможный вариант реализации системы 10 сжатия речи может представлять собой устройство обработки сигналов, такое как интегральная схема цифрового процессора сигналов, мобильное устройство связи или радиопередающая базовая станция. Устройство обработки сигналов может программироваться исходным кодом. Исходный код может быть сначала преобразован в код с фиксированной запятой и затем переведен на язык программирования, который соответствует устройству обработки сигналов. Преобразованный исходный код может затем загружаться и исполняться в устройстве обработки сигналов. Примером исходного кода является компьютерная программа на языке С, используемая в одном из вариантов осуществления системы 10 сжатия речи, которая включена в настоящее описание в качестве приложения А и В.

На фиг.2 представлена более детальная блок-схема системы 12 кодирования, показанной на фиг.1. Один из вариантов осуществления системы 12 кодирования включает модуль 34 предпроцессорной (предварительной) обработки, устройство 36 кодирования полной скорости, устройство 38 кодирования половинной скорости, устройство 40 кодирования одной четвертой скорости и устройство 42 кодирования одной восьмой скорости, которые соединены так, как показано на чертеже. Устройства 36, 38, 40 и 42 кодирования определенной скорости включают в себя модуль 44 обработки исходного кадра и модуль 54 обработки возбуждения.

Речевой сигнал 18, принимаемый системой 12 кодирования, обрабатывается на уровне кадра с помощью модуля 34 предварительной обработки. Модуль 34 предварительной обработки обеспечивает первоначальную обработку речевого сигнала 18. Первоначальная обработка может включать в себя фильтрацию, формирование сигнала, удаление шумов, усиление и иные подобные методы, обеспечивающие оптимизацию речевого сигнала 18 для последующего кодирования.

Устройства 36, 38, 40, 42 кодирования полной, половинной, одной четвертой и одной восьмой скорости являются секциями кодирования кодеков 22, 24, 26 и 28 полной, половинной, одной четвертой и одной восьмой скорости соответственно. Модуль 44 обработки исходного кадра выполняет обработку исходного кадра, выделение параметров речи и определяет, какое из устройств 36, 38, 40, 42 кодирования полной, половинной, одной четвертой и одной восьмой скорости будет кодировать конкретный кадр. Модуль 44 обработки исходного кадра может быть подразделен на множество модулей обработки начального кадра, а именно на модуль 46 обработки исходного кадра полной скорости, модуль 48 обработки исходного кадра половинной скорости, модули 50, 52 обработки исходного кадра одной четвертой и одной восьмой скорости. Однако следует отметить, что модуль 44 обработки исходного кадра выполняет обработку, которая является общей для всех устройств 36, 38, 40, 42 кодирования соответствующих скоростей, и конкретную обработку, соответствующую каждому из устройств 36, 38, 40, 42 кодирования. Подразделение модуля 44 обработки исходного кадра на соответствующие модули 46, 48, 50 и 52 обработки исходного кадра соответствует упомянутым устройствам 36, 38, 40, 42 кодирования соответствующей скорости.

Модуль 44 обработки исходного кадра выполняет общую обработку для определения выбора скорости, который активизирует одно из устройств 36, 38, 40, 42 кодирования соответствующей скорости. В одном из вариантов осуществления выбор скорости основывается на определении параметров кадра речевого сигнала 18 и режима, в котором работает система 10 сжатия речи. Активизация одного из устройств 36, 38, 40, 42 кодирования соответствующей скорости соответственно активизирует один из модулей 46,48, 50 и 52 обработки исходного кадра.

Конкретный модуль 46, 48, 50 и 52 обработки исходного кадра активизируется для кодирования соответствующих частей речевого сигнала 18, которые являются общими для всего кадра.

Кодирование модулем 44 обработки исходного кадра квантует параметры речевого сигнала 18, содержащегося в кадре. Квантованные параметры приводят в результате к генерации части потока битов. В принципе, поток битов является сжатым представлением кадра речевого сигнала 18, который обработан системой 12 кодирования посредством одного из устройств 36, 38, 40, 42 кодирования соответствующей скорости.

В дополнение к выбору скорости модуль 44 обработки исходного кадра также выполняет обработку для определения классификации типа для каждого кадра, который обрабатывается устройствами 36 и 38 кодирования полной и половинной скорости соответственно. Классификация типа в одном из вариантов осуществления предусматривает классификацию речевого сигнала 18, представленного кадром, как первый тип (т.е. тип 1) или как второй тип (т.е. тип 0). Классификация типа в одном из вариантов осуществления зависит от свойств и характеристик речевого сигнала 18. В альтернативном варианте могут предусматриваться дополнительные классификации типов и соответствующая поддерживающая их обработка.

Классификация типа 1 включает кадры речевого сигнала 18, которые демонстрируют стационарное поведение. Кадры, демонстрирующие стационарное поведение, включают структуру гармоник и структуру формата, которые не изменяются с высокой скоростью. Все другие кадры могут классифицироваться в соответствии с классификацией типа 0. В альтернативных вариантах осуществления дополнительные классификации типов могут классифицировать кадры соответственно дополнительным классификациям на основе временной области, частотной области и т.д. Классификация типа оптимизирует кодирование мод