Способ сжатия речевого сигнала путем кодирования с переменной скоростью и устройство для его осуществления, кодер и декодер
Реферат
Предложены устройство и способ для сжатия речевого сигнала путем кодирования с переменной скоростью кадров оцифрованных выборок (10) речевого сигнала. Определяют уровень активности речевого сигнала для каждого кадра оцифрованных выборок речевого сигнала и выбирают скорость кодирования пакета выходных данных из группы множества скоростей в соответствии с определенным уровнем активности речевого сигнала в кадре. Наиболее низкая скорость из группы скоростей соответствует обнаруженному минимальному уровню активности речевого сигнала, например, фоновому шуму или речевым паузам, в то время как наиболее высокая скорость соответствует обнаруженному максимальному уровню активности речевого сигнала, например активная вокализация. Затем каждый кадр кодируют в соответствии с заранее определенным форматом кодирования для выбранной скорости передачи, причем каждой скорости передачи соответствует определенное число битов, представляющих закодированный кадр. Для каждого закодированного кадра формируют пакет данных, причем скорость каждого пакета выходных данных соответствует выбранной скорости. 4 с. и 37 з.п.ф-лы, 8 табл., 24 ил.
Изобретение относится к области обработки речевых сигналов, точнее к созданию новых усовершенствованных способов и устройств для сжатия речевых сигналов, в которых степень сжатия динамически меняется с целью минимизации влияния сжатия на качество воспроизводимой речи. Более того, поскольку сжатая речевая информация предназначена для передачи по каналу связи, который может вносить искажения, способ и устройство, предложенные в изобретении, позволяют минимизировать влияние канальных искажений на качество воспроизводимой речи.
Передача голоса цифровыми средствами получила широкое распространение, особенно применительно к дальней и радиотелефонной связи. Это в свою очередь вызвало повышенный интерес к определению минимального количества информация, передаваемой по каналу связи, которое обеспечивает приемлемое качество воспроизводимой речи. Если при передаче речи используются просто дискретизация и цифровое кодирование, то для достижения качества воспроизводимой речи обычного аналогового телефона потребуется скорость передачи данных около 64 кб/с. Однако применение анализа речи перед соответствующим кодированием и передачей и синтеза речи на приемной стороне позволяет достичь существенного снижения скорости передачи данных. Устройства, которые используют методы сжатия речевых сигналов путем выделения параметров, связанных с моделью генерации человеческой речи, обычно называют вокодерами. Такие устройства содержат кодер, который анализирует входной речевой сигнал для выделения нужных параметров, и декодер, который синтезирует речевой сигнал, используя параметры, полученные по каналу связи. Чтобы быть точной, модель должна постоянно меняться. Поэтому речевой сигнал делится на временные блоки или анализируемые кадры, в течение которых рассчитываются параметры речевых сигналов. Эти параметры затем обновляются для каждого нового кадра. Из речевых кодеров различных классов кодеры, использующие кодирование методом линейного предсказания с кодовым возбуждением (ЛПККВ) стохастическое кодирование или речевое кодирование с векторным возбуждением, относятся к одному классу. Пример кодирующего алгоритма этого класса описан в работе "А 4. 8 kbps Code Excited Linear Predictive Code", Thomas E Tremain et al., Proceedings of the Mobile Satellite Conference, 1988. Задачей вокодера является сжатие оцифрованного речевого сигнала в сигнал с малой скоростью передачи битов с помощью устранения всех естественных избыточностей, присутствующих в речи. Типичный речевой сигнал имеет кратковременные избыточности, обусловленные прежде всего фильтрацией в голосовом тракте и долговременные избыточности обусловленные возбуждением голосового тракта голосовыми связками. В кодере ЛПККВ эти операции моделируются двумя фильтрами, формантным фильтром формирующим кратковременные избыточности, и тоновым фильтром долговременных избыточностей. Как только эти избыточности устранены, полученный остаточный сигнал может моделироваться как белый Гауссовый шум, который должен быть также закодирован. Данная процедура основана на расчете параметров фильтра, называемого фильтром кодирования с линейным предсказанием, который осуществляет краткосрочное предсказание формы речевого сигнала, используя модель человеческого голосового тракта. Кроме того, долговременные воздействия, относящиеся к речевому тону, моделируются путем расчета параметров тонового фильтра, который по существу моделирует человеческие голосовые связки. Наконец, эти фильтры должны быть возбуждены, и это осуществляется путем определения того, какое колебание из некоторого набора случайных возбуждающих колебаний, находящихся в кодовом словаре, будучи поданным для возбуждения упомянутых выше двух фильтров, обеспечивает ближайшую аппроксимацию исходного речевого сигнала. Таким образом передаваемые параметры относятся к фильтру кодирования с линейным предсказанием ЛПК тональному фильтру и возбуждению кодового словаря. Несмотря на то, что использование методов сжатия речевого сигнала решает задачу уменьшения количества информации, передаваемой по каналу, при обеспечении приемлемого качества воспроизводимой речи, требуется применение других методов, чтобы еще больше уменьшить количество передаваемой информации. Одним из методов, используемых для уменьшение передаваемого количества информации, является стробирование активности речевого сигнала. При применении этого метода отсутствует передача информации во время пауз речи. Хотя этот способ позволяет достичь желаемых результатов по сокращению передаваемых данных, он обладает рядом недостатков. Во многих случаях качество речи ухудшается из-за отсечения начальных частей слов. Другим недостатком запирания канала во время пауз является то, что пользователи системы отсутствие окружающего шума, который обычно сопутствует речевому сигналу, оценивают как снижение качества канала ниже, чем обычного телефонного канала. Следующим недостатком метода стробирования является подверженность воздействию случайных, внезапных шумов, которые могут запустить передатчик при отсутствии речевого сигнала, что приводит к нежелательным трескам на приемной стороне. Для того, чтобы улучшить качество синтезируемой речи в системах со стробированием речевого сигнала во время процесса декодирования к нему добавляется синтезированный привычный шум. Хотя добавление этого шума позволяет достичь некоторого улучшения качества, оно реально не улучшает общее качество, так как этот шум не моделирует реальный фоновый шум на входе кодера. Более предпочтительным методом сжатия данных и как следствие - уменьшения количества передаваемой информации, является кодирование : речевых данных с переменной скоростью. Так как речь неотъемлемо содержит периоды молчания, т. е. паузы, количество данных, требуемых для представления этих периодов, может быть уменьшено. Кодирование данных с переменной скоростью наиболее эффективно использует это свойство, уменьшая скорость передачи данных во время этих периодов молчания. Уменьшение скорости передачи данных в противоположность полному запрещению передачи данных в периоды молчания позволяет устранить недостатки, присущие методу стробирования активности речевого сигнала, способствуя при этом уменьшению передаваемой информации. Таким образом, целью предлагаемого изобретения является создание новых более совершенных способа и устройства для сжатия речевого сигнала, использующих методы кодирования с переменной скоростью. Предлагаемое изобретение предусматривает создание алгоритма кодирования речевого сигнала для ранее упомянутого класса вокодеров, использующих кодирование методом линейного предсказания с кодовым возбуждением (ЛПККВ), стохастическое кодирование или речевое кодирование с векторным возбуждением. Метод ЛПККВ сам по себе обеспечивает существенное уменьшение объема данных, необходимых для представления речи таким образом, чтобы получить высокое качество восстановленной речи. Как отмечалось ранее, параметры вокодера корректируются для каждого кадра. Вокодер, предлагаемый в настоящем изобретении обеспечивает переменную скорость выходных данных путем изменения частоты и точности параметров модели. Предлагаемое изобретение существенно отличается от классического метода ЛПККВ тем, что производит выходные данные с переменной скоростью, на основе активности речевого сигнала. Особенностью данного метода является то, что параметры корректируются менее часто или с меньшей точностью в течение пауз речи. Такая процедура позволяет достичь существенно большего уменьшения информации, предназначенной для передачи. Свойством, которое используется для уменьшения скорости передачи данных, является коэффициент активности голоса, под которым подразумевается среднее время в процентах фактически занимаемое словами, произносимыми говорящим во время разговора. Для типичной двусторонней телефонной связи средняя скорость передачи данных уменьшается в два и более раз. Во время речевых пауз в вокодере кодируется только окружающий шум. В эти моменты нет необходимости передавать часть параметров, относящихся к модели человеческого голосового тракта. Упомянутый ранее известный метод ограничения информации, передаваемой в течение периодов молчания, называется стробированием активности речевого сигнала, при котором никакой информации не передается в течение периодов молчания. На приемной стороне такой период может быть заполнен синтезированным "комфортным шумом", т.е. шумом, обычно сопровождающим человеческую речь. В противоположность этому вокодер с переменной скоростью передачи постоянно передает данные, в предпочтительном варианте осуществления изобретения со скоростями, диапазон которых лежит примерно между 8 кб/с и 1 кб/с. Вокодер, который осуществляет непрерывную передачу данных, не нуждается в синтезированном "комфортном" шуме, а путем кодирования окружающего шума обеспечивает более естественное качество синтезированной речи. Поэтому предлагаемое изобретение обеспечивает существенное улучшение качества синтезированной речи по отношению к качеству, обеспечиваемому методом стробирования активности речевого сигнала благодаря сглаживанию перехода между периодами активной речи и паузами с окружающим шумом. Настоящее изобретение использует в дальнейшем новую процедуру для маскировки ошибок. Так как данные, предназначенные для передачи по каналу связи, могут быть искажены шумом, например в случае радиосвязи, то этот метод должен быть приспособлен к ошибкам в данных. Известные методы, использующие канальное кодирование для уменьшения числа ошибок, являются довольно эффективными. Однако канальное кодирование само по себе" не дает в полной мере степени защиты от помех, необходимой для обеспечения высокого качества восстанавливаемой речи. В вокодере с переменной скоростью передачи, где процесс кодирования речевого сигнала осуществляется непрерывно, ошибка может исказить данные, относящиеся к некоторым важным частям речи, таким как начало, слова или слог. Типичным недостатком вокодеров, основанных на кодировании методом линейного предсказания (ЛПК), является то, что искажения параметров, относящихся к модели голосового тракта, приводят к появлению звуков, не похожих на человеческий голос и настолько искаженных, что они могут вызвать замешательство со стороны слушающего. В предлагаемом изобретении ошибки маскируются, чтобы они не ощущались слушающим. Таким образом, маскирование ошибок, применяемое в предлагаемом изобретении, обеспечивает существенное снижение степени воздействия ошибок на разборчивость речи. Поскольку максимальное значение, которое может принимать любой параметр, ограничивается меньшим диапазоном на низких скоростях, ошибки, возникающие при передаче этих параметров, на этих скоростях будут влиять на качество речи в меньшей степени. Так как ошибки на различных скоростях передачи обладают различной степенью воздействия на качество речи, система передачи может быть оптимизирована, чтобы обеспечить лучшую защиту на более высоких скоростях передачи данных. Поэтому дополнительным преимуществом изобретения является устойчивость по отношению к канальным ошибкам. Изобретение благодаря использованию варианта алгоритма ЛПККВ с переменной скоростью обеспечивает коэффициент сжатия речевого сигнала, который динамически меняется от 8:1 до 64:1 в зависимости от активности голосового сигнала. Указанные значения коэффициентов сжатия, 1 относятся к входным данным с законом компандирования с -характеристикой, для входных данных с линейным законом коэффициенты сжатия выше примерно в два раза. Определение скорости делается на уровне кадров, чтобы получить полное преимущество от использования коэффициента активности голоса. Несмотря на то, что во время речевых пауз передается меньшее число данных ощутимое увеличение синтезированного фонового шума сведено к минимуму. Использование методов, предложенных в настоящем изобретении, позволяет для обычного разговора получить почти наилучшее качество речи при максимальной скорости передачи данных около 8 кб/с и средней скорости передачи данных порядка 3,5 кб/с. Так как предполагается обнаружение коротких пауз в речи, то эффективный коэффициент активности голоса уменьшается. Решение о величине скорости передачи может приниматься на уровне кадров, без "хвостов" (затягивания), так что для речевых пауз скорость передачи может быть снижена до длительности кадра, как правило, 20 мс в предпочтительном варианте осуществления изобретения. Поэтому могут быть обнаружены такие паузы, как паузы между слогами. Эта процедура снижает коэффициент активности голоса ниже традиционно принимаемого значения, так что не только длинные паузы между фразами, но также и короткие паузы могут кодироваться с более низкими скоростями. Так как решения о скорости передачи принимаются на уровне кадров, отсутствует усечение начальной части слова, которое имеет место в системе со стробированием активности речевого сигнала. Усечения такого типа присутствуют в системах со стробированием активности речевого сигнала из-за задержки между обнаружением речевого сигнала и возобновлением передачи данных. Регулирование скорости передачи на каждом кадре позволяет получить речевой сигнал, где все переходы имеют естественное звучание. Когда вокодер постоянно передает сигналы, шум от окружающей среды, где находится говорящий, постоянно слышен на приемной стороне, создавая более естественный фон во время речевых пауз. Предлагаемое изобретение, таким образом, обеспечивает плавный переход к фоновому шуму. То, что слушающий слышит параллельно с передаваемой речью, не будет неожиданно превращаться в синтезированный "комфортный" шум в периоды пауз, как это имеет место в системах со стробированием активности голоса. Так как окружающий шум постоянно кодируется для передачи, представляющие интерес фоновые звуки могут быть переданы с полной ясностью. В определенных случаях такой представляющий интерес фоновый шум может быть даже закодирован с максимальной скоростью. Максимальная скорость кодирования может потребоваться, например, когда рядом с передающим абонентом находится громко разговаривающий субъект, или когда автомобиль скорой помощи проезжает мимо пользователя, стоящего на углу улицы. Однако постоянный или медленно меняющийся окружающий шум будет кодироваться с малой скоростью. Использование кодирования с переменной скоростью позволяет увеличить емкость цифровых систем сотовой телефонной связи с параллельным доступом и кодовым разделением каналов (систем ПДКРК) более чем в два раза. Параллельный доступ с кодовым разделением каналов и кодирование речи с переменной скоростью уникально сочетаются друг с другом, поскольку межканальные помехи автоматически уменьшаются при уменьшении скорости передачи данных в любом канале. Этим системы с кодовым разделением каналов выгодно отличаются от систем, в которых для каналов выделяются частотные или временные области, т.е. от систем с параллельным доступом и временным разделением каналов и систем с параллельным доступом и частотным разделением каналов. Для того, чтобы в подобных системах получить выигрыш от уменьшения скорости передачи данных, требуется внешнее вмешательство для координации повторного назначения неиспользованных областей - частотных или временных - другим пользователям. Присущая таким системам задержка приводит к тому, что канал может быть переназначен только в периоды длительных разговорных пауз. Поэтому полностью реализовать преимущества, обеспечиваемые использованием коэффициента активности речевого сигнала, не удается. Однако при наличии внешней координации кодирование речевых сигналов с переменной скоростью целесообразно и в системах, отличных от систем с кодовым разделением каналов, по другим упомянутым причинам. В системах с параллельным доступом и кодовым разделением каналов качество речевого сигнала может быть слегка ухудшено в тех случаях, когда желательна система с чрезмерно большой емкостью. Вокодер может рассматриваться в виде множества вокодеров, работающих с разными скоростями и разным качеством речи. Поэтому качество речи может быть усреднено, чтобы еще больше уменьшить среднюю скорость передачи данных. Предварительные эксперименты показывают, что при смешивании речевых сигналов, кодированных с полной скоростью и с половинной скоростью, например, когда максимально допустимая скорость изменяется на уровне кадров между 8 кб/с и 4 кб/с, результирующие речевые сигналы имеют лучшее качество, чем при кодировании с половинной скоростью, т.е. максимум 4 кб/с, но не такое хорошее, как при кодировании с полной скоростью, т.е. максимум 8 кб/с. Хорошо известно, что в большинстве телефонных разговоров в данный момент времени говорит только один абонент. В качестве дополнительной функции полной дуплексной телефонной линии может быть предусмотрена взаимозависимость скоростей передачи. Если на одной стороне линии связи идет передача с максимальной скоростью, то другая сторона связи вынуждена передавать с наименьшей скоростью. Такая взаимосвязь скоростей в обоих направлениях может гарантировать, что среднее использование в каждом направлении канала связи составляет не более 50%. Однако, когда канал запирается, как это имеет место в случае взаимозависимости скоростей при стробировании активности голоса, слушающий не может прервать говорящего, чтобы взять на себя активную роль в разговоре. Предлагаемое изобретение легко обеспечивает изменение скоростей путем управления сигналами, которые устанавливают скорость кодирования речевых сигналов. Следует отметить, что путем использования кодирования речевых сигналов с переменной скоростью одновременно с речевыми данными может передаваться вспомогательная информация при минимальном влиянии на качество передаваемого речевого сигнала. Например, высокоскоростной кадр может быть разбит на две части, одна из которых используется для передачи с более низкой скоростью речевых данных, а другая - для передачи вспомогательных сигнальных данных. В вокодере согласно предпочтительному варианту осуществления изобретения происходит лишь незначительное снижение качества воспроизводимой речи при передаче с половинной скоростью по сравнению с передачей с полной скоростью. Поэтому кодирование речевого сигнала на более низкой скорости с целью одновременной передачи других данных приводит к почти неразличимой для слушателя разнице в качестве воспроизводимой речи. На фиг. 1(a-e) изображены кадры и подкадры, анализируемые вокодером при различных скоростях; на фиг. 2(a-d) - ряд карт, иллюстрирующих распределение битов в выходных сигналах вокодера при различных скоростях; на фиг.3 изображена обобщенная блок-схема варианта реализации кодера; на фиг.4 - алгоритм кодирования; на фиг.5 обобщенная блок-схема варианта выполнения декодера; на фиг. 6 - алгоритм декодирования; на фиг.7 - более подробная блок-схема кодера; на фиг.8 - блок-схема примера реализации подсистемы окна Хемминга и автокорреляции; на фиг. 9 - блок-схема примера реализации подсистемы определения скорости; на фиг.10 - блок-схема примера реализации подсистемы анализа коэффициентов ЛПК (кодирование методом линейного предсказания); на фиг.11 блок-схема примера реализации подсистемы преобразования коэффициентов ЛПК в ЛСП (линейные спектральные пары); на фиг.12 - блок-схема примера реализации подсистемы квантования ЛПК; на фиг.13 - блок-схема примера реализации подсистемы интерполяции ЛСП и преобразования ЛСП в ЛПК; на фиг.14 блок-схема примера реализации адаптивного кодового словаря для поиска тона; на фиг.15 - блок-схема кодера-декодера; на фиг.16 - блок-схема подсистемы поиска тона; на фиг.17 блок-схема подсистемы поиска кодового словаря; на фиг.18 - блок-схема подсистемы упаковки данных; на фиг. 19 приведена более подробную блок-схему декодера; на фиг. 20(a-2d) представлены карты, иллюстрирующие принятые декодером параметры и декодируемые данные подкадра для различных скоростей передачи; на фиг. 21(a-c) - карты, дополнительно иллюстрирующие принятые декодером параметры и декодируемые данные подкадра при некоторых особых условиях; на фиг. 22 - блок-схема подсистемы обратного квантования ЛСП; на фиг.23 более подробно изображен декодер с постфильтрацией и автоматической регулировкой усиления; на фиг.24 - график характеристики адаптивного очищающего фильтра. Согласно предлагаемому изобретению, звуковые сигналы, такие как речь и/или окружающий шум, квантуют и преобразуют в цифровую форму, используя хорошо известные способы. Например, аналоговый сигнал может быть преобразован в цифровой формат с помощью стандартного формата "8 бит/закон компандирования, с -характеристикой, после чего выполняется преобразование закон компандирования с -характеристикой/равномерный (однородный) код. В качестве альтернативы аналоговый сигнал может быть сразу преобразован в цифровую форму с равномерным кодом в формате импульсно-кодовой модуляции. Каждая выборка в предпочтительном варианте осуществления изобретения представляется одним словом данных длиной в 16 бит. Выборки аналогового сигнала объединяются в кадры входных данных, причем каждый кадр содержит определенное число выборок. В примере реализации рассматриваются выборки с частотой дискретизации 8 кГц. Каждый кадр содержит из 160 выборок аналогового сигнала, что соответствует длительности сигнала речи 20 мс при частоте дискретизации 8 кГц. Могут быть использованы другие размеры кадра и частоты дискретизации. Для кодирования сигналов речи используют различные способы, одним из которых является кодирование методом линейного предсказания с кодовым возбуждением (ЛПККВ). Краткие сведения об этом способе изложены в указанной работе "A 4,8 kbps Code Excited Linear Predictive Coder". Изобретение использует вид кодирования ЛПККВ, чтобы обеспечить переменную скорость кодирования речевых данных, причем ЛПК анализ осуществляется на постоянном числе выборок, а поиск, параметров тона и кодового словаря производится на переменном числе выборок, которое зависит от скорости передачи. Принцип кодирования ЛПККВ, используемого в предлагаемом изобретении, поясняется с помощью фиг.3 и 5. В предпочтительном варианте изобретения длительность кадра, в течение которого осуществляется анализ речевого сигнала, составляет 20 мс и предполагается, что выделенные для передачи параметры речевого сигнала передаются посылками 50 раз в 1 с. Кроме того скорость передачи данных меняется дискретно и принимает значения примерно 8, 4, 2 и 1 кб/с. При полной скорости (в тексте описания обозначается как скорость 1) передача данных осуществляется со скоростью 8,55 кб/с при использовании 171 бита для кодирования параметров каждого кадра, включая 11 битов для контроля с использованием циклического избыточного кода (КЦИК). В случае отсутствия КЦИК битов скорость передачи была бы 8 кб/с. При половинной скорости (в тексте описания обозначается как скорость 1/2) скорость передачи данных составляет 4 кб/с при использовании 80 битов в каждом кадре для кодирования передаваемых параметров. На четвертичной скорости (в тексте описания обозначается как скорость 1/4) скорость передачи данных составляет 2 кб/с с использованием 40 бит в каждом кадре для кодирования передаваемых параметров. При одной восьмой полной скорости (в тексте описания обозначается как скорость 1/8) скорость передачи составляет чуть меньше 1 кб/с при использовании 16 битов в каждом кадре для кодирования передаваемых данных. Фиг. 1 иллюстрирует пример анализируемого кадра речевых данных 10 и расположение окна Хемминга 12, используемого при анализе с кодированием методом линейного предсказания (ЛПК). Анализируемый ЛПК кадр, а также подкадры тона и кодового словаря для различных скоростей изображены на фиг.2, a-d. Должно быть понятно, что анализируемый ЛПК кадр имеет одинаковый размер для всех скоростей передачи. Обратимся теперь к фиг.1,a. Анализ с ЛПК использует 160 выборок речевого сигнала в кадре 10, которые взвешиваются с использованием окна Хемминга 12. Как показано на фиг. 1,a, выборки сигнала s(n) пронумерованы 0-159 внутри каждого кадра. Окно Хемминга 12 смещено по отношению к кадру 10 на 60 выборок, т.е. окно Хемминга 12 начинается с 60-й выборки s(59) текущего кадра 10 данных и продолжается до 59-й выборки s(58) включительно следующего кадра 14 данных. Взвешенные данные, выработанные для текущего кадра 10, таким образом, содержат данные, полученные на основе данных следующего кадра 14. В зависимости от скорости передачи данных производится поиск для вычисления параметров возбуждения тонового фильтра и кодового словаря несколько раз на различных подкадрах кадра 10 данных, как изображено на фиг. 1b-1е. Должно быть понятно, что в данном варианте изобретения только одна скорость передачи выбрана для кадра 10, так что поиски тона и кодового словаря делаются в подкадрах разных размеров в соответствии с выбранной скоростью передачи. Однако для наглядности структура подкадров поиска тона и кодового словаря для различных допустимых в данном варианте скоростей передачи изображена на фиг.1b-1e. На всех скоростях передачи по каждому кадру 10 осуществляется только одно вычисление коэффициентов ЛПК, как это изображено на фиг. 1, a. Как видно из фиг.1b, на полной скорости передачи существуют два подкадра 18 кодового словаря для каждого подкадра 16 тона. При полной скорости передачи существуют четыре корректировки тона, по одной на каждый из четырех тоновых подкадров 16 с длительностью равной 40 выборкам речевого сигнала (5 мс). Кроме того, при полной скорости имеется восемь корректировок кодового словаря, по одной на каждый из восьми подкадров 18 кодового словаря, с длительностью 20 выборок речевого сигнала (2, 5 мс). При половинной скорости передачи данных, как это изображено на фиг.1c, существует два подкадра 22 кодового словаря для каждого тонового подкадра 20. Тон корректируется дважды, один раз для каждого из двух подкадров 20 тона, в то время как кодовый словарь корректируется четыре раза, один раз в каждом из четырех подкадров 22 кодового словаря. На четвертной скорости передачи данных, как показано на фиг.1d, существует два подкадра 26 кодового словаря для одного тонового подкадра 24. Тон корректируется один раз для тонового подкадра 24, в то время как кодовый словарь - дважды, один раз для каждого из двух подкадров 26 кодового словаря. В соответствии с фиг.1e, при одной восьмой полной скорости передачи данных тон не определяется, а кодовый словарь обновляются только один раз в кадре 28, который соответствует кадру 10. Кроме того, хотя коэффициенты ЛПК вычисляются только один раз за кадр, они линейно интерполируются в виде линейных спектральных пар (ЛСП) до четырех раз, используя частоты ЛСП, полученные из предыдущего кадра, чтобы аппроксимировать результаты анализа коэффициентов ЛПК с взвешивающей функцией Хемминга, отцентрированной на каждом подкадре. Исключение составляет случай передачи с полной скоростью, когда коэффициенты ЛПК не интерполируются для подкадров кодового словаря. Более подробно о вычислении частот ЛСП будет сказано ниже. Кроме того, поиски параметров тона и кодового словаря осуществляются менее часто на меньших скоростях, меньшее число битов выделяется для передачи коэффициентов ЛПК. Число битов, выделенных на различных скоростях передачи, показано на фиг. 2a-2d. Каждая из фиг.2a-2d представляет число битов закодированных вокодером данных, которые выделены каждому кадру речи, состоящему из 160 выборок. На фиг.2a-2d число в соответствующих блоках ЛПК 30a-30d является числом битов, используемых при соответствующих скоростях для кодирования кратковременных коэффициентов ЛПК. В предпочтительном варианте изобретения число битов, используемых для кодирования ЛПК коэффициентов на полной, половинной, четвертной и одной восьмой полной скоростях передачи, равно соответственно 40, 20, 10 и 10. Для того, чтобы осуществить кодирование с переменной скоростью, коэффициенты ЛПК сначала преобразуются в линейные спектральные пары (ЛСП), и полученные в результате частоты ЛСП индивидуально кодируются с помощью кодеров дифференциальной импульсно-кодовой модуляции (ДИКМ). Порядок коэффициентов ЛПК равен 10, поэтому существует 10 частот ЛСП и 10 независимых кодеров. Распределение битов для кодеров ДИКМ дано в табл.1. Как при кодировании, так и при декодировании частоты, ЛСП обратно преобразуются в коэффициенты фильтра ЛПК перед использованием при поиске тона и кодового словаря. Что касается поиска тона, то при полной скорости, как показано на фиг. 2a, скорректированные параметры тона рассчитываются четыре раза, один раз для каждой четверти кадра речевого сигнала. Для каждой корректировки тона при полной скорости передачи используется 10 битов для кодирования новых параметров тона. Корректировка тона осуществляется различное число раз для других скоростей передачи данных, как показано на фиг.2b-2d. По мере того, как скорость передачи уменьшается, уменьшается и число корректировок тона. На фиг. 2b показано, что корректированные данные тона половинной скорости вычисляются дважды, один раз для каждой половины кадра речевого сигнала. Аналогично, на фиг. 2c показано что при четвертной скорости передачи корректированные параметры тона вычисляются один раз в каждом полном кадре сигнала речи. Как и для случая полной скорости, 10 битов используются для кодирования новых параметров тона при половинной и четвертной скоростях. Однако для одной восьмой полной скорости передачи, как это иллюстрируется на фиг.2d, скорректированные тоновые параметры не вычисляются, так как эта скорость передачи используется для кодирования кадров, когда речевой сигнал слаб либо отсутствует вовсе и тоновой избыточности в речевом сигнале не существует. Из каждых 10 битов скорректированного тона 7 битой представляют задержку тона и 3 бита - усиление тона. Диапазон задержки тона лежит между 17 и 143. Усиление тона линейно квантуется в диапазоне от 0 до 2 для представления 3 битами. Что касается поиска кодового словаря, то при полной скорости передачи, как это показано на фиг.2a, скорректированные данные кодового словаря вычисляются восемь раз, один раз в каждой восьмой части кадра речевого сигнала. Для каждого корректированного значения кодового словаря при полной скорости передачи используется 10 битов для кодирования новых параметров кодового словаря. Корректировка данных кодового словаря осуществляется разное число раз на различных скоростях передачи данных, как это показано на фиг. 2b-2d. Однако по мере того, как уменьшается скорость передачи, уменьшается и количество корректировок кодового словаря. На фиг.2b показано, что корректированные параметры кодового словаря при половинной скорости передачи данных вычисляются четыре раза, один раз для каждой четверти кадра речевого сигнала. На фиг. 2c представлены скорректированные данные при четвертной скорости передачи данных, которые вычисляются дважды, один раз для каждой половины кадра речевого сигнала. Как и при полной скорости передачи данных, 10 битов используются для кодирования новых параметров кодового словаря для каждой корректировки тона при половинной и четвертной скоростях, На фиг.2d показаны скорректированные данные кодового словаря при одной восьмой полной скорости передачи, которые вычисляются один раз для каждого полного кадра речевого сигнала. Следует отметить что при скорости передачи данных, равной одной восьмой от полной скорости, передается 6 битов: 2 бита представляют усиление кодового словаря, а 4 бита - случайные. Более подробно относительно распределения битов для скорректированных данных кодового словаря будет сказано ниже. Биты, выделенные для скорректированных данных кодового словаря, являются теми битами, которые требуются для векторного квантования остатка предсказания тона. Для полной, половинной и четвертной скоростей передачи каждое скорректированное значение содержит 7 битов для индекса кодового словаря и 3 бита для усиления кодового словаря, всего 10 битов. Усиление кодового словаря кодируется с помощью кодера дифференциальной импульсно-кодовой модуляцией (ДИКМ), работающего в логарифмической области. Хотя аналогичное кодирование может быть использовано и для одной восьмой полной скорости передачи, предпочтительна другая схема. При скорости передачи, равной одной восьмой полной скорости, усиление кодового словаря представлено двумя битами, в то время как 4 генерируемых по случайному закону бита используются в принимаемых данных как начальное число генератора псевдослучайных чисел, который заменяет кодовый словарь. Из блок-схемы кодера (см. фиг.3) видно, что анализ ЛПК выполняют по разомкнутому контуру. Из каждого кадра выборок s(n) входного речевого сигнала вычисляют коэффициенты 1-10 ЛПК с помощью анализатора-квантователя 50 ЛПК для подачи их на вход фильтра 60 синтеза форманты. В то же время вычисление при поиске тона выполняется по замкнутому контуру методом, часто называемым методом анализа через синтез. Однако в данном варианте используется новая гибридная схема с замкнутым/разомкнутым контуром для поиска параметров тона. При поиске тона кодирование осуществляется путем выбора параметров, которые минимизируют среднеквадратичную ошибку в синтезированном речевом сигнале относительно входного речевого сигнала. Для простоты в этой части описания вопросы, связанные с выбором скорости передачи не обсуждаются. Однако в дальнейшем вопросы, связанные с влиянием выбранной скорости кодирования на поиск тона и кодового словаря будут обсуждены более подробно. В варианте, изображенном на фиг.3, персептуальный, т.е. имеющий отношение к восприятию взвешивающий фильтр 52 характеризуется следующим уравнением: , где , является фильтром предсказания форманты, а представляет собой персептуальный весовой параметр, который в данном примере равен = 0,8. Фильтр 58 синтеза тона характеризуется следующим уравнением: . Фильтр 60 синтеза форманты, "взвешенный" фильтр, как поясняется ниже, характеризуется следующим уравнением: . Выборки s(n) входного речевого сигнала взвешиваются персептуальным взвешивающим фильтром 52 и взвешенные выборки x(n) речевого сигнала поступают на суммирующий вход сумматора 62. Персептуальное взвешивание используется в отношении ошибок на частотах, где мощность сигнала мала. Это те частоты, на которых более ощутимым является шум. Выборки x'(n) синтезированного речевого сигнала формируются на выходе фильтра 60 синтеза форманты и подаются на вычитающи