Способ и устройство кодирования кадров перехода в речевых сигналах

Иллюстрации

Показать все

Изобретение относится к способу цифрового кодирования звукового сигнала, например речевого или аудиосигнала, в частности к способу и устройству кодирования кадров перехода и кадров, следующих за переходом в звуковом сигнале. Техническим результатом является повышение эффективности кодирования. Указанный результат достигается тем, что устройство режима перехода для использования в кодеке звукового сигнала с предсказанием для создания возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или по меньшей мере одном кадре, следующем за переходом в звуковом сигнале, содержит вход для приема индекса кодовой книги и кодовую книгу режима перехода для генерирования набора кодовых векторов, не зависимых от прошлого возбуждения, причем кодовая книга режима перехода является реагирующей на индекс кодовой книги для генерирования, в кадре перехода и/или в по меньшей мере одном кадре, следующем за переходом, одного из кодовых векторов набора, соответствующего упомянутому возбуждению режима перехода; причем кодовая книга режима перехода содержит кодовую книгу форм глоттальных импульсов. 6 н. и 54 з.п. ф-лы, 27 ил., 10 табл.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение относится к способу цифрового кодирования звукового сигнала, например речевого или аудиосигнала, принимая во внимание передачу и синтезирование данного звукового сигнала.

Более конкретно, но не исключительно, настоящее изобретение относится к способу и устройству кодирования кадров перехода и кадров, следующих за переходом в звуковом сигнале, например речевом или аудиосигнале, чтобы уменьшить распространение ошибок в декодере в случае стирания кадра и/или чтобы повысить эффективность кодирования главным образом в начале вокализованных сегментов (кадров вступления). В частности, способ и устройство заменяют адаптивную кодовую книгу, обычно используемую в кодерах с предсказанием, кодовой книгой, например, форм глоттальных импульсов в кадрах перехода и в кадрах, следующих за переходом. Кодовая книга глоттальных форм может представлять собой фиксированную кодовую книгу, не зависимую от прошлого возбуждения, посредством чего, если завершилось стирание кадра, кодер и декодер используют одно и то же возбуждение, так что имеется довольно быстрая сходимость к синтезу чистого канала. При кодировании кадра вступления при традиционном кодировании с линейным предсказанием с кодовым возбуждением (CELP) буфер прошлого возбуждения обновляется с использованием шумоподобного возбуждения предыдущего невокализованного или неактивного кадра, который сильно отличается от текущего возбуждения. С другой стороны, предложенный способ может очень точно создавать периодическую часть возбуждения.

Уровень техники

Речевой кодер преобразует речевой сигнал в цифровой битовый поток, который передается по каналу связи или сохраняется в запоминающей среде. Речевой сигнал оцифровывается, т.е. дискретизируется и квантуется обычно посредством 16 битов на отсчет. Назначением речевого кодера является представление этих цифровых отсчетов посредством меньшего количества битов, в то же время сохраняя хорошее субъективное качество речи. Речевой декодер или синтезатор работает с переданным или сохраненным битовым потоком и преобразует его обратно в речевой сигнал.

Кодирование с линейным предсказанием с кодовым возбуждением (CELP) представляет собой один из лучших способов известного уровня техники для достижения хорошего компромисса между субъективным качеством и скоростью передачи в битах. Этот способ кодирования образует основу нескольких стандартов кодирования речи как в беспроводных, так и в проводных применениях. При CELP-кодировании дискретизированный речевой сигнал обрабатывается последовательными блоками из M отсчетов, обычно называемых кадры, где M представляет собой предварительно определенное число, соответствующее обычно 10-30 мс. Фильтр с линейным предсказанием (LP) вычисляется и передается в каждом кадре. Для вычисления фильтра LP обычно требуется предварительный просмотр, 5-15-мс сегмент речи из последующего кадра. Кадр с M-отсчетами разделяется на меньшие блоки, называемые подкадрами. Обычно количество подкадров равно трем или четырем, приводя к 4-10-мс подкадрам. В каждом подкадре сигнал возбуждения обычно получается из двух составляющих, прошлого возбуждения и порождающего возбуждения фиксированной кодовой книги. Составляющая, образованная из прошлого возбуждения, часто упоминается как адаптивная кодовая книга или возбуждение основного тона. Параметры, характеризующие сигнал возбуждения, кодируются и передаются на декодер, где восстановленный сигнал возбуждения используется в качестве входного сигнала фильтра LP.

Речевые кодеки типа CELP в значительной степени основываются на предсказании для достижения их высоких рабочих характеристик. Используемое предсказание может быть разных видов, но обычно содержит использование адаптивной кодовой книги, содержащей сигнал возбуждения, выбранный в прошлых кадрах. CELP-кодер применяет квазипериодичность вокализованного речевого сигнала посредством поиска в прошлом возбуждении сегмента, наиболее подобного сегменту, кодируемому в настоящий момент. Этот же сигнал прошлого возбуждения сохраняется также в декодере. Тогда достаточно, чтобы кодер послал параметр задержки и коэффициент усиления для декодера для восстановления такого же сигнала возбуждения, который используется в кодере. Процесс изменения (разность) между предыдущим речевым сегментом и кодируемым в настоящий момент речевым сегментом дополнительно моделируется с использованием порождения, выбранного из фиксированной кодовой книги. Ниже в данном документе более подробно описывается технология CELP.

Проблема строгого предсказания, присущая речевым кодерам, основанным на CELP, появляется в присутствии ошибок передачи (стертых кадрах или пакетах), когда состояние кодера или декодера становится несинхронизированным. Вследствие предсказания эффект стертого кадра, таким образом, не ограничивается стертым кадром, но продолжает распространяться после стирания, часто в течение нескольких последующих кадров. Конечно, воздействие на восприятие может быть очень раздражающим.

Переходы от невокализованного речевого сегмента к вокализованному речевому сегменту (например, переход между согласным звуком или периодом неактивной речи и гласным звуком) или переходы между двумя различными вокализованными сегментами (например, переходы между двумя гласными звуками) представляют собой наиболее проблематичные случаи для маскирования стирания кадра. Когда потерян переход от невокализованного речевого сегмента к вокализованному речевому сегменту (вокализованное вступление), кадр сразу перед кадром вокализованного вступления является невокализованным или неактивным и таким образом не обнаруживается значимое периодическое возбуждение в буфере прошлого возбуждения (адаптивная кодовая книга). В кодере прошлое периодическое возбуждение накапливается в адаптивной кодовой книге в течение кадра вступления, и последующий вокализованный кадр кодируется с использованием этого прошлого периодического возбуждения. Большинство способов маскирования ошибок кадра использует информацию из корректно принятого в последний раз кадра для маскирования отсутствующего кадра. Когда потерян кадр вступления, буфер прошлого возбуждения декодера, таким образом, будет обновляться с использованием шумоподобного возбуждения предыдущего кадра (невокализованного или неактивного кадра). Периодическая часть возбуждения, таким образом, полностью отсутствует в адаптивной кодовой книге в декодере после потерянного вокализованного вступления и может потребоваться до нескольких кадров, чтобы декодер восстановился от этой потери.

Подобная ситуация имеет место в случае потерянного перехода от вокализованного к вокализованному. В данном случае, возбуждение, хранимое в адаптивной кодовой книге перед кадром перехода, имеет обычно очень отличающиеся характеристики от возбуждения, хранимого в адаптивной кодовой книге после перехода. Снова, так как декодер обычно маскирует потерянный кадр с использованием информации о прошлом кадре, будут сильно различаться состояния кодера и декодера, и синтезированный сигнал может испытывать важные искажения.

Задачи изобретения

Задачей настоящего изобретения поэтому является обеспечение способа и устройства кодирования кадров перехода в речевом и/или аудиокодере с предсказанием, чтобы улучшить устойчивость кодера к потерянным кадрам и/или повысить эффективность кодирования.

Другой задачей настоящего изобретения является устранение распространения ошибки и повышение эффективности кодирования в основанных на CELP кодеках посредством замены межкадрового зависимого поиска по адаптивной кодовой книге на поиск без предсказания по кодовой книге, например, глоттальных форм. Этот способ не требует дополнительной задержки, ему необходима незначительная дополнительная сложность и ему не требуется повышение скорости передачи в битах по сравнению с традиционным CELP-кодированием.

Сущность изобретения

Более конкретно, согласно одному аспекту настоящего изобретения обеспечивается способ режима перехода для использования в кодеке звукового сигнала с предсказанием для создания возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или кадре, следующем за переходом в звуковом сигнале, содержащий: обеспечение кодовой книги режима перехода для генерирования набора кодовых векторов, не зависимых от прошлого возбуждения; подачу индекса кодовой книги на кодовую книгу режима перехода и генерирование посредством кодовой книги режима перехода и в ответ на индекс кодовой книги одного из кодовых векторов набора, соответствующего возбуждению режима перехода.

Согласно второму аспекту настоящего изобретения обеспечивается устройство режима перехода для использования в кодеке звукового сигнала с предсказанием для создания возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или кадре, следующем за переходом в звуковом сигнале, содержащее вход для приема индекса кодовой книги и кодовую книгу режима перехода для генерирования набора кодовых векторов, не зависимых от прошлого возбуждения. Кодовая книга режима перехода является реагирующей на индекс для генерирования в кадре перехода и/или кадре, следующем за переходом, одного из кодовых векторов набора, соответствующего упомянутому возбуждению режима перехода.

Согласно третьему аспекту настоящего изобретения обеспечивается способ кодирования для генерирования возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или кадре, следующем за переходом в звуковом сигнале, содержащий: генерирование целевого сигнала поиска по кодовой книге; обеспечение кодовой книги режима перехода для генерирования набора кодовых векторов, не зависимых от прошлого возбуждения, причем каждый кодовый вектор набора соответствует соответствующему возбуждению режима перехода; поиск по кодовой книге режима перехода для нахождения кодового вектора набора, соответствующего возбуждению режима перехода, оптимально соответствующему целевому сигналу поиска по кодовой книге.

Согласно четвертому аспекту настоящего изобретения обеспечивается устройство кодера для генерирования возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или кадре, следующем за переходом в звуковом сигнале, содержащее: генератор целевого сигнала поиска по кодовой книге; кодовую книгу режима перехода для генерирования набора кодовых векторов, не зависимых от прошлого возбуждения, причем каждый кодовый вектор набора соответствует соответствующему возбуждению режима перехода; и устройство поиска по кодовой книге режима перехода для нахождения кодового вектора набора, соответствующего возбуждению режима перехода, оптимально соответствующему целевому сигналу поиска по кодовой книге.

Согласно пятому аспекту настоящего изобретения обеспечивается способ декодирования для генерирования возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или кадре, следующем за переходом в звуковом сигнале, содержащий: прием индекса кодовой книги; подачу индекса кодовой книги на кодовую книгу режима перехода для генерирования набора кодовых векторов, не зависимых от прошлого возбуждения; и генерирование посредством кодовой книги режима перехода и в ответ на индекс кодовой книги одного из кодовых векторов набора, соответствующего возбуждению режима перехода.

Согласно шестому аспекту настоящего изобретения обеспечивается устройство декодера для генерирования возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или кадре, следующем за переходом в звуковом сигнале, содержащее вход для приема индекса кодовой книги и кодовую книгу режима перехода для генерирования набора кодовых векторов, не зависимых от прошлого возбуждения. Кодовая книга режима перехода является реагирующей на индекс для генерирования в кадре перехода и/или кадре, следующем за переходом, одного из кодовых векторов набора, соответствующего возбуждению режима перехода.

Вышеупомянутые и другие задачи, преимущества и признаки настоящего изобретения станут более очевидными при прочтении последующего неограничительного описания его иллюстративного варианта осуществления, приведенного только в качестве примера со ссылкой на прилагаемые чертежи.

Краткое описание чертежей

На прилагаемых чертежах:

Фиг.1а представляет собой схематическую блок-схему основанного на CELP кодера;

Фиг.1b представляет собой схематическую блок-схему основанного на CELP декодера;

Фиг.2 представляет собой схематическую блок-схему конечного автомата классификации кадров для маскирования стирания;

Фиг.3 представляет собой пример сегмента речевого сигнала с одним кадром вокализованного перехода и одним кадром вступления;

Фиг.4 представляет собой функциональную блок-схему, иллюстрирующую правило классификации для выбора кадров TM (режима перехода) в речевых вступлениях, где N_TM_FRAMES обозначает число последовательных кадров для предотвращения использования способа кодирования TM, «clas» обозначает класс кадра, и VOICED_TYPE означает классы ONSET, VOICED и VOICED TRANSITION;

Фиг.5а представляет собой схематическую иллюстрацию примера кадра речевого сигнала, разделенного на четыре (4) подкадра, изображающую речевой сигнал во временной области;

Фиг.5b представляет собой схематическую иллюстрацию примера кадра речевого сигнала, разделенного на четыре (4) подкадра, изображающую остаточный сигнал LP;

Фиг.5с представляет собой схематическую иллюстрацию примера кадра речевого сигнала, разделенного на четыре (4) подкадра, изображающую сигнал возбуждения первого этапа, построенного с использованием способа кодирования TM в кодере;

Фиг.6 изображает графики, иллюстрирующие восемь глоттальных импульсов с длиной в 17 отсчетов, используемых для построения кодовой книги глоттальных формы, причем ось х обозначает дискретный временной импульс, а ось y - амплитуду импульса;

Фиг.7 представляет собой схематическую блок-схему примера части TM CELP-кодера, где k' представляет индекс кодовой книги глоттальных форм, а G(z) представляет собой формирующий фильтр;

Фиг.8 представляет собой графическое представление вычисления Ck', квадратного корня числителя в критерии уравнения (16), причем заштрихованные части вектора/матрицы являются ненулевыми;

Фиг.9 представляет собой графическое представление вычисления Ek', знаменателя критерия уравнения (16), причем заштрихованные части вектора/матрицы являются ненулевыми;

Фиг.10 представляет собой графическое представление вычисления матрицы Z T свертки; в данном примере формирующий фильтр G(z) имеет только три (3) ненулевых коэффициента (L 1/2=1);

Фиг.11 представляет собой схематическую блок-схему примера части TM CELP-декодера;

Фиг.12а представляет собой схематическую блок-схему примера структуры фильтра Q(z);

Фиг.12b представляет собой график примера модификации кодового вектора глоттальной формы, причем повторяемый импульс обозначен пунктиром;

Фиг.13 представляет собой схематическую блок-схему части TM CELP-кодера, включающего в себя фильтр Q(z);

Фиг.14 представляет собой график, иллюстрирующий кодовый вектор глоттальной формы с двухимпульсной структурой, когда поиск по адаптивной кодовой книге используется в части подкадра с поиском по кодовой книге глоттальных форм;

Фиг.15 представляет собой график, иллюстрирующий структуру кодового вектора глоттальных форм в случае, когда второй глоттальный импульс появляется в первых L 1/2 положениях следующего подкадра;

Фиг.16 представляет собой схематическую блок-схему части TM кодера, используемого в реализации кодека EV-VBR (вложенной переменной скорости передачи в битах);

Фиг.17а представляет собой график, изображающий пример речевого сигнала во временной области;

Фиг.17b представляет собой график, изображающий остаточный сигнал LP, соответствующий речевому сигналу на фиг.17а;

Фиг.17с представляет собой график, изображающий сигнал возбуждения первого этапа в безошибочных условиях;

Фиг.18а-18с представляют собой графики, иллюстрирующие пример сравнения структуры вступления, на которых график на фиг.18а представляет входной речевой сигнал, график на фиг.18b представляет выходную синтезированную речь кодека EV-VBR без способа кодирования TM, и график на фиг.18с представляет выходную синтезированную речь кодека EV-VBR со способом кодирования TM;

Фиг.19а-19с представляют собой графики, иллюстрирующие пример эффекта способа кодирования TM в случае стирания кадра, причем график на фиг.19а представляет входной речевой сигнал, график на фиг.19b представляет выходную синтезированную речь кодека EV-VBR без способа кодирования TM, и график на фиг.19с представляет выходную синтезированную речь кодека EV-VBR со способом кодирования TM;

Фиг.20 представляет собой график, иллюстрирующий пример сигнала возбуждения первого этапа в одном кадре конфигурации TRANSITION_1_1;

Фиг.21 представляет собой график, иллюстрирующий пример сигнала возбуждения первого этапа в одном кадре конфигурации TRANSITION_1_2;

Фиг.22 представляет собой график, иллюстрирующий пример сигнала возбуждения первого этапа в одном кадре конфигурации TRANSITION_1_3;

Фиг.23 представляет собой график, иллюстрирующий пример сигнала возбуждения первого этапа в одном кадре конфигурации TRANSITION_1_4;

Фиг.24 представляет собой график, иллюстрирующий пример сигнала возбуждения первого этапа в одном кадре конфигурации TRANSITION_2;

Фиг.25 представляет собой график, иллюстрирующий пример сигнала возбуждения первого этапа в одном кадре конфигурации TRANSITION_3;

Фиг.26 представляет собой график, иллюстрирующий пример сигнала возбуждения первого этапа в одном кадре конфигурации TRANSITION_4; и

Фиг.27 представляет собой схематическую блок-схему системы речевой связи, иллюстрирующую использование устройств кодирования и декодирования речи.

Подробное описание изобретения

Неограничительный иллюстративный вариант осуществления настоящего изобретения относится к способу и устройству, целью которых является устранение распространения ошибки в вышеописанных ситуациях и повышение эффективности кодирования.

Более конкретно, способ и устройство согласно неограничительному иллюстративному варианту осуществления настоящего изобретения реализует специальное кодирование, называемое способом кодирования в режиме перехода (TM), кадров перехода и кадров, следующих за переходом в звуковом сигнале, например речевом или аудиосигнале. Способ кодирования TM заменяет адаптивную кодовую книгу кодека CELP новой кодовой книгой форм глоттальных импульсов, ниже в данном документе обозначенной как кодовая книга глоттальных форм, в кадрах перехода и в кадрах, следующих за переходом. Кодовая книга глоттальных форм представляет собой фиксированную кодовую книгу, не зависимую от прошлого возбуждения. Следовательно, если стирание кадра завершилось, кодер и декодер используют одно и то же возбуждение, посредством чего сходимость к синтезу чистого канала является достаточно быстрой.

Хотя использование способа кодирования TM в кадрах, следующих за переходом, способствует предотвращению распространения ошибок в случае, когда потерян кадр перехода, другим назначением использования способа кодирования TM также в кадре перехода является повышение эффективности кодирования. Например, как раз перед вокализованным вступлением адаптивная кодовая книга обычно содержит шумоподобный сигнал, не очень эффективный для кодирования начала вокализованного сегмента. Идеей в основе способа кодирования TM является таким образом дополнение адаптивной кодовой книги лучшей кодовой книгой, заполненной упрощенными квантованными версиями глоттальных импульсов для кодирования вокализованных вступлений.

Предлагаемый способ кодирования TM может использоваться в любом кодеке типа CELP или кодеке с предсказанием. В качестве примера, способ кодирования TM реализован в испытываемом кодеке в процессе стандартизации международного союза электросвязи - сектора телекоммуникаций (ITU-T) в отношении кодека с вложенной переменной скоростью передачи в битах, который упоминается в оставшейся части текста как кодек EV-VBR. Хотя неограничительный иллюстративный вариант осуществления настоящего изобретения описывается в связи с инфраструктурой кодека EV-VBR, необходимо помнить, что принципы и идеи настоящего изобретения не ограничиваются применением кодека EV-VBR, но любого другого кодека, использующего кодирование с предсказанием. Также, хотя неограничительный иллюстративный вариант осуществления настоящего изобретения описывается в связи с речевым сигналом, необходимо помнить, что настоящее изобретение не ограничивается применением с речевыми сигналами, но его принципы и идеи могут применяться с любыми другими типами звуковых сигналов, включая аудиосигналы.

Речевой кадр можно грубо классифицировать на один из четырех (4) следующих классов речи (это более подробно объясняется в нижеследующем описании):

- неактивные кадры, характеризуемые отсутствием речевой активности;

- невокализованные речевые кадры, характеризуемые апериодической структурой и концентрацией энергии к более высоким частотам;

- вокализованные речевые кадры, имеющие явную квазипериодическую сущность, при этом энергия концентрируется, главным образом, на низких частотах; и

- любой другой кадр, классифицируемый как переход, имеющий быстро изменяющиеся характеристики.

В кодеке EV-VBR специализированный режим кодирования был разработан для каждого из классов. Может быть указано, как правило, что неактивные кадры обрабатываются посредством генерирования комфортного шума, невокализованные речевые кадры - посредством режима оптимизированного невокализованного кодирования, вокализованные речевые кадры - посредством режима оптимизированного вокализованного кодирования, и все другие кадры обрабатываются при помощи обобщенной технологии линейного предсказания с алгебраическим кодовым возбуждением (ACELP). В инфраструктуре кодека EV-VBR способ кодирования TM, таким образом, представляется как еще другой режим кодирования в схеме кодирования EV-VBR для кодирования кадров перехода и кадров, следующих за переходом.

Фиг.27 представляет собой схематическую блок-схему системы речевой связи, описывающую использование кодирования и декодирования речи. Система речевой связи поддерживает передачу и воспроизведение речевого сигнала по каналу 905 связи. Хотя он может содержать, например, проводную, оптическую или волоконно-оптическую линию связи, канал 905 связи обычно содержит, по меньшей мере частично, радиочастотную линию связи. Радиочастотная линия связи часто поддерживает многочисленные одновременные речевые связи, требующие совместно используемых ресурсов полосы пропускания, например те, которые можно найти в сотовой телефонии. Хотя не показано, канал 905 связи может быть заменен запоминающим устройством в варианте осуществления с одним устройством системы связи, которое записывает и сохраняет кодированный речевой сигнал для последующего воспроизведения.

Ссылаясь снова на фиг.27, микрофон 901 создает аналоговый речевой сигнал, который подается на аналого-цифровой (A/D) преобразователь 902 для преобразования его в цифровой вид. Речевой кодер 903 кодирует цифровой речевой сигнал, таким образом создавая набор параметров кодирования, которые кодируются в двоичную форму и подаются на канальный кодер 904. Необязательный канальный кодер добавляет избыточность в двоичное представление параметров кодирования перед передачей их по каналу 905 связи. На стороне приемника канальный декодер 906 использует вышеупомянутую избыточную информацию в принимаемом битовом потоке для обнаружения и коррекции ошибок канала, которые имели место при передаче. Речевой декодер 907 преобразует битовый поток, принимаемый от канального декодера 906 обратно в набор параметров кодирования для создания синтезированного цифрового речевого сигнала. Синтезированный цифровой речевой сигнал, восстановленный в речевом декодере 907, преобразуется в аналоговый вид в цифроаналоговом (D/A) преобразователе 908 и воспроизводится в блоке 909 громкоговорителя.

Краткая история CELP

Речевой кодек состоит из двух основных частей: кодера и декодера. Кодер оцифровывает аудиосигнал, выбирает ограниченное количество параметров кодирования, представляющих речевой сигнал, и преобразует эти параметры в цифровой битовый поток, который передается декодеру по каналу связи. Декодер восстанавливает речевой сигнал так, чтобы он был максимально возможно подобен исходному речевому сигналу. В настоящее время широко распространенный способ кодирования речи основывается на линейном предсказании (LP) и, более конкретно, на технологии CELP. При основанном на LP кодировании речевой сигнал синтезируется посредством фильтрации сигнала возбуждения при помощи полюсного синтезирующего фильтра 1/A(z). При CELP возбуждение обычно состоит из двух частей, сигнал возбуждения первого этапа выбирается из адаптивной кодовой книги, а сигнал возбуждения второго этапа выбирается из фиксированной кодовой книги. Вообще говоря, возбуждение адаптивной кодовой книги моделирует периодическую часть возбуждения, и возбуждение фиксированной кодовой книги добавляется для моделирования процесса изменения речевого сигнала.

Речь обычно обрабатывается кадрами обычно по 20 мс, и коэффициенты фильтра LP передаются один раз в течение кадра. При CELP каждый кадр дополнительно делится на несколько подкадров для кодирования сигнала возбуждения. Длительность подкадра обычно составляет 5 мс.

Как показано на фиг.1а и 1b, главный принцип в основе CELP называется анализ через синтез, где возможные выходные результаты декодера испытываются (синтез) уже во время процесса кодирования (анализ) и затем сравниваются с исходным речевым сигналом. Поиск минимизирует среднеквадратическую ошибку между входным речевым сигналом s(n) и синтезированным речевым сигналом s'(n) в области, взвешенной с учетом восприятия, где дискретный временной индекс n=0, 1, …, N-1 и N представляет собой длительность подкадра. Взвешивающий с учетом восприятия фильтр W(z) применяет эффект частотного маскирования и обычно выводится из фильтра LP. Пример взвешивающего с учетом восприятия фильтра W(z) представляется следующим уравнением (1):

где коэффициенты y 1 и y 2 управляют величиной взвешивания с учетом восприятия и сохраняют соотношение 0<y 2<y 1≤1. Этот традиционный взвешивающий с учетом восприятия фильтр хорошо работает для узкополосных (NB) (узкая полоса - полоса частот 200-3400 Гц) сигналов. Пример взвешивающего с учетом восприятия фильтра для широкополосных (WB) (широкая полоса - полоса частот 50-7000 Гц) сигналов можно найти в ссылке [1].

Битовый поток, передаваемый на декодер, содержит для вокализованных кадров следующие параметры кодирования: квантованные параметры синтезирующего фильтра LP, индексы адаптивной и фиксированной кодовых книг и коэффициенты усиления адаптивных и фиксированных частей.

Поиск по адаптивной кодовой книге

Поиск по адаптивной кодовой книге в основанных на CELP кодеках выполняется в области взвешенной речи для определения задержки (периода основного тона) t и коэффициента g p усиления основного тона и восстановления квазипериодической части сигнала возбуждения, упоминаемой как адаптивный кодовый вектор v(n). Период основного тона сильно зависит от конкретного говорящего, и его точное определение критично влияет на качество синтезированной речи.

В кодеке EV-VBR используется трехэтапная процедура для определения периода и коэффициента усиления основного тона. На первом этапе три оценки T op основного тона по открытому циклу вычисляются для каждого кадра - одна оценка для каждого 10-мс полукадра и одна для 10-мс предварительного просмотра, используя взвешенный с учетом восприятия речевой сигнал s w (n) и вычисление нормализованной корреляции. На втором этапе выполняется поиск основного тона по закрытому циклу для целочисленных периодов вокруг оцененных периодов T op основного тона по открытому циклу для каждого подкадра. Если обнаружен оптимальный целочисленный период основного тона, третий этап поиска проходит по дробным частям около этого оптимального целочисленного значения. Выполняется поиск основного тона по закрытому циклу посредством минимизирования среднеквадратической взвешенной ошибки между исходной и синтезированной речью. Это достигается посредством максимизирования члена

где x 1 (n) представляет собой целевой сигнал, и сигнал вклада первого этапа (также называемый фильтрованным адаптивным кодовым вектором) y 1(n) вычисляется посредством свертки сигнала v(n) прошлого возбуждения периода t с импульсным откликом h(n) синтезирующего фильтра H(z) со взвешиванием

Взвешенный с учетом восприятия входной речевой сигнал s w(n) получается посредством обработки входного речевого сигнала s(n) при помощи взвешивающего с учетом восприятия фильтра W(z). Фильтр H(z) формируется посредством каскадного включения синтезирующего фильтра 1/A(z) LP и взвешивающего с учетом восприятия фильтра W(z). Целевой сигнал x 1 (n) соответствует взвешенному с учетом восприятия входному речевому сигналу s w(n) после вычитания из него отклика с нулевым входным сигналом фильтра H(z).

Коэффициент усиления основного тона находится посредством минимизирования среднеквадратической ошибки между сигналом x 1 (n) и сигналом y 1(n) вклада первого этапа. Коэффициент усиления основного тона выражается следующим уравнением:

Коэффициент усиления основного тона затем ограничивается посредством 0≤g p≤1,2 и обычно совместно квантуется с коэффициентом усиления фиксированной кодовой книги, если найдено порождение.

В основанных на CELP кодеках сигнал возбуждения в начале обрабатываемого в настоящий момент кадра таким образом восстанавливается из сигнала возбуждения из предыдущего кадра. Этот механизм является очень эффективным для вокализованных сегментов речевого сигнала, где сигнал является квазипериодическим, и в отсутствие ошибок передачи. В случае стирания кадра теряется сигнал возбуждения из предыдущего кадра, и соответствующие адаптивные кодовые книги кодера и декодера больше не являются одинаковыми. В кадрах, следующих за стиранием, декодер тогда продолжает синтезировать речь, используя адаптивную кодовую книгу с неправильным содержимым. Следовательно, стирание кадра снижает качество синтезированной речи не только в течение стертого кадра, но оно также может снижать качество синтезированной речи в течение нескольких последующих кадров. Традиционные способы маскирования часто основываются на повторении формы волны предыдущего правильно переданного кадра, но эти способы эффективно работают только в частях сигнала, где характеристики речевого сигнала являются квазистационарными, например в стабильных вокализованных сегментах. В данном случае разность между соответствующими адаптивными кодовыми книгами кодера и декодера часто очень незначительная, и она не сильно сказывается на качестве синтезированного сигнала. Однако, если стирание попадает в кадр перехода, сильно ограничивается эффективность этих способов. В системах связи, использующих основанные на CELP кодеки, где вероятность стирания кадра (FER) обычно равна 3%-5%, тогда сильно падает качество синтезированной речи.

Даже при передаче по чистому каналу эффективность адаптивной кодовой книги ограничивается в кадрах перехода; CELP-кодер использует адаптивную кодовую книгу для применения периодичности в речи, которая является малой или отсутствует во время переходов, посредством чего снижается эффективность кодирования. Это в случае вокализованных вступлений, в частности там, где сигнал прошлого возбуждения и сигнал оптимального возбуждения для текущего кадра коррелируются очень слабо или совсем не коррелируются.

Поиск по фиксированной кодовой книге

Целью вклада поиска по фиксированной кодовой книге (FCB) (порождений) в основанных на CELP кодеках является минимизирование остаточной ошибки после использования адаптивной кодовой книги, т.е.

где g c представляет собой коэффициент усиления фиксированной кодовой книги, и сигнал вклада второго этапа (также называемый как фильтрованный фиксированный кодовый вектор) представляет собой вектор c k(n) фиксированной кодовой книги, над которым выполнена операция свертки с h(n). Целевой сигнал x 1 (n) обновляется посредством вычитания вклада адаптивной кодовой книги из целевого значения адаптивной кодовой книги, получая:

Фиксированная кодовая книга может быть реализована, например, посредством использования алгебраической кодовой книги, как описано в ссылке [2]. Если c k обозначает алгебраический кодовый вектор с индексом k, тогда поиск по алгебраической кодовой книге выполняется посредством максимизирования следующего критерия:

где H представляет собой нижнюю треугольную теплицеву матрицу свертки с диагональю h(0) и с нижними диагоналями h(1), …, h(N-1). Вектор d=H T x 2 представляет собой корреляцию между обновленным целевым сигналом x 2 (n) и h(n) (также известный как обратный фильтрованный целевой вектор), и матрица Ф=H T H представляет собой матрицу корреляции h(n). Верхний индекс Т обозначает транспонированную матрицу или вектор. Как d , так и Ф обычно вычисляются перед поиском по фиксированной кодовой книге. Ссылка [1] описывает, что, если алгебраическая структура фиксированной кодовой книги содержит только несколько ненулевых элементов, вычисление критерия максимизирования для всех возможных индексов k является очень быстрым. Подобная процедура используется в способе кодирования в режиме перехода (TM), как описано ниже.

Считается, что CELP в других отношениях хорошо известен для специалистов в данной области техники и по этой причине не описывается дополнительно в настоящем описании изобретения.

Классификация кадров в кодеке EV-VBR

Классификация кадров в кодеке EV-VBR основывается на классификации многорежимной широкополосной технологии с переменной скоростью передачи (VMR-WB), как описано в ссылке [3]. Классификация VMR-WB выполнена с учетом стратегии маскирования и восстановления. Другими словами, любой кадр классифицируется таким образом, что маскирование может быть оптимальным, если следующий кадр отсутствует, или что восстановление может быть оптимальным, если предыдущий кадр был потерян. Нет необходимости передавать некоторые классы, используемые для обработки маскирования стирания кадра, так как они могут быть выведены без неоднозначности в декодере. Используется пять ра