Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах

Иллюстрации

Показать все

Изобретение относится к цифровому кодированию звуковых сигналов. Предложены системы и способы классификации и кодирования речевых сигналов. Классификацию сигналов проводят в три этапа, на каждом из которых обеспечивают различение конкретного класса сигналов. Сначала детектор речевой активности осуществляет различение между активными и неактивными речевыми кадрами. Если обнаруживают неактивный речевой кадр, то классификацию заканчивают, а кадр кодируют посредством генерирования комфортного шума. Если обнаруживают активный речевой кадр, то этот кадр подвергают воздействию второго классификатора, предназначенного для различения невокализованных кадров. Если классификатор классифицирует кадр как невокализованной речевой сигнал, то классификацию заканчивают, а кадр кодируют с помощью способа кодирования, оптимизированного для невокализованных сигналов. В противном случае речевой кадр пропускают через модуль классификации "устойчивых вокализованных" сигналов. Если кадр классифицируется как устойчивый вокализованный кадр, то этот кадр кодируют с помощью способа кодирования, оптимизированного для устойчивых вокализованных сигналов. В противном случае, если кадр содержит неустойчивый речевой сегмент, например вокализованный начальный или быстро эволюционирующий сигнал, то используют речевой кодер. Технический результат - повышение качества речи при заданной средней скорости передачи данных. 5 н. и 79 з.п ф-лы, 12 ил., 7 табл.

Реферат

Область техники

Настоящее изобретение относится к цифровому кодированию звуковых сигналов, в частности, но не исключительно, речевого сигнала, принимая во внимание передачу и синтез этого звукового сигнала. Более конкретно, настоящее изобретение относится к способам классификации сигналов и выбора скорости, предназначенным для кодирования речи с переменной скоростью в битах (VBR-кодирования речи).

Предшествующий уровень техники

Спрос на эффективные цифровые методы узкополосного и широкополосного кодирования речи с приемлемым компромиссом между субъективным качеством и скоростью в битах растет в различных областях применения, таких как организация телеконференций, мультимедиа и беспроводная связь. Вплоть до недавнего времени полосу пропускания телефонной связи, ограниченную диапазоном 200-3400 Гц, использовали в основном для приложений кодирования речи. Однако широкополосные речевые приложения обеспечивают повышенную разборчивость и естественность связи по сравнению с обычной полосой пропускания телефонной связи. Обнаружено, что полоса пропускания в диапазоне 50-7000 Гц является достаточной для предоставления надлежащего качества обслуживания, создающего впечатление общения лицом к лицу. В случае обычных аудиосигналов эта полоса пропускания дает приемлемое субъективное качество, но все же более низкое, чем качество средств радиосвязи с частотной модуляцией или звучания компакт-дисков, которые работают в диапазонах 20-16000 Гц и 20-20000 Гц соответственно.

Речевой кодер преобразует речевой сигнал в цифровой поток битов, который передается по каналу связи или хранится на носителе информации. Речевой сигнал преобразуется в цифровую форму, то есть дискретизируется и квантуется, обычно с 16 битами на выборку. Речевой кодер выполняет функцию представления этих цифровых выборок меньшим количеством битов, поддерживая при этом надлежащее субъективное качество речи. Речевой декодер или синтезатор обрабатывает переданный или сохраненный поток битов и преобразует его обратно в звуковой сигнал.

Хорошо известным путем достижения надлежащего компромисса между субъективным качеством и скоростью в битах является кодирование методом линейного предсказания с кодовым возбуждением по коду (CELP). Этот метод кодирования является основой нескольких стандартов кодирования речи как в беспроводных, так и в проводных приложениях. В случае CELP-кодирования дискретизированный речевой сигнал обрабатывается в последовательных блоках выборок длительностью L, обычно называемых кадрами, где L - предварительно определенное число, в типичном случае соответствующее 10-30 мс. Фильтр линейного предсказания (LP-фильтр) рассчитывается и передается в каждом кадре. Расчет LP-фильтра, как правило, требует упреждающего сегмента речи длительностью 5-15 мс из последующего кадра. Кадр выборки длительностью L делится на меньшие блоки, называемый субкадрами. Количество субкадров обычно составляет три или четыре, что приводит к получению субкадров длительностью 4-10 мс. В каждом субкадре обычно получается сигнал возбуждения из двух компонентов - прошлого возбуждения и нового возбуждения - по фиксированной кодовой книге. Компонент, образуемый из прошлого возбуждения, часто называют возбуждением по адаптивной кодовой книге или возбуждением основного тона. Параметры, характеризующие сигнал возбуждения, кодируются и передаются в декодер, где восстановленный сигнал возбуждения используется в качестве входного для LP-фильтра.

В беспроводных системах, использующих технологию множественного доступа с кодовым разделением каналов (CDMA), применение управляемого источником кодирования речи с переменной скоростью в битах (VBR-кодирования речи) значительно увеличивает пропускную способность системы. При управляемом источником VBR-кодировании речи кодер работает на нескольких скоростях в битах, а для определения скорости в битах, используемой при кодировании каждого речевого кадра на основании характера этого речевого кадра (например, вокализованного, невокализованного, переходного, фонового шума), используется модуль выбора скорости. Целью является достижение наивысшего качества речи при некоторой заданной средней скорости в битах, называемой также средней скоростью передачи данных (ADR). Кодек может работать в разных режимах за счет настройки модуля выбора скорости на достижение разных ADR в разных режимах, при этом рабочая характеристика кодека улучшается при повышенных ADR. Режим работы задается системой в зависимости от канальных условий. Это обеспечивает кодек механизмом достижения компромисса между качеством речи и пропускной способностью системы.

В типичном случае при VBR-кодировании для CDMA-систем используется одна восьмая скорости для кодирования кадров без речевой активности (т.е. кадров пауз или только шума). Когда кадр является стационарно вокализованным или стационарно невокализованным, используется половинная скорость или четвертная скорость, в зависимости от рабочего режима. Если можно использовать половинную скорость, то применяется CELP-модель без кодовой книги основных тонов в случае невокализованного кадра, а в случае вокализованного кадра применяется модификация сигнала для повышения периодичности и уменьшения количества битов для индексов основного тона. Если рабочий режим обуславливает четвертную скорость, согласование сигналов обычно невозможно, поскольку количество битов оказывается недостаточным, обычно применяется параметрическое кодирование. Полная скорость используется для начальных кадров, переходных кадров и смешанных вокализованных кадров (как правило, используется типичная CELP-модель). В дополнение к управляемой источником работе кодека в CDMA-системах система может ограничивать максимальную скорость в битах в некоторых речевых кадрах для посылки информации внутриполосной сигнализации (называемой размерно-пакетной сигнализацией) или во время плохих канальных условий (например, вблизи границ ячейки), чтобы повысить робастность кодека. Эта скорость упоминается как максимум, равный половинной скорости. Когда модуль выбора скорости выбирает кодируемый кадр как кадр полной скорости, а система накладывает ограничение, например, предписывая кадр половинной скорости (HR-кадра), рабочая характеристика речи ухудшается, потому что специализированные режимы половинной скорости (HR-режимы) не могут обеспечить эффективное кодирование начальных сигналов и переходных сигналов. Для обработки в этих специальных случаях можно предусмотреть другую модель кодирования c половинной скоростью (HR) (или с четвертной скоростью (QR)).

Как можно заметить из вышеизложенного описания, классификация сигналов и определение скорости очень важны для эффективного VBR-кодирования. Выбор скорости является ключевой частью достижения наименьшей средней скорости передачи данных с наилучшим возможным качеством.

Задачи изобретения

Задача настоящего изобретения в целом состоит в том, чтобы разработать усовершенствованные способы классификации сигналов и выбора скорости для широкополосного кодирования речи с переменной скоростью, в частности в том, чтобы разработать усовершенствованные способы классификации сигналов и выбора скорости для многорежимного широкополосного кодирования речи с переменной скоростью, пригодного для CDMA-систем.

Сущность изобретения

Применение управляемого источником VBR-кодирования речи значительно увеличивает пропускную способность многих систем связи, особенно беспроводных систем, использующих технологию CDMA. При управляемом источником VBR-кодировании речи кодер может работать на нескольких скоростях в битах, а для определения скорости в битах, используемой при кодировании каждого речевого кадра на основе характера этого речевого кадра (например, вокализованного, невокализованного, переходного, фонового шума), используется модуль выбора скорости. Целью является достижение наивысшего качества речи при некоторой заданной средней скорости передачи данных. Кодек может работать в разных режимах за счет настройки модуля выбора скорости на достижение разных ADR в разных режимах, при этом рабочая характеристика кодека улучшается при повышенных ADR. В некоторых системах режим работы задается системой в зависимости от канальных условий. Это обеспечивает кодек механизмом достижения компромиссов между качеством речи и пропускной способностью системы.

Алгоритм классификации сигналов анализирует входной речевой сигнал и классифицирует каждый речевой кадр с отнесением последнего к одному из набора предварительно определенных классов (например, к фоновому шуму, вокализованным, невокализованным, смешанным вокализованным, переходным кадрам и т.п.). Алгоритм выбора скорости принимает решение, какую скорость в битах и какую модель кодирования следует использовать, на основе класса речевого кадра и желаемой средней скорости передачи данных.

При многорежимном VBR-кодировании различные рабочие режимы, соответствующие различным средним скоростям в битах, получают путем определения процентной доли использования отдельных скоростей в битах. Таким образом, алгоритм выбора скорости принимает решение, какая скорость в битах должна использоваться для некоторого речевого кадра, на основе характера речевого кадра (классификационной информации) и требуемой средней скорости передачи данных.

В некоторых конкретных вариантах осуществления принимаются во внимание три рабочих режима: высококачественный, стандартный и экономичный режимы, обсуждаемые в первоисточнике [7]. Высококачественный режим гарантирует самое высокое достижимое качество при использовании самой высокой ADR. Экономичный режим максимизирует пропускную способность системы путем использования самой низкой ADR, по-прежнему гарантируя высококачественную широкополосную речь. Стандартный режим представляет собой компромисс между пропускной способностью системы и качеством речи, и в этом режиме используется ADR, значение которой заключено между значениями ADR для высококачественного и экономичного режимов.

Многорежимный широкополосный кодек с переменной скоростью в битах, предложенный для работы в системах стандартов CDMA-один и CDMA2000, именуется в нижеследующем тексте VMR-WB-кодеком.

Более конкретно, в соответствии с первым аспектом настоящего изобретения предложен способ цифрового кодирования звука, заключающийся в том, что

i) обеспечивают кадр сигнала из дискретизированной версии звука,

ii) определяют, является ли кадр сигнала активным речевым кадром или неактивным речевым кадром,

iii) если кадр сигнала является неактивным речевым кадром, то кодируют этот кадр сигнала с использованием алгоритма кодирования фонового шума с низкой скоростью в битах,

iv) если кадр сигнала является активным речевым кадром, то определяют, является ли активный речевой кадр невокализованным кадром или нет,

v) если кадр сигнала является невокализованным кадром, то кодируют этот кадр сигнала с использованием алгоритма кодирования невокализованных сигналов, а

vi) если кадр сигнала не является невокализованным кадром, то определяют, является кадр сигнала устойчивым вокализованным кадром или нет,

vii) если кадр сигнала является устойчивым вокализованным кадром, то кодируют этот кадр сигнала с использованием алгоритма кодирования устойчивых вокализованных сигналов,

viii) если кадр сигнала не является невокализованным кадром и кадр сигнала не является устойчивым вокализованным кадром, то кодируют этот кадр сигнала с использованием алгоритма кодирования родовых сигналов.

В соответствии со вторым аспектом настоящего изобретения также предложен способ цифрового кодирования звука, заключающийся в том, что

i) обеспечивают кадр сигнала из дискретизированной версии звука,

ii) определяют, является ли кадр сигнала активным речевым кадром или неактивным речевым кадром,

iii) если кадр сигнала является неактивным речевым кадром, то кодируют этот кадр сигнала с использованием алгоритма кодирования фонового шума с низкой скоростью в битах,

iv) если кадр сигнала является активным речевым кадром, то определяют, является ли активный речевой кадр невокализованным кадром или нет,

v) если кадр сигнала является невокализованным кадром, то кодируют этот кадр сигнала с использованием алгоритма кодирования невокализованных сигналов, а

vi) если кадр сигнала не является невокализованным кадром, то кодируют этот кадр сигнала с использованием алгоритма кодирования родовой речи.

В соответствии с третьим аспектом настоящего изобретения предложен способ классификации невокализованных сигналов, при осуществлении которого используют, по меньшей мере, три из следующих параметров для классификации невокализованного кадра:

а) меру () звучания,

б) меру (еt) спектрального наклона,

в) вариацию (dE) энергии в пределах кадра сигнала и

г) относительную энергию (Еrel) кадра сигнала.

Способы, соответствующие настоящему изобретению, обеспечивают создание VBR-кодеков, способных эффективно работать в беспроводных системах, основанных на технологии множественного доступа с кодовым разделением каналов (CDMA), а также систем на основе Internet-протоколов (IP).

И, наконец, в соответствии с четвертым аспектом настоящего изобретения предложено устройство для кодирования звукового сигнала, содержащее

речевой кодер для приема преобразованного в цифровую форму звукового сигнала, отображающего упомянутый звуковой сигнал, причем преобразованный в цифровую форму звуковой сигнал включает в себя, по меньшей мере, один кадр сигнала, а речевой кодер включает в себя

классификатор первого уровня для различения между активными и неактивными речевыми кадрами,

генератор комфортного шума для кодирования неактивных речевых кадров,

классификатор второго уровня для различения между вокализованными и невокализованными кадрами,

кодер невокализованной речи,

классификатор третьего уровня для различения между устойчивыми и неустойчивыми вокализованными кадрами,

оптимизированный кодер вокализованной речи и

кодер родовой речи,

при этом речевой кодер конфигурирован с обеспечением возможности выдачи двоичного представления параметров кодирования.

Вышеуказанные и другие задачи, преимущества и признаки настоящего изобретения поясняются в нижеследующем неограничительном описании иллюстративных вариантов осуществления изобретения, приводимых лишь в качестве примера, со ссылками на прилагаемые чертежи.

Краткое описание чертежей

Фиг.1 - блок-схема системы речевой связи, иллюстрирующая применение устройств кодирования и декодирования речи в соответствии с первым аспектом настоящего изобретения;

фиг.2 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в соответствии с первым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.3 - схема последовательности операций, иллюстрирующая способ различения невокализованного кадра в соответствии с иллюстративным вариантом осуществления третьего аспекта настоящего изобретения,

фиг.4 - схема последовательности операций, иллюстрирующая способ различения устойчивого вокализованного кадра в соответствии с иллюстративным вариантом осуществления четвертого аспекта настоящего изобретения,

фиг.5 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в высококачественном режиме в соответствии со вторым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.6 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в стандартном режиме в соответствии с третьим иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.7 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в экономичном режиме в соответствии с четвертым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.8 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в режиме, обеспечивающем возможность взаимодействия, в соответствии с пятым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.9 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в высококачественном или стандартном режиме во время работы на максимуме, равном половинной скорости, в соответствии с шестым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.10 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в экономичном режиме во время работы на максимуме, равном половинной скорости, в соответствии с седьмым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.11 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в режиме, обеспечивающем возможность взаимодействия, во время работы на максимуме, равном половинной скорости, в соответствии с восьмым иллюстративным вариантом осуществления второго аспекта настоящего изобретения, и

фиг.12 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала с обеспечением взаимодействия между многорежимным широкополосным кодеком с переменной скоростью в битах (VMR-WB-кодеком) и адаптивным многорежимным широкополосным кодеком (AMR-WB-кодеком) в соответствии с иллюстративным вариантом осуществления пятого аспекта настоящего изобретения.

Подробное описание изобретения

На фиг.1 изображена система 10 речевой связи, демонстрирующая применение кодирования и декодирования речи в соответствии с иллюстративным вариантом осуществления первого аспекта настоящего изобретения. Система 10 речевой связи поддерживает передачу и воспроизведение речевого сигнала по каналу 12 связи. Канал 12 связи может представлять собой провод, оптическую либо волоконную линию или радиочастотную линию. Канал 12 связи также может представлять собой комбинацию различных сред передачи, например быть частично волоконной линией, а частично - радиочастотной линией. Радиочастотная линия может обеспечивать поддержку множества одновременных речевых передач, требующих наличия совместно используемых ресурсов полосы пропускания, например, в сотовой телефонии. В качестве альтернативы, канал связи может быть заменен запоминающим устройством (не показано) в варианте осуществления системы связи с одним таким устройством, которое обеспечивает запись и хранение кодированного речевого сигнала для последующего воспроизведения.

Система 10 связи включает в себя кодирующее устройство, состоящее из микрофона 14, аналого-цифрового преобразователя 16, речевого кодера 18 и канального кодера 20 на излучающей (передающей) стороне канала 12 связи, а также канальный декодер 22, речевой декодер 24, цифроаналоговый преобразователь 26 и динамик 28 на принимающей стороне.

Микрофон 14 вырабатывает аналоговый речевой сигнал, который подается в аналогово-цифровой (АЦ) преобразователь 16 для преобразования этого сигнала в цифровую форму. Речевой кодер 18 кодирует преобразованный в цифровую форму речевой сигнал, вырабатывая набор параметров, которые кодируются с получением их двоичного представления и подаются в канальный кодер 20. Устанавливаемый по выбору канальный кодер 20 вносит избыточность в двоичное представление параметров кодирования перед передачей их по каналу 12 связи. Кроме того, в некоторых приложениях, таких как приложения в пакетных сетях, осуществляется пакетирование кодированных кадров перед передачей.

На принимающей стороне канальный декодер 22 использует избыточную информацию в принимаемом потоке битов для обнаружения и исправления канальных ошибок, возникающих при передаче. Речевой декодер 24 преобразует поток битов, принимаемый из канального декодера 20, обратно в набор параметров кодирования, чтобы создать синтезированный речевой сигнал. Синтезированный речевой сигнал, восстановленный в речевом декодере 24, преобразуется в аналоговую форму в цифроаналоговом (ЦА) преобразователе 26 и воспроизводится в блоке 28 динамика.

Микрофон 14 и/или АЦ преобразователь 16 могут быть заменены в некоторых конкретных вариантах осуществления другими источниками речи для речевого кодера 18.

Кодер 20 и декодер 22 конфигурированы с обеспечением возможности воплощения способа кодирования речевого сигнала в соответствии с настоящим изобретением, как описано ниже.

Классификация сигналов

На фиг.2 проиллюстрирован способ 100 цифрового кодирования речевого сигнала в соответствии с первым иллюстративным вариантом осуществления первого аспекта настоящего изобретения. Способ 100 включает в себя классификацию речевых сигналов в соответствии с иллюстративным вариантом осуществления второго аспекта настоящего изобретения. Следует отметить, что выражение "речевой сигнал" относится к голосовым сигналам, а также к любому мультимедийному сигналу, который может включать в себя звучащую часть, например аудиочасть с речевым содержанием (речь между фрагментами музыки, речь с фоновой музыкой, речь со специальными звуковыми эффектами и т.д.).

Как показано на фиг.2, классификацию сигналов проводят в три этапа - 102, 106 и 110, на каждом из которых обеспечивают различение конкретного класса сигналов. Сначала, на этапе 102, классификатор первого уровня в форме детектора речевой активности (VAD) (не показан) осуществляет различение между активными и неактивными речевыми кадрами. Если обнаруживается неактивный речевой кадр, то способ 100 кодирования оканчивается кодированием текущего кадра, например, посредством генерирования комфортного шума (CNG) (этап 104). Если на этапе 102 обнаруживается активный речевой кадр, то этот кадр подвергается воздействию классификатора второго уровня (не показан), конфигурированного с обеспечением возможности различения невокализованных кадров. Если классификатор на этапе 106 классифицирует кадр как невокализованной речевой сигнал, то способ 100 кодирования оканчивается на этапе 108, где кадр кодируется способом кодирования, оптимизированным для невокализованных сигналов. В противном случае речевой кадр на этапе 110 пропускается через классификатор третьего уровня (не показан) в форме модуля классификации "устойчивых вокализованных" сигналов (не показан). Если текущий кадр классифицируется как устойчивый вокализованный кадр, то этот кадр кодируется способом кодирования, оптимизированным для устойчивых вокализованных сигналов (этап 112). В противном случае кадр, вероятно, содержит неустойчивый речевой сегмент, например вокализованный начальный сигнал или часть быстро эволюционирующего сигнала, и этот кадр кодируется с помощью речевого кодера общего назначения с высокой скоростью в битах, позволяющей поддерживать надлежащее субъективное качество (этап 114). Отметим, что если относительная энергия кадра ниже, чем некоторый порог, то эти кадры можно кодировать общим способом кодирования с более низкой скоростью, чтобы дополнительно уменьшить среднюю скорость передачи данных.

Классификаторы и кодеры могут принимать многие формы - от электронных схем до однокристального процессора.

В нижеследующем описании приведено более подробное пояснение классификации различных типов речевого сигнала, а также описаны способы классификации невокализованной и вокализованной речи.

Различение неактивных речевых кадров (с помощью детектора речевой активности)

Различение неактивных речевых кадров осуществляется на этапе 102 с помощью детектора речевой активности (VAD). Схема VAD хорошо известна специалисту в данной области техники, так что более подробное описание ее здесь будет опущено. Пример VAD описан в работе [5].

Различение невокализованных активных речевых кадров

Невокализованные части речевого сигнала характеризуются отсутствием периодичности и могут быть дополнительно подразделены на неустойчивые кадры, в которых энергия и спектр претерпевают быстрое изменение, и устойчивые кадры, в которых упомянутые характеристики остаются относительно неизменными.

На этапе 106 различение невокализованных кадров осуществляется с использованием, по меньшей мере, трех из следующих параметров:

меры звучания, которую можно вычислить как усредненную нормализованную корреляцию (),

меры (еt) спектрального наклона,

отношения (dE) энергии сигнала, используемого для оценки вариации энергии кадра в пределах кадра, а значит - и устойчивости кадра, и относительной энергии кадра.

Мера звучания

На фиг.3 иллюстрируется способ 200 различения невокализованного кадра в соответствии с иллюстративным вариантом третьего аспекта настоящего изобретения.

Нормализованная корреляция, используемая для определения меры звучания, вычисляется как часть модуля 214 исследования основного тона при разомкнутом контуре. В иллюстративном варианте осуществления согласно фиг.3 используются кадры длительностью 20 мс. Модуль исследования основного тона при разомкнутом контуре выдает оценку р основного тона при разомкнутом контуре каждые 10 мс (дважды за кадр). При осуществлении способа 200 этот модуль также используется для выдачи мер rx нормализованных корреляций. Эти нормализованные корреляции вычисляются по взвешенной речи и по прошлой взвешенной речи с задержкой основного тона при разомкнутом контуре. Взвешенный речевой сигнал sw(n) вычисляется в перцепционном взвешивающем фильтре 212. В этом иллюстративном варианте осуществления используют перцепционный взвешивающий фильтр 212 с фиксированным знаменателем, пригодный для широкополосных сигналов. Нижеследующее соотношение представляет собой пример передаточной функции для перцепционного взвешивающего фильтра 212:

где А(z) - передаточная функция фильтра с линейным предсказанием (LP-фильтра), вычисляемая в модуле 218, которая задается следующим соотношением:

Мера звучания задается средней корреляцией , которая определяется как

(1)

где rx(0), rx(1) и rx(2) соответственно представляют собой нормализованную корреляцию первой половины текущего кадра, нормализованную корреляцию второй половины текущего кадра и нормализованную корреляцию упреждающей выборки (начала следующего кадра).

К нормализованной корреляции в уравнении (1) можно прибавить поправку re на шум, чтобы учесть присутствие фонового шума. В присутствии фонового шума средняя нормализованная корреляция уменьшается. Вместе с тем, применительно к классификации сигналов, это уменьшение не оказывает влияния на распознавание вокализованных и невокализованных кадров, так что упомянутое уменьшение компенсируется введением re. Следует отметить, что в случае использования надлежащего алгоритма снижения шума величина re является практически нулевой.

При осуществлении способа 200 используется упреждающая выборка длительностью 13 мс. Нормализованная корреляция rx(k) вычисляется следующим образом:

(2)

где

При осуществлении способа 200 вычисление корреляций происходит следующим образом. Корреляции rx(k) вычисляются по взвешенному речевому сигналу sw(n). Моменты tk относятся к началу текущего полукадра и составляют 0, 128 и 256 выборок соответственно для k = 0, 1 и 2 при частоте дискретизации 12800 Гц. Значения pk = TOL представляют собой выбранные оценки основного тона при разомкнутом контуре для полукадров. Протяженность Lk вычисления автокорреляции зависит от периода основного тона. Сводка значений Lk в первом варианте осуществления приведена ниже (для частоты дискретизации, составляющей 12,8 кГц):

Lk = 80 выборок для pk ≤ 62 выборки;

Lk = 124 выборки для 62 выборки < pk ≤ 122 выборки;

Lk = 230 выборок для pk > 122 выборки.

Эти протяженности предполагают, что длина коррелированного вектора включает в себя, по меньшей мере, один период основного тона, что способствует робастному обнаружению основного тона в разомкнутом контуре. При длинных периодах основного тона (p1 > 122 выборки) rx(1) и rx(2) идентичны, т.е. вычисляется только одна корреляция, поскольку коррелированные векторы достаточно длинны для того, чтобы анализ по упреждающей выборке оказался больше ненужным.

В альтернативном варианте взвешенный речевой сигнал можно подвергнуть децимации вдвое, чтобы упростить поиск основного тона в разомкнутом контуре. Взвешенный речевой сигнал можно подвергнуть фильтрации нижних частот перед децимацией. В этом случае значения Lk задаются следующим образом:

Lk = 40 выборок для pk ≤ 31 выборке;

Lk = 62 выборки для 62 выборки < pk ≤ 61 выборке;

Lk = 115 выборок для pk > 61 выборки.

Для вычисления корреляций можно использовать и другие способы. Например, можно вычислять всего одно значение нормализованной корреляции для всего кадра вместо усреднения нескольких нормализованных корреляций. Кроме того, корреляции можно вычислять по сигналам, не являющимся взвешенными речевыми, например, по остаточному сигналу, речевому сигналу, или остаточному речевому сигналу, или взвешенному речевому сигналу, подвергнутому фильтрации нижних частот.

Спектральный наклон

Параметр спектрального наклона содержит информацию о частотном распределении энергии. При осуществлении способа 200 спектральный наклон оценивают в частотной области как отношение между энергией, сконцентрированной на низких частотах, и энергией, сконцентрированной на высоких частотах. Вместе с тем спектральный наклон можно оценивать и по-другому, например, как отношение между двумя первыми коэффициентами автокорреляции речевого сигнала.

При осуществлении способа 200 используют дискретное преобразование Фурье для осуществления спектрального анализа в модуле 210, показанном на фиг.10. Частотный анализ и вычисление наклона проводятся дважды за кадр. Используют 256-точечное быстрое преобразование Фурье (БПФ) с перекрытием 50 процентов. Окна анализа располагают так, что используется вся упреждающая выборка. В начале первого окна находятся 24 выборки, следующие после начала текущего кадра. Во втором окне находятся еще 128 выборок. Можно использовать разные окна для взвешивания входного сигнала в целях частотного анализа. Используется корень квадратный из (ширины) окна Хэмминга (что эквивалентно синусоидальному окну). В частности, это окно весьма подходит для способов с перекрытием и суммированием, вследствие чего этот конкретный спектральный анализ можно использовать в реализуемом по выбору алгоритме подавления шумов на основании спектрального вычитания и анализа/синтеза с перекрытием и суммированием. Поскольку такие алгоритмы подавления шумов считаются хорошо известными в данной области техники, более подробное описание их здесь опущено.

Энергия на высоких частотах и на низких частотах вычисляется в следующих перцепционных критических полосах [6]:

Критические полосы = {100,0, 200,0, 300,0, 400,0, 510,0, 630,0, 770,0, 920,0, 1080,0, 1270,0, 1480,0, 1720,0, 2000,0, 2320,0, 2700,0, 3150,0, 3700,0, 4400,0, 5300,0, 6350,0} Гц.

Энергия на высоких частотах вычисляется как среднее значение энергий последних двух критических полос:

= 0,5(ЕСВ(18) + ЕСВ(19)),

где ЕСВ(i) - средние энергии, приходящиеся на критическую полосу, вычисленные как

где NСВ(i) - количество интервалов дискретизации по частоте в i-той полосе, а XR(k) и XI(k) - соответственно действительная и мнимая части k-того интервала дискретизации по частоте и ji - индекс первого интервала дискретизации в i-той критической полосе.

Энергия на низких частотах вычисляется как средняя из энергий в первых 10-ти критических полосах. Критические полосы средних частот исключены из вычисления для улучшения различения между кадрами с высокой концентрацией энергии на низких частотах (обычно - вокализованными) и высокой концентрацией энергии на высоких частотах (обычно - невокализованными). Между этими частотами запас энергии не характеризует никакие классы и увеличивает путаницу при принятии решения.

Энергия на низких частотах вычисляется по-разному для длинных периодов основного тона и коротких периодов основного тона. Для вокализованных охватывающих сегментов речи используется гармоническая структура спектра для улучшения различения вокализованных и невокализованных кадров. Так, для коротких периодов основного тона (на каждом интервале дискретизации) поинтервально вычисляется El, а при суммировании учитываются только интервалы дискретизации по частоте, достаточно близкие к гармоникам речи. То есть

где EBIN(k) - энергии интервалов дискретизации в первых 25 интервалах дискретизации по частоте (постоянная составляющая не учитывается). Отметим, что эти 25 интервалов дискретизации соответствуют первым 10 критическим полосам. При вышеуказанном суммировании учитываются только члены, связанные с интервалами дискретизации, близкими к гармоникам основного тона, так что значение wh(k) задается равным 1, если расстояние между интервалом дискретизации и ближайшей гармоникой не превышает некоторый порог частоты (50 Гц), и задается равным 0 в противном случае. Подсчет cnt - это количество ненулевых членов при суммировании. Учитываются только интервалы дискретизации, находящиеся ближе, чем в 50 герцах, к ближайшим гармоникам. В данном случае, если структура является гармонической на низких частотах, в сумму будут включаться только члены высоких энергий. С другой стороны, если структура не является гармонической, выбор членов будет случайным, а сумма будет меньше. Таким образом, можно обнаружить даже невокализованные сигналы с высоким запасом энергии на низких частотах. Эту обработку нельзя провести для более длительных периодов основного тона, поскольку разрешение по частоте оказывается недостаточным. Для значений длительности основного тона, превышающих 128, или для априори невокализованных сигналов энергия на низких частотах, приходящаяся на критическую полосу, вычисляется как

Априори невокализованные сигналы определяются, когда rx(0)+rx(1)+re<0,6, где значение re - это поправка, прибавляемая к нормализованной корреляции, как описано выше.

Результирующие энергии на низких и высоких частотах получают путем вычитания оцененной энергии шумов из значений El и Eh, вычисленных выше. То есть

Eh = - Nh;

El = - Nl;

где Nh и Nl - усредненные энергии шумов в последних 2-х критических полосах и первых 10-ти критических полосах соответственно. Оцененные энергии шумов прибавлены к результату вычисления наклона, чтобы учесть присутствие фонового шума.

И, наконец, спектральный наклон задается следующим образом:

Отметим, что вычисление спектрального наклона проводят дважды за кадр, чтобы получить значения etilt(0) и etilt(1), соответствующие обоим спектрал