Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком)

Иллюстрации

Показать все

Изобретение относится к цифровому кодированию звуковых сигналов. Предложен управляемый источником многорежимный широкополосный кодек с переменной скоростью в битах, имеющий режим работы, обеспечивающий возможность взаимодействия с адаптивным многоскоростным широкополосным кодеком, при этом предлагаемый кодек предусматривает, по меньшей мере, один режим кодирования с полной скоростью, обеспечивающей возможность взаимодействия, имеющий первую структуру распределения битов, основанную на одном из типов кодирования кодеком, и, по меньшей мере, один тип кодирования посредством генерирования комфортного шума для кодирования неактивного речевого кадра, имеющий вторую структуру распределения битов, основанную на типе кодирования кадров обновления дескрипторов пауз кодеком. Также предложены способы цифрового кодирования звука с использованием управляемого источником кодека для осуществления взаимодействия с кодеком и преобразования кадра сигнала кодека. Техническим результатом от использования изобретения является эффективное взаимодействие между адаптивным многоскоростным широкополосным кодеком и многорежимным широкополосным кодеком с переменной скоростью в битах. 2 н. и 37 з.п. ф-лы, 12 ил., 7 табл.

Реферат

Область техники

Настоящее изобретение относится к цифровому кодированию звуковых сигналов, в частности, но не исключительно, речевого сигнала, принимая во внимание передачу и синтез этого звукового сигнала. Более конкретно, настоящее изобретение относится к способу осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком и многорежимным широкополосным кодеком с переменной скоростью в битах.

Предшествующий уровень техники

Спрос на эффективные цифровые методы узкополосного и широкополосного кодирования речи с приемлемым компромиссом между субъективным качеством и скоростью в битах растет в различных областях применения, таких как организация телеконференций, мультимедиа и беспроводная связь. Вплоть до недавнего времени полосу пропускания телефонной связи, ограниченную диапазоном 200-3400 Гц, использовали в основном для приложений кодирования речи. Однако широкополосные речевые приложения обеспечивают повышенную разборчивость и естественность связи по сравнению с обычной полосой пропускания телефонной связи. Обнаружено, что полоса пропускания в диапазоне 50-7000 Гц является достаточной для предоставления надлежащего качества обслуживания, создающего впечатление общения лицом к лицу. В случае обычных аудиосигналов эта полоса пропускания дает приемлемое субъективное качество, но все же более низкое, чем качество средств радиосвязи с частотной модуляцией или звучания компакт-дисков, которые работают в диапазонах 20-16000 Гц и 20-20000 Гц, соответственно.

Речевой кодер преобразует речевой сигнал в цифровой поток битов, который передается по каналу связи или хранится на носителе информации. Речевой сигнал преобразуется в цифровую форму, то есть дискретизируется и квантуется, обычно, с 16 битами на выборку. Речевой кодер выполняет функцию представления этих цифровых выборок меньшим количеством битов, поддерживая при этом надлежащее субъективное качество речи. Речевой декодер или синтезатор обрабатывает переданный или сохраненный поток битов и преобразует его обратно в звуковой сигнал.

Хорошо известным путем достижения надлежащего компромисса между субъективным качеством и скоростью в битах является кодирование методом линейного предсказания с кодовым возбуждением (CELP). Этот метод кодирования является основой нескольких стандартов кодирования речи как в беспроводных, так и в проводных приложениях. В случае CELP-кодирования дискретизированный речевой сигнал обрабатывается в последовательных блоках выборок длительностью L, обычно называемых кадрами, где L - предварительно определенное число, в типичном случае соответствующее 10-30 мс. Фильтр линейного предсказания (LP-фильтр) рассчитывается и передается в каждом кадре. Расчет LP-фильтра, как правило, требует упреждающего сегмента речи длительностью 5-15 мс из последующего кадра. Кадр выборки длительностью L делится на меньшие блоки, называемый субкадрами. Количество субкадров обычно составляет три или четыре, что приводит к получению субкадров длительностью 4-10 мс. В каждом субкадре обычно получается сигнал возбуждения из двух компонентов - прошлого возбуждения и нового возбуждения - по фиксированной кодовой книге. Компонент, образуемый из прошлого возбуждения, часто называют возбуждением по адаптивной кодовой книге или возбуждением основного тона. Параметры, характеризующие сигнал возбуждения, кодируются и передаются в декодер, где восстановленный сигнал возбуждения используется в качестве входного для LP-фильтра.

В беспроводных системах, использующих технологию множественного доступа с кодовым разделением каналов (CDMA), применение управляемого источником кодирования речи с переменной скоростью в битах (VBR-кодирования речи) значительно увеличивает пропускную способность системы. При управляемом источником VBR-кодировании речи кодер работает на нескольких скоростях в битах, а для определения скорости в битах, используемой при кодировании каждого речевого кадра на основании характера этого речевого кадра (например, вокализованного, невокализованного, переходного, фонового шума), используется модуль выбора скорости. Целью является достижение наивысшего качества речи при некоторой заданной средней скорости в битах, называемой также средней скоростью передачи данных (ADR). Кодек может работать в разных режимах за счет настройки модуля выбора скорости на достижение разных ADR в разных режимах, при этом рабочая характеристика кодека улучшается при повышенных ADR. Режим работы задается системой в зависимости от канальных условий. Это обеспечивает кодек механизмом достижения компромисса между качеством речи и пропускной способностью системы.

В типичном случае при VBR-кодировании для CDMA-систем используется одна восьмая скорости для кодирования кадров без речевой активности (т.е. кадров пауз или только шума). Когда кадр является стационарно вокализованным или стационарно невокализованным, используется половинная скорость или четвертная скорость, в зависимости от рабочего режима. Если можно использовать половинную скорость, то применяется CELP-модель без кодовой книги основных тонов в случае невокализованного кадра, а в случае вокализованного кадра применяется модификация сигнала для повышения периодичности и уменьшения количества битов для индексов основного тона. Если рабочий режим обуславливает четвертную скорость, согласование сигналов обычно невозможно, поскольку количество битов оказывается недостаточным, и обычно применяется параметрическое кодирование. Полная скорость используется для начальных кадров, переходных кадров и смешанных вокализованных кадров (как правило, используется типичная CELP-модель). В дополнение к управляемой источником работе кодека в CDMA-системах система может ограничивать максимальную скорость в битах в некоторых речевых кадрах для посылки информации внутриполосной сигнализации (называемой размерно-пакетной сигнализацией), или во время плохих канальных условий (например, вблизи границ ячейки), чтобы повысить робастность кодека. Эта скорость упоминается как максимум, равный половинной скорости. Когда модуль выбора скорости выбирает кодируемый кадр как кадр полной скорости, а система накладывает ограничение, например, предписывая кадр половинной скорости (HR-кадра), рабочая характеристика речи ухудшается, потому что специализированные режимы половинной скорости (HR-режимы) не могут обеспечить эффективное кодирование начальных сигналов и переходных сигналов. Для обработки в этих специальных случаях можно предусмотреть другую модель кодирования c половинной скоростью (HR) (или с четвертной скоростью (QR)).

Как можно заметить из вышеизложенного описания, классификация сигналов и определение скорости очень важны для эффективного VBR-кодирования. Выбор скорости является ключевой частью достижения наименьшей средней скорости передачи данных с наилучшим возможным качеством.

Адаптивный многоскоростной широкополосный (AMR-WB) речевой кодек был недавно выбран Сектором стандартизации электросвязи Международного союза электросвязи (ITU-T) для нескольких вариантов широкополосных речевых услуг, а группой "Проект партнерства в создании систем третьего поколения" (3GGP) - для беспроводных систем третьего поколения, работающих в соответствии со стандартами Глобальной системы мобильной электросвязи (GSM) и широкополосного множественного доступа с кодовым разделением каналов (W-CDMA). AMR-WB-кодек предусматривает девять скоростей в битах, а именно 6,6, 8,85, 12,65, 14,25, 15,85, 18,25, 19,85, 23,05 и 23,85 кбит/с. Таким образом, желательным оказывается взаимодействие между CDMA-WB- и AMR-WB-кодеками.

Задачи изобретения

Задача настоящего изобретения в целом состоит в том, чтобы разработать усовершенствованные способы классификации сигналов и выбора скорости для широкополосного кодирования речи с переменной скоростью, в частности в том, чтобы разработать усовершенствованные способы классификации сигналов и выбора скорости для многорежимного широкополосного кодирования речи с переменной скоростью, пригодного для CDMA-систем. Еще одна задача состоит в том, чтобы разработать способы осуществления эффективного взаимодействия между широкополосным VBR-кодеком для CDMA-систем и стандартным AMR-WB кодеком.

Сущность изобретения

Более конкретно, в соответствии с первым аспектом настоящего изобретения предложен управляемый источником многорежимный широкополосный кодек с переменной скоростью в битах (VMR-WB-кодек), имеющий режим работы, который обеспечивает возможность взаимодействия с адаптивным многоскоростным широкополосным кодеком (AMR-WB-кодеком), при этом предлагаемый кодек предусматривает

по меньшей мере, один тип кодирования с полной скоростью, обеспечивающей возможность взаимодействия (I-FR-кодирования), при этом упомянутый, по меньшей мере, один тип I-FR-кодирования имеет первую структуру распределения битов, основанную на типах AMR-WB-кодирования, и

по меньшей мере, один тип кодирования посредством генерирования комфортного шума (CNG) для кодирования неактивного речевого кадра, имеющий вторую структуру распределения битов, основанную на типе AMR-WB-кодирования кадров обновления дескрипторов пауз (SID_UPDATE-кадров).

В соответствии со вторым аспектом настоящего изобретения предложен способ цифрового кодирования звука с использованием управляемого источником многорежимного широкополосного кодека с переменной скоростью в битах (VMR-WB-кодека) для осуществления взаимодействия с адаптивным многоскоростным широкополосным кодеком (AMR-WB-кодеком), заключающийся в том, что

обеспечивают кадры сигнала из дискретизированной версии звука,

для каждого кадра сигнала

i) определяют, является ли кадр сигнала активным речевым кадром или неактивным речевым кадром,

ii) если кадр сигнала является неактивным речевым кадром, то проверяют, является ли этот кадр сигнала кадром дескриптора паузы (SID-кадром),

iii) если кадр сигнала является SID-кадром, то кодируют этот кадр сигнала с помощью алгоритма кодирования посредством генерирования комфортного шума (CNG) с четвертной скоростью (QR) (QR-кодирования посредством CNG),

iv) если кадр сигнала является неактивным речевым кадром, который не является SID-кадром, то кодируют этот кадр сигнала с помощью алгоритма кодирования посредством CNG с одной восьмой скорости (ER) (ER-кодирования посредством CNG), и

v) если кадр сигнала является активным речевым кадром, то кодируют этот кадр сигнала с использованием структуры распределения битов, основанной на AMR-WB-кодеке.

В соответствии с третьим аспектом настоящего изобретения предложен способ преобразования кадра сигнала многорежимного широкополосного кодека с переменной скоростью в битах (VMR-WB-кодека) в кадр сигнала адаптивного многоскоростного широкополосного кодека (AMR-WB-кодека), при этом способ заключается в том, что

i) определяют, является ли кадр сигнала одним из кадра полной скорости с возможностью взаимодействия (I-FR-кадра), кадра половинной скорости с возможностью взаимодействия (I-HR-кадра), кадра генерирования комфортного шума четвертной скорости (CNG-QR-кадра) и кадра генерирования комфортного шума одной восьмой скорости (CNG-ER-кадра),

ii) если кадр сигнала является I-FR-кадром, то пересылают этот кадр сигнала как AMR-WB-кадр, отбрасывая первую группу битов кадра,

iii) если кадр сигнала является I-HR-кадром, то пересылают этот кадр сигнала как AMR-WB-кадр путем генерирования отсутствующих индексов алгебраической кодовой книги и отбрасывания битов, указывающих тип I-HR-кадра,

iv) если кадр сигнала является кадром генерирования комфортного шума (CNG) четвертной скорости (QR) (CNG-QR-кадром), то пересылают этот кадр сигнала как кадр обновления дескриптора паузы (SID_UPDATE-кадр), и

v) если кадр сигнала является кадром генерирования комфортного шума (CNG) одной восьмой скорости (ER) (CNG-ER-кадром), то пересылают этот кадр сигнала как кадр без данных (NO_DATA-кадр).

В соответствии с четвертым аспектом настоящего изобретения предложен способ преобразования кадра сигнала адаптивного многоскоростного широкополосного кодека (AMR-WB-кодека) в кадр сигнала многорежимного широкополосного кодека с переменной скоростью в битах (VMR-WB-кодека), при этом способ заключается в том, что

i) определяют, является ли кадр сигнала одним из кадра обновления дескриптора паузы (SID_UPDATE-кадра), первого кадра дескриптора паузы (SID_FIRST-кадра), кадра без данных (NO_DATA-кадра), стертого кадра и кадра полной скорости (FR-кадра),

ii) если кадр сигнала является SID_UPDATE-кадром, то пересылают этот кадр сигнала как кадр генерирования комфортного шума (CNG) четвертной скорости (QR) (CNG-QR-кадр),

iii) если кадр сигнала является SID_FIRST-кадром или NO_DATA-кадром, то пересылают этот кадр сигнала как кадр пробела одной восьмой скорости (ER) (ER-кадр пробела),

iv) если кадр сигнала является стертым кадром, то пересылают этот кадр сигнала как кадр стирания одной восьмой скорости (ER) (ER-кадр стирания),

v) если кадр сигнала является кадром скорости 12,65, 8,85 или 6,6 кбит/с, имеющим флаг принятия решения о речевой активности, равный единице (РРА_флаг=1), то пересылают этот кадр сигнала как кадр полной скорости с возможностью взаимодействия (I-FR-кадр),

vi) если кадр сигнала является кадром скорости 12,65, 8,85 или 6,6 кбит/с, имеющим флаг принятия решения о речевой активности, равный нулю (РРА_флаг=0), то определяют, является ли этот кадр сигнала первым кадром после активной речи,

vii) если кадр сигнала имеет РРА_флаг=0 и этот кадр сигнала является первым кадром после активной речи, то пересылают этот кадр сигнала как I-FR-кадр, а

viii) если кадр сигнала имеет РРА_флаг=0 и этот кадр сигнала не является первым кадром после активной речи, то пересылают этот кадр сигнала как кадр пробела одной восьмой скорости (ER-кадр пробела).

Другие задачи, преимущества и признаки настоящего изобретения поясняются в нижеследующем неограничительном описании иллюстративных вариантов осуществления изобретения, приводимых лишь в качестве примера, со ссылками на прилагаемые чертежи.

Краткое описание чертежей

Фиг.1 - блок-схема системы речевой связи, иллюстрирующая применение устройств кодирования и декодирования речи в соответствии с первым аспектом настоящего изобретения;

фиг.2 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в соответствии с первым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.3 - схема последовательности операций, иллюстрирующая способ различения невокализованного кадра в соответствии с иллюстративным вариантом осуществления третьего аспекта настоящего изобретения,

фиг.4 - схема последовательности операций, иллюстрирующая способ различения устойчивого вокализованного кадра в соответствии с иллюстративным вариантом осуществления четвертого аспекта настоящего изобретения,

фиг.5 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в высококачественном режиме в соответствии со вторым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.6 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в стандартном режиме в соответствии с третьим иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.7 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в экономичном режиме в соответствии с четвертым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.8 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в режиме, обеспечивающем возможность взаимодействия, в соответствии с пятым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.9 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в высококачественном или стандартном режиме во время работы на максимуме, равном половинной скорости, в соответствии с шестым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.10 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в экономичном режиме во время работы на максимуме, равном половинной скорости, в соответствии с седьмым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.11 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в режиме, обеспечивающем возможность взаимодействия, во время работы на максимуме, равном половинной скорости, в соответствии с восьмым иллюстративным вариантом осуществления второго аспекта настоящего изобретения, и

фиг.12 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала с обеспечением взаимодействия между многорежимным широкополосным кодеком с переменной скоростью в битах (VMR-WB-кодеком) и адаптивным многорежимным широкополосным кодеком (AMR-WB-кодеком) в соответствии с иллюстративным вариантом осуществления пятого аспекта настоящего изобретения.

Подробное описание изобретения

На фиг.1 изображена система 10 речевой связи, демонстрирующая применение кодирования и декодирования речи в соответствии с иллюстративным вариантом осуществления первого аспекта настоящего изобретения. Система 10 речевой связи поддерживает передачу и воспроизведение речевого сигнала по каналу 12 связи. Канал 12 связи может представлять собой провод, оптическую либо волоконную линию, или радиочастотную линию. Канал 12 связи также может представлять собой комбинацию различных сред передачи, например, быть частично волоконной линией, а частично - радиочастотной линией. Радиочастотная линия может обеспечивать поддержку множества одновременных речевых передач, требующих совместно используемых ресурсов полосы пропускания, например, в сотовой телефонии. В качестве альтернативы, канал связи может быть заменен запоминающим устройством (не показано) в варианте осуществления системы связи с одним устройством, которое обеспечивает запись и хранение кодированного речевого сигнала для последующего воспроизведения.

Система 10 связи включает в себя кодирующее устройство, состоящее из микрофона 14, аналого-цифрового преобразователя 16, речевого кодера 18 и канального кодера 20 на излучающей (передающей) стороне канала 12 связи, а также канальный декодер 22, речевой декодер 24, цифро-аналоговый преобразователь 26 и динамик 28 на принимающей стороне.

Микрофон 14 вырабатывает аналоговый речевой сигнал, который подается в аналогово-цифровой (АЦ) преобразователь 16 для преобразования этого сигнала в цифровую форму. Речевой кодер 18 кодирует преобразованный в цифровую форму речевой сигнал, вырабатывая набор параметров, которые кодируются с получением их двоичного представления и подаются в канальный кодер 20. Устанавливаемый по выбору канальный кодер 20 вносит избыточность в двоичное представление параметров кодирования перед передачей их по каналу 12 связи. Кроме того, в некоторых приложениях, таких, как приложения в пакетных сетях, осуществляется пакетирование кодированных кадров перед передачей.

На принимающей стороне канальный декодер 22 использует избыточную информацию в принимаемом потоке битов для обнаружения и исправления канальных ошибок, возникающих при передаче. Речевой декодер 24 преобразует поток битов, принимаемый из канального декодера 20, обратно в набор параметров кодирования, чтобы создать синтезированный речевой сигнал. Синтезированный речевой сигнал, восстановленный в речевом декодере 24, преобразуется в аналоговую форму в цифро-аналоговом (ЦА) преобразователе 26 и воспроизводится в блоке 28 динамика.

Микрофон 14 и/или АЦ преобразователь 16 могут быть заменены в некоторых конкретных вариантах осуществления другими источниками речи для речевого кодера 18.

Кодер 20 и декодер 22 конфигурированы с обеспечением возможности воплощения способа кодирования речевого сигнала в соответствии с настоящим изобретением, как описано ниже

Классификация сигналов

На фиг.2 проиллюстрирован способ 100 цифрового кодирования речевого сигнала в соответствии с первым иллюстративным вариантом осуществления первого аспекта настоящего изобретения. Способ 100 включает в себя классификацию речевых сигналов в соответствии с иллюстративным вариантом осуществления второго аспекта настоящего изобретения. Следует отметить, что выражение "речевой сигнал" относится к голосовым сигналам, а также к любому мультимедийному сигналу, который может включать в себя звучащую часть, например, аудиочасть с речевым содержанием (речь между фрагментами музыки, речь с фоновой музыкой, речь со специальными звуковыми эффектами и т.д.).

Как показано на фиг.2, классификацию сигналов проводят в три этапа - 102, 106 и 110, на каждом из которых обеспечивают различение конкретного класса сигналов. Сначала на этапе 102, классификатор первого уровня в форме детектора речевой активности (VAD) (не показан) осуществляет различение между активными и неактивными речевыми кадрами. Если обнаруживается неактивный речевой кадр, то способ 100 кодирования оканчивается кодированием текущего кадра, например, посредством генерирования комфортного шума (CNG) (этап 104). Если на этапе 102 обнаруживается активный речевой кадр, то этот кадр подвергается воздействию классификатора второго уровня (не показан), конфигурированного с обеспечением возможности различения невокализованных кадров. Если классификатор на этапе 106 классифицирует кадр как невокализованной речевой сигнал, то способ 100 кодирования оканчивается на этапе 108, где кадр кодируется способом кодирования, оптимизированным для невокализованных сигналов. В противном случае речевой кадр на этапе 110 пропускается через классификатор третьего уровня (не показан) в форме модуля классификации "устойчивых вокализованных" сигналов (не показан). Если текущий кадр классифицируется как устойчивый вокализованный кадр, то этот кадр кодируется способом кодирования, оптимизированным для устойчивых вокализованных сигналов (этап 112). В противном случае кадр, вероятно, содержит неустойчивый речевой сегмент, например, вокализованный начальный сигнал или часть быстро эволюционирующего сигнала, и этот кадр кодируется с помощью речевого кодера общего назначения с высокой скоростью в битах, позволяющей поддерживать надлежащее субъективное качество (этап 114). Отметим, что если относительная энергия кадра ниже, чем некоторый порог, то эти кадры можно кодировать общим способом кодирования с более низкой скоростью, чтобы дополнительно уменьшить среднюю скорость передачи данных.

Классификаторы и кодеры могут принимать многие формы - от электронных схем до однокристального процессора.

В нижеследующем описании приведено более подробное пояснение классификации различных типов речевого сигнала, а также описаны способы классификации невокализованной и вокализованной речи.

Различение неактивных речевых кадров (с помощью детектора речевой активности)

Различение неактивных речевых кадров осуществляется на этапе 102 с помощью детектора речевой активности (VAD). Схема VAD хорошо известна специалисту в данной области техники, так что более подробное описание ее здесь будет опущено. Пример VAD описан в работе [5].

Различение невокализованных активных речевых кадров

Невокализованные части речевого сигнала характеризуются отсутствием периодичности и могут быть дополнительно подразделены на неустойчивые кадры, в которых энергия и спектр претерпевают быстрое изменение, и устойчивые кадры, в которых упомянутые характеристики остаются относительно неизменными.

На этапе 106 различение невокализованных кадров осуществляется с использованием, по меньшей мере, трех из следующих параметров:

меры звучания, которую можно вычислить как усредненную нормализованную корреляцию (),

меры (еt) спектрального наклона,

отношения (dE) энергий сигналов, используемого для оценки вариации энергии кадра в пределах кадра, а значит, и устойчивости кадра, и

относительной энергии кадра.

Мера звучания

На фиг.3 иллюстрируется способ 200 различения невокализованного кадра в соответствии с иллюстративным вариантом третьего аспекта настоящего изобретения.

Нормализованная корреляция, используемая для определения меры звучания, вычисляется как часть модуля 214 исследования основного тона при разомкнутом контуре. В иллюстративном варианте осуществления согласно фиг.3 используются кадры длительностью 20 мс. Модуль исследования основного тона при разомкнутом контуре выдает оценку р основного тона при разомкнутом контуре каждые 10 мс (дважды за кадр). При осуществлении способа 200 этот модуль также используется для выдачи мер rx нормализованных корреляций. Эти нормализованные корреляции вычисляются по взвешенной речи и по прошлой взвешенной речи с задержкой основного тона при разомкнутом контуре. Взвешенный речевой сигнал sw(n) вычисляется в перцепционном взвешивающем фильтре 212. В этом иллюстративном варианте осуществления используется перцепционный взвешивающий фильтр 212 с фиксированным знаменателем, пригодный для широкополосных сигналов. Нижеследующее соотношение представляет собой пример передаточной функции для перцепционного взвешивающего фильтра 212

, где

где А(z) - передаточная функция фильтра с линейным предсказанием (LP-фильтра), вычисляемая в модуле 218, которая задается следующим соотношением:

Мера звучания задается средней корреляцией x, которая определяется как

(1)

где rx(0), rx(1) и rx(2) соответственно представляют собой нормализованную корреляцию первой половины текущего кадра, нормализованную корреляцию второй половины текущего кадра и нормализованную корреляцию упреждающей выборки (начала следующего кадра).

К нормализованной корреляции в уравнении (1) можно прибавить поправку re на шум, чтобы учесть присутствие фонового шума. В присутствии фонового шума средняя нормализованная корреляция уменьшается. Вместе с тем, применительно к классификации сигналов, это уменьшение не оказывает влияния на распознавание вокализованных и невокализованных кадров, так что упомянутое уменьшение компенсируется введением re. Следует отметить, что в случае использования надлежащего алгоритма снижения шума величина re является практически нулевой.

При осуществлении способа 200 используется упреждающая выборка длительностью 13 мс. Нормализованная корреляция rx(k) вычисляется следующим образом:

(2)

где

При осуществлении способа 200, вычисление корреляций происходит следующим образом. Корреляции rx(k) вычисляются по взвешенному речевому сигналу sw(n). Моменты tk относятся к началу текущего полукадра и составляют 0, 128 и 256 выборок, соответственно, для k = 0, 1 и 2 при частоте дискретизации 12800 Гц. Значения pk = TOL представляют собой выбранные оценки основного тона при разомкнутом контуре для полукадров. Протяженность Lk вычисления автокорреляции зависит от периода основного тона. Сводка значений Lk в первом варианте осуществления приведена ниже (для частоты дискретизации, составляющей 12,8 кГц):

Lk = 80 выборок для pk ≤ 62 выборки;

Lk = 124 выборки для 62 выборки < pk ≤ 122 выборки;

Lk = 230 выборок для pk > 122 выборки.

Эти протяженности предполагают, что длина коррелированного вектора включает в себя, по меньшей мере, один период основного тона, что способствует робастному обнаружению основного тона в разомкнутом контуре. При длинных периодах основного тона (p1 > 122 выборки), rx(1) и rx(2) идентичны, т.е. вычисляется только одна корреляция, поскольку коррелированные векторы достаточно длинны для того, чтобы анализ по упреждающей выборке оказался больше ненужным.

В альтернативном варианте взвешенный речевой сигнал можно подвергнуть децимации вдвое, чтобы упростить поиск основного тона в разомкнутом контуре. Взвешенный речевой сигнал можно подвергнуть фильтрации нижних частот перед децимацией. В этом случае значения Lk задаются следующим образом:

Lk = 40 выборок для pk ≤ 31 выборке;

Lk = 62 выборки для 62 выборки < pk ≤ 61 выборке;

Lk = 115 выборок для pk > 61 выборки.

Для вычисления корреляций можно использовать и другие способы. Например, можно вычислять всего одно значение нормализованной корреляции для всего кадра вместо усреднения нескольких нормализованных корреляций. Кроме того, корреляции можно вычислять по сигналам, не являющимся взвешенными речевыми, например, по остаточному сигналу, речевому сигналу или остаточному речевому сигналу или взвешенному речевому сигналу, подвергнутому фильтрации нижних частот.

Спектральный наклон

Параметр спектрального наклона содержит информацию о частотном распределении энергии. При осуществлении способа 200, спектральный наклон оценивают в частотной области как отношение между энергией, сконцентрированной на низких частотах, и энергией, сконцентрированной на высоких частотах. Вместе с тем, спектральный наклон можно оценивать и по-другому, например, как отношение между двумя первыми коэффициентами автокорреляции речевого сигнала.

При осуществлении способа 200 используют дискретное преобразование Фурье для осуществления спектрального анализа в модуле 210, показанном на фиг.10. Частотный анализ и вычисление наклона проводятся дважды за кадр. Используют 256-точечное быстрое преобразование Фурье (БПФ) с перекрытием 50 процентов. Окна анализа располагают так, что используется вся упреждающая выборка. В начале первого окна находятся 24 выборки, следующие после начала текущего кадра. Во втором окне находятся еще 128 выборок. Можно использовать разные окна для взвешивания входного сигнала в целях частотного анализа. Используется корень квадратный из (ширины) окна Хэмминга (что эквивалентно синусоидальному окну). В частности, это окно весьма подходит для способов с перекрытием и суммированием, вследствие чего этот конкретный спектральный анализ можно использовать в реализуемом по выбору алгоритме подавления шумов на основании спектрального вычитания и анализа/синтеза с перекрытием и суммированием. Поскольку такие алгоритмы подавления шумов считаются хорошо известными в данной области техники, более подробное описание их здесь опущено.

Энергия на высоких частотах и на низких частотах вычисляется в следующих перцепционных критических полосах [6]:

Критические полосы = {100,0, 200,0, 300,0, 400,0, 510,0, 630,0, 770,0, 920,0, 1080,0, 1270,0, 1480,0, 1720,0, 2000,0, 2320,0, 2700,0, 3150,0, 3700,0, 4400,0, 5300,0, 6350,0} Гц.

Энергия на высоких частотах вычисляется как среднее значение энергий последних двух критических полос

где ЕСВ(i) - средние энергии, приходящиеся на критическую полосу, вычисленные как

i=0,…,19

где NСВ(i) - количество интервалов дискретизации по частоте в i-й полосе, а XR(k) и XI(k) - соответственно действительная и мнимая части k-го интервала дискретизации по частоте, и ji - индекс первого интервала дискретизации в i-й критической полосе.

Энергия на низких частотах вычисляется как средняя из энергий в первых 10-ти критических полосах. Критические полосы средних частот исключены из вычисления для улучшения различения между кадрами с высокой концентрацией энергии на низких частотах (обычно - вокализованными) и высокой концентрацией энергии на высоких частотах (обычно - невокализованными). Между этими частотами запас энергии не характеризует никакие классы и увеличивает путаницу при принятии решения.

Энергия на низких частотах вычисляется по-разному для длинных периодов основного тона и коротких периодов основного тона. Для вокализованных охватывающих сегментов речи используется гармоническая структура спектра для улучшения различения вокализованных и невокализованных кадров. Так, для коротких периодов основного тона поинтервально (на каждом интервале дискретизации) вычисляется El, а при суммировании учитываются только интервалы дискретизации по частоте, достаточно близкие к гармоникам речи. То есть

где EBIN(k) - энергии интервалов дискретизации в первых 25-ти интервалах дискретизации по частоте (постоянная составляющая не учитывается). Отметим, что эти 25 интервалов дискретизации соответствуют первым 10-ти критическим полосам. При вышеуказанном суммировании учитываются только члены, связанные с интервалами дискретизации, близкими к гармоникам основного тона, так что значение wh(k) задается равным 1, если расстояние между интервалом дискретизации и ближайшей гармоникой не превышает некоторый порог частоты (50 Гц), и задается равным 0 в противном случае. Подсчет cnt - это количество ненулевых членов при суммировании. Учитываются только интервалы дискретизации, находящиеся ближе, чем в 50-ти герцах к ближайшим гармоникам. В данном случае, если структура является гармонической на низких частотах, в сумму будут включаться только члены высоких энергий. С другой стороны, если структура не является гармонической, выбор членов будет случайным, а сумма будет меньше. Таким образом, можно обнаружить даже невокализованные сигналы с высоким запасом энергии на низких частотах. Эту обработку нельзя провести для более длительных периодов основного тона, поскольку разрешение по частоте оказывается недостаточным. Для значений длительности основного тона, превышающих 128, или для априори невокализованных сигналов, энергия на низких частотах, приходящаяся на критическую полосу, вычисляется как

Априори невокализованные сигналы определяются, когда rx(0)+rx(1)+re<0,6, где значение re - это поправка, прибавляемая к нормализованной корреляции, как описано выше.

Результирующие энергии на низких и высоких частотах получают путем вычитания оцененной энергии шумов из значений и , вычисленных выше. То есть

Eh = - Nh;

El = - Nl;

где Nh и Nl - усредненные энергии шумов в последних 2-х критических полосах и первых 10-ти критических полосах, соответственно. Оцененные энергии шумов прибавлены к результату вычисления наклона, чтобы учесть присутствие фонового шума.

И, наконец, спектральный наклон задается следующим образом:

Отметим, что вычисление спектрального наклона проводится дважды за кадр, чтобы получить значения etilt(0) и etilt(1), соответствующие обоим спектральным анализам за кадр. Средний спектральный наклон, используемый в классификации невокализованных кадров, задается следующим образом:

где eold - наклон, полученный в результа