Способ обработки функции автокорреляции для измерения основного тона речевого сигнала
Иллюстрации
Показать всеИзобретение относится к средствам обработки функции автокорреляции для измерения основного тона речевого сигнала и может быть использовано в области обработки сигналов, в системах распознавания речи. Технический результат заключается в повышении надежности измерения частоты основного тона речевого сигнала. Подчеркивают главный пик в автокорреляционной функции с помощью вычитания из автокорреляционной функции, полученной для сегмента сигнала, меньшей по амплитуде сглаженной функции автокорреляции для модуля сигнала на том же сегменте и обнуления отрицательных разностей. 1 з.п. ф-лы, 3 ил.
Реферат
Изобретение относится к области обработки сигналов и может быть использовано для измерения основного тона речевых сигналов, а также других квазипериодических сигналов.
Измерение основного тона является базовой процедурой при анализе и распознавании речевого сигнала. Для этих целей часто используется кратковременная автокорреляционная функция коротких вокализованных сегментов сигнала длительностью ΔT=20-50 мс. Пусть имеется сегмент речевого сигнала s(t), заданный на интервале [0, ΔT]. В этом случае частота основного тона f0=1/T0 определяется величиной, обратной координате главного пика на τ=Т0 автокорреляционной функции
r ( τ ) = 1 Δ T ∫ 0 Δ T − τ s ( t ) s ( t − 1 ) d t
или нормированной автокорреляционной функции r0(τ)=r(τ)/r(0). Однако поскольку речевой сигнал является сверткой сигнала голосового источника, роль которого выполняют голосовые связки, с импульсной характеристикой речевого тракта, то за пик основного тона может быть принят пик автокорреляционной функции, связанный с первой формантой речевого сигнала, что приводит к нежелательным грубым ошибкам измерения основного тона.
Для уменьшения амплитуды пика в r(τ), связанного с первой формантой, используется центральное клиппирование речевого сигнала (Sondhi M.M. New methods of pitch extraction // IEEE Trans. Audio and Electroacoust. 1968. V.AU-16. №2. 262-266), выравнивающее амплитуды гармоник речевого сигнала и тем самым ослабляющее его формантные резонансы. Подобная процедура обеспечивает подчеркивание пика корреляционной функции на τ=Т0 для стационарных участков речевого сигнала, однако оказывается неудовлетворительной при изменении амплитуды речевого сигнала на протяжении интервала ΔT или в присутствии импульсных помех.
Наиболее близким техническим решением к предлагаемому способу является способ подчеркивания в автокорреляционной функции пика на τ=Т0 (Колоколов А.С., Любинский И.А., Мещеряков А.Ю. Измерение основного тона речевого сигнала на основе его автокорреляционной функции // Наукоемкие технологии, 2012, т.13, №5, с.26-29). Он основан на клиппировании положительных пиков в автокорреляционной функции r0(τ) с помощью линейно-убывающей функции , где α - параметр, определяющий уровень клиппирования r0(τ), выбираемый в диапазоне 0<α<1, а τ ∈[0, ΔТ]. В результате получается клиппированная автокорреляционная функция
Рассмотренная процедура клиппирования обеспечивает подчеркивание пика автокорреляционной функции на τ=Т0 для стационарных участков речевого сигнала и является малочувствительной к присутствию импульсных помех, однако оказывается неудовлетворительной при изменении амплитуды речевого сигнала на протяжении интервала ΔT, т.к. в этом случае автокорреляционная функция r0(τ) будет затухать быстрее, чем пороговая функция р0(τ).
Техническим результатом изобретения является повышение надежности измерения частоты основного тона ƒ0 речевого сигнала путем применения обработки автокорреляционной функции r0(τ), подчеркивающей ее пик на τ=1/ƒ0.
Технический результат обеспечивается тем, что производится подчеркивание главного пика в автокорреляционной функции с помощью вычитания из автокорреляционной функции, полученной для сегмента сигнала, меньшей по амплитуде функции автокорреляции для модуля сигнала на том же сегменте и обнуления отрицательных разностей.
Кроме того, производят дополнительное сглаживание функции автокорреляции, найденной для модуля сигнала.
На фиг. 1 представлена блок-схема, поясняющая процесс обработки автокорреляционной функции r0(τ) в предлагаемом способе.
На фиг. 2 предложенный способ поясняется на примере двухформантного синтетического гласного с постоянной амплитудой.
На фиг. 3 демонстрируется устойчивость способа при линейном убывании амплитуды на сегменте гласного до уровня 0,5 - (а) и 0,25 - (б).
На фиг.1 представлены блок получения автокорреляционной функции сигнала 1, блок получения автокорреляционной функции модуля сигнала 2, блок сглаживания 3, блок умножения на постоянный коэффициент 4, блок вычитания 5, блок обнуления отрицательных значений 6.
Поставленная цель достигается с помощью нахождения взвешенной разности
r c 2 ( τ ) = { r 0 ( τ ) − α r 0 e ( τ ) 0 п р и r 0 ( τ ) − α r 0 e ( τ ) ⊗ h ( τ ) > 0 п р и r 0 ( τ ) − α r 0 e ( τ ) ⊗ h ( τ ) ≤ 0 ,
где
r 0 e ( τ ) = 1 Δ T ∫ 0 Δ T − τ | s ( t ) | | s ( t − 1 ) | d t ;
⊗ - знак операции свертки; h(τ) - симметричная импульсная характеристика сглаживающего фильтра, которая в частном случае отсутствия сглаживания будет представлять собой δ - функцию Дирака; 0<α<1; τ∈[0, Т]; |s(t)| - модуль s(t).
Такого рода обработку можно рассматривать как своего рода клиппирование r0(τ) с пороговой функцией ar0e(τ), затухающей примерно так же, как и r0(τ). В результате этого rc2(τ) в сравнении с rc1(τ) выделение пика на τ=Т0 оказывается в меньшей степени зависимым от изменении амплитуды речевого сигнала на протяжении интервала ΔT.
Приведенные на фиг.2(а), (б) и (с) зависимости, представляющие соответственно автокорреляционные функции r0(τ), r0e(τ) и результат обработки rc2(τ), были получены для дискретного двухформантного синтетического гласного, представленного 256 отсчетами, при частоте дискретизации 10 кГц для α=0,85. Синтезированный гласный имел частоту основного тона f0=100 Гц и частоты формант 500 и 830 Гц.
Сглаживание r0e(τ) выполнялось с помощью фильтра низких частот с симметричной импульсной характеристикой h(n)=0,25u0(n-1)+0,5u0(n)+0,25u0(n+1), где n=…-2, -1, 0, 1, 2, …,
u 0 ( n ) = { 1, n = 0, 0, n ≠ 0.
Поэтому вычисление свертки сводилось к суммированию трех взвешенных спектральных отсчетов. В одном случае (фиг.2) амплитуда гласного была неизменной на протяжении сегмента длительностью ΔT=25,6 мс, в других двух случаях (фиг.3(а) и 3(б)) линейно спадала до уровней в два и четыре раза ниже исходного.
Из чертежей можно видеть, что предложенный способ обработки автокорреляционной функции позволяет подчеркнуть ее пик на τ=1/f0 как в случае речевого сигнала с постоянной амплитудой, так и при изменениях амплитуды речевого сигнала на интервале анализа ΔT. При этом во всех случаях пик у rc2(τ) на τ=1/f0 является существенно более выраженным в сравнении с другими пиками, нежели у автокорреляционной функции r0(τ).
Таким образом, приведенные выше данные позволяют заключить, что предложенный способ обработки функции автокорреляции может быть использован для реализации более устойчивого измерения основного тона речевого сигнала в присутствии амплитудных вариаций сигнала на интервале анализа ΔT.
1. Способ обработки функции автокорреляции для измерения основного тона речевого сигнала, характеризующийся тем, что производят подчеркивание главного пика функции автокорреляции на периоде сигнала, при этом вычитают из автокорреляционной функции, полученной для сегмента сигнала, меньшую по амплитуде функцию автокорреляции для модуля сигнала на том же сегменте и обнуляют отрицательные разности.
2. Способ по п.1, характеризующийся тем, что выполняют дополнительное сглаживание автокорреляционной функции, полученной для модуля сигнала.