Способ оценки мгновенной частоты речевого сигнала в точках локального максимума

Иллюстрации

Показать все

Изобретение относится к области техники анализа речи, в частности к способу оценки мгновенной частоты в точках локального максимума речевых сигналов. Техническим результатом является уменьшение количества вычислений для оценки мгновенной частоты в точках локального экстремума. Вводят в память компьютера частоты стробирования f и амплитуды звукового сигнала либо посредством использования микрофона и стандартной программы ввода, либо посредством считывания файла звукового сигнала. Производят отыскание точек локального максимума амплитуды речевого сигнала. Производят вычисление величины , где n - позиция локального максимума. Выполняют подсчет мгновенной частоты в указанной точке по формуле w=ƒ*argcos(Val). Выводят позицию локального максимума и найденную оценку мгновенной частоты в формате n, w. 2 ил.

Реферат

Изобретение относится к области техники анализа речи, в частности, к способу оценки мгновенной частоты в точках локального максимума (положительного локального максимума, отрицательного локального минимума) речевых сигналов. Техническим результатом является минимизация количества операций, необходимых для получения численного результата. Технический результат достигается тем, что вместо преобразования Гильберта, используемого для получения указанной оценки, применяется аппроксимация сигнала в окрестности локального максимума функцией, для которой известно аналитическое выражение для преобразования Гильберта.

Имеется стандартная процедура оценки мгновенной частоты сигнала (см., например, [1]), сущность которой заключается в том, что к исходному сигналу х[n] применяется аппроксимация преобразования Гильберта путем пропускания этого сигнала через фильтр с конечной импульсной характеристикой (далее КИХ фильтр специального вида). В результате получается новый сигнал у[n], после чего строится аналитический сигнал z[n]=х[n]+iу[n], представимый в виде ⎜z(n)⎜ехр(iw(n)). Подсчитывая log(z(n)), log(z(n+1)) и выделяя в них мнимую часть, получаем оценку w0 мгновенной частоты в виде w0=w(n+1)-w(n).

Недостаток данного метода заключается в том, что фильтр Гильберта не является физически реализуемым, поэтому приходится ограничиваться его приближением в виде КИХ фильтра. Чем точнее берется аппроксимация фильтра, тем больший интервал речевого файла используется для подсчетов. Таким образом, вследствие указанного для реализации преобразования требуются большие вычисления. С другой стороны, теория предполагает, что исходный сигнал является стационарным, а увеличение длины отрезка речевого файла приводит к нарушению указанного предположения.

Задачей заявленного изобретения является создание способа оценки мгновенной частоты сигнала, не требующего больших вычислений.

Поставленная задача решается путем аппроксимации исходного сигнала в окрестности точек локального максимума (положительного локального максимума А, отрицательного локального минимума В, см. Фиг. 1) значениями функции, для которой известен аналитический вид преобразования Гильберта.

Заявленное техническое решение реализуется посредством применения ЭВМ с устройством звукового ввода и программы, обеспечивающей реализацию заявленного способа, и поясняется блок-схемой реализации заявленного способа, приведенной на Фиг. 2.

Сущность заявленного технического решения заключается в том, что в способе оценки мгновенной частоты речевого сигнала в точках локального максимума реализуемый на электронно-вычислительной машине, заключающемся во вводе в память компьютера частоты стробирования f и амплитуд звукового сигнала либо посредством использования микрофона и стандартной программы ввода, либо посредством считывания файла звукового сигнала, отличающемся тем, что производится отыскание точек локального максимума амплитуды речевого сигнала, далее производят вычисление величины , где n - позиция локального максимума, далее выполняется подсчет мгновенной частоты в указанной точке по формуле w=ƒ*argcos(Val) и выводят позицию локального максимума и найденную оценку мгновенной частоты в формате n, w.

Заявленное техническое решение «Способ оценки мгновенной частоты речевого сигнала в точках локального максимума» реализуется на основании блок-схемы и включает следующую последовательность действий.

1. Осуществляют ввод звукового файла в ЭВМ через микрофон, либо выполняют считывание звукового файла из памяти ЭВМ, далее выполняют ввод частоты стробирования f.

2. Выполняют поиск локального максимума в точке х[n], с применением программы ЭВМ, далее выполняют проверку условия

х[n-1]<х[n] AND х[n+1<х[n].

3. Производят вычисление посредством программы ЭВМ по формуле

4. Используя программу ЭВМ, производят вычисление мгновенной частоты w=ƒ*arccos(Val).

5. Осуществляют вывод результата в формате n, w.

Таким образом, процедура заявленного «Способа оценки мгновенной частоты речевого сигнала в точках локального максимума» в целом включает следующие шаги и сводится к:

- локализации точки локального максимума (положительного локального максимума, отрицательного локального минимума)x[n0] во входном файле;

- апроксимации сигнала в окрестности этой точки функцией вида u(t)=Acos(wt)+Bsin(wt), для которой мгновенная частота в любой точке равняется w и не зависит от коэффициентов А, В;

- вычислению оценки мгновенной частоты в этой точке согласно формуле

где ƒ - частота стробирования*, примененная при записи речевого сигнала.

Так как точка х[n0] есть точка локального максимума, в формуле (1) значения для функции cos меньше 1.

*Стробирование (англ. strobing, от strobe - посылать избирательные импульсы, от греч. strobos - кружение, беспорядочное движение), метод выделения некоторого интервала на временной оси… Стробирование (англ. strobing, от strobe - посылать избирательные….БСЭ. - 1969-1978).

Обоснование указанной формулы приведено в [2].

Для проверки точности предлагаемой оценки был проведен вычислительный эксперимент. Для функции вида

ƒ(t)=∑kАk cos(wkt)+Bksin(wkt))

известен явный вид преобразования Гильберта (см. [1]), что позволяет подсчитать мгновенную частоту в любой момент времени. Для эксперимента были выбраны 5 слагаемых, коэффициенты Аk, Вk выбирались каждый раз случайным образом, а частоты wk сохранялись постоянными. Для каждого набора коэффициентов находилось точное значение мгновенной частоты и оценка согласно формуле (1):

Точное 729 517 788 626 418 510 152 784 879 546
Оценка 835 572 800 676 438 552 016 047 654 680

Из приведенных данных видно, что точные значения и их оценки имеют один порядок.

Заявленное техническое решение соответствует критерию «новизна», предъявляемому к изобретениям, так как в результате исследования уровня техники на дату подачи заявки заявителем не выявлены технические решения, обладающие совокупностью заявленных признаков, приводящих к реализации поставленных целей, - созданию способа оценки мгновенной частоты сигнала в точках локального максимума сигнала.

Заявленное техническое решение соответствует критерию «изобретательский уровень», предъявляемому к изобретениям, так как для специалиста в заявленной области техники не являются очевидным полученные технические результаты, выражающиеся в том, что заявителем решена актуальная, не разрешенная до даты подачи настоящей заявки проблема, заключающаяся в необходимости создания простого способа оценки мгновенной частоты сигнала, которая разрешена авторами посредством создания принципиально нового способа, заключающегося в аппроксимации сигнала в окрестности точки локального максимума (положительного локального максимума, отрицательного локального минимума) функцией с известной мгновенной частотой.

Таким образом, заявленное решение не вытекает явным образом из известного уровня техники, что также является дополнительным доказательством соответствия заявленного технического решения критерию «изобретательский уровень».

Заявленное техническое решение реализовано в лабораторных условиях Казанского государственного университета и может быть реализовано на любом специализированном предприятии (учреждении) с использованием стандартного оборудования, что является доказательством соответствия заявленного технического решения критерию «промышленная применимость», предъявляемому к изобретениям.

Источники информации

1. Лайонс Р. Цифровая обработка сигналов. М.: Бином, 2006 г., 652 с.

2. Нигматуллин Р.Р., Столов Е.Л. Параметры, характеризующие локальные фрагменты речевых файлов.// Ученые записки Казанского университета, Серия Физико-математические науки - т. 155 - Книга 2- 2013 г., с. 100-107.

Способ оценки мгновенной частоты речевого сигнала в точках локального максимума, реализуемый на электронно-вычислительной машине, заключающийся во вводе в память компьютера частоты стробирования f и амплитуд звукового сигнала, либо посредством использования микрофона и стандартной программы ввода, либо посредством считывания файла звукового сигнала, отличающийся тем, что производится отыскание точек локального максимума амплитуды речевого сигнала, далее производят вычисление величины , где n - позиция локального максимума, далее выполняется подсчет мгновенной частоты в указанной точке по формуле , и выводят позицию локального максимума и найденную оценку мгновенной частоты в формате n, w.