Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа

Иллюстрации

Показать все

Изобретение относится к области цифровой связи и технологиям обработки речи в условиях зашумления. Технический результат - повышение достоверности классификации сегментов зашумленной речи по типовым классификационным группам. В способе классификации сегментов зашумленной речи осуществляют полиспектральный анализ для частичного шумоподавления путем повышения адекватности Фурье-спектра сигнала, который восстанавливают из оценки биспектра обрабатываемого зашумленного речевого сигнала; далее на основе исходного речевого сигнала и нормализованного Фурье-спектра в каждом сегменте выделяют наличие/отсутствие классификационных признаков речевого сигнала и весовых коэффициентов, осуществляют их коррекцию с применением процедуры иерархии и на конечном этапе принимают решение по вопросу отнесения сегмента к типовым группам, по результатам сравнения осуществляют формирование последовательности символов, обозначающих типовые группы. 2 н. и 8 з.п. ф-лы, 7 ил.

Реферат

Представленные изобретения объединены единым замыслом и относятся к области цифровой связи, могут быть использованы в системах телекоммуникаций при реализации процедуры классификации сегментов речевого сигнала в условиях зашумления.

Область применения изобретений: радиотелефония и системы распознавания речи, голосовое управление электронными приборами, автоматическая стенография, голосовое управление движущимися средствами на расстоянии слышимости голоса.

Несмотря на наличие большого количества технических решений в области применения заявленных изобретений существует проблема, связанная с обработкой зашумленной речи при высокой интенсивности шумового воздействия, что сильно проявляется в снижении достоверности принятых решений уже разработанных на настоящее время способов и устройств, их реализующих.

Известен способ и устройство распознавания речи (патент на изобретение США US 4624011 A, G10L 5/00, 28.01.1983), в которых распознавание речи производят путем поэтапного выполнения определенных процедур: оценивают амплитудный и фазовый Фурье-спектры, затем выделяют последовательности фонем и их акустических характеристик, вычисляемых вспомогательным модулем, которые затем сравнивают с хранящимися в памяти эталонными параметрами для анализируемых последовательностей, и далее определяют степень сходства, осуществляемую через интервальную оценку, характеризуемую среднеквадратической ошибкой. Данный способ и устройство, его реализующее, характеризуется низкой помехозащищенностью, так как в условия присутствия зашумления обрабатываемого речевого сигнала распознавание посредством сравнения с эталоном становится невозможным, что приводит к значительному снижению достоверности принимаемых решений.

Имеется способ и устройство распознавания слитной речи (патент США US 4852170, G10L 5/04, 18.12.1986), основанных на обработке речи в режиме реального времени устройством, в котором определяют спектральные оценки каждого сегмента речи заданной длительности, при этом каждый сегмент речи анализируют логически на наличие фонем и их принадлежность определенному классу, частью которого они являются, и затем частотный спектр сегмента анализируют на наличие особенностей, позволяющих распознать специфические фонемы в пределах типа. Последовательность фонем может быть сохранена в виде компактных групп и преобразована затем для синхронизации с голосом диктора.

Также известны способ и устройство распознания фонем речи (патент РФ 2268504 С9, опубл. 20.01.2006), основанных на распознавании речи устройством, включающим анализатор биспектра, в котором определяют индивидуальные эталоны каждой фонемы речи, при этом каждую аллофону индивидуальной речи логически анализируют на максимум совпадения при сравнении с каждым эталонном, хранящимся в памяти, и после сравнения принимают решение о принадлежности к определенной фонеме. Последовательность фонем сохраняют в виде компактных групп и затем преобразуют для синхронизации с голосом диктора.

Наиболее близким аналогом по совокупности существенных признаков, признанным в качестве прототипа, является система и способ распознавания речи (патент РФ №2466468, опубл. 10.11.2012) для обработки слитного речевого сигнала в режиме реального времени, включающей последовательно исполняемые этапы, согласно которым осуществляют прием речевого сигнала; выполняют его обработку, для чего производят аналого-цифровое преобразование с предустановленной частотой дискретизации и разделение на сегменты квазистационарности, выполняют спектральный анализ сегментов зашумленного речевого сигнала и нормализацию спектра; выделяют в нормализованном спектре паузы, шумы и звуковые сигналы, далее производят классификацию по типовым группам, для чего определяют на основе исходного речевого сигнала и нормализованного спектра в каждом сегменте наличие/отсутствие классификационных признаков, комбинаторные наборы которых характеризуют группы фонем, параметры которых предустановлены в блоке памяти и сравнивают определенные комбинаторные наборы классификационных признаков сегмента с предустановленными параметрами групп фонем, одновременно формируют последовательности символов, обозначающих группы фонем, с одновременным формированием последовательности символов, обозначающих группы фонем, соответствующие комбинаторным наборам классификационных признаков каждого сегмента, с использованием классификации групп фонем на основе комбинаторного набора классификационных признаков, которые характеризуют наличием или отсутствием в речевом сигнале, по меньшей мере, основного тона, широкополосных шумов, перепада интенсивности речевого сигнала, высокочастотных шумов, сонорности, гласного, ряда гласного, комбинаторное сочетание которых формирует одиннадцать групп фонем с неповторяемым набором классификационных признаков: смычные глухие шумные согласные, смычные звонкие шумные согласные, глухие шумные щелевые согласные, звонкие шумные щелевые согласные, глухие сибилянты, звонкие сибилянты, носовые и щелевые сонанты, дрожащие сонанты, гласные переднего ряда, гласные смешанного ряда и гласные заднего ряда, соответствующих комбинаторным наборам классификационных признаков каждого сегмента, далее осуществляют последовательным декодированием комбинаторного сочетания символов групп фонем в текст на основе словаря, размеченного по символам групп фонем.

Основным недостатком данного способа является низкая помехозащищенность к условиям интенсивного зашумления обрабатываемого речевого сигнала, что приводит к ошибкам первого рода для анализа участков речи, где наличие или отсутствие основного тона не является главным классификационным признаком, кроме того, в случае шумового воздействия однородной энергетики проявляются многие классификационные признаки разных групп фонем, основанные на наличии различных видов шумов, вследствие чего происходит снижение достоверности классификации сегментов обрабатываемого речевого сигнала, что в конечном итоге приводит к неверному распознаванию каждого символа, входящего в состав кодового слова.

Одним общим недостатком, характеризующим все аналоги и прототип, можно выделить низкую достоверность классификации по определенным типовым группам сегментов зашумленной речи в условиях шумового воздействия высокой интенсивности.

Задачей заявленных изобретений является создание способа классификации сегментов зашумленного речевого сигнала с использованием полиспектрального анализа и устройства, его реализующего, повышающих достоверность классификации сегментов обрабатываемого зашумленного речевого сигнала по определенным группам фонем.

Эта задача достигается тем, что согласно заявленному способу классификации сегментов зашумленной речи с использованием полиспектрального анализа, включающего последовательно исполняемые этапы, согласно которым осуществляют прием зашумленного речевого сигнала; выполняют аналого-цифровое преобразование с предустановленной частотой дискретизации и разделение на сегменты квазистационарности, далее вычисляют Фурье-спектры сегментов зашумленного речевого сигнала и нормализуют его, выделяют в нормализованном Фурье-спектре паузы, шумы и звуковые сигналы, далее производят классификацию по типовым группам, для чего определяют на основе исходного речевого сигнала и нормализованного спектра в каждом сегменте наличие/отсутствие классификационных признаков, комбинаторные наборы которых характеризуют группы фонем, параметры которых предустановлены в блоке памяти, и сравнивают определенные комбинаторные наборы классификационных признаков сегмента с предустановленными параметрами групп фонем, одновременно формируют последовательности символов, обозначающих группы фонем, отличающийся тем, что используют аппарат полиспектрального анализа, а именно при оценке амплитудного Фурье-спектра (далее Фурье-спектр) речевого сигнала, Фурье-спектр получают через биспектр речевого сигнала, который синтезируют путем двумерного дискретного преобразования Фурье от тройной автокорреляционной функции на участке квазистационарности обрабатываемого зашумленного речевого сигнала с целью частичного подавления гауссовых компонент шумового воздействия, кроме того, на этапе принятия решения классификации обрабатываемого сегмента зашумленного речевого сигнала с задачей отнесения к конкретной группе из 12 (двенадцати) групп фонем или к 1 (одной) группе, характеризующей паузу, вводят процедуру иерархии классификационных признаков групп, для чего вводят весовые коэффициенты, основанные на внутрисимвольных и межсимвольных связях, как в кодовом слове, так и внутри каждого символа и получают их путем оценки статистических и параметрических особенностей, как речевого сигнала, так и шума.

Заявленный способ характеризуется тем, что на этапе дискретизации устанавливают постоянное значение частоты дискретизации, равное 44100 Гц, кроме того, на этапе сегментации выбирают постоянный период квазистационарности, равный 1024 отсчетам, также при перемещении от сегмента к сегменту используют взаимное окно пересечения соседних сегментов, равное 512 отсчетам, а на этапе спектрального анализа применяют полиспектральный анализ, включающий в себя оценку и работу не только с Фурье-спектром, но и биспектром обрабатываемого зашумленного речевого сигнала, вследствие чего при операциях получения биспектра зашумленного речевого сигнала производят прямое двумерное преобразование Фурье от тройной автокорреляционной функции RU(a,b), и восстановление Фурье-спектра осуществляют непосредственно из самого биспектра зашумленного речевого сигнала, вследствие чего происходит частичное шумоподавление в обрабатываемом речевом сигнале за счет подавления гауссовых компонент шумового воздействия на основании сечения стационарного эргодического случайного процесса по кумулянту третьего порядка. Восстановление Фурье-спектров по оценке биспектра, получаемого косвенным методом, достаточно подробно представлено в (Тоцкий А.В., Астола Я. Восстановление сигналов по оценкам биспектров в присутствии гауссовых и негауссовых помех. Зарубежная радиоэлектроника, 2002, №11, с. 44-58; Никиас Х.Л., Рагувер М.Р. Биспектральное оценивание применительно к цифровой обработке сигналов. ТИИЭР, 1987, Т.75, №7, с. 5-30; Zhang Ji-Wu, Zheng Chong-Xun, and Xie Au, Bispectram analysis of focal ischemic cerebral EEG signal usingthird-order recursion method, IEE Trans. Biomedical Engineering, vol. 47, No. 3, March 2000, pp. 352-359). Тогда нахождение тройной автокорреляционной функции и биспектра осуществляют согласно следующим выражениям:

где W(a,b) - оконная функция, используемая для повышения адекватности оценки и уменьшения эффекта растекания биспектра, K - количество отсчетов в сегменте обрабатываемого речевого сигнала, a, b - величины корреляционного сдвига. Кроме того, - комплексная функция двух независимых частотных переменных p,q:

где - биамплитуда, γU(p,q) - бифаза.

В случае однородного шумового воздействия, где сам шум представляет собой гауссов случайный процесс или в высокой степени приближен к гауссову процессу, так что его можно аппроксимировать белым гауссовым шумом, то для случая аддитивного шумового воздействия вытекает справедливость частичного шумоподавления на основании сечения обрабатываемого зашумленного речевого сигнала, представленного эргодическим случайным процессом, по кумулянту третьего порядка - асимметрии. В практическом приложении это означает исследование корреляционных связей третьего порядка, которые для гауссовых процессов равны нулю, кроме того, для случайных процессов, приближенных к гауссову процессу, данные характеристики стремятся к нулю и имеют малые значения:

где - биспектр «чистого» речевого сигнала, - биспектр шумового воздействия, - спектральная компонента на частоте p Фурье-спектра «чистого» речевого сигнала, - спектральная компонента на частоте p Фурье-спектра шумового воздействия.

Амплитудный и фазовый Фурье-спектры восстанавливают из биспектра зашумленного речевого сигнала на основании итерационных рекурсивных алгоритмов посредством проведения медианного и подмедианного разреза биамплитуды и бифазы:

В нормализованном Фурье-спектре каждого сегмента на основе введения процедуры иерархии, основанной на рекурсивных межсимвольных и внутрисимвольных связях кодового слова, описание которых подробно представлено в (О.И. Шелухин, Н.Ф. Лукьянцев. Цифровая обработка и передача речи. М., Радио и Связь, 2000 г. - с. 102-112, с. 123-146; Быков С.Ф., Журавлев В.И., Шалимов И.А. Цифровая телефония: учебное пособие для вузов. - М.: Радио и связь, 2003 г. - 144 с.), состоящего из символов, обозначающих группы фонем, определяют наличие/отсутствие классификационных признаков речевого сигнала, комбинаторные наборы которых характеризуют группы фонем, с использованием процедуры иерархии, параметры комбинаторных наборов предустановлены в блоке памяти, и осуществляют сравнение определенных комбинаторных наборов классификационных признаков и весовых коэффициентов сегмента с предустановленными параметрами групп фонем, с одновременным формированием последовательности символов, обозначающих группы фонем, соответствующих комбинаторным наборам классификационных признаков каждого сегмента.

При классификации сегментов обрабатываемого речевого сигнала по группам фонем используют комбинаторный набор классификационных признаков и весовых коэффициентов, включающий определение наличия или отсутствия в речевом сигнале основного тона, широкополосных шумов, перепада интенсивности речевого сигнала, высокочастотных шумов, сонорности, гласного, ряда гласного, комбинаторное сочетание которых формирует 12 групп фонем с неповторяемым набором классификационных признаков и весовых коэффициентов: смычные глухие шумные согласные, смычные звонкие шумные согласные, глухие шумные щелевые согласные, звонкие шумные щелевые согласные, глухие сибилянты, звонкие сибилянты, носовые и щелевые сонанты, дрожащие сонанты, гласные переднего ряда, гласные смешанного ряда и гласные заднего ряда, аффрикаты. Кроме того, дополнительной обособленной группой вводится пауза, характеризующаяся как отсутствие информативных активных составляющих на протяжении 20(двадцати) сегментов квазистационарности без учета взаимного окна пересечения соседних сегментов или наличием шумового признака и различных шумов на той же длительности.

Одной из важнейших классификационных характеристик является наличие основного тона в речевом сигнале. Присутствие основного тона оценивают по высокой интенсивности частотных составляющих в низкочастотной области в диапазоне возможных значений частоты основного тона. Интенсивность частотных составляющих в текущем окне определяют относительно их максимальной интенсивности в речевом сигнале на протяжении сравнительно длинного отрезка речевого сигнала длинной около 5 (пяти) секунд.

Кратковременные перепады интенсивности речевого сигнала, свидетельствующие о присутствии в сигнале коротких смычек, характерных для дрожащих сонантов, определяют по соотношению интенсивности речевого сигнала в трех последовательно идущих окнах обработки. Интенсивность речевого сигнала в среднем окне существенно ниже интенсивности речевого сигнала в правом и левом окнах, в то время как интенсивность речевого сигнала в правом и левом окнах практически одинакова.

Наличие широкополосных шумов в речевом сигнале, связанных с произношением щелевых согласных или присутствием взрыва, происходящего во время размыкания смычки при произнесении смычных согласных, определяют по наличию интенсивных частотных составляющих в диапазоне выше возможных значений частоты основного тона и ее первой гармоники.

Наличие высокочастотных шумов в речевом сигнале, связанных с произношением щелевых сибилянтов, определяют в диапазоне выше возможных значений частоты основного тона и ее первой гармоники, по отношению интенсивности частотных составляющих в области средних частот и интенсивности частотных составляющих в области высоких частот. Интенсивность высокочастотных шумов существенно превосходит интенсивность средних частот в случае произнесения щелевых сибилянтов.

Сонорность речевого сигнала, характерную для произнесения сонантов и гласных, в противоположность шумным согласным, определяют по высокой интенсивности частотных составляющих в диапазоне средних частот выше низкочастотной области в диапазоне возможных значений частоты основного тона, но вмещающих в себя диапазон возможных значений частот формант сонантов.

Еще одним классификационным признаком, используемым при распознавании речи и для характеристики групп фонем, является отсутствие или наличие гармонических составляющих в спектре в частотной области выше диапазона возможных значений частот формант сонантов. Отсутствие гармонических составляющих в области средних и верхних частот характерно для сонантов, а присутствие для гласных. Наличие или отсутствие гармонических составляющих определяют по отношению интенсивности частотных составляющих ниже и выше частотного порога.

Другой важной классификационной характеристикой звуков речи является качество возможно произнесенного гласного, а именно ряд его произнесения, т.е. положения основной массы языка в полости рта в горизонтальном положении. Ряд произнесения гласного определяют по соотношению интенсивности гармонических составляющих в спектре речевого сигнала в области низких частот, области средних частот и области верхних частот. Отсутствие гармонических составляющих в спектре речевого сигнала в области средних частот и области верхних частот свидетельствует о произнесении гласного заднего ряда. Присутствие гармонических составляющих в спектре речевого сигнала в области средних частот свидетельствует о произнесении гласного среднего ряда. Одновременное присутствие гармонических составляющих в спектре речевого сигнала в области низких частот и области верхних частот и их отсутствие в области средних частот свидетельствует о произнесении гласного переднего ряда. Наличие или отсутствие гармонических составляющих определяют по отношению интенсивности частотных составляющих в области низких частот, области средних частот и области верхних частот.

В заявленном изобретении используют следующие классификационные группы сегментов обрабатываемого зашумленного речевого сигнала: смычные глухие шумные согласные (O), смычные звонкие шумные согласные (B), глухие шумные щелевые согласные (С), звонкие шумные щелевые согласные (D), глухие сибилянты (E), звонкие сибилянты (F), носовые и щелевые сонанты (G), дрожащие сонанты (Н), гласные переднего ряда (I), гласные смешанного ряда (L) и гласные заднего ряда (K), аффрикаты (М), пауза (N). В скобках указан условный символ классификационной группы.

Смычные глухие шумные согласные (O) определяют с использованием следующих классификационных признаков: отсутствие основного тона и широкополосных шумов, что характеризуется смычкой, то есть фактическим отсутствием речевого сигнала, и последующими кратковременными широкополосными шумами. Смычные глухие шумные согласные отличаются от пауз между словами длиной смычки, которая значительно короче паузы между словами, и наличием последующего взрыва, характеризующегося кратковременными широкополосными шумами.

Смычные звонкие шумные согласные (B) определяют следующими классификационными признаками: наличием основного тона и отсутствием широкополосных шумов на месте смычки, а также последующими кратковременными широкополосными шумами на месте взрыва.

Глухие шумные щелевые согласные (C) определяют следующими классификационными признаками: отсутствием основного тона, наличием широкополосных шумов, отсутствием высокочастотных шумов, отсутствием сонорности.

Звонкие шумные щелевые согласные (D) определяют следующими классификационными признаками: наличием основного тона, наличием широкополосных шумов, отсутствием высокочастотных шумов, отсутствием сонорности.

Глухие сибилянты (Е) определяют следующими классификационными признаками: отсутствием основного тона, наличием широкополосных шумов, наличием высокочастотных шумов, отсутствием сонорности.

Звонкие сибилянты (F) определяют следующими классификационными признаками: наличием основного тона, наличием широкополосных шумов, наличием высокочастотных шумов, отсутствием сонорности.

Носовые и щелевые сонанты (G) определяют следующими классификационными признаками: наличием основного тона, наличием сонорности, классификационной характеристикой отсутствия гласного.

Дрожащие сонанты (Н) определяют следующими классификационными признаками: наличием основного тона, наличием сонорности, наличием перепада интенсивности речевого сигнала.

Гласные переднего ряда (I) определяют следующими классификационными признаками: наличием основного тона, наличием сонорности, классификационной характеристикой присутствия гласного, классификационной характеристикой переднего ряда гласного.

Гласные смешанного ряда (L) определяют следующими классификационными признаками: наличием основного тона, наличием сонорности, классификационной характеристикой присутствия гласного, классификационной характеристикой смешанного ряда гласного.

Гласные заднего ряда (К) определяют следующими классификационными признаками: наличием основного тона, наличием сонорности, классификационной характеристикой присутствия гласного, классификационной характеристикой заднего ряда гласного.

Аффрикаты (М) определяют как последовательное произнесение соответствующих смычного и щелевого согласного, т.е. /ц/ - это комбинация /т/ и /с/, а /ч/ - это комбинация /т/ и /ш/.

Паузу (N) определяют как многократное повторение характеристического признака b - отсутствие сигнала на протяжении 20 сегментов квазистационарности, в условиях зашумления паузу определяют при многократном повторении на той же длительности признака наличия различных невокализованных шумоподобных сегментов и шумового признака.

В заявленном изобретении используют следующие классификационные признаки групп:

a 0 - наличие основного тона; a1 - наличие гармонических составляющих в области первой форманты; а2 - наличие гармонических составляющих в области второй форманты; а3 - наличие гармонических составляющих слабой интенсивности; b - отсутствие сигнала; с - наличие перепадов; d - широкополосные шумы; е - краткие шумы; f - высокочастотные шумы; g - наличие сонорности; n - наличие шума.

Кроме того, в заявленном изобретении вводят весовые коэффициенты, определяющие иерархию, основанную на параметрических свойствах речевых сигналов и шумов:

где R:1 - подтверждение наличия кратких шумов, 0 - наличие кратких шумов ложно;

S:1 - подтверждение наличия широкополосных шумов, 0 - наличие широкополосных шумов ложно;

Т:1 - подтверждение наличия высокочастотных шумов, 0 - наличие высокочастотных шумов ложно;

V:1 - подтверждение наличия сонорности, 0 - наличие сонорности ложно.

Также существует факт ложной вокализации, например смычных глухих шумных согласных, стоящих в слове после гласных звуков, в связи с чем вводят признак иерархии, основанный на статистике вокализованных и невокализованных элементов речи, приведенной в таблице на фиг. 1:

W:1 - подтверждение наличия основного тона, 0 - наличие основного тона ложно.

Все признаки (учитывая весовые коэффициенты) и классификация 12 (двенадцати) групп фонем и 1 (одной) группы, характеризующей паузу, приведены на фиг. 2 и могут быть записаны в виде следующих выражений:

Способ, заявленный в изобретении, можно представить в виде алгоритма (фигура 3), в соответствии с которым выделяют следующие этапы обработки зашумленного речевого сигнала с целью проведения классификации по определенным группам:

I) Прием речевого сигнала U(t);

II) Дискретизация речевого сигнала U(kT);

III) Сегментация речевого сигнала с учетом взаимного окна пересечения соседних сегментов анализа;

IV) Вычисление значений тройной автокорреляционной функции (ТАКФ) RU(a,b);

V) Синтез биспектра BU(p,q), получаемого путем преобразования Фурье от ТАКФ;

VI) Получение биамплитуды и бифазы γ(p,q);

VII) Восстановление амплитудного Фурье-спектра

VIII) Нормализация амплитудного Фурье спектра

IX) Выделение сегментных классификационных признаков: а0, a1, а2, а3, а4, b, с, d, f, g, n;

X) Расчет весовых коэффициентов: R, S, Т, V;

XI) Оценка весового коэффициента - W;

XII) Коррекция сегментных классификационных признаков;

XIII) Принятие решения по вопросу классификации.

Задача изобретений достигается и тем, что устройство, реализующее способ классификации сегментов зашумленной речи с использованием полиспектрального анализа, включающее блок приема зашумленного речевого сигнала, последовательно соединенный с аналого-цифровым преобразователем, который соединен с блоком управления, блоком памяти и блоком определения классификационных признаков групп фонем с целью формирования последовательности символов, обозначающих группы фонем, выполненный с обеспечением возможности формирования по текущим комбинаторным сочетаниям классификационных признаков, присутствующих в речевом сигнале соответствующей им последовательности символов и записи кодового слова, размеченного по символам групп фонем и вызываемого из блока памяти, при этом все блоки соединены с блоком управления, который обеспечивает возможность управления режимами функционирования блоков, обмена данными между ними и взаимодействия с блоком памяти, отличающееся тем, что используется блок сегментации речевого сигнала, учитывающий взаимное окно пересечения соседних сегментов по количеству отсчетов, соединенный с совокупностью блоков полиспектрального анализа, включающей блок корреляции третьего порядка, выход которого соединен с входом блока прямого преобразования Фурье, выход которого соединен с входом блока восстановления Фурье-спектра амплитуд из оценки биспектра, выход которого соединен с входом блока определения сегментных классификационных признаков; также дополнительным введением блока коррекции классификационных признаков, блоков параметрической и статистической иерархии и блока хранения кратковременных данных; кроме того, в блоке определения классификационных признаков групп фонем реализована процедура выявления шумового признака, данные блоки соединены между собой множественными рекурсивными связями, учитывающими внутрисимвольную и межсимвольную связь в формируемой последовательности с выхода блока формирования последовательности символов.

Также на фигуре 3 представлена блок-схема устройства с привязкой к алгоритму на основе заявленного способа классификации сегментов зашумленного речевого сигнала с использованием полиспектрального анализа:

1) Уровень управляющих воздействий и предустановленных классификационных признаков (возможность реализации по совокупности процессора постоянного запоминающего устройства), имеющий технологически в своем составе:

1 - блок управления (функционально соединенный с блоком 15),

2 - блок хранения классификационных признаков на основе базы данных;

2) Этап приема непрерывного сигнала речи, имеющий технологически в составе:

3 - блок приема непрерывного сигнала речи (возможно разграничение на технические подуровни, например, не только акустоэлектрическое преобразование, но и ограничение по входному уровню);

3) Этап аналого-цифрового преобразования и сегментации речевого сигнала, имеющий технологически в составе:

4 - блок аналого-цифрового преобразования,

5 - блок сегментации дискретного обрабатываемого речевого сигнала на сегменты квазистационарности с учетом взаимных окон пересечения соседних сегментов;

4) Этап полиспектрального анализа речевого сигнала при последовательно-параллельной обработке, технологически имеющий в своем составе и функционально 2 (два) уровня:

4.1) Уровень косвенного получения биспектра обрабатываемого сегмента речевого сигнала, имеющий технологически в своем составе:

6-1…6-16 - блоки корреляции третьего порядка,

7-1…7-16- блоки преобразования Фурье;

4.2) Уровень определения сегментных классификационных признаков, имеющих технологически в своем составе:

8-1…8-16 - блоки восстановления Фурье-спектра по оценке биспектра обрабатываемого сегмента зашумленного речевого сигнала,

9-1…9-16 - блоки нормализации Фурье-спектра,

10-1…10-16 - блоки определения сегментных классификационных признаков, имеющий в своем составе гребенку полосовых фильтров, физически выполняющих функцию детекции амплитудных значений нормализованного Фурье-спектра, уровни которого предустановлены в блоке 2;

5) Этап коррекции классификационных признаков на основе параметрической и статистической иерархии признаков (возможность реализации по совокупности процессора постоянного запоминающего устройства (ПЗУ)), имеющий технологически в своем составе:

11-1…11-16 - блоки коррекции классификационных признаков,

12-1…12-16 - блоки статистической иерархии,

13-1…13-16 - блоки параметрической иерархии,

14 - блок хранения кратковременных данных (реализация возможна на оперативном запоминающем устройстве) об межсимвольных и внутрисимвольных связях;

6) Этап принятия решения по вопросу классификации по откорректированным классификационным признакам имеет технологически в своем составе:

15 - блок принятия решения (возможна реализация на базе процессора),

16 - блок формирования последовательности символов, характеризующих определенные классификационные группы.

Процедуры приема, аналого-цифрового преобразования и сегментации речевого сигнала и их реализация достаточно подробно описаны в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б. Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - с. 425-446). Описание формирования и приема кадра передачи, выполняемых блоками 3, 4, 5, представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С. 79-87).

Реализация совокупности блоков 1, 2, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16 возможна на базе модуля TORNADO-P64, который разработан компанией "МикроЛАБ Системе" (www.mlabsys.com) Цифровая обработка сигналов CHIP NEWS Жучков К., Хоружий С., Чепель Е. Полиспектральный анализатор сигналов на базе модуля цифрового сигнального процессора TMS320C6416).

Устройство, реализующее заявленный способ, работает следующим образом (Фиг. 3):

Непрерывный зашумленный акустический сигнал речи поступает на вход блока 3, в котором происходит его акустоэлектрическое преобразование и ограничение по входному уровню. Полученный непрерывный электрический сигнал с выхода блока 3 поступает на вход блока аналого-цифрового преобразования 4, в котором осуществляется получение дискретных отсчетов речевого сигнала с частотой дискретизации, равной 44100 Гц, последовательность дискретных отсчетов с выхода блока 4 поступает на вход блока сегментации 5, где происходит разделение последовательности отсчетов на сегменты квазистационарности по 1024 отсчета с учетов взаимного окна пересечения соседних сегментов, равного 512 отсчетам, далее с выхода блока 5 посегментно речевой сигнал поступает на входы блоков корреляции третьего порядка 6, каждой из параллельных ветвей обработки речевого сигнала, где осуществляется нахождение тройной автокорреляционной функции для каждого сегмента квазистационарности, с выхода блока 6 на вход блока двумерного преобразования Фурье 7 поступает последовательность значений тройной автокорреляционной функции, где происходит процедура нахождения значений биспектра речевого сигнала для каждого сегмента квазистационарности косвенным методом, с выхода блока 7 на вход блока восстановления значений Фурье-спектров 8 поступают комплексные значения биспектра каждого сегмента речевого сигнала, где происходит разделение биспектра на биамплитуду и бифазу каждого сегмента квазистационарности с дальнейшим нахождением значений Фурье-спектров на основе итерационных алгоритмов получения значений Фурье спектров из оценок биспектра, с выхода блока 8 на вход блока нормализации Фурье-спектра 9 поступает последовательность значений Фурье-спектров, где происходит процедура нормализации путем деления значений на максимальное значение, полученное при анализе всех значений Фурье-спектров различных сегментов квазистационарности, на общей длительности которых, равной 5 (пяти) секундам, с выхода блока 9 на вход блока нахождения сегментных классификационных признаков 10 поступает последовательность значений нормализованного Фурье-спектра амплитуд, в котором путем сравнения с различными порогами выделяют наличие или отсутствие того или иного классификационного признака (в случае наличия признака поступает сигнал логической единице, в противном случае 0), с выхода блока 10 на вход блока хранения кратковременных данных 14 поступает информация в виде последовательности 1 и 0, характеризующих наличие или отсутствие тех или иных классификационных признаков каждого анализируемого сегмента квазистационарности, а также абсолютные значения, полученные во время измерения того или иного признака, в блоке 14 хранится информация о корреляционных связях между сегментами квазистационарности и рекурсивных связях между символами в кодовом слове (фразе), поступающая с выхода блока принятия решения по вопросу классификации 15, а также абсолютные значения, полученные во время измерения того или иного признака, кроме того, с выхода блока 10 информация о сегментных классификационных признаков поступает на вход блока коррекции классификационных признаков 11, кроме того, на вход блока 11 поступает информация об иерархии классификационных признаков каждого обрабатываемого сегмента квазистационарности с выхода блока статистической иерархии 12 и с выхода блока параметрической иерархии 13, на входы блоков 12 и 13 поступает информация о корреляционных и рекурсивных связях в кодовом символьном слове и между обрабатываемыми сегментами квазистационарности, а также абсолютные значения измеренных признаков, в блоках 12 и 13 происходит вычисление весовых коэффициентов, которые и поступают на вход блока коррекции классификационных признаков 11, в блоке 11 на основании значений весовых коэффициентов происходит выявление значимых и незначимых классификационных признаков, с выхода блока 11 информация обо всех классификационных признаках поступает на вход блока принятия решения, в котором происходит принятие решения по вопросу классификации обрабатываемого сегмента, с выхода блока 15 информация поступает на вход блока хранения кратковременных данных 14 и на вход блока формирования последовательности символов кодового сл