Метод распознавания диктора и устройство для его осуществления

Реферат

 

Изобретение относится к области техники анализа речи, в частности к системам ограничения несанкционированного доступа к материальным или информационным ресурсам на основе биометрической информации о говорящем. Техническим результатом является повышение надежности распознавания дикторов и обеспечение высокой помехоустойчивости распознавания при наличии шумов и использовании низкокачественных микрофонов. Технический результат достигается тем, что используют в качестве параметрического описания речевого сигнала сочетания сильно отличающихся по различительным свойствам сегментных признаков векторов формант и статистических характеристик речевого сигнала всего произнесения пароля в целом, а также используют нестандартную неевклидовую меру близости при сравнении формантных векторов двух отдельных сегментов с последующим ее применением к определению статистического сходства сегментных формантных структур речевого сигнала сравниваемых произнесений на основе поиска наилучшего приближения. 2 с. и 18 з.п. ф-лы, 11 ил.

Заявляемые способ и устройство относятся к анализу речи, могут быть использованы, в частности, в различных системах и устройствах для ограничения несанкционированного доступа к материальным или информационным ресурсам на основе биометрической информации о говорящем.

Известны способы и устройства распознавания дикторов на основе построения и сравнения чисто статистических моделей известных и неизвестных дикторов, например [1]. В известном способе распознавание диктора выполняют при использовании дискриминантных моделей Гауссовых смесей.

Данный способ, как и большинство чисто статистических подходов к распознаванию дикторов, не пригоден для ситуации, когда используемые голосовые сообщения (пароли) очень коротки (1-3 секунды), а используемые микрофоны имеют низкое качество (высокую вариативность частотного отклика).

Известен способ распознавания дикторов на основе чисто стохастического подхода [2]. В данном способе распознавание диктора выполняют путем построения и сравнения матриц ковариации признаковых описаний входного речевого сигнала и эталонов речевого сигнала известных дикторов.

Этот известный способ также не пригоден для ситуации, когда используемые голосовые сообщения (пароли) очень коротки (5 секунд и менее), а также очень чувствителен к пропаданию сигнала на отдельных участках частотного речевого диапазона за счет окружающего шума и низкокачественных микрофонов.

Известен способ распознавания изолированных слов речи с адаптацией к диктору [3], основанный на обработке с предискажениями входного речевого сигнала, дискретизации и последовательной сегментации речевого сигнала, кодировании сегментов дискретными элементами, вычислении энергетического спектра, измерении формантных частот и определении амплитуд и энергии в различных частотных полосах речевого сигнала, классификации артикуляторных событий и состояний, формировании и сортировке эталонов слов, вычислении расстояний между эталонами слов с реализацией распознаваемого слова, принятии решений о распознавании или отказе от распознавания слова с дополнением словаря эталонов в процессе адаптации к диктору. Предискажение входного речевого сигнала выполняют во временной области при дифференцировании со сглаживанием, квантование энергетического спектра выполняют в зависимости от дисперсии шума канала связи, формантные частоты определяют при нахождении глобального максимума логарифмического спектра и вычитании из этого спектра заданной частотно-зависимой функции, при классификации артикуляторных событий и состояний определяют доли периодического и шумового источников возбуждения при сравнении с порогом коэффициентов автокорреляции последовательности прямоугольных импульсов в нескольких частотных полосах, начало и конец артикуляторных движений и соответствующих им акустических процессов определяют при сравнении с порогом функции правдоподобия от значений коэффициентов автокорреляции, формантных частот и энергий в заданных частотных полосах, речевой сигнал сегментируют на интервалы между началом и концом акустических процессов, соответствующих специфическим артикуляторным движениям, и последовательно, начиная с гласных звуков, причем опознавание сегмента производят только в случае совпадения типов переходов на его левой и правой границах и заканчивают сегментацию при опознавании слева и справа по времени сегментов паузы между словами. Эталоны слов формируют в виде матриц с бинарными значениями правдоподобия признаков, а отказ от распознавания осуществляют при нормированной разности расстояния от неизвестной реализации до двух ближайших эталонов, принадлежащих разным словам, меньшей установленного порога.

Недостатками данного известного способа распознавания изолированных слов речи с адаптацией к диктору является слабая различительная сила данного способа при его использовании для распознавания дикторов по произнесению голосового пароля, так как данный способ не различает дикторов при произнесении ими паролей с совпадающим словесным составом.

Известна система для обеспечения секретности на основе распознавания голоса [4], требующая и от обучающего и от неизвестного диктора обязательного повторного произнесения, по крайней мере, одного из паролей. Система сравнивает параметрические представления повторных произнесений пароля неизвестного и известного диктора и принимает положительное решение о тождестве сравниваемых дикторов только в случае, если каждое произнесение неизвестного диктора достаточно близко произнесениям обучающего диктора, в то же время если их представления достаточно далеки друг от друга.

Данная известная система достаточно устойчива к использованию магнитофона вместо реального диктора в качестве источника речевого сигнала, в то же время ее недостатком является низкая помехоустойчивость в шумах переменного характера (в транспортном средстве, в условиях шума улицы, производственного помещения).

Известен способ автоматической идентификации личности по особенностям произношения парольной фразы этой личностью [5], заключающийся в том, что речевой сигнал разбивают на вокализованные зоны, выделяют временные интервалы в вокализованных зонах - в области максимумов интенсивности речевого сигнала, а также в начале первой и в конце последней вокализованных зон. Для выделенных временных интервалов определяют параметры речевого сигнала, сравнивают их с эталонами, которые формируют с учетом математических ожиданий и допустимых разбросов этих параметров, для чего в конце первой, начале последней, в начале и конце остальных вокализованных зон выделяют временные интервалы, длительность временных интервалов устанавливают кратной периоду основного тона речевого сигнала, определяют оценки коэффициентов корреляции параметров речевого сигнала, которые включают в число сравниваемых с эталонами, при формировании эталонов дополнительно учитывают коэффициенты корреляции параметров речевого сигнала. На основании полученных параметров речевого сигнала и соответствующих им статистических характеристик принимают решение по идентификации личности.

Недостатком известного способа идентификации личности является низкая помехоустойчивость метода, так как для его работы требуется выделение во входном речевом сигнале точного положения границ основного тона голоса, что в условиях наличия акустических помех (шум большого офисного помещения, улицы и т.п.) практически невозможно.

Известно устройство для верификации диктора на основе измерения расстояния “ближайшего соседа” [6], включающее дисплей, генератор выдачи подсказок по случайному закону, блок распознавания слова, верификатор диктора, клавиатуру и блок первичной обработки сигнала, при этом вход блока первичной обработки сигнала является входом устройства, а его выход соединен с первыми входами распознавателя слов и верификатора дикторов, ко второму входу распознавателя слов подключен первый выход генератора выдачи подсказок, выход которого соединен с дисплеем. Клавиатура подключена к третьему входу распознавателя слов и к третьему входу верификатора дикторов, выход которого является выходом устройства. Верификатор дикторов данного устройства для определения сходства различия произнесения голосовых паролей использует разбиение входного речевого сигнала на отдельные кадры анализа, вычисление непараметрических речевых векторов для каждого кадра анализа и далее определение близости таким образом полученных описаний речевого сигнала сравниваемых произнесений на основе Эвклидова расстояния ближайшего соседа.

Недостатком данного устройства являются низкая помехоустойчивость при работе в акустических шумах офисных помещений и улицы в силу использования непараметрических речевых векторов и Эвклидовой метрики при определении степени сходства/отличия произнесений голосовых паролей, а также низкая надежность распознавания (высокий процент ложных отказов) за счет использования переменных по порядку слов голосовых паролей, вызванная неизбежной индивидуальной вариативностью произнесения одних и тех же слов в разном контексте даже одним и тем же диктором.

Известен способ распознавания говорящего [7], включающий сравнивание входного речевого сигнала неизвестного диктора с эталонами, представляющими речь заранее известных дикторов, из которых, по меньшей мере, один представлен, по меньшей мере, двумя эталонами. Последовательные сегменты входного сигнала сравнивают с последовательными сегментами эталона, получая меру близости сравниваемых сегментов входного речевого сигнала и эталона. Для каждого эталона заранее известного диктора, имеющего, по крайней мере, два эталона, формируют композитный результат сравнения данного эталона и входного речевого сигнала на основе выбора для каждого сегмента входного речевого сигнала ближайшего по используемой мере близости сегмента сравниваемого эталона. Далее идентифицируют неизвестного диктора на основе композитных результатов сравнения входного речевого сигнала и эталонов.

Известный способ распознавания диктора ограниченно применим на практике, так как обязательное требование наличия для распознаваемого, заранее известного диктора не менее двух эталонов не всегда осуществимо в реальных условиях. Кроме того, данный способ не обеспечивает высокий уровень надежности распознавания дикторов при работе в условиях акустического шума реальных офисных помещений, улицы или транспортных средств, поскольку используемое в способе чисто посегментное параметрическое описание речевых сигналов подвержено сильному влиянию аддитивных акустических шумов и естественной вариативности речи. Кроме того, низкая надежность работы метода в шумах связана с тем, что ближайший по используемой мере близости сегмент сравниваемого эталона ищут для каждого сегмента входного речевого сигнала, что приводит к наличию среди найденных ближайших сегментов большого числа близких чисто шумовых сегментов, соответствующих сегментам речевых пауз и в эталоне и во входном речевом сигнале.

Известно устройство для распознавания диктора, совпадающее с заявляемым решением по наибольшему числу существенных признаков и принятое за прототип, описано в [7]. Известное устройство-прототип включает, в частности, источник речевого сигнала, блок определения параметрического описания речевого сигнала в виде выделителя начала/конца речевого сигнала, сегментатора речевого сигнала на последовательность сегментов, блока умножения на взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобразования Фурье, вычислителя спектра мощности сигнала в обрабатываемом сегменте, вычислителя кепстральных коэффициентов речи и формирователя параметрических описаний входного речевого сигнала, соединенных последовательно, коммутатор, блок нелинейного выравнивания временной оси сравниваемых слов, блок сравнения параметрических описаний эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и запоминающее устройство. Источник речевого сигнала подключен к блоку определения параметрического описания речевого сигнала, выход которого соединен с входом коммутатора, первый выход которого подключен к первому входу блока нелинейного выравнивания временной оси сравниваемых слов, а второй выход соединен с входом запоминающего устройства, выход которого подключен ко второму входу блока нелинейного выравнивания временной оси сравниваемых слов, выходы блока нелинейного выравнивания временной оси сравниваемых слов соединены со входами блока сравнения параметрических описаний эталона и входного речевого сигнала, выход которого соединен с входом блока принятия решения о распознаваемом дикторе, выход которого является выходом устройства в целом.

Известное устройство распознавания диктора ограниченно применимо на практике, так как обязательное требование наличия для распознаваемого, заранее известного диктора не менее двух эталонов не всегда реализуемо на практике. Известное устройство для распознавания диктора не обеспечивает высокий уровень надежности распознавания дикторов при работе в условиях акустического шума реальных офисных помещений, улицы или транспортных средств, поскольку используемые в устройстве чисто посегментное, кепстральное временное описание речевых сигналов и нелинейное выравнивание временной оси сравниваемых слов подвержены сильному влиянию аддитивных акустических шумов и естественной вариативности речи. Кроме того, низкая надежность работы устройства в шумах связана с тем, что ближайший по используемой мере близости сегмент сравниваемого эталона ищут для каждого сегмента входного речевого сигнала, что приводит к наличию среди найденных ближайших сегментов большого числа близких чисто шумовых сегментов, соответствующих речевым паузам и в эталоне и во входном речевом сигнале.

Задачей настоящего изобретения являлось создание такого способа распознавания диктора и такого устройства, реализующего этот способ, которые, при сохранении достоинств прототипа, позволили бы повысить надежность распознавания, а также обеспечить высокую помехоустойчивость распознавания при работе в шумах и при использовании низкокачественных микрофонов.

Поставленная задача решается тем, что заявляемый способ распознавания диктора включает сравнение входного речевого сигнала неизвестного диктора с заранее сохраненными эталонами, представляющими собой речевой сигнал голосовых паролей, произносимых заранее известными дикторами, по меньшей мере, один из которых представлен, по меньшей мере, одним эталоном, для чего осуществляют посегментное сравнение параметрических описаний входного речевого сигнала с параметрическими описаниями каждого из выбранных для сравнения эталонов. В заявляемом способе в качестве параметрических описаний используют соответственно векторы частот формант последовательно расположенных во времени сегментов входного речевого сигнала и эталонов с не фиксированным от сегмента к сегменту количеством формант, а также статистические характеристики спектра мощности входного речевого сигнала и упомянутых эталонов, вычисляемые для их используемых сегментов. Для сравнения параметрических описаний входного речевого сигнала и эталона используется определенная мера близости между каждой парой сравниваемых сегментов входного речевого сигнала и эталона. При сравнении параметрических описаний входного речевого сигнала и эталона находят для каждого используемого сегмента входного речевого сигнала ближайший по мере близости сегмент каждого выбранного для сравнения эталона, формируют композитные результаты сравнения входного речевого сигнала и каждого из выбранных для сравнения эталонов, в которые соответственно включают взвешенное среднее по всем используемым сегментам входного речевого сигнала значение мер близости между данным используемым сегментом входного речевого сигнала и найденным для него ближайшим сегментом каждого выбранного для сравнения эталона, и распознают неизвестного диктора на основе композитных результатов сравнения входного речевого сигнала и упомянутых эталонов. В качестве меры близости пары сравниваемых сегментов используют взвешенный модуль разности векторов формантных частот, для каждого используемого сегмента входного речевого сигнала ближайший по упомянутой мере близости сегмент выбранного для сравнения эталона определяют только среди сегментов эталона, у которых число формант в соответствующем сегменту векторе частот формант равно числу формант в соответствующем векторе частот формант сравниваемого сегмента входного речевого сигнала, а в композитный результат сравнения дополнительно включают коэффициент кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и выбранного для сравнения упомянутого эталона.

Голосовые пароли заранее известные дикторы могут произносить, по меньшей мере, два раза, при этом перед повторным произнесением пароля диктор произносит речевое высказывание с существенно измененным характером артикуляции.

В качестве используемых сегментов входного речевого сигнала и эталонов могут быть выбраны только сегменты, у которых число формант в соответствующем векторе частот формант составляет 3 и более.

В качестве статистических характеристик спектра мощности входного речевого сигнала и эталонов может быть использован первый статистический момент спектра мощности их используемых сегментов в интервале времени произнесения соответственно входного речевого сигнала и эталонов.

Можно дополнительно определять для каждого используемого сегмента, выбранного для сравнения эталона, ближайший по мере близости сегмент входного речевого сигнала, а в композитный результат сравнения можно дополнительно включать взвешенное среднее по всем используемым сегментам каждого эталона значение мер близости между данным используемым сегментом эталона и найденным для него ближайшим сегментом входного речевого сигнала, при этом для каждого используемого сегмента эталона ближайший по упомянутой мере близости сегмент входного речевого сигнала определяют только среди сегментов входного речевого сигнала, у которых число формант в соответствующем сегменту векторе частот формант равно числу формант в соответствующем векторе частот формант сравниваемого сегмента упомянутого эталона.

Из композитного результата сравнения входного речевого сигнала и выбранного для сравнения эталона дополнительно можно вычитать взвешенное среднее по всем используемым сегментам этого эталона значение меры близости между данным используемым сегментом эталона и найденным для него ближайшим сегментом этого эталона, не тождественным данному используемому сегменту, а также взвешенное среднее по всем используемым сегментам входного речевого сигнала значение меры близости между данным используемым сегментом входного речевого сигнала и найденным для него ближайшим сегментом входного речевого сигнала, не тождественным данному используемому сегменту.

В заявляемом способе можно предварительно определять и запоминать эталон окружающего шума и эталон амплитудно-частотной характеристики используемого микрофона. При этом эталон окружающего шума определяют путем накопления в течение заданного интервала времени среднего спектра мощности сигнала окружающего шума без присутствия речевого сигнала, а эталон амплитудно-частотной характеристики используемого микрофона определяют путем накопления при непрерывном произнесении в микрофон речи в течение заданного интервала времени среднегеометрического значения спектра мощности данного речевого сигнала и последующего покомпонентного деления полученного среднегеометрического значения спектра мощности на заранее заданный эталонный средний спектр речевого сигнала.

В качестве используемых сегментов входного речевого сигнала и эталонов можно выбирать сегменты, у которых усредненная по компонентам относительная энергия разности их спектра мощности и эталона окружающего шума превышает заранее заданное пороговое значение.

Параметрическое описание каждого сегмента входного речевого сигнала и эталона можно нормализовать путем покомпонентного деления спектра мощности данного сегмента на эталон амплитудно-частотной характеристики микрофона.

Суть заявляемого способа заключается в использовании в качестве параметрического описания речевого сигнала сочетания сильно отличающихся по различительным свойствам сегментных признаков векторов формант и статистических характеристик речевого сигнала всего произнесения пароля в целом, а также в использовании нестандартной неевклидовой меры близости при сравнении форматных векторов двух отдельных сегментов с последующим ее применением к определению статистического сходства сегментных формантных структур речевого сигнала сравниваемых произнесений на основе поиска наилучшего приближения. Общеизвестно (см., например, Чистович Л.А. и др. - Физиология речи. Восприятие речи человеком. - Л.: Наука, 1976), что формантное описание речевого сигнала является наиболее помехоустойчивым и информативным при решении задач распознавания речевых образов. До сих пор его реально редко использовали на практике в силу отсутствия способов надежного выделения формант в зашумленном речевом сигнале, вариативности числа формант, выделяемых на отдельном сегменте, нестабильности формантного описания при изменении громкости произнесения и психофизиологического состояния диктора. В заявляемом изобретении впервые предлагается использовать для распознавания дикторов векторы формантных частот с допустимо различным числом выделенных формант на конкретном сегменте. Описанный ниже способ выделения формант обеспечивает их высокую надежность выделения даже в условиях окружающего шума. Предложенная в изобретении метрика сравнения сегментов не привязана к конкретной временной позиции сегмента в высказывании и позволяет найти похожие по реализации сегменты речевого сигнала во всем произнесении, а не только в примерно том же месте относительно начала высказывания и во входном речевом сигнале и в эталоне. Сочетание разнородного описания речевого сигнала (и формантного и статистического) позволяет избежать недостатков использования чисто формантного описания и, в частности, уменьшить ошибки распознавания, связанные с внутренней вариативностью речевого сигнала за счет различной громкости произнесения, изменения эмоционального и физического состояния диктора, Ломбард-эффекта и т.д. В отличие от известных решений в данном способе распознавания и реализующем его устройстве предлагается симметризованная метрика сравнения эталона и входного речевого сигнала на основе посегментного наилучшего приближения с возможным вычитанием из нее объектной дисперсии данной меры близости. Существенным отличием от прототипа является то, что ближайшие к данному сегменту входного речевого сигнала сегменты эталона ищутся не среди всех сегментов сравниваемого эталона, а только среди сегментов, имеющих совпадающее число компонент вектора формантных частот. Дополнительные пункты изобретения предлагают процедуры определения эталонов окружающего шума и АЧХ используемого микрофона, а также процедуры учета при обработке речевого сигнала данных эталонов, которые существенно повышают устойчивость работы метода и устройства распознавания по отношению к искажениям сигнала низкокачественными микрофонами и шумам.

Поставленная задача в части устройства решается тем, что в устройстве для распознавания диктора, включающем источник речевого сигнала, блок определения параметрического описания речевого сигнала в виде выделителя начала/конца речевого сигнала, сегментатора речевого сигнала на последовательность сегментов, блока умножения на взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобразования Фурье, вычислителя спектра мощности сигнала в сегменте и формирователя параметрических описаний входного речевого сигнала, соединенных последовательно, коммутатор, блок сравнения параметрических описаний эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и запоминающее устройство, при этом источник речевого сигнала подключен к блоку определения параметрического описания речевого сигнала, выход которого соединен с входом коммутатора, первый выход которого подключен к первому входу блока сравнения параметрических описаний эталона и входного речевого сигнала, а второй выход соединен со входом запоминающего устройства, выход которого подключен ко второму входу блока сравнения параметрических описаний эталона и входного речевого сигнала, выход которого соединен с входом блока принятия решения о распознаваемом дикторе, выход которого является выходом устройства в целом, блок определения параметрического описания речевого сигнала дополнительно содержит блок определения формантного вектора текущего сегмента и первый сумматор-накопитель статистических характеристик входного речевого сигнала, включенные параллельно друг другу между вычислителем спектра мощности сигнала в сегменте и формирователем параметрических описаний входного речевого сигнала, блок сравнения параметрических описаний эталона и входного речевого сигнала выполнен в виде блока определения формантного расстояния от входного речевого сигнала до эталона и блока определения функции кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и эталона, выходы которых соединены соответственно через первый блок умножения и второй блок умножения со вторым сумматором, а выход второго сумматора соединен с входом блока принятия решения о распознаваемом дикторе.

Блок определения формантного расстояния от входного речевого сигнала до сравниваемого эталона может включать блок задания сравниваемых сегментов входного речевого сигнала, подключенный к блоку выбора сравниваемых сегментов эталона, выход которого соединен с входом блока определителя меры близости между 3-формантными векторами пары сравниваемых сегментов, входом блока определителя меры близости между 4-формантными векторами пары сравниваемых сегментов и входом блока определителя меры близости между 5-формантными векторами пары сравниваемых сегментов, выходы которых через соответственно первый, второй и третий блоки поиска наименьшей для заданного сегмента входного речевого сигнала меры близости по всем сегментам эталона, сумматор-накопитель средних наименьших мер близости по всем 3-формантным сегментам эталона, сумматор-накопитель средних наименьших мер близости по всем 4-формантным сегментам эталона, сумматор-накопитель средних наименьших мер близости по всем 5-формантным сегментам эталона соединены соответственно с первыми входами третьего, четвертого и пятого блоков умножения, вторые входы которых подключены к запоминающему устройству весовых коэффициентов, а выходы блоков умножения соединены с третьим сумматором.

Блок сравнения параметрических описаний эталона и входного речевого сигнала может дополнительно содержать блок определения формантного расстояния от сравниваемого эталона до входного речевого сигнала, соединенный через шестой блок умножения со вторым сумматором.

Блок определения формантного расстояния от сравниваемого эталона до входного речевого сигнала может включать блок задания сравниваемых сегментов эталона, подключенный к блоку выбора сравниваемых сегментов входного речевого сигнала, выход которого соединен с входом блока определителя меры близости между 3-формантными векторами пары сравниваемых сегментов, входом блока определителя меры близости между 4-формантными векторами пары сравниваемых сегментов и входом блока определителя меры близости между 5-формантными векторами пары сравниваемых сегментов, выходы которых через соответственно четвертый, пятый и шестой блоки поиска наименьшей для заданного сегмента эталона меры близости по всем сегментам входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 3-форматным сегментам входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 4-формантным сегментам входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 5-формантным сегментам входного речевого сигнала соединены соответственно с первыми входами седьмого, восьмого и девятого блоков умножения, вторые входы которых подключены к запоминающему устройству весовых коэффициентов, а выходы упомянутых блоков умножения соединены с четвертым сумматором.

Блок сравнения параметрических описаний входного речевого сигнала и эталона дополнительно может содержать блок определения формантного расстояния от сегментов эталона до эталона в целом и блок определения формантного расстояния от сегментов входного речевого сигнала до входного речевого сигнала в целом, соединенных через соответственно десятый и одиннадцатый блоки умножения со вторым сумматором.

Блок определения формантного расстояния от сегментов эталона до эталона в целом может включать соединенные последовательно блок задания сравниваемых сегментов эталона, блок удаления выбранного для сравнения сегмента (блок модификации эталона), блок выбора сравниваемых сегментов модифицированного эталона, выход которого соединен с входом блока определителя меры близости между 3-формантными векторами пары сравниваемых сегментов, входом блока определителя меры близости между 4-формантными векторами пары сравниваемых сегментов и входом блока определителя меры близости между 5-формантными векторами пары сравниваемых сегментов, выходы которых через соответственно седьмой, восьмой и девятый блоки поиска наименьшей для заданного сегмента эталона меры близости по всем сегментам модифицированного эталона, сумматор-накопитель средних наименьших мер близости по всем 3-формантным сегментам модифицированного эталона, сумматор-накопитель средних наименьших мер близости по всем 4-формантным сегментам модифицированного эталона, сумматор-накопитель средних наименьших мер близости по всем 5-формантным сегментам модифицированного эталона соединены соответственно с первыми входами двенадцатого, тринадцатого и четырнадцатого блоков умножения, вторые входы которых подключены к запоминающему устройству весовых коэффициентов, а выходы упомянутых блоков умножения соединены с пятым сумматором.

Блок определения формантного расстояния от сегментов входного речевого сигнала до входного речевого сигнала в целом может включать соединенные последовательно блок задания сравниваемых сегментов входного речевого сигнала, блок удаления выбранного для сравнения сегмента (блок модификации входного речевого сигнала), блок выбора сравниваемых сегментов модифицированного входного речевого сигнала, выход которого соединен с входом блока определителя меры близости между 3-формантными векторами пары сравниваемых сегментов, входом блока определителя меры близости между 4-формантными векторами пары сравниваемых сегментов и входом блока определителя меры близости между 5-формантными векторами пары сравниваемых сегментов, выходы которых через соответственно десятый, одиннадцатый и двенадцатый блоки поиска наименьшей для заданного сегмента входного речевого сигнала меры близости по всем сегментам модифицированного входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 3-формантным сегментам модифицированного входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 4-формантным сегментам модифицированного входного речевого сигнала, сумматор-накопитель средних наименьших мер близости по всем 5-формантным сегментам модифицированного входного речевого сигнала соединены соответственно с первыми входами пятнадцатого, шестнадцатого и семнадцатого блоков умножения, вторые входы которых подключены к запоминающему устройству весовых коэффициентов, а выходы упомянутых блоков умножения соединены с шестым сумматором.

Блок определения функции кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и эталона может включать первый, второй и третий блоки покомпонентного умножения, которые последовательно соединены соответственно с седьмым, восьмым и девятым сумматорами, выход седьмого сумматора соединен с первым входом делителя, ко второму входу которого через блок умножения и блок извлечения квадратного корня подключены выходы восьмого и девятого сумматоров.

Устройство для распознавания диктора дополнительно может содержать второй коммутатор, блок определения эталона шума и эталона амплитудно-частотной характеристики микрофона, при этом источник входного речевого сигнала соединен с входом второго коммутатора, один из выходов которого соединен с первым входом блока определения параметрического описания входного речевого сигнала, а второй выход второго коммутатора подключен ко входу блока определения эталона шума и эталона амплитудно-частотной характеристики микрофона, выход которого соединен с входом запоминающего устройства, подключенного ко второму входу блока определения параметрического описания входного речевого сигнала.

Блок определения эталона шума и эталона амплитудно-частотной характеристики микрофона может включать последовательно соединенные блок выделения начала/конца речевого сигнала, сегментатор речевого сигнала на последовательность сегментов, блок умножения на взвешивающее окно, блок добавления к сигналу в сегменте нулей, вычислитель преобразования Фурье, блок вычислителя спектра мощности сигнала в сегменте, а также переключатель режима работы (получения эталона шума или получения эталона АЧХ используемого микрофона), сумматор-накопитель покомпонентного среднего значения последовательности сегментных спектров и блок формирования эталона АЧХ используемого микрофона, включающий последовательно соединенные блок умножителя-накопителя, блок выделения корня n-ой степени из результата работы предыдущего блока, делитель на эталонный средний спектр речевого сигнала и запоминающее устройство хранения эталонного среднего спектра речевого сигнала, при этом выход блока вычислителя спектра мощности сигнала в сегменте соединен с входом переключателя режима, первый выход которого подключен к первому входу сумматора-накопителя покомпонентного среднего значения последовательности сегментных спектров, а второй выход переключателя соединен с первым входом блока формирования эталона АЧХ используемого микрофона, второй выход блока выделения начала/конца речевого сигнала подключен ко второму входу упомянутого сумматора-накопителя и второму входу блока формирования эталона АЧХ используемого микрофона, третий вход которого соединен с запоминающим устройством.

Устройство для распознавания диктора дополнительно может содержать устройство для ввода идентификатора диктора и устройство выбора эталона, при этом устройство для ввода идентификатора диктора подключено к первому входу устройства выбора эталона, второй вход которого соединен с запоминающим устройством, а выход устройства выбора эталона подключен ко второму входу блока сравнения параметрических описаний эталона и входного речевого сигнала.

Заявляемый способ распознавания диктора и устройство для его осуществления поясняются чертежами, где

на фиг.1 схематически изображены основные блоки устройства для распознавания диктора;

на фиг.2 приведена схема блока определения параметрического описания речевого сигнала;

на фиг.3 дана схема блока сравнения параметрических описаний эталона и входного речевого сигнала;

на фиг.4 приведена схема блока определения формантного расстоя