Способ контактно-разностной акустической идентификации личности

Иллюстрации

Показать все

Изобретение относится к системам установления или подтверждения личности говорящего. Сущность способа акустической идентификации личности состоит в том, что в качестве акустических параметров используют уникальную амплитудно-частотную характеристику тела человека, которая вычисляется как отношение спектральной плотности мощности акустического сигнала для некоторой области регистрации на теле человека к спектральной плотности мощности речевого сигнала. Сформированные на основе амплитудно-частотных характеристик эталоны хранятся в банке данных акустических биометрических образов. Амплитудно-частотная характеристика тела идентифицируемого человека используется для формирования взвешенной Евклидовой невязки параметров амплитудно-частотной характеристики тела идентифицируемого человека и эталона. На основании степени различия между идентифицируемой личностью и эталоном принимается решение о принадлежности акустического биометрического образа идентифицируемой личности человеку, чьи акустические параметры были использованы при формировании эталона. Технический результат - повышение потенциальной точности идентификации личности, обеспечение высокой помехоустойчивости идентификации при наличии шумов, а также повышение степени защищенности акустического биометрического образа. 1 ил.

Реферат

Изобретение относится к системам установления или подтверждения личности говорящего. Заявляемые способ и устройство могут быть использованы, например, в системах и устройствах для ограничения несанкционированного доступа к информационным или материальным ресурсам на основе биометрической информации о говорящем.

Уровень техники

Известны различные системы, устройства и способы аутентификации личности по голосу, на примере частных задач верификации (подтверждения) и идентификации (установления) личности. Остановимся на них подробнее.

Известны способ распознавания диктора и устройство, реализующее этот способ [патент РФ №2230375: МПК G10L 15/00, G10L 17/00. Метод распознавания диктора и устройство для его осуществления. - №2002123509/09; заявл. 03.09.02; опубл. 10.06.04].

Данный способ основан на том, что в качестве параметрических описаний используют соответственно векторы частот формант последовательно расположенных во времени сегментов входного речевого сигнала и эталонов с не фиксированным от сегмента к сегменту количеством формант, а также статистические характеристики спектра мощности входного речевого сигнала и эталонов, вычисляемые для их используемых сегментов. Для сравнения параметрических описаний входного речевого сигнала и эталона используется определенная мера близости между каждой парой сравниваемых сегментов входного речевого сигнала и эталона. При сравнении параметрических описаний входного речевого сигнала и эталона находят для каждого используемого сегмента входного речевого сигнала ближайший по мере близости сегмент каждого выбранного для сравнения эталона, формируют композитные результаты сравнения входного речевого сигнала и каждого из выбранных для сравнения эталонов, в которые соответственно включают взвешенное среднее по всем используемым сегментам входного речевого сигнала значение мер близости между данным используемым сегментом входного речевого сигнала и найденным для него ближайшим сегментом каждого выбранного для сравнения эталона, и распознают неизвестного диктора на основе композитных результатов сравнения входного речевого сигнала и упомянутых эталонов. В качестве меры близости пары сравниваемых сегментов используют взвешенный модуль разности векторов формантных частот, для каждого используемого сегмента входного речевого сигнала ближайший по упомянутой мере близости сегмент выбранного для сравнения эталона определяют только среди сегментов эталона, у которых число формант в соответствующем сегменту векторе частот формант равно числу формант в соответствующем векторе частот формант сравниваемого сегмента входного речевого сигнала, а в композитный результат сравнения дополнительно включают коэффициент кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и выбранного для сравнения упомянутого эталона. Также предлагаются процедуры определения эталонов окружающего шума и амплитудно-частотной характеристики (АЧХ) используемого микрофона и процедуры учета при обработке речевого сигнала данных эталонов, которые существенно повышают устойчивость работы метода и устройства распознавания по отношению к искажениям сигнала низкокачественными микрофонами и шумам.

Известное устройство для распознавания диктора включает, в частности, источник речевого сигнала, блок определения параметрического описания речевого сигнала в виде выделителя начала/конца речевого сигнала, сегментатора речевого сигнала на последовательность сегментов, блока умножения на взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобразования Фурье, вычислителя спектра мощности сигнала в сегменте и формирователя параметрических описаний входного речевого сигнала, соединенных последовательно, коммутатор, блок сравнения параметрических описаний эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и запоминающее устройство, при этом источник речевого сигнала подключен к блоку определения параметрического описания речевого сигнала, выход которого соединен с входом коммутатора, первый выход которого подключен к первому входу блока сравнения параметрических описаний эталона и входного речевого сигнала, а второй выход соединен со входом запоминающего устройства, выход которого подключен ко второму входу блока сравнения параметрических описаний эталона и входного речевого сигнала, выход которого соединен с входом блока принятия решения о распознаваемом дикторе, выход которого является выходом устройства в целом, блок определения параметрического описания речевого сигнала дополнительно содержит блок определения формантного вектора текущего сегмента и первый сумматор-накопитель статистических характеристик входного речевого сигнала, включенные параллельно друг другу между вычислителем спектра мощности сигнала в сегменте и формирователем параметрических описаний входного речевого сигнала, блок сравнения параметрических описаний эталона и входного речевого сигнала выполнен в виде блока определения формантного расстояния от входного речевого сигнала до эталона и блока определения функции кросс-корреляции статистических характеристик спектра мощности входного речевого сигнала и эталона, выходы которых соединены соответственно через первый блок умножения и второй блок умножения со вторым сумматором, а выход второго сумматора соединен с входом блока принятия решения о распознаваемом дикторе.

Недостатки (данного способа и устройства): ограничение надежности распознавания за счет ошибок, появляющихся на этапах оценки параметров речевого сигнала и влияющих на эффективность вычисленных оценок параметров речевого сигнала, здесь можно выделить: ошибки, возникающие при определении границ поиска (примерной полосы) частот формант; ошибки, присутствующие при определении глобальных максимумов спектра мощности в примерной полосе частот, что обусловлено наличием локальных максимумов и минимумов, затрудняющих эффективную оценку формантных частот; ошибки, возникающие при экспериментальном подборе вектора нормализующей функции (на которую покомпонентно умножают входной сигнал спектра мощности сигнала на каждом сегменте) и вектора весовых коэффициентов (для оптимизации вклада каждой формантной частоты в меру близости двух сравниваемых сегментов речевого сигнала).

Одним из существенных недостатков известных систем идентификации и верификации по голосу является трудность сохранения в тайне речевого сигнала, как биометрического образа, а также малая степень защиты от имитации голоса с помощью различных звуковоспроизводящих устройств. Это обусловлено тем, что речевой сигнал представляет собой изменения давления воздушной среды его распространения, формируемые речевым трактом человека. Использование современных звукозаписывающих и звуковоспроизводящих устройств позволяет злоумышленнику фальсифицировать в процедурах аутентификации биометрический образ зарегистрированного в системе пользователя.

В известном способе распознавания человека на основе акустических сигналов, снимаемых с его тела [патент РФ №2161826: МПК G10L 17/00, G10L 11/04, G10L 11/06, G10L 15/06, G10L 15/16. Способ автоматической идентификации личности. - №98115720/09; заявл. 17.08.98; опубл. 10.01.01], для защиты от имитации (фальсификации) голоса звуковоспроизводящими устройствами предлагается использовать дополнительную речевую информацию, вводимую с ларингофона, контактирующего с телом человека.

Акустический сигнал, регистрируемый с помощью ларингофона, и соответствующие ему параметры зависят от местоположения (области регистрации) ларингофона и не могут быть измерены и воспроизведены современными техническими средствами без непосредственного контакта их измерительного датчика с областью регистрации ларингофона. Вследствие этого попытка фальсификации сигнала с ларингофона, контактирующего с телом человека, каким-то иным сигналом, полученным, например, от скрытых радиопередающих и звукозаписывающих устройств, становится крайне затруднительной, если не невозможной.

Известен способ [патент РФ №2263358: МПК G10L 17/00, G10L 15/06. Способ автоматического распознавания человека с использованием акустических сигналов, снимаемых с тела человека. - №2003136444/09; заявл. 11.12.03; опубл. 27.10.05], являющийся развитием предыдущего известного способа, сущность которого заключается в распознавании человека только по акустическим сигналам, распространяющимся по мягким и твердым тканям тела человека при издании им звуков и наблюдаемым в неизвестной неуполномоченным лицам области регистрации на теле человека.

Акустическую модель тела человека можно представить в виде сложной уникальной системы проводников звукового сигнала, формируемого в носоглотке человека при произнесении каких-либо звуков. Использование специальных датчиков ларингофонного типа позволяет регистрировать звуковые сигналы, распространяющиеся через биологические жидкости, мягкие и твердые ткани человека, с последующим формированием индивидуального биометрического образа. Данный образ обладает рядом полезных свойств - это уникальность, стабильность, неотъемлемость, устойчивость к влиянию внешних шумов, конфиденциальность.

Уникальность такого биометрического образа определяется уникальностью строения человеческого тела (например, особенностями строения скелета, мышечных тканей, кровеносной системы и т.д.), а также индивидуальными характеристиками речевого аппарата (биологического генератора в виде голосовых связок и биологического резонатора акустических колебаний в виде речевого тракта человека). При идентификации сигналы снимаются с выбранной области регистрации колебаний - это может быть, например, голова, плечо, локоть, запястье руки, колено и т.п., при этом для различных областей регистрации сигнала, вследствие разных трактов звукопередачи, акустические характеристики принимаемых колебаний будут отличаться. Устойчивость к внешним шумам определяется особенностью ларингофонного датчика воспринимать в основном акустический сигнал, передающийся при непосредственном соприкосновении с телом человека как средой распространения звука. Неотъемлемость образа обеспечивается за счет трудности съема акустического сигнала с тела человека без его ведома. Одним из важнейших и необходимых аспектов обеспечения информационной безопасности биометрических голосовых систем является обеспечение сохранения в тайне индивидуального биометрического акустического образа, что становится возможным при регистрации сигнала с неизвестной злоумышленнику области регистрации тела человека.

Данная известная система для идентификации диктора, совпадающая с заявляемым решением по наибольшему числу существенных признаков и принятая за прототип, описана выше. Известный способ заключается в том, что акустический сигнал, измеряемый на теле человека при издании им звуков, вводят в электронно-вычислительное устройство, определяют значения параметров акустического сигнала, определяют значения статистических характеристик параметров акустического сигнала и формируют на их основе эталон или эталоны, определяют степень различия между акустическим сигналом и эталоном или эталонами, на основании степени различия принимают решение о принадлежности акустического сигнала человеку, чьи значения статистических характеристик были использованы при формировании эталона или эталонов.

Технический результат: создание способа акустической идентификации диктора, который позволил бы повысить потенциальную надежность распознавания, при этом обеспечивая высокую помехоустойчивость распознавания при работе с наличием шумов.

Технический результат достигается за счет того, что заявляемый способ акустической идентификации диктора основывается на выделении существенных акустических параметров тела человека в диапазоне звуковых частот.

Суть заявляемого способа заключается в использовании в качестве существенных параметров - акустических характеристик тела человека, а именно амплитудно-частотной характеристики тела человека. В отличие от известных решений, в заявляемом способе используются уникальная амплитудно-частотная характеристика тела человека, которая вычисляется как отношение спектральной плотности мощности акустического сигнала для некоторой области регистрации на теле человека к спектральной плотности мощности речевого сигнала. Сформированные на основе амплитудно-частотных характеристик эталоны хранятся в банке данных акустических биометрических образов. Существенным отличием от прототипа является то, что сформированные существенные параметры, применяемые для идентификации личности, которые представляют собой амплитудно-частотные характеристики тела идентифицируемого человека, в последующем используются для формирования взвешенной Евклидовой невязки параметров амплитудно-частотной характеристики тела идентифицируемого человека и эталона. Также предлагается использовать процедуру идентификации, заключающуюся в том, что на основании степени различия между идентифицируемой личностью и эталоном принимается решение о принадлежности акустического биометрического образа идентифицируемой личности человеку, чьи акустические параметры были использованы при формировании эталона.

Краткое описание чертежей

Фиг.1 - структурная схема устройства для контактно-разностной акустической идентификации личности.

Подробное описание осуществления изобретения

Устройство, с помощью которого реализуют заявляемый способ распознавания диктора, включает (см. фиг.1) источник речевого сигнала в цифровой форме, например микрофон 1 (М) и аналого-цифровой преобразователь (АЦП) 2, источник акустического сигнала с тела человека в цифровой форме, например ларингофон 7 (Л), и аналого-цифровой преобразователь (АЦП) 2, блок 3 расчета параметров акустических сигналов (БРПАС), блок 4 сравнения параметров эталона и входного акустических сигналов (БСПАС), блок 5 принятия решения идентификации (БПРИ), коммутатор 6 (верх - идентификация, низ - обучение), блок 8 запоминания параметров эталонов акустического сигнала заранее известных дикторов (БЗЭД), блок 9 ввода идентифицируемого диктора (БВИД). Микрофон 1 через первый выход АЦП 2 соединен с первым входом БРПАС 3, ларингофон 7 через второй выход АЦП 2 соединен со вторым входом БРПАС 3. Выход БРПАС 3 соединен с входом коммутатора 6, первый выход которого подключен к первому входу БСПАС 4, а второй выход соединен с входом БЗЭД 8. Выход БЗЭД 8 подключен к входу БВИД 7, выход которого соединен со вторым входом БСПАС 4. В свою очередь, БСПАС 4 соединен с входом БПРИ 5, выход которого является выходом устройства в целом.

Работа устройства происходит следующим образом. Устройство идентификации дикторов может работать в различных режимах: режиме обучения и режиме идентификации.

В режиме обучения речевой сигнал голосовых паролей, произносимых заранее известными дикторами, подают на вход устройства, например, с микрофона 1, регистрирующего речевой сигнал (или выхода магнитофона), через первый выход АЦП 2 на первый вход БРПАС 3. Также через второй выход АЦП 2 на второй вход БРПАС 3 подают сигнал с устройства, регистрирующего колебания некоторой части человеческого тела, например с ларингофона 7. В качестве голосовых паролей используют вокализованные сегменты речи (состоящие из гласных и сонорных согласных звуков). Из речевого сигнала произнесенных паролей и снимаемого акустического сигнала с Л 7 в БРПАС 3 формируют акустические параметры, запоминаемые в БЗЭД 8 в качестве эталонов. При этом коммутатор 6 замыкает вход на второй выход (нижний на фиг.1). На каждое произнесение каждого голосового пароля каждого известного диктора запоминают свой эталон. Число заранее известных дикторов может быть любым: от одного и более. Число использованных голосовых паролей также может быть любым, большим единицы. Для каждого голосового пароля может выполняться несколько его различных произнесений одним и тем же диктором, для каждого из которых формируют отдельный эталон. Эталоны акустических сигналов произнесения голосового пароля запоминают и могут хранить совместно с идентифицирующей данного диктора информацией (например, символьно-числовым кодом).

Сохраненные эталоны используют для сравнения с входным речевым сигналом идентифицируемого диктора.

В режиме идентификации согласно предлагаемому изобретению входной речевой и акустический сигналы через блоки 1, 7, 2 в цифровой форме поступает в БРПАС 3, формирующий его параметрическое описание. Акустическая параметризация на основе входного речевого сигнала и акустического сигнала с тела человека заключается в следующем. Вычисляется частотный коэффициент передачи мощности (квадрат амплитудно-частотной характеристики KP(ω)=|K(jω)|2) тела человека, как отношение нормированной спектральной плотности мощности акустического сигнала , регистрируемого с тела человека к нормированной спектральной плотности мощности речевого сигнала :

Вычисление нормированной спектральной плотности мощности SN(ω)=SN(2πf) для речевого или акустического сигналов проводят по формулам:

где Δ=1/fd интервал дискретизации, при частоте дискретизации fd; V - точка отсечения корреляционного окна W(l), для получения состоятельной оценки спектральной плотности мощности. Например, для корреляционного окна Тьюки [Дженкинс Г. Спектральный анализ и его приложения / Г.Дженкинс, Д.Ваттс. - М.: Мир, 1971. - Вып.1. - 316 с.]:

В выражении (3) Rl - коэффициент корреляции центрированного речевого сигнала:

где Kl - функция корреляции:

здесь N - число отсчетов речевого сигнала; L - число отсчетов коэффициента корреляции;

где xi - начальные отсчеты речевого сигнала; - математическое ожидание:

Учитывая различные виды затухания - вследствие расширения волнового фронта акустической волны; рассеяния на неоднородностях среды распространения; поглощения звуковых волн в твердых телах, а также в жидкостях и газах (что в свою очередь обусловлено сдвиговой вязкостью; объемной вязкостью; теплопроводностью среды; релаксационным поглощением), предлагается использовать следующую степенную аппроксимацию АЧХ полиномом M-й степени:

где γ1, γ2,…, γM - коэффициенты аппроксимации АЧХ тела человека, характеризующие вектор {γm} уникальных биометрических параметров человека; также должно выполняться условие .

Расчет вектора уникальных биометрических параметров {γm} осуществляют на основе минимизация невязки (по методу наименьших квадратов) между вычисленным экспериментально частотным коэффициентом передачи мощности KP(ω) и полиномом заданной M-й степени, которая, как правило, не превышает десяти.

В режиме обучения, получаемые значения существенных параметров эталона в виде АЧХ тела человека для акустических колебаний запоминают в БЗЭД 8 и хранят в виде фиксированного набора чисел.

В режиме идентификации коммутатор 6 замыкает вход на первый выход (верхний на фиг.1). Автоматический ввод эталонов из хранимой базы данных для идентификации заявляемого диктора осуществляется блоком БВИД 9. БСПАС 4 формирует результат сравнения входных акустических сигналов неизвестного диктора и поступающего из БЗЭД 8 очередного эталона, сравнивая между собой акустические параметры входного сигнала неизвестного диктора и акустические параметры сравниваемого эталона. Для сравнения входных акустических параметров идентифицируемого диктора и эталона используется мера различимости между АЧХ тела идентифицируемого человека и АЧХ эталона, которая определяется как взвешенная Евклидова невязка входных и эталона. Таким образом, мера различимости идентифицируемого и эталонного дикторов рассчитывается по выражению:

где αm - весовые коэффициенты, определяемые на этапе обучения (введения эталонов) системы. Число сравниваемых параметров (M) должно быть равно шести и более. В случае идентификации мера Dn вычисляется для каждого хранящегося в базе данных набора параметров n-го эталонного диктора .

В системе идентификации личности по голосу тех говорящих, которые заявляют истинную идентичность, можно называть "Своими", в то время как говорящих, которые заявляют ложную идентичность, можно называть "Чужими". При оценке говорящих система идентификации говорящего может делать ошибки двух типов: (а) ложное отклонение и (б) ложный допуск. Ошибка ложного отклонения (ошибка первого рода - вероятность ложной тревоги) имеет место, когда "Свой" заявляет истинную идентичность, но система идентификации говорящего его отвергает. Когда "Чужой" получает допуск с помощью системы идентификации говорящего, имеет место ошибка ложного допуска (ошибка второго рода - вероятность пропуска цели). Также можно характеризовать обнаружение сигнала средней вероятностью ошибки, которая определяется как половина от суммы ошибок первого и второго рода. Решение принять или отвергнуть идентичность зависит от порога идентификации. В зависимости от цены ошибки каждого типа система может быть спроектирована так, чтобы достичь компромисса между одним типом ошибки и другим.

В блоке БПРИ 5 определяется значение наименьшей меры различимости , которое сравнивается с заранее заданным значением порога идентификации D0. Порог D0 выбирается исходя из ошибок первого и второго рода (или средней вероятностью ошибки) на этапе практического тестирования системы. Возможна ситуация выбора порога идентификации, при котором получается равный уровень ошибок обоих родов.

Минимум меры различимости приводит к решению о соответствии идентифицируемого диктора n-му эталонному диктору из базы данных, при условии:

если же

то принимается решение о несоответствии идентифицируемого диктора ни одному из имеющихся эталонов.

Использование заявляемого изобретения обеспечит создание способа биометрической идентификации личности и устройства, реализующего этот способ, которые повысят потенциальную надежность распознавания, при этом обеспечивая высокую помехоустойчивость распознавания при работе с наличием шумов. Это достигается за счет использования существенных параметров акустических параметров тела человека, таких как амплитудно-частотная характеристика человеческого тела. При этом использование различных областей регистрации акустического сигнала с тела человека позволяет обеспечить повышенную надежность идентификации личности, за счет уникальности акустических характеристик звуковых трактов.

Перечень позиций

1 - микрофон (М);

2 - аналого-цифровой преобразователь (АЦП);

3 - блок расчета параметров акустических сигналов (БРПАС);

4 - блок сравнения параметров акустических сигналов (БСПАС);

5 - блок принятия решения идентификации (БПРИ);

6 - коммутатор (верх - идентификация, низ - обучение);

7 - ларингофон (Л);

8 - блок запоминания эталонов дикторов (БЗЭД);

9 - блок ввода идентифицируемого диктора (БВИД).

Способ акустической идентификации личности, в котором акустический сигнал, измеряемый на теле человека при издании им звуков, вводят в электронно-вычислительное устройство, определяют значения параметров акустического сигнала, определяют значения статистических характеристик параметров акустического сигнала и формируют на их основе эталон или эталоны, определяют степень различия между акустическим сигналом и эталоном или эталонами, на основании степени различия принимают решение о принадлежности акустического сигнала человеку, чьи значения статистических характеристик были использованы при формировании эталона или эталонов, отличающийся тем, что в качестве акустических параметров используется амплитудно-частотная характеристика тела человека, при этом для ее расчета помимо упомянутого входного акустического сигнала, измеряемого на теле человека, вводят входной речевой сигнал, а меру различия для сравнения биометрических параметров идентифицируемой личности и эталона определяют как взвешенную Евклидову невязку параметров амплитудно-частотной характеристики тела идентифицируемого человека и эталона.