Способ верификации личности по голосу на основе анатомических параметров человека

Иллюстрации

Показать все

Изобретение относится к технике идентификации личности с распознаванием особенностей человеческого голоса и предназначено для использования в охранных и противоугонных системах транспортных средств. Для каждого речевого сигнала человека, записанного с микрофона, определяют последовательности анатомических параметров, характерных для данного человека, вычисляют вероятность того, что анатомические параметры принадлежат данному человеку, а также вероятность того, что анатомические параметры не принадлежат данному человеку. После этого вычисляют отношение этих вероятностей и сравнивают его с единицей. Осуществляют верификацию личности. Если отношение вероятностей выше единицы, то принимают решение, что голос принадлежит данному человеку, а в случае отношения вероятностей ниже единицы принимают решение, что голос не принадлежит данному человеку. Изобретение обеспечивает повышенную точность в оценке индивидуальности голоса для верификации личности по голосу. 1 з.п. ф-лы, 7 ил.

Реферат

Изобретение относится к средствам идентификации личности с распознаванием особенностей человеческого голоса и предназначено для использования в охранных и противоугонных системах транспортных средств.

Кроме того, изобретение может использоваться во всех сферах санкционированного доступа, требующих использования средств идентификации личности (буквенно-цифровые пароли, ПИН-коды, биометрические системы, идентификационные электронные карты и проч.), в качестве дополнения к этим стандартным средствам или замены этих средств.

Известна система для идентификации пользователя транспортного средства (см. патент РФ №2330771, публ. 10.08.2008 г.).

Изобретение практически полностью исключает возможность «обмана» системы злоумышленниками путем скрытой записи произносимых пользователем фраз-паролей и последующего воспроизведения их перед внутренним или внешним микрофоном.

Известна система голосового распознавания пользователя транспортного средства (см. патент РФ №2337020, публ. 27.10.2008 г.).

Технический результат изобретения заключается в повышении скрытности аудиодиалога между системой и пользователем транспортного средства при нахождении последнего вне транспортного средства. Это достигается благодаря применению в системе сотовой сети подвижной связи, позволяющей обмениваться как голосовыми, так и тестовыми сообщениями. При этом пользователь может находиться на любом расстоянии от транспортного средства, в любом удобном месте и не раскрывать окружающим своих намерений.

Также известен способ управления функциональными органами транспортного средства с предотвращением его угона и системы защиты транспортного средства от угона (патент РФ №2077999, публ. 27.04 1997 г).

В данном изобретении система выбирает набор параметров, достаточный для надежного распознавания произношения слова или предложения. В соответствии со способом, реализованным в подобной системе, последняя после обучения ее пользователем его (ее) голосу способна распознавать голос, даже если он изменен, например, вследствие заболевания, и воздействует на соответствующие подсистемы оповещения транспортного средства в ситуациях несанкционированных попыток доступа к транспортному средству и обеспечивает различные другие процедуры, включая режимы «Переобучение», «Сопровождение», «Насильственный захват».

Все указанные выше системы и способы, реализованные в этих системах, обеспечивают верификацию личности по голосу и используются в охранных и противоугонных системах для транспортных средств.

Однако эти устройства имеют существенный недостаток, который заключается в том, что используемые в этих устройствах параметры для верификации личности являются исключительно акустическими, описывающими спектр произносимых звуков, и плохо подходят для описания анатомического строения вокального тракта и голосовых связок. Поскольку индивидуальность голоса определяется, в первую очередь, анатомией и физиологией вокального тракта и связок, акустические параметры не могут обеспечить высокой точности в оценке индивидуальности голоса. Кроме того, присутствие посторонних шумов различной природы может приводить к существенным искажениям акустических параметров, что, в свою очередь, приводит к нестабильной работе устройств в условиях реальной эксплуатации.

Технической задачей изобретения является обеспечение высокой точности в оценке индивидуальности голоса для верификации личности по голосу, позволяющей по записи голоса заранее неизвестного человека и образцам (записям) голоса конкретного человека принять решение о том, принадлежит ли голос на данной записи конкретному человеку.

Технический результат достигается тем, что в способе верификации личности по голосу на основе анатомических параметров человека человеку предлагают произнести в микрофон последовательность изолированных цифр русского языка от нуля до девяти, предъявляемых в случайном порядке, полученные звуковые сигналы записывают и подвергают первоначальной обработке, для чего очищают от посторонних шумов посредством метода спектрального вычитания, из очищенного сигнала выделяют сегмент речи, соответствующий произнесению человеком некоторой случайной цифры от нуля до девяти, по которому осуществляют расстановку границ, соответствующих фонемам данной цифры, выделяют фрагменты вокализованных и фрикативных фонем, по которым определяют анатомические параметры, характеризующие голосовые связки и размеры вокального тракта, индивидуальные для данного человека, затем вычисляют вероятность р(x|λC) того, что анатомические параметры х принадлежат данному человеку λC, с помощью формулы:

,

где N - плотность нормального распределения вероятности для данного человека с математическим ожиданием µ(С), ковариационной матрицей K(С) и весовым множителем с(С), а также вероятность того, что анатомические параметры х не принадлежат данному человеку λC, с помощью формулы:

,

где N - плотность нормального распределения вероятности с математическим ожиданием µ(b), ковариационной матрицей K(b) и весовым множителем с(b) для каждого из В человек из специальной, заранее собранной базы данных человеческих голосов, после чего вычисляют отношение этих вероятностей и сравнивают его с единицей, затем осуществляют верификацию личности, если отношение вероятностей выше единицы, то принимают решение, что голос принадлежит данному человеку, а в случае отношения вероятностей ниже единицы принимают решение, что голос не принадлежит данному человеку.

В качестве анатомических параметров х, принадлежащих данному человеку или не принадлежащих данному человеку, используют анатомические параметры такие, как период основного тона голоса, отношение максимального значения скорости изменения площади голосовых связок к минимальному значению скорости изменения площади голосовых связок, разность логарифмов амплитуд первых двух гармоник в Фурье-разложении площади просвета между голосовыми связками, первые три резонансные частоты вокального тракта человека, три коэффициента модели площади поперечного сечения вокального тракта человека, частота, соответствующая максимуму спектра в диапазоне частот выше 700 Гц, частота, соответствующая среднему значению спектра выше 700 Гц, стандартное отклонение относительно частоты, соответствующей среднему значению спектра, асимметрия спектра, эксцесс спектра, отношение максимального значения спектра к значению спектра на частоте 2500 Гц.

Предлагаемый способ осуществляют следующим образом.

Реализация способа поясняется схемами, где на фиг.1 представлена блок-схема этапа записи и первичной обработки голоса, на фиг.2 - блок-схема этапа выделения параметров, на фиг.3 - сигнал после пропускания через обратный фильтр (пунктир) и результат аппроксимации моделью (сплошная линия), на фиг.4 - площади просвета между голосовыми связками, на фиг.5 - производная от площади просвета между голосовыми связками и соответствующие параметры, на фиг.6 - три частотных трека, наложенных на спектрограмму вокализованного сегмента речи, на фиг.7 - площадь вокального тракта.

Режим верификации личности состоит из трех последовательных этапов - этапа записи и первичной обработки голоса, этапа извлечения параметров и этапа принятия решения о том, принадлежит ли данный голос конкретному человеку или нет (фиг.1).

Сначала человек произносит в микрофон последовательность изолированных цифр русского языка от нуля до девяти, предъявляемых системой в случайном порядке. Звуковые файлы дискретизируются с частотой отсчетов 16 кГц. Каждый отсчет сигнала квантуется по амплитуде на 16 бит. На первых 100 миллисекундах звукового файла определяется кратковременный Фурье-спектр шума, после чего происходит очистка звукового файла от шума с помощью метода спектрального вычитания, описанного в: S.Boll, Suppression of acoustic noise in speech using spectral subtraction // IEEE Trans. ASSP. 1979. Vol.27. №2. P.113-120.

На следующем этапе из звукового файла, очищенного от шумов, выделяется сегмент речи, соответствующий произнесению человеком некоторой случайной цифры. Этот сегмент выделяется с помощью алгоритма, описанного в: Л.Рабинер, Р.Шафер. Цифровая обработка речевых сигналов. М.: Радио и Связь, 1981.

Затем по выделенному сегменту речи осуществляется расстановка границ, соответствующих фонемам данной цифры. Расстановка границ выполняется следующим образом. Сначала по сегменту речи в подвижном временном окне анализа Хэмминга длительностью 25 миллисекунд со сдвигом 10 миллисекунд определяется последовательность коэффициентов авторегрессионной модели речи с помощью автокорреляционного метода линейного предсказания (ЛП-коэффициенты), описанного в: Л.Рабинер, Р.Шафер. Цифровая обработка речевых сигналов. М.: Радио и Связь, 1981. По каждому набору коэффициентов определяется соответствующий набор мел-частотных кепстральных коэффициентов с помощью алгоритма, описанного в: F. de Wet, В.Cranen, J. de Veth, L.Boves. A comparision of LPC and FFT-based acoustic features for noise robust ASR // Proc. Of Eurospeech 2001. Aalborg, Denmark.

Из специальной, заранее собранной базы данных, в которой хранятся эталоны цифр русского языка от нуля до девяти в виде последовательностей наборов мел-частотных кепстральных коэффициентов, вычисленных для ЛП-коэффициентов, загружаются эталоны для произносимой цифры, после чего выделенный сегмент речи сравнивается с каждым из эталонов для данной цифры с помощью алгоритма динамической трансформации времени, описанного в: D. O'Shaughnessy. Speech Communication: Human and Machine. IEEE Press, 2000. Разметка на фонемы осуществляется по эталону с наилучшим результатом сравнения. Сегменты, соответствующие вокализованным фонемам (/А, И, Э, Ы, О, Й, Л, Р/) и фрикативным фонемам (/С, З, Ш, Ж, Ф, В, X, Щ/) выделяются для дальнейшего анализа.

Блок-схема этапа выделения параметров представлена на фиг.2.

Для вокализованной фонемы определяется контур частоты основного тона голоса с помощью автокорреляционного метода, описанного в: Л.Рабинер, Р.Шафер. Цифровая обработка речевых сигналов. М.: Радио и Связь, 1981, после чего по данному контуру определяется среднее значение F0 частоты основного тона и среднее значение Т0=1/F0 периодов основного тона.

Параллельно с оценкой основного тона по последовательности наборов ЛП-коэффициентов, определенных на этапе записи и предварительной обработки, строится обратный фильтр по формуле

Здесь {ai} - набор ЛП-коэффициентов, z-1 - операция задержки на один отсчет в дискретной реализации линейных фильтров.

Через этот фильтр пропускается сегмент речи, соответствующий вокализованной фонеме. Результат фильтрации пропускается через фильтр Баттерворта 4-го порядка, описанный в: Л.Рабинер, Б.Гоулд. Теория и применение цифровой обработки сигналов. М.: Мир, 1978. Результат фильтрации аппроксимируется моделью голосового источника, построенной в: Т.Ananthapadmanabha. Acoustic Analysis of Voice Source Dynamics // STL-QPSR. 1984. №2-3. P.1-24. На фиг.3 показаны: сигнал, пропущенный через обратный фильтр (1), и результат его аппроксимации моделью голосового источника.

Результат аппроксимации пересчитывается в последовательность площадей просвета между голосовыми связками с помощью алгоритма, построенного в: В.Н.Сорокин, И.С.Макаров. Определение пола диктора по голосу // Акустический журнал. 2008. Том 54. №4. С.659-668. На фиг.4 показаны 3 периода площади просвета между голосовыми связками.

Для каждой площади просвета между голосовыми складками определяются три параметра - максимальное значение первой производной от площади просвета (Smax) (см. фиг.5), минимальное значение первой производной от площади просвета (Smin) (см. фиг.5), а также разность логарифмов амплитуд первых двух гармоник в Фурье-разложении площади просвета между голосовыми складками (dA).

Эти параметры усредняются по ансамблю всех площадей вокализованных фонем для данной цифры, после чего по ним определяется дополнительный параметр - (Smax/Smin). Параметры Т0, (Smax/Smin), dA являются анатомическими параметрами, характеризующими физиологическое состояние голосовых связок человека.

Параллельно с извлечением анатомических параметров, характеризующих состояние голосовых связок, осуществляется определение параметров, характеризующих анатомию вокального тракта человека. Сначала по ЛП-коэффициентам, вычисленным ранее, определяется последовательность частот, соответствующих резонансным частотам вокального тракта, с помощью алгоритма из: Л.Рабинер, Р.Шафер. Цифровая обработка речевых сигналов. М.: Радио и Связь, 1981. Затем по этим частотным оценкам строятся частотные траектории с помощью алгоритма, основанного на методе динамического программирования и построенного в: М.Lee, J. van Santen, В.Moebius, J.Olive. Formant Tracking Using Context-Dependent Phonemic Information // IEEE Trans. Speech, Audio Process. 2005. Vol.13. №5. P.741-750. На фиг.6 показаны частотные треки для вокализованного сегмента речи.

Затем значения первых трех частотных траекторий усредняются (F1, F2, F3).

Параллельно с оценкой резонансных частот вокального тракта наборы ЛП-коэффициентов пересчитываются в эквивалентные площади вокального тракта с помощью алгоритма, описанного в: Л.Рабинер, Р.Шафер. Цифровая обработка речевых сигналов. М.: Радио и Связь, 1981, после чего каждая площадь аппроксимируется моделью площадей вокального тракта, построенной в: В.Story. A Parametric Model of Vocal Tract Area Function for Vowel and Consonant Simulation // J.Acoust. Soc. Amer. 2005. Vol.117. P.3231-3254. На фиг.7 показана функция площади вокального тракта, определенная с помощью данной модели.

Коэффициенты аппроксимирующей модели усредняются (q1, q2, q3). Параметры (F1, F2, F3, q1, q2, q3) являются анатомическими параметрами, характеризующими физиологическое состояние вокального тракта человека. Таким образом, для каждой вокализованной фонемы на этапе выделения параметров оцениваются 9 анатомических параметров - (Т0, (Smax/Smin), dA, F1, F2, F3, q1, q2, q3).

Параллельно с анализом вокализованных фонем осуществляется анализ фрикативных фонем. Для каждой фрикативной фонемы сначала считается последовательность спектров Фурье в кратковременном скользящем окне анализа Хэмминга (длительность окна равна 20 миллисекундам, сдвиг окна равен 10 миллисекундам, количество спектральных отсчетов при вычислении спектра = 512 точкам). Затем все спектры для данной фрикативной фонемы усредняются, после чего по результирующему усредненному спектру определяются - частота, соответствующая максимуму спектра в диапазоне частот выше 700 Гц (Fsp), частота, соответствующая среднему значению спектра выше 700 Гц (M1), стандартное отклонение относительно частоты, соответствующей среднему значению спектра (М2), асимметрия спектра (М3), эксцесс спектра (М4), а также отношение максимального значения спектра к значению спектра на частоте 2500 Гц (Ar).

Этап верификации пользователя сводится к следующим шагам. Сначала для каждого речевого сигнала, записанного с микрофона, определяются последовательности анатомических параметров (Т0, (Smax/Smin), dA, F1, F2, F3, q1, q2, q3, Fsp, M1-M4, Ar). Затем вычисляют вероятность p(x|λC) того, что анатомические параметры х=(Т0, (Smax/Smin), dA, F1, F2, F3, q1, q2, q3, Fsp, M1-M4, Ar) принадлежат данному человеку λC, с помощью формулы:

,

где N - плотность нормального распределения вероятности для данного человека с математическим ожиданием µ(C), ковариационной матрицей K(С) и весовым множителем с(С), а также вероятность того, что анатомические параметры х не принадлежат данному человеку λC, с помощью формулы:

,

где N - плотность нормального распределения вероятности с математическим ожиданием µb, ковариационной матрицей K(b) и весовым множителем c(b) для каждого из В человек из специальной, заранее собранной базы данных человеческих голосов, после чего вычисляют отношение этих вероятностей и сравнивают его с единицей, затем осуществляют верификацию личности, при этом если отношение вероятностей выше единицы, то принимают решение, что голос принадлежит данному человеку, а в случае отношения вероятностей ниже единицы принимают решение, что голос не принадлежит данному человеку.

Основное преимущество предлагаемого способа по сравнению с известными способами верификации личности по голосу заключается в том, что параметры, оцениваемые в рамках предлагаемого способа, напрямую связаны с анатомией и физиологией вокального тракта человека и голосовых связок. А именно, параметр Т0 напрямую определяется длиной голосовых связок человека: I. Titze, Physiologic and acoustic differences between male and female voices // J.Acoust. Soc. Amer. 1989. Vol.85. №4. P.1699-1707. Параметры (Smax/Smin), dA характеризуют конфигурацию голосовых связок, а также скорость их схлопывания и величину воздушного потока, протекающего через связки: Е.Holmberg, R.Hillman, J.Perkell, Glottal airflow and transglottal air measurements for male and female speakers in soft, normal, and loud voice // J. Acoust. Soc. Amer. 1988. Vol.84. №2. P.511-529. Параметры q1, q2, q3 описывают форму вокального тракта человека: В. Story. A Parametric Model of Vocal Tract Area Function for Vowel and Consonant Simulation // J.Acoust. Soc. Amer. 2005. Vol.117. P.3231-3254. Параметры F1, F2, F3 не только характеризуют форму вокального тракта, но и определяют его длину от голосовых связок до губ: J.Bachorowski, М.Owren, Acoustic correlates of talker sex and individual talker identity are present in a short vowel segment produced in a running speech // J.Acoust. Soc. Amer. 1999. Vol.106. P.1054-1063. Наконец, параметры Fsp, M1-M4, Ar характеризуют конфигурацию вокального тракта при произнесении фрикативных фонем /С, Ш, З, Ж, X/: P.Ingemann, Identification of the speaker's sex from voiceless fricatives // J.Acoust. Soc. Amer. 1968. Vol.44. P.1142-1145.

Поэтому параметры, используемые в предлагаемом способе, в наибольшей степени учитывают индивидуальность голоса человека и, таким образом, оказываются очень эффективными в задаче верификации личности по голосу.

1. Способ верификации личности по голосу на основе анатомических параметров человека, в котором человеку предлагают произнести в микрофон последовательность изолированных цифр русского языка от нуля до девяти, предъявляемых в случайном порядке, полученные звуковые сигналы записывают и подвергают первоначальной обработке, для чего очищают от посторонних шумов посредством метода спектрального вычитания, из очищенного сигнала выделяют сегмент речи, соответствующий произнесению человеком некоторой случайной цифры от нуля до девяти, по которому осуществляют расстановку границ, соответствующих фонемам данной цифры, выделяют фрагменты вокализованных и фрикативных фонем, по которым определяют анатомические параметры, характеризующие голосовые связки и размеры вокального тракта, индивидуальные для данного человека, затем вычисляют вероятность р(х) того, что анатомические параметры х принадлежат данному человеку, с помощью формулы: где N - плотность нормального распределения вероятности для данного человека с математическим ожиданием µ(C), ковариационной матрицей K(C) и весовым множителем с(C), а также вероятность р(х) того, что анатомические параметры х не принадлежат данному человеку, с помощью формулы: где N - плотность нормального распределения вероятности с математическим ожиданием µ(b), ковариационной матрицей K(b) и весовым множителем с(b) для каждого из В человек из заранее собранной базы данных человеческих голосов, после чего вычисляют отношение этих вероятностей и сравнивают его с единицей, затем осуществляют верификацию личности, при этом если отношение вероятностей выше единицы, то принимают решение, что голос принадлежит данному человеку, а в случае отношения вероятностей ниже единицы принимают решение, что голос не принадлежит данному человеку.

2. Способ по п.1, в котором в качестве анатомических параметров х, принадлежащих данному человеку или не принадлежащих данному человеку, используют анатомические параметры такие, как период основного тона голоса, отношение максимального значения скорости изменения площади голосовых связок к минимальному значению скорости изменения площади голосовых связок, разность логарифмов амплитуд первых двух гармоник в Фурье-разложении площади просвета между голосовыми связками, первые три резонансные частоты вокального тракта человека, три коэффициента модели площади поперечного сечения вокального тракта человека, частота, соответствующая максимуму спектра в диапазоне частот выше 700 Гц, частота, соответствующая среднему значению спектра выше 700 Гц, стандартное отклонение относительно частоты, соответствующей среднему значению спектра, асимметрия спектра, эксцесс спектра, отношение максимального значения спектра к значению спектра на частоте 2500 Гц.