Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
Иллюстрации
Показать всеИзобретение относится к области опознавания говорящего по голосу, в частности к способам идентификации говорящего по фонограммам произвольной устной речи, предназначенным в том числе для криминалистических исследований. Сущность способа состоит в том, что идентификацию говорящего по фонограммам устной речи осуществляют путем оценки сходства между первой фонограммой говорящего и второй эталонной фонограммой. Для указанной оценки на первой и второй фонограммах выбирают опорные фрагменты речевых сигналов, на которых присутствуют формантные траектории, по крайней мере, трех формантных частот, сравнивают между собой опорные фрагменты, в которых совпадают значения, по крайней мере, двух формантных частот, оценивают сходство сравниваемых опорных фрагментов по совпадению значений остальных формантных частот, а сходство фонограмм в целом определяют по суммарной оценке сходства всех сравниваемых опорных фрагментов. Технический результат - обеспечивают надежную идентификацию говорящего как для длинных, так и для коротких фонограмм, фонограмм, записанных в различных каналах с высоким уровнем помех и искажений, а также фонограмм с произвольной устной речью дикторов, находящихся в различных психофизиологических состояниях, говорящих на разных языках. 5 з.п. ф-лы, 8 ил.
Реферат
Изобретение относится к области опознавания говорящего по голосу, в частности к автоматическим, автоматизированным и экспертным способам идентификации говорящего по фонограммам произвольной устной речи, предназначенным в том числе для криминалистических исследований.
Известно, что при практическом, в частности криминалистическом, исследовании и сравнении фонограмм устной речи, с целью идентификации говорящего, в ряде случаев, экспертиза сталкивается с такими затрудняющими принятие решения проблемами, как малая длительность и низкое качество исследуемых фонограмм, различие психофизиологических состояний говорящих в момент произнесения речи на сравниваемых фонограммах, различное словесное содержание и разные языки, на которых произносится речь, различающиеся по типу и уровню помех и искажений каналы звукозаписи и пр.
Поэтому в настоящее время актуальной является разработка способов идентификации говорящего по фонограммам произвольной устной речи, в частности, применимых для целей криминалистики и учитывающих указанные выше проблемы, а именно способов, обеспечивающих возможность идентификации говорящих по коротким фонограммам, записанным в различных каналах звукозаписи, с высоким уровнем помех и искажений, по фонограммам, содержащим устную речь, произносимую говорящими в разных психофизиологических состояниях, с различным словесным содержанием, при разных языках произнесения.
Известен способ идентификации дикторов по фонограммам, который проводится путем экстрагирования характерных особенностей диктора из произносимых однотипных фраз (патент DE №2431458, МПК G10L 1/04, 05.02.1976).
В данном способе речевой сигнал фильтруют с помощью гребенки из 24 полосовых фильтров, затем детектируют, сглаживают, далее с помощью аналого-цифрового преобразователя и коммутатора сигнал вводят в цифровое обрабатывающее устройство, где автоматически выделяют и сохраняют индивидуализирующие признаки, связанные с интегральным спектром речи.
Данный способ идентификации дикторов теряет работоспособность на фонограммах устной речи, полученных в условиях повышенных искажений и помех, из-за ограниченного набора индивидуализирующих признаков. Также этот способ имеет большой процент отказов от решения по идентификации, поскольку он требует фонограмм неизвестного и проверяемого диктора с одинаковым словесным содержанием. Известен способ, в котором для идентификации личности в речи на сравниваемых фонограммах находятся и сравниваются однотипные ключевые слова (патент US №3466394, МПК H04M 1/24).
В данном способе речевой сигнал подвергается кратковременному спектральному анализу, затем выделяются контуры зависимости особенностей спектра и основного тона голоса от времени. Полученные контуры являются индивидуализирующими признаками. Идентификация дикторов основана на сравнении полученных контуров для фонограмм проверяемого и неизвестного дикторов.
Недостатком способа является зависимость результатов идентификации от качества фонограмм, полученных в условиях повышенных искажений и помех. Также этот способ имеет большой процент отказов от решения по идентификации, поскольку он требует фонограмм неизвестного и проверяемого с одинаковыми словами. Известен способ идентификации дикторов, основанный на спектрально-полосно-временном анализе произвольной устной речи (Рамишвили Г.С., Чикоидзе Г.Б. Криминалистическое исследование фонограмм речи и идентификация личности говорящего. Тбилиси: "Мецниереба", 1991, с.265).
Для исключения зависимости результатов идентификации от смыслового содержания произносимого текста из речевого сигнала выделяют участки звонкой речи, усредняют по времени их существования значения энергии в каждом из 24 спектральных фильтров в области высших формантных участков. Основной тон определяют на основе выделения первой гармоники сигнала в спектре. Также определяют темп речи. Перечисленные параметры используют в качестве индивидуализирующих признаков.
Данный способ неработоспособен на фонограммах устной речи, полученных в условиях повышенных искажений в канале звукозаписи и различий в состоянии дикторов, из-за потери надежности выделения набора индивидуализирующих признаков.
Известен способ и устройство распознавания дикторов на основе построения и сравнения чисто статистических моделей кепстральных признаков речевого сигнала известных и неизвестных дикторов (патент US №6411930, МПК G10L 15/08). В данном способе распознавание диктора выполняют при использовании дискриминантных моделей Гауссовых смесей.
Данный способ, как и большинство чисто статистических подходов к распознаванию дикторов, не пригоден для ситуации, когда используемые голосовые сообщения очень короткие (1-10 секунд), состояние дикторов и/или используемые для записи фонограмм каналы существенно различаются по свойствам или дикторы находятся в различных эмоциональных состояниях.
Известен способ распознавания дикторов на основе чисто стохастического подхода (патент US №5995927, МПК G10L 9/00).
В данном способе распознавание диктора выполняют путем построения и сравнения матриц ковариации признаковых описаний входного речевого сигнала и эталонов речевого сигнала известных дикторов.
Этот известный способ также не пригоден для ситуации, когда используемые голосовые сообщения короткие (5 секунд и менее), а также очень чувствителен к существенному снижению мощности сигнала на отдельных участках частотного речевого диапазона за счет окружающего шума и низкокачественных микрофонов и каналов звукопередачи и звукозаписи.
Известен способ распознавания изолированных слов речи с адаптацией к диктору (патент RU №2047912, МПК G10L 7/06), основанный на дискретизации входного речевого сигнала, его предыскажении, последовательной сегментации речевого сигнала, кодировании сегментов дискретными элементами, вычислении энергетического спектра, измерении формантных частот и определении амплитуд и энергии в различных частотных полосах речевого сигнала, классификации артикуляторных событий и состояний, формировании и сортировке эталонов слов, вычислении расстояний между эталонами слов с реализацией распознаваемого слова, принятии решений о распознавании или отказе от распознавания слова с дополнением словаря эталонов в процессе адаптации к диктору. Предыскажение входного речевого сигнала выполняют во временной области путем дифференцирования со сглаживанием, квантование энергетического спектра выполняют в зависимости от дисперсии шума канала связи, формантные частоты определяют при нахождении глобального максимума логарифмического спектра и вычитании из этого спектра заданной частотно-зависимой функции, при классификации артикуляторных событий и состояний определяют доли периодического и шумового источников возбуждения при сравнении с порогом коэффициентов автокорреляции последовательности прямоугольных импульсов в нескольких частотных полосах, начало и конец артикуляторных движений и соответствующих им акустических процессов определяют при сравнении с порогом функции правдоподобия от значений коэффициентов автокорреляции, формантных частот и энергий в заданных частотных полосах, речевой сигнал сегментируют на интервалы между началом и концом акустических процессов, соответствующих специфическим артикуляторным движениям, и последовательно, начиная с гласных звуков, причем опознавание сегмента производят только в случае совпадения типов переходов на его левой и правой границах и заканчивают сегментацию при опознавании слева и справа по времени сегментов паузы между словами. Эталоны слов формируют в виде матриц с бинарными значениями правдоподобия признаков, а отказ от распознавания осуществляют при нормированной разности расстояния от неизвестной реализации до двух ближайших эталонов, принадлежащих разным словам, меньшей установленного порога.
Недостатком данного известного способа распознавания изолированных слов речи с адаптацией к диктору является слабая различительная сила данного способа при его использовании для распознавания дикторов по произнесению произвольной речи, так как данный способ в большинстве случаев не различает дикторов одного пола при произнесении ими сообщений с совпадающим словесным составом.
Известна система для обеспечения секретности на основе распознавания голоса (патент US №5265191, МПК G10L 005/00), требующая и от обучающего, и от неизвестного диктора обязательного повторного произнесения, по крайней мере, одного речевого сообщения. Система сравнивает параметрические представления повторных произнесений речи неизвестного и известного диктора и принимает положительное решение о тождестве сравниваемых дикторов только в случае, если каждое произнесение неизвестного диктора достаточно близко произнесениям обучающего диктора, и отрицательное решение, если их представления достаточно далеки друг от друга.
Недостатком данной системы является низкая помехоустойчивость в шумах переменного характера (в транспортном средстве, в условиях шума улицы, производственного помещения), а также обязательное требование произнесения сравниваемыми дикторами одинаковых речевых сообщений.
Известен способ автоматической идентификации личности по особенностям произношения парольной фразы этой личностью (патент RU №2161826, МПК G10L 17/00), заключающийся в том, что речевой сигнал разбивают на вокализованные зоны, выделяют временные интервалы в вокализованных зонах - в области максимумов интенсивности речевого сигнала, а также в начале первой и в конце последней вокализованных зон. Для выделенных временных интервалов определяют параметры речевого сигнала, сравнивают их с эталонами, которые формируют с учетом математических ожиданий и допустимых разбросов этих параметров, для чего в конце первой, начале последней, в начале и конце остальных вокализованных зон выделяют временные интервалы, длительность временных интервалов устанавливают кратной периоду основного тона речевого сигнала, определяют оценки коэффициентов корреляции параметров речевого сигнала, которые включают в число сравниваемых с эталонами, при формировании эталонов дополнительно учитывают коэффициенты корреляции параметров речевого сигнала. На основании полученных параметров речевого сигнала и соответствующих им статистических характеристик принимают решение по идентификации личности.
Недостатком данного известного способа идентификации личности является низкая помехоустойчивость метода, так как для его работы требуется выделение во входном речевом сигнале точного положения границ периодов основного тона голоса, что в условиях наличия акустических и электромагнитных помех (шум офисного помещения, улицы, наводки в каналах речевой связи и т.п.) часто практически невозможно, кроме того, дикторы должны произносить одинаковые голосовые пароли, что на практике не всегда реализуемо.
Известно устройство для верификации диктора на основе измерения расстояния "ближайшего соседа" (патент US №5339385, МПК G10L 9/00), включающее дисплей, генератор выдачи подсказок по случайному закону, блок распознавания слова, верификатор диктора, клавиатуру и блок первичной обработки сигнала, при этом вход блока первичной обработки сигнала является входом устройства, а его выход соединен с первыми входами распознавателя слов и верификатора дикторов, ко второму входу распознавателя слов подключен первый выход генератора выдачи подсказок, выход которого соединен с дисплеем. Клавиатура подключена к третьему входу распознавателя слов и к третьему входу верификатора дикторов, выход которого является выходом устройства. Верификатор дикторов данного устройства для определения сходства или различия произнесения голосовых паролей использует разбиение входного речевого сигнала на отдельные кадры анализа, вычисление непараметрических речевых векторов для каждого кадра анализа и далее определение близости таким образом полученных описаний речевого сигнала сравниваемых произнесений на основе Эвклидова расстояния ближайшего соседа.
Недостатком данного устройства являются низкая помехоустойчивость при работе в акустических шумах офисных помещений и улицы в силу использования непараметрических речевых векторов и Эвклидовой метрики при определении степени сходства/отличия произнесений голосовых паролей, а также низкая надежность распознавания (высокий процент ложных отказов) за счет использования переменных по порядку слов голосовых паролей, вызванная неизбежной индивидуальной вариативностью произнесения одних и тех же слов в разном контексте даже одним и тем же диктором. Кроме того, обеспечение произнесения обоими сравниваемыми дикторами заданного подсказками речевого содержания на практике труднореализуемо.
Известен способ распознавания говорящего (патент US №6389392, МПК G10L 17/00), включающий сравнивание входного речевого сигнала неизвестного диктора с эталонами, представляющими речь заранее известных дикторов, из которых, по меньшей мере, один представлен, по меньшей мере, двумя эталонами. Последовательные сегменты входного сигнала сравнивают с последовательными сегментами эталона, получая меру близости сравниваемых сегментов входного речевого сигнала и эталона. Для каждого эталона заранее известного диктора, имеющего, по крайней мере, два эталона, формируют композитный результат сравнения данного эталона и входного речевого сигнала на основе выбора для каждого сегмента входного речевого сигнала ближайшего по используемой мере близости сегмента сравниваемого эталона. Далее идентифицируют неизвестного диктора на основе композитных результатов сравнения входного речевого сигнала и эталонов.
Известный способ распознавания диктора ограниченно применим на практике, так как обязательное требование наличия для распознаваемого заранее известного диктора не менее двух эталонов на каждое его речевое высказывание не всегда осуществимо в реальных условиях. Кроме того, данный способ не обеспечивает высокий уровень надежности распознавания дикторов при работе в условиях акустического шума реальных офисных помещений, улицы или транспортных средств, при различии эмоционального состояния дикторов, поскольку используемое в способе посегментное параметрическое описание речевых сигналов подвержено сильному влиянию аддитивных акустических шумов и естественной вариативности речи. Кроме того, низкая надежность работы метода в шумах связана с тем, что ближайший по используемой мере близости сегмент сравниваемого эталона ищут для каждого сегмента входного речевого сигнала, что приводит к наличию среди найденных близких по мере сегментов большого числа чисто шумовых сегментов, соответствующих сегментам речевых пауз и в эталоне, и во входном речевом сигнале.
Известен способ идентификации личности по фонограммам произвольной устной речи (патент RU №2107950, МПК G10L 5/06). Он основан на спектрально-полосно-временном анализе речевого сигнала, выделении характеристик индивидуальности устной речи и сравнении этих характеристик с эталонными, при этом в качестве характеристик индивидуальности устной речи используют акустические интегральные признаки, являющиеся оценками параметров статистического распределения компонент текущего спектра и гистограмм распределения периодов и частот основного тона, измеренных на фонограммах речи как с произвольным, так и фиксированным контекстом, среди которых при адаптивном переобучении выбирают наиболее информативные для речи данного говорящего признаки, независимые от помех и искажений, присутствующих в сравниваемых фонограммах, а также используют лингвистические признаки, фиксируемые экспертом при слуховом анализе фонограмм с применением автоматизированного банка опорных звуковых эталонов диалектных, акцентных и дефектных особенностей устной речи.
Данный метод в силу применения интегрального, то есть усредняющего характеристики речевого сигнала, подхода и лингвистического анализа теряет надежность при сравнении дикторов, имеющих короткие сравниваемые фонограммы, а также говорящих на разных языках или находящихся в существенно различных психофизиологических состояниях.
Известен способ распознавания дикторов (патент RU №2230375, МПК G10L 15/00, G10L 17/00), имеющий наибольшее количество совпадающих с заявляемым способом признаков изобретения и выбранный в качестве прототипа, включающий посегментное сравнение входного речевого сигнала диктора с эталонами голосовых паролей, произносимых известными дикторами, и оценку сходства между первой фонограммой говорящего и второй эталонной фонограммой по совпадению значений формантных частот на выбранных для сравнения опорных фрагментах речевого согнала на первой и второй фонограммах.
В известном способе выделяют формантные векторы последовательных сегментов и статистические характеристики спектра мощности входного речевого сигнала и речевого сигнала эталонов, а затем их сравнивают соответственно с формантными векторами последовательных сегментов каждого эталона и со статистическими характеристиками спектра мощности речевого сигнала эталона и формируют композитную метрику сравнения входного сигнала и эталона. В качестве меры близости формантных векторов сегментов используют взвешенный модуль разности частот формантных векторов. Для вычисления композитной метрики сравнения входного сигнала и эталона находят для каждого сегмента входного речевого сигнала ближайший по этой мере близости сегмент эталона с равным числом формант, а в композитную метрику включают взвешенное среднее по всем используемым сегментам входного речевого сигнала значение мер близости между данным сегментом входного речевого сигнала и найденным для него ближайшим сегментом эталона, а также коэффициент кросскорреляции статистических характеристик спектров мощности входного речевого сигнала и эталона. Распознавание диктора выполняют на основе результата сравнения входного речевого сигнала и эталона по композитной метрике.
Данный метод не обеспечивает надежное распознавание дикторов при существенно различном звуковом составе входного речевого сигнала и речевого сигнала образцов (например, при коротких сообщениях, при речи во входном сигнале и эталонах на разных языках), а также при существенном различии свойств каналов звукозаписи и различии психофизиологического состояния дикторов, произносящих речь на сравниваемых фонограммах. Эти недостатки обусловлены, во-первых, применением в качестве компонента композитной метрики статистических характеристик спектра мощности, которые существенно зависят от свойств канала записи, состояния диктора и звукового состава речи, а также сегментной меры близости в виде взвешенного среднего по всем используемым сегментам обрабатываемого речевого сигнала, что приводит к усреднению ошибок при сравнении сегментов и подавлению влияния больших межсегментных отклонений, говорящих о различии дикторов даже при малом среднем различии сегментов.
Задачей настоящего изобретения является создание способа идентификации говорящего по фонограммам произвольной устной речи, в котором для сравнения выбирают такие фрагменты речевого сигнала, а для принятия идентификационного решения используют такие индивидуализирующие признаки и методы их сравнения, которые позволяют осуществлять надежную идентификацию говорящего для большинства встречающихся на практике ситуаций, в частности, как для длинных, так и для коротких сравниваемых фонограмм, записанных в различных каналах с высоким уровнем помех и искажений, для фонограмм с произвольной устной речью дикторов, находящихся в различных психофизиологических состояниях, говорящих на разных языках, с тем чтобы расширить область применения способа, в том числе для его использования в криминалистических исследованиях.
Поставленная задача решается тем, что в способе идентификации говорящего по фонограммам устной речи, включающем оценку сходства между первой фонограммой говорящего и второй эталонной фонограммой по совпадению значений формантных частот на выбранных для сравнения опорных фрагментах речевого сигнала на первой и второй фонограммах, согласно предлагаемому изобретению, в речевых сигналах первой и второй фонограмм выбирают опорные фрагменты, на которых присутствуют формантные траектории, по крайней мере, трех формантных частот, осуществляют сравнение между собой опорных фрагментов первой и второй фонограмм, в которых совпадают значения, по крайней мере, двух формантных частот, оценивают сходство сравниваемых опорных фрагментов по совпадению значений остальных формантных частот, а сходство фонограмм в целом определяют по суммарной оценке сходства всех сравниваемых опорных фрагментов.
Основанием для создания данного способа идентификации говорящего послужил тот экспериментальный факт, что низкочастотные резонансы вокального тракта (форманты) человека при изменении артикуляции меняются по частоте взаимно согласовано. В частности, это верно для первых по частоте 3-5 резонансов, в зависимости от длины вокального тракта. Если меняется частота хотя бы одной из первых четырех формант, то, в большинстве ситуаций на практике, обязательно одновременно меняется и значение частоты одной или нескольких других низкочастотных формант данного диктора. Данное изменение обусловлено акустической взаимосвязью резонансов вокального тракта и анатомической ограниченностью возможности произвольного изменения поперечной площади вокального тракта диктора. Теоретическое обоснование такого факта имеется в научной литературе (Г.Фант. Акустическая теория речеобразования. - М.: Наука. 1964, В.Н.Сорокин. Теория речеобразования. - М.: Радио и связь. 1985).
В заявляемом способе при сравнении фонограмм в качестве индивидуализирующих признаков говорящих используют резонансные параметры акустики вокального тракта, определяемые как характеристические значения частот на формантных траекториях, задающих воспринимаемое качество каждого речевого звука. Эти признаки помехоустойчивы для фонограмм, записанных в условиях высоких шумов и искажений записываемого сигнала.
Экспериментально выявлено, что наличие трех и более траекторий формант внутри спектрограммы опорного фрагмента в большинстве ситуаций позволяет однозначно определить характеристические значения формантных частот и обеспечить на основе их сравнения надежную идентификацию дикторов.
Для обеспечения дополнительной помехоустойчивости выделяемых признаков в аддитивных широкополосных шумах значения формантных частот на каждом выбранном опорном фрагменте вычисляют как средние значения на интервалах времени фиксированной длины, на которых значения частот формант относительно постоянны. При этом на каждом опорном фрагменте речевого сигнала для сравнения используют конкретные жестко зафиксированные значения формантных частот, относящихся к заданному временному интервалу, - формантные вектора.
Для обеспечения надежности идентификации целесообразно сравнивать опорные фрагменты, в которых совпадают значения частот первых двух формант, которые находятся в границах стандартной вариативности значений формантных частот для выбранного типа звука из фиксированного набора гласноподобных звуков.
Опорные фрагменты при сравнении фонограмм сопоставляют между собой, если они соответствуют участкам речевого сигнала на фонограммах, на которых реализуются сопоставимые артикуляторные события, то есть произносятся звуки, при которых резонансная структура спектра сигнала ярко выражена и совпадает по частотам двух или более частот резонансов (формант), независимо от того, каким фонемам в тексте речевого сообщения данные звуки соответствуют. Указанные участки встречаются на речевых фрагментах, на которых дикторы произносят как одинаковые, так и различающиеся фонемы. Сопоставляемые по значениям формант речевые фрагменты в экспертной литературе принято называть «формантно-выровненными» фрагментами речи.
Для принятия синтезирующего общего идентификационного решения на фонограммах выбирают, по крайней мере, два опорных фрагмента речевого сигнала, относящихся к произнесению максимально артикуляторно различных звуков с максимальными и минимальными для данной фонограммы значениями частот первой и второй формант.
Для обеспечения высокой надежности идентификации сравнение опорных фрагментов производят для нескольких максимально артикуляторно различных звуков, то есть максимально различающихся вариантов реализации геометрической формы вокального тракта.
Благодаря тому, что для сравнения выбирают формантно-выровненные фрагменты речи, соответствующие разным не обязательно тождественным звукам, обеспечивается возможность идентификации говорящего в ситуациях, когда звуковое содержание фонограмм существенно различается, в частности, и для длинных, и для коротких фонограмм, для фонограмм, содержащих речь дикторов, находящихся в различных психофизиологических состояниях, а также говорящих на одном и том же или разных языках.
Для обеспечения повышенной надежности идентификации говорящего в условиях сильного искажения речевого сигнала за счет существенно неравномерной АЧХ каналов звукозаписи, не совпадающей для сравниваемых фонограмм, предпочтительно перед вычислением значений формантных частот спектр мощности речевого сигнала каждой фонограммы подвергать инверсной фильтрации, при которой для каждой частотной компоненты спектра мощности вычисляют ее среднее по времени значение, по крайней мере, для отдельных фрагментов фонограммы и затем исходное значение спектра мощности сигнала фонограммы для каждой частотной компоненты спектра делят на ее инверсное (инвертированное) среднее значение.
Возможно также реализовать инверсную фильтрацию вместо деления спектров путем применения операции логарифмирования спектров и вычитания из логарифма мощности спектра исходного сигнала фонограммы логарифма мощности среднего спектра для каждой частотной компоненты.
В дальнейшем предлагаемое изобретение будет более подробно раскрыто на конкретном примере его выполнения со ссылками на чертежи, на которых изображены:
Фиг.1 - пример спектрограммы с наложенными формантными траекториями для слога «тэ»;
Фиг.2-3 - примеры сравнения спектрограмм с наложенными формантными траекториями для совпавших дикторов для звуков типа «Э»;
Фиг.4 - пример сравнения спектрограмм с наложенными формантными траекториями для совпавших дикторов для звуков типа «Е»;
Фиг.5 - пример сравнения спектрограмм с наложенными формантными траекториями для не совпавших дикторов для звука типа «Е»;
Фиг.6 - пример сравнения трех спектрограмм одного и того же речевого сигнала диктора (опорный фрагмент со слогом «На») до и после инверсной фильтрации;
Фиг.7 - пример сравнения средних спектров мощности речевого сигнала трех фонограмм на Фиг.6;
Фиг.8 - пример сравнения спектров формантных векторов, выделенных на спектрограммах на Фиг.6.
Заявленный способ включает сравнение, по крайней мере, двух фонограмм произвольной устной речи. В частности, для целей криминалистического исследования одной из фонограмм может быть фонограмма речи проверяемого говорящего, а второй - фонограмма речи неизвестного лица (эталонная). Целью такого исследования является установление идентичности или различия лиц, голос которых записан на сравниваемых фонограммах.
Сравниваемые фонограммы преобразуют в цифровую форму и хранят их оцифрованные образы в памяти ПЭВМ в виде цифровых файлов звукового сигнала.
Оцифрованные образы с помощью ПЭВМ подвергают спектральному анализу в соответствии с общепринятыми процедурами спектрального анализа сигналов (Марпл С.Л. Цифровой спектральный анализ и его приложения Мир, 1990), вычисляют их динамические спектрограммы и по ним - формантные траектории как линии последовательного изменения во времени значений резонансных частот вокального тракта, отражающихся на спектрограммах в виде локальных максимумов спектра. Формантные частоты при необходимости корректируют путем наложения их на спектрограмму и исправления видимых отличий в движении формант.
На спектрограммах первой и второй сравниваемых фонограмм выбирают опорные фрагменты, на которых осуществляют сравнение формантных частот.
Формантные частоты сами по себе в момент произнесения конкретных звуков испытывают влияние многих случайных факторов, в силу чего на некоторых сегментах могут «исчезать», а также «дрожать» от сегмента к сегменту. Кроме того, поскольку во время речеобразования геометрия вокального тракта постоянно меняется, то и формантные частоты постоянно плавно переходят от одних значений к другим, образуя формантные траектории. В то же время для сравнения формантных частот на каждом опорном фрагменте речевого сигнала должны быть выбраны их конкретные жестко зафиксированные значения.
С целью обеспечения указанного условия в заявляемом варианте реализации способа идентификации выбор значений формантных частот, по которым проводят сравнение опорных фрагментов и фонограмм, осуществляют следующим образом.
Первоначально на спектрограммах первой и второй фонограмм отбирают опорные фрагменты, которые удовлетворяют двум критериям:
(1) наличие на опорном фрагменте формантных траекторий трех или более формант;
(2) значения частот первых двух формант указанных формантных траекторий находятся в пределах стандартной вариативности для одного из заданных типов звука из фиксированного набора гласноподобных звуков.
Экспериментально выявлено, что для частотного диапазона телефонного канала число формантных траекторий на выбранном опорном фрагменте обычно должно быть равно четырем для дикторов мужчин и трем для женщин.
Далее на каждом выбранном опорном фрагменте для последующего сравнения формантных частот выбирают формантные векторы, на которых значения формантных частот вычисляют как средние значения на интервалах времени фиксированной длины, на которых значения частот формант относительно постоянны.
Использование формантных векторов внутри каждого опорного фрагмента для сравнения формантных частот позволяет в наборе «дрожащих» по частоте и иногда «исчезающих» значений формант выбрать участки, на которых интерполированные, сглаженные и по частоте, и по времени частоты формант образуют участки с относительно стабильными значениями, пригодными для уверенной фиксации и последующего сравнения, и тем самым обеспечить дополнительную помехоустойчивость индивидуализирующих признаков в аддитивных широкополосных шумах.
Экспериментально выявлено, что наличие трех и более траекторий формант внутри спектрограммы опорного фрагмента в большинстве ситуаций позволяет однозначно определить значение формантных частот для хотя бы одного формантного вектора внутри опорного фрагмента и при последующем сравнении обеспечить надежную идентификацию дикторов.
Длительность опорного фрагмента определяют по границам участка речевого сигнала, для которого однозначно определяются формантные траектории для тех формант, которые затем используются для выбора положения формантных векторов. Длительные и существенно неоднородные по звуковому составу участки речевого сигнала, подходящие для использования в качестве опорных фрагментов, разбивают на несколько опорных фрагментов, для каждого из которых первые две форманты, в основном, не выходят за типовые границы вариативности формантных частот для одного типа гласной фонемы для данного языка.
Пример такой спектрограммы с наложенными формантными траекториями приведен на Фиг.1.
Спектрограмма на Фиг.1 представляет собой спектрограмму слога «Тэ» в произнесении диктора-мужчины. По горизонтальной оси отложено время в секундах. По вертикальной - частота в Гц. Степень зачернения спектрограммы соответствует мощности сигнала в данной точке частоты и времени. Тонкие темные линии отмечают автоматически выделенные значения формантных частот, образующие формантные траектории. Вертикальные линии отмечают границы выделенного опорного фрагмента и формантного вектора для сравнения. Формантный вектор - это узкий интервал в границах опорного фрагмента, внутри которого значение формантной частоты относительно постоянно. Горизонтальные курсоры отмечают положение частот формант. На спектрограмме Фиг.1 они приблизительно равны: 430, 1345, 2505 и 3485 Гц.
После того, как для сравниваемых речевых сигналов первой и второй фонограмм выбраны опорные фрагменты и в них определены формантные векторы, для каждого опорного фрагмента и формантного вектора речевого сигнала первой фонограммы в речевом сигнале на второй фонограмме для сравнения выбирают опорный фрагмент и в нем формантный вектор так, чтобы у сравниваемых формантных векторов совпали значения частот, по крайней мере, двух формант. Если это не удается сделать, то опорные фрагменты считаются не сопоставимыми и в дальнейшем их сравнение между собой не проводится.
Такой выбор сравниваемых опорных фрагментов и формантных векторов соответствует выбору и сравнению участков речевого сигнала на первой и второй фонограммах, на которых реализуются сопоставимые артикуляторные события, то есть говорящими произносятся звуки, при которых резонансная структура спектра сигнала ярко выражена, а частоты двух или более резонансов (формант) совпадают независимо от того, какие фонемы в данный момент произносили дикторы.
Как указывалось ранее, такие речевые фрагменты, сопоставляемые по значениям части частот формант, в экспертной литературе принято называть «формантно-выровненными речевыми фрагментами». Указанные формантно-выровненные речевые фрагменты встречаются на речевых участках, на которых дикторы произносили как одинаковые, так и различающиеся фонемы. Например, на первой фонограмме в качестве опорного фрагмента для сравнения может быть выбран фрагмент произнесения стационарной гласной, а на второй фонограмме - фрагмент произнесения быстрого перехода от одной фонемы к другой, на котором имеется участок, где не менее двух значений формантных частот совпадает с соответствующими значениями формантных частот стационарной гласной на первой фонограмме.
Совпадение или несовпадение формантных частот проводится в соответствии с известным пороговым методом. Сами пороги допустимого отклонения зависят от качества сигнала, записанного на конкретной фонограмме (от соотношения сигнал/шум, типа и выраженности шумов и искажений, физического и психофизиологического состояния диктора), и определяются, исходя из естественной вариативности частот формант каждого диктора внутри данной фонограммы, для звуков данного типа для каждой форманты отдельно. Эту вариативность и соответствующие пороги, например, определяют путем поиска и сравнения между собой опорных фрагментов и формантных векторов внутри фонограммы, то есть для речевого сигнала каждой из фонограмм.
На формантно-выровненных речевых фрагментах сравнивают значения частот других не выровненных формант. По совпадению или несовпадению значений этих частот определяют совпадение/несовпадение данных сравниваемых опорных фрагментов (определенных фрагментов речи). Например, в типовых практических ситуациях отличие в 3% считают допустимым, а в 10% - недопустимым.
Если значения частот формантных векторов совпадают, то считают, что для данного типа звуков дикторы тождественны. Такая ситуация соответствует тому, что для произнесений звуков данного типа в сопоставляемые моменты времени у сравниваемых дикторов совпадают основные геометрические размеры вокальных трактов, характеризуемых своими акустическими резонансами.
Решение о совпадении или несовпадении формантно-выровненных фрагментов фонограмм принимается для каждого выбранного опорного фрагмента первой фонограммы. Для надежности принимаемого решения по каждому типу звуков необходимо сравнивать несколько (обычно 3-5) опорных фрагментов, соотве