Способ оценки сходства образцов почерка и способы верификации личности и идентификации почерка с использованием данного способа оценки
Иллюстрации
Показать всеИзобретение относится к распознаванию изображений и более конкретно к автоматическому анализу образцов почерка, представленных в цифровом виде. Изобретение позволяет простым и надежным образом сравнивать образцы почерка и осуществлять верификацию и идентификацию личности по почерку. Определение количественной оценки сходства образцов почерка осуществляется путем нахождения количественной меры близости векторных темплейтов сравниваемых образцов. Формирование каждого векторного темплейта включает получение каждого образца почерка в цифровой форме, выделение набора графем и обработку данного набора с получением набора векторных описаний графем, который затем преобразуют в векторный темплейт. При этом нормируют графемы по положению и ориентации с использованием оценки угла наклона строк в исходном образце почерка и используют на этапе преобразования графемы в вектор фиксированное количество точек графемы, а также некоторые ее метрические характеристики. При этом с использованием представительной обучающей выборки векторов описаний образцов почерка находят оператор приведения векторов описаний образцов почерка к главным компонентам, что позволяет использовать для анализа векторы меньшей размерности и тем самым существенно упростить практическую реализацию способа. 3 н. и 15 з.п. ф-лы, 2 ил.
Реферат
Область техники
Настоящее изобретение относится к области распознавания данных и обработки цифровых данных с помощью электрических устройств и более конкретно к автоматическому анализу образцов почерка, представленных в цифровом виде, в частности, с целью верификации (подтверждения идентичности) личности по почерку или идентификации почерка и соответствующей ему личности.
Уровень техники
По мере развития вычислительной техники и электронных средств коммуникации все более широкое применение получают различные методы верификации личности по цифровым образцам почерка (например, по образцам подписи). Любой метод верификации применим также для идентификации (получения списка наиболее похожих образцов) при поиске по некоторой базе темплейтов.
Известные методы верификации, применяемые при осуществлении различных электронных транзакций, описаны, например, в RU 2000114185, МПК G06T 7/00, 2002 и RU 2002119571, МПК G06F 17/60, 2004. Наиболее эффективные методы верификации по почерку состоят в определении количественной оценки сходства образцов почерка. Один из образцов в этом случае хранится в виде заранее сформированного темплейта (от англ. template - описание в цифровом виде) и привязан к установочным данным определенного человека. Второй образец предъявляется для распознавания, причем процедура верификации рассматривается как состоявшаяся, если оценка сходства сравниваемых образцов является достаточно высокой для признания идентичности почерка в обоих случаях. Один из известных способов анализа сходства образцов почерка в виде подписей, используемый для целей идентификации личности, описан в RU 2148274, МПК G06K 9/22, G06K 9/62, G06F 15/18, 2000. Однако данный и аналогичный ему способы требуют для своей реализации специального оборудования типа специальных графических планшетов и, как следствие, имеют ограниченную область применения.
Известны также различные способы получения количественной оценки сходства образцов почерка в целях осуществления верификации или идентификации, использующие стандартное оборудование для преобразования рукописных образцов в цифровую форму. Подобные способы основываются, в частности, на технике автоматической кластеризации и скрытых марковских моделях (см., например, А.Schlappbach, H.Bunke. Off-Line Handwriting Identification Using HMM Based Recognizers. IEEE, 2004 (2), pp.654-658) или на использовании определенного, специфичного набора признаков (см., например, G.Leedham, S.Chachra. Writer Identification Using Innovative Binarised Features of Handwritten Numerals. IEEE, ICDAR 2003, pp.413-417). Известные способы используют нормировку, со всеми вытекающими неудобствами, и транскрипцию, т.е. очень громоздки и требуют серьезного участия человека на этапе формирования темплейта.
Наиболее близким аналогом предлагаемого способа является способ определения количественной оценки сходства образцов почерка, представленный в работе A.Bensefia, Т.Paquet, L.Heutte. Handwritten Document Analysis for Automatic Writer Recognition. Electronic Letters on Computer Vision and Image Analysis, 2005, 5(2), pp 72-86. Как и другие вышеупомянутые способы, данный способ ориентирован на использование базы данных темплейтов, соответствующих различным почеркам и сформированных по выборке рукописных документов, написанных различными почерками (т.е. имеющих различных авторов). При этом подготовка каждого темплейта включает получение образца почерка в цифровой бинаризованной форме и его предварительную обработку, предусматривающую, в частности, сегментацию каждого образца почерка с выделением набора графем и с фильтрацией шумовых участков. В результате дальнейшей обработки каждого набора графем (с применением процедуры автоматической кластеризации) получают наборы векторных описаний графем, составляющих основу векторных темплейтов образцов почерка. При этом, как и в других аналогичных способах, в качестве меры близости сравниваемых образцов почерка используют количественную меру близости векторных темплейтов. В указанной работе Bensefia et al. описано также использование рассмотренного способа оценки сходства образцов почерка для осуществления способов верификации и идентификации.
Использование в известном способе операций автоматической кластеризации существенно усложняет его осуществление. Кроме того, результаты статистического анализа, выполняемого при проведении верификации или идентификации известным способом, зависят от конкретной базы (при вводе образца почерка нового автора список всех состояний по всем авторам изменяется). При этом решение в отношении верификации или идентификации принимается на основании статистического критерия взаимной информации по данным очень большой размерности (400-500 состояний).
Раскрытие изобретения
Таким образом, существует потребность в разработке простого в осуществлении и эффективного способа количественного сравнения образцов почерка, которые могут быть преобразованы в цифровую форму стандартными цифровыми устройствами ввода с умеренным разрешением. При этом необходимо обеспечить высокую надежность получаемых оценок без необходимости использования образцов почерка, содержащих большое количество символов.
Еще одна задача, решаемая изобретением, заключается в обеспечении возможности распознавания почерка (в целях верификации и/или идентификации) в условиях независимости от текста, т.е. с получением сравниваемых образцов почерка из текстов несовпадающего содержания.
Перечисленные задачи решены созданием способа определения количественной оценки сходства образцов почерка, который включает следующие операции:
- (а) получение каждого образца почерка в цифровой бинаризованной форме,
- (б) сегментацию каждого образца почерка с выделением набора графем и с фильтрацией шумовых участков;
- (в) обработку каждого набора графем с получением набора векторных описаний графем;
- (г) формирование на основе каждого полученного набора векторных описаний графем векторного темплейта образца почерка;
- (д) получение количественной меры близости векторных темплейтов сравниваемых образцов почерка; и
- (ж) определение количественной меры близости сравниваемых образцов почерка с использованием количественной меры, полученной на операции (д).
При этом отличительными особенностями способа по изобретению является то, что операция сегментации включает в себя нахождение оценки α угла наклона строк, скелетизацию линий символов в образце почерка и удаление точек ветвления линий с разбиением образца почерка на графемы .
Кроме того, операция обработки каждого набора графем включает:
получение описания каждой графемы в виде набора координат
где
ni - количество точек графемы,
- координаты ее j-й точки;
преобразование, с использованием найденной оценки α угла наклона строк, каждой графемы в нормированную по положению и ориентации графему
где
(хс, yс) - координаты опорной точки нормировки;
определение метрических характеристик каждой графемы и исключение графем с нетипичными метрическими характеристиками, и
преобразование каждой графемы в вектор с использованием фиксированного количества nf точек графемы, где nf<ni.
При этом перед выполнением операции формирования темплейта для сравниваемых образцов почерка выполняют перечисленные операции (а)-(в) для каждого образца предварительно созданной выборки образцов различных почерков с формированием представительной обучающей выборки векторов описаний образцов почерка и по результатам анализа сформированной выборки определяют оператор приведения векторов описаний образцов почерка к главным компонентам.
Еще одной особенностью является то, что операция (г) в способе по изобретению включает преобразование, посредством указанного оператора, каждого вектора, полученного на операции (в) для сравниваемых образцов почерка, в вектор меньшей размерности и использование, в качестве темплейта образца почерка, набора векторов меньшей размерности, соответствующего указанному образцу.
Предлагаются также предпочтительные варианты осуществления способа по изобретению, которые характеризуются соответствующими дополнительными признаками.
Так, для обеспечения высокой достоверности идентификации анализируемого образца почерка длину этого образца (как и длину каждого образца из используемой выборки образцов почерка) выбирают таким образом, чтобы набор графем, формируемый из каждого образца почерка, составлял не менее 300 графем. Важной полезной особенностью способа является то, что сравниваемые образцы почерка могут формироваться из текстов несовпадающего содержания. Эта особенность существенно облегчает формирование базы данных образцов почерка и позволяет использовать для анализа любой доступный текст достаточной длины, а не только текст, подготовленный по определенным правилам, например включающий заданные слова.
Далее перед определением метрических параметров графемы из двух ее крайних точек (х1, y1) и рекомендуется выбрать в качестве точки ее начала точку с наименьшим значением х, а при х1=хn - точку с наименьшим значением y. При этом в случае выбора в качестве точки начала точки необходимо произвести перестановку точек в описании графемы в обратном порядке, с преобразованием графемы в графему .
Основная часть операций способа по изобретению может быть реализована в различных альтернативных вариантах. Так, при преобразовании графемы в графему в качестве опорной точки может быть выбран центроид исходной графемы, ее начало или конец, а также центр тяжести.
В качестве метрических характеристик каждой графемы может быть использована любая приемлемая комбинация следующих параметров: косинуса и синуса ее угла наклона, длины графемы и размеров наименьшего охватывающего прямоугольника. При этом графемы с нетипичными значениями перечисленных характеристик (соответствующие присутствующим в образце почерка различным посторонним элементам типа линеек, клеток и т.д.) целесообразно исключить из используемого набора графем посредством векторной фильтрации. В то же время названные метрические характеристики графемы (или их часть) могут быть включены в компоненты вектора, в который преобразуется графема.
Количество компонент в векторе меньшей размерности может быть определено по результату обработки представительной обучающей выборки с использованием одного из стандартных методов уменьшения размерности, например метода анализа главных компонент или метода анализа независимых компонент. При этом качестве количественной меры близости сопоставляемых темплейтов предпочтительно использовать произведение Р-значений одного из стандартных критериев согласия (например, критерия Колмогорова-Смирнова или критерия хи-квадрат) по всем компонентам указанного вектора.
В качестве достоинств способа по изобретению (которые будут более подробно рассмотрены в разделе "Осуществление изобретения") можно отметить, что он позволяет избежать таких этапов предварительной обработки образцов текста, как нормировка всего изображения по размеру и наклону рукописных символов. Кроме того, обеспечивается автоматическое удаление нетекстовых элементов (строк, подчеркиваний, линий, шумов и т.д.). Не требуется этапа транскрипции, т.е. расшифровки самого текста.
Изобретение охватывает также способ верификации личности по верифицируемому образцу почерка путем определения сходства верифицируемого образца почерка и заранее сформированного эталонного образца текста, привязанного к установочным данным верифицируемой личности, с использованием количественной оценки сходства. При этом для определения указанной количественной оценки сходства в способе верификации по изобретению используют любой из вышеописанных вариантов осуществления способа определения количественной оценки сходства образцов почерка, причем эталонный образец почерка предпочтительно хранят в виде темплейта в составе сформированной для этой цели базе данных темплейтов.
Изобретение охватывает, кроме того, способ идентификации почерка путем определения сходства образца идентифицируемого почерка и образцов почерка из предварительно сформированной базы данных, содержащей идентифицированные образцы почерка, причем в способе используют количественные оценки сходства и составляют список идентифицированных образцов почерка, ранжированный по значениям оценок сходства с образцом идентифицируемого почерка. Подобно тому, как это предложено для вышеупомянутого способа верификации, количественные оценки сходства определяют с использованием любого из вышеописанных вариантов осуществления способа определения количественной оценки сходства образцов почерка. При этом база данных идентифицированных образцов почерка предпочтительно представляет собой базу данных темплейтов этих образцов.
Краткое описание чертежей
На фиг.1 приведен характерный исходный образец почерка, пригодный для осуществления изобретения.
На фиг.2 представлен результат обработки образца почерка, приведенного на фиг.1.
Осуществление изобретения
Способ определения количественной оценки сходства образцов почерка согласно изобретению можно разделить на две стадии: построение темплейта и сравнение темплейтов. Для реализации способа необходимо располагать базой данных (БД) темплейтов, построенной на основе представительной выборки образцов различных почерков. Порядок построения темплейтов, вводимых в БД, точно такой же, как и для образцов почерка, подлежащих сравнению в рамках способа по изобретению. При этом для формирования темплейта с целью занесения в БД желательно иметь образец текста не менее 30 слов. Желательно также, чтобы текст имел форму нескольких (предпочтительно не менее трех) рукописных строк. Такая длина и форма текста в принципе достаточны для получения стабильных результатов, при этом одним из преимуществ способа является то, что исходные (рукописные) образцы почерка могут соответствовать текстам несовпадающего содержания. Один из реальных образцов почерка, использованный при экспериментальной проверке изобретения, приведен на фиг.1.
Построение темплейта
Первой операцией, выполняемой на этапе обработки изображения образца почерка, является получение образца почерка в цифровой бинаризованной форме. Преобразование исходных (рукописных) образцов в электронную форму может быть осуществлено любым подходящим для этой цели цифровым устройством ввода (предпочтительно стандартным планшетным сканером) с разрешением, при котором эффект дискретизации не искажает качество распознавания (рекомендуемое разрешение 300 dpi). Далее оцифрованное изображение или какой-либо выделенный его участок преобразуют к бинарному виду, т.е. пикселы изображения, соответствующие линиям символов, получают одно из двух бинарных значений, а пикселы, соответствующие фону, - другое. Для осуществления этой операции может быть использован любой метод автоматической бинаризации, который хорошо отделяет изображения букв от фона. При дальнейшем рассмотрении принимается, что линии белые (значение "1"), а фон черный (значение "0").
После бинаризации образца почерка находят оценку угла наклона строк (УНС). Специалистам хорошо известны различные методы оценки УНС. В качестве одного из предпочтительных вариантов можно отметить метод, основанный на суммировании бинарных значений вдоль различных направлений в растровом монохромном изображении рукописного текста (полученного в результате выполнения бинаризации). Для каждого выбранного направления получают одномерную последовательность и находят оценку ее дисперсии. В качестве оценки УНС принимают значение угла α, который дает наибольшую дисперсию.
После этого одним из известных методов, в частности с использованием фильтра низких частот выполняют фильтрацию шумовых участков в бинарном изображении образца почерка, а также скелетизацию линий символов. После данного преобразования каждая точка линии символа в образце почерка (кроме случаев окончания и ветвления линий) будет иметь только два соседа со значением 1.
На следующей операции удаляют точки, соответствующие ветвлениям линий (т.е. имеющие более 2-х соседей со значением 1). В результате формируется набор несвязных линий, каждая точка которых имеет не более двух равнозначных соседей и только 2 точки (точки окончаний) на одной линии имеют только одного равнозначного соседа. Такие линии далее будут именоваться графемами. Графема представляет собой участок линии (в дискретном представлении) без самопересечений, т.е. она задается координатами начальной точки, конечной точки и всех точек линии. Путем обхода каждой отдельной графемы от конечной точки получают ее описание в виде набора координат на дискретной сетке.
Пусть в преобразуемом образце почерка содержится ng графем, а исходное описание i-й графемы представлено в виде:
где ni - количество точек графемы, - координаты j-й точки.
Далее выполняют нормировку графем по положению:
где
α= оценка УНС.
В качестве опорной точки для нормировки (хc, yc) можно взять любую однозначно вычисляемую оценку-, В качестве опорной можно взять, например, начальную точку, конечную точку или любую функцию, переводящую набор координат в вектор, например центр тяжести или центроид:
Если нужно избежать вариабельности наклона символов, которая может быть связана с нечетким соблюдением наклона строки при написании либо с психологическим состоянием автора, можно сделать дополнительную нормировку по ориентации, определяемую любой из однозначно вычисляемых оценок, например по направлению вектора начала графемы (х1, y1)T, либо вдоль оси инерции и т.д. После преобразования (2) важно выбрать точку начала графемы. Это можно сделать, например, следующим образом: из двух точек (х1, y1) и выбирают ту, у которой абсцисса меньше, если же абсциссы совпадают, выбирают ту, у которой ордината меньше. Если начальной точкой оказалась , то точки в описании графемы переставляются в обратном порядке. После выбора начальной точки и изменения порядка следования точек линии (там, где это необходимо) получают описание графемы следующего уровня:
После преобразования графем в векторную форму проводят "векторную" фильтрацию, т.е. исключение графем с нетипичными метрическими характеристиками. Данная фильтрация позволяет удалять линейки, клетки и прочие нетекстовые элементы на изображении.
Каждое описание преобразуют в новое описание с фиксированным количеством точек nf:
где
квадратные скобки здесь означают округление до ближайшего целого. Таким образом, описание графемы получают в виде вектора Vi с 2nf компонентами, которые далее будут обознаться, как .
Для каждой графемы вычисляют также дополнительные метрические параметры, в качестве которых могут быть использованы, например, угол наклона графемы, ее длина и/или размеры наименьшего охватывающего прямоугольника. Эти признаки более отдалены от природы изображения (рукописного текста) и описывают скорее параметры текстуры. Можно использовать и другие текстурные признаки. В распознавании (т.е. при верификации или идентификации) их можно использовать для вычисления дополнительного критерия соответствия текстурных характеристик.
Более предпочтительный вариант использования дополнительных метрических параметров заключается в том, что к 2nf компонентам графемы добавляют еще несколько компонентов, например длину, косинус и синус угла наклона, размеры наименьшего охватывающего прямоугольника, с получением результирующего вектора из n0=2nf+k компонент (в приведенном примере k=5). Дальнейшая обработка в этом варианте проводится именно для векторов размерности n0 (а не 2nf).
Если есть необходимость в обеспечении инвариантности к размеру символов, можно нормировать координаты в описании (2) делением на усредненный по всем графемам метрический параметр.
Результаты векторизации исходного образца почерка (приведенного на фиг.1) представлены на фиг.2, где светлые линии отображают векторное представление графем. Приведенный на фиг.2 результат получен при выборе 16 точек на графему (nf=16), причем для получения графического представления точки соединяют отрезками прямых. Как видно из фиг.2, при таком выборе количества точек графемы в векторном представлении отображаются вполне адекватно. Видно также, что нетекстовые структуры автоматически фильтруются, а графемы нормируются по интегральному значению УНС.
Используя представительную выборку векторов описаний образцов почерка, полученную по множеству текстов различных авторов, одним из методов приведения к главным компонентам, независимым в рамках некоторой модели, например методом анализа главных компонент (РСА - principal component analysis) или методом анализа независимых компонент (ICA - independent component analysis), - см., например, R.О.Duda, Р.Е.Hart, D.G. Stork. Pattern Classification (2nd ed.), (2000). New York: John Wiley Press и L.I.Smith A tutorial on principal components analysis. (2002). Retrieved from www.cs.otago.ac.nz/cosc453/student.tutorials/principal_component.pdf. - находят оператор преобразования векторов Vi в вектора меньшей размерности Рi с компонентами , j=1÷np, np<2nf. Размерность вектора главных компонент определяют исходя из особенностей статистики исследуемой выборки.
Полностью темплейт описания почерка для данного участка текста определяется набором .
Метод сравнения двух темплейтов
Поскольку главные компоненты предположительно независимы, для сравнения двух темплейтов и можно для каждой компоненты k отдельно вычислить Р-значение статистики одного из стандартных критериев согласия, например, Колмогорова-Смирнова или χ2 (хи-квадрат) выборок и .
Обозначим это значение через . Поскольку в базисе главных векторов корреляционной матрицы (главных компонент) значения компонент рассматриваются как статистически независимые между собой, для многомерной оценки можно просто умножать оценки для каждой из компонент. Тогда в качестве меры сходства двух почерков можно использовать величину
где f(x) - любая монотонно возрастающая функция, которая обычно выбирается нормировкой по ошибке ложного опознавания "чужого".
В качестве основных отличительных особенностей и преимуществ способа по изобретению можно отметить следующие:
- графемы в анализируемых образцах рассматриваются как характеристики написания, а не как элементы букв или других зависящих от текста структурных единиц;
- графемы преобразуются в векторный вид, что позволяет обойтись без таких сложных этапов предобработки, как нормировка всего изображения по размеру и наклону рукописных символов, удаление нетекстовых элементов (строк, подчеркиваний, линий, шумов и т.д.), тогда как нормировка и фильтрация нетекстовых структур в векторном виде намного проще в вычислительном смысле;
- не требуется выделение строк, отдельных слов, букв и т.д.;
- не требуется этапа транскрипции, т.е. расшифровки самого текста;
- оператор преобразования в пространство главных компонент вычисляется один раз и в дальнейшем не зависит от предъявляемых данных.
Перечисленные преимущества способа определения количественной оценки сходства образцов почерка делают его весьма эффективным в качестве основы способа верификации личности по верифицируемому образцу почерка. В этом случае в качестве одного из двух сравниваемых темплейтов используют хранящийся в базе данных темплейт эталонного образца почерка, привязанного к установочным данным верифицируемой личности. Темплейт эталонного образца формируют точно так же, как это было описано выше, т.е. на него не накладываются какие-либо дополнительные ограничения в отношении содержания текста, разбиения на строки и т.д.
При этом, как уже было отмечено, критерий верификации представляет собой обычный, теоретически обоснованный уровень значимости. Кроме того, не используются никакие дополнительные неробастные настройки, которые имеют место на этапе автоматической кластеризации и выделения основных состояний в большинстве известных способов аналогичного назначения (включая способы, упомянутые в разделе "Уровень техники").
Использование предложенного способа определения количественной оценки сходства образцов почерка для осуществления идентификации, по существу, аналогично его использованию для целей верификации. Способ идентификации также предусматривает использование базы данных идентифицированных образцов почерка, предпочтительно организованной в виде базы данных темплейтов образцов почерка, сформированных, как это было описано выше. Однако в этом случае образец почерка, подлежащий идентификации, предъявляется без каких-либо дополнительных данных о личности человека, которому принадлежит данный идентифицируемый образец, поэтому сравнение данного образца производится не с единственным эталонным образцом, а с множеством идентифицированных образцов. По результатам такого множественного сравнения составляют список идентифицированных образцов почерка, ранжированный по значениям оценок сходства с образцом идентифицируемого почерка. Если темплейт образца идентифицированного почерка имеется в базе данных темплейтов, он с высокой вероятностью окажется первым в ранжированном списке темплейтов, т.е. будет иметь наивысшую (и очень высокую) оценку сходства с темплейтом идентифицируемого образца. В результате анализируемый образец почерка может быть идентифицирован как почерк личности, соотнесенной с темплейтом соответствующего образца почерка, тем самым будет идентифицирована личность человека, которому принадлежит анализируемый образец почерка.
При проведении экспериментальной проверки изобретения были получены следующие результаты, свидетельствующие о высокой надежности способов верификации и идентификации согласно изобретению: при наличии не менее 300 графем в сравниваемых образцах в 95% случаев можно говорить об идентичности сравниваемых образцов почерка с достоверностью 90%, в 70% случаев - с достоверностью 99%, в 60% случаев - с достоверностью 99,9%.
Специалистам в данной области должно быть очевидно, что в конкретные варианты их осуществления, представленные в данном описании, могут быть внесены многочисленные модификации и дополнения, не выходящие за пределы предложенной группы изобретений. Например, возможно применение различных методик количественного сопоставления образцов почерка в векторной форме, а также использование различных критериев согласия и т.д.
1. Способ определения количественной оценки сходства образцов почерка, содержащих символы, расположенные, по меньшей мере, в одной строке, включающий:
(а) получение каждого образца почерка в цифровой бинаризованной форме,
(б) сегментацию каждого образца почерка с выделением набора графем и с фильтрацией шумовых участков;
(в) обработку каждого набора графем с получением набора векторных описаний графем,
(г) формирование на основе каждого полученного набора векторных описаний графем векторного темплейта образца почерка,
(д) получение количественной меры близости векторных темплейтов сравниваемых образцов почерка и
(ж) определение количественной меры близости сравниваемых образцов почерка с использованием количественной меры, полученной на операции (д), отличающийся тем, что операция (б) включает нахождение оценки α угла наклона строк, скелетизацию линий символов в образце почерка и
удаление точек ветвления линий с разбиением образца почерка на графемы ;
операция (в) включает
получение описания каждой графемы в виде набора координат
,
где ni - количество точек графемы,
- координаты ее j-й точки,
преобразование, с использованием найденной оценки α угла наклона строк, каждой графемы в нормированную по положению и ориентации графему , где
xc, yc - координаты опорной точки нормировки,
определение метрических характеристик каждой графемы и исключение графем с нетипичными метрическими характеристиками и преобразование каждой графемы в вектор с использованием фиксированного количества nf точек графемы, где nf<ni; при этом перед выполнением операции (г) для сравниваемых образцов почерка создают выборку образцов различных почерков, выполняют операции (а)-(в) для каждого образца выборки с формированием представительной обучающей выборки векторов описаний образцов почерка и по результатам анализа сформированной выборки определяют оператор приведения векторов описаний образцов почерка к главным компонентам, причем
операция (г) включает преобразование посредством указанного оператора каждого вектора, полученного на операции (в) для сравниваемых образцов почерка, в вектор меньшей размерности и
использование в качестве темплейта образца почерка набора векторов меньшей размерности, соответствующего указанному образцу.
2. Способ по п.1, отличающийся тем, что длину образцов почерка выбирают таким образом, чтобы набор графем, формируемый из каждого образца почерка, составлял не менее 300 графем.
3. Способ по п.1, отличающийся тем, что сравниваемые образцы почерка формируют из текстов несовпадающего содержания.
4. Способ по п.1, отличающийся тем, что образцы почерка, образующие указанную выборку, формируют из текстов несовпадающего содержания.
5. Способ по п.1, отличающийся тем, что в качестве опорной точки при преобразовании графемы в графему используют центроид графемы с координатами , .
6. Способ по п.1, отличающийся тем, что в качестве опорной точки при преобразовании графемы в графему используют начальную или конечную точку графемы Gi.
7. Способ по п.6, отличающийся тем, что перед определением метрических параметров графемы из двух ее крайних точек (x1, y1) и выбирают в качестве точки ее начала точку с наименьшим значением x, а при x1=xn - точку с наименьшим значением y, при этом в случае выбора в качестве точки начала точки производят перестановку точек в описании графемы в обратном порядке, с преобразованием графемы в графему .
8. Способ по п.1, отличающийся тем, что в качестве метрических характеристик каждой графемы используют косинус и синус ее угла наклона, длину графемы и/или размеры наименьшего охватывающего прямоугольника.
9. Способ по п.8, отличающийся тем, что посредством векторной фильтрации исключают из набора графем графемы с нетипичными характеристиками.
10. Способ по п.8, отличающийся тем, что при преобразовании графемы в вектор указанные метрические характеристики графемы включают в компоненты указанного вектора.
11. Способ по п.1, отличающийся тем, что количество компонент в векторе меньшей размерности определяют по результату обработки представительной обучающей выборки с использованием метода анализа главных компонент.
12. Способ по п.1, отличающийся тем, что количество компонент в векторе меньшей размерности определяют по результату обработки представительной обучающей выборки векторов описаний образцов почерка с использованием метода анализа независимых компонент.
13. Способ по п.12, отличающийся тем, что в качестве количественной меры близости темплейтов используют произведение Р-значений критерия согласия Колмогорова-Смирнова по всем компонентам вектора меньшей размерности.
14. Способ по п.12, отличающийся тем, что в качестве количественной меры близости темплейтов используют произведение Р-значений критерия согласия хи-квадрат по всем компонентам вектора меньшей размерности.
15. Способ верификации личности по верифицируемому образцу почерка путем определения сходства верифицируемого образца почерка и заранее сформированного эталонного образца текста, привязанного к установочным данным верифицируемой личности, с использованием количественной оценки сходства, отличающийся тем, что количественную оценку сходства верифицируемого и эталонного образцов определяют в соответствии со способом по любому из пп.1-14.
16. Способ по п.15, отличающийся тем, что эталонный образец почерка хранят в виде темплейта.
17. Способ идентификации почерка путем определения сходства образца идентифицируемого почерка и образцов почерка из предварительно сформированной базы данных, содержащей идентифицированные образцы почерка, причем в способе используют количественные оценки сходства и составляют список идентифицированных образцов почерка, ранжированный по значениям оценок сходства с образцом идентифицируемого почерка, отличающийся тем, что количественные оценки сходства образца идентифицируемого почерка и каждого используемого образца почерка из указанной базы данных определяют в соответствии со способом по любому из пп.1-14.
18. Способ по п.17, отличающийся тем, что база данных идентифицированных образцов почерка представляет собой базу данных темплейтов указанных образц