Способ идентификации печати на цифровом изображении
Иллюстрации
Показать всеИзобретение относится к способу идентификации печати на цифровом изображении. Техническим результатом является снижение временных затрат на распознавание изображения печати. Способ идентификации печати на цифровом изображении заключается в том, что предварительно приводят изображение объекта, вводимого в компьютер, к нормальному, стандартному для данного способа виду - изменению масштаба, центрированию, причем производят поиск местоположения изображения объекта, соответствующего оттиску печати, а затем приводят изображение объекта к нормальному виду, после чего переводят значения яркостей пикселей изображения из декартовой в полярную систему координат с внесением избыточности, вычисляют границы резких переходов в значениях яркостей пикселей изображения, формируют характеристический вектор признаков, устанавливают идентичность изображения объекта одной из эталонных печатей путем распознавания на основе метода опорных векторов. 4 ил.
Реферат
Изобретение относится к автоматике и вычислительной технике и, в частности, к системам компьютерного зрения и предназначено для идентификации оттисков печатей на изображении и может быть использовано в системах электронного документооборота.
Известен способ компьютерного распознавания объектов (см. патент RU 2191431 С2, кл. МПК G06K 9/68, от 03.12.1999), при котором на экран монитора выводится изображение распознаваемого объекта, преобразованное в изображение, выполненное в градациях - различных степенях яркости одного цвета, и на него последовательно, поочередно накладываются изображения хранящихся в памяти компьютера шаблонов, выполненных, например, в градациях зеленого, что позволяет увидеть в зоне перекрытия изображений изображение другого, отличного от первых двух цвета, которое и фиксируется как распознанное в случае тождественных, идентичных, а значит, имеющих одинаковый контур изображений распознаваемого объекта и шаблона.
Недостатком данного способа является необходимость визуального сравнения шаблонов с анализируемым изображением, что приводит к большим временным затратам.
Известен способ распознавания сложного графического объекта (Патент №2297039 РФ, кл. G06K 9/62), заключающийся в том, что изображения всех эталонных объектов разбивают на пересекающиеся доменные блоки, представляющие собой часть изображения в виде квадрата, а изображение анализируемого объекта разбивают на непересекающиеся ранговые блоки, размер которых меньше доменных блоков, и производят поиск наилучшего сопоставления всех ранговых блоков анализируемого изображения и доменных блоков всех эталонных изображений с использованием сжимающих аффинных преобразований, результат подают на классификатор, а затем принимают решение о совпадении изображений анализируемого объекта с эталонным, отличающийся тем, что одновременно с поиском доменно-ранговых сопоставлений для каждого эталонного объекта формируют векторы расстояний между геометрическими центрами сопоставленных доменных, для эталонного объекта, и ранговых, для анализируемого объекта, блоков, записывают их в виде таблицы, после завершений сопоставления таблицу подают на классификатор, а решение о совпадении анализируемого изображения с одним из эталонных принимают по наименьшему расстоянию между анализируемым и эталонным изображением, полученному от классификатора.
Недостатком данного способа является большая вычислительная сложность при поиске наилучшего сопоставления всех ранговых блоков, что ведет к временным затратам. Сложность сопоставления значительно возрастает при росте числа таких блоков. При этом при уменьшении количества ранговых блоков значительно снижается точность идентификации изображения объекта.
Наиболее близким по технической сущности к заявляемому изобретению (прототипом) является способ компьютерного распознавания объектов (см. патент RU 2234127 С2, кл. МПК G06K 9/68, от 05.06.2002), при котором программа распознавания объектов пошагово совмещает нормализованные изображения, центрированные и вписанные в одинаковых размеров ячейки таблицы распознаваемых объектов, и изображения шаблонов, центрированные и вписанные в аналогичные ячейки таблицы шаблонов, с шагом, равным высоте строки с ячейками или ширине столбца ячеек таблиц.
Недостатком данного способа является необходимость хранения в памяти всех возможных вариантов шаблонов для одного изображения. Пошаговое сравнение каждого шаблона с анализируемым изображением требует значительных вычислительных и временных ресурсов. Кроме того, при пошаговом совмещении изображений даже небольшие различия в структуре изображений приводят к резкому увеличению ошибки распознавания. При этом остается нерешенным вопрос о выборе шага поворота эталонного изображения. Следует отметить, что при выборе шага поворота достаточно большим возможно попадание в зону локального минимума, а при слишком маленьком шаге возрастают вычислительные затраты.
Задачей изобретения является разработка способа идентификации оттиска печати на цифровом изображении (ЦИ), позволяющего снизить временные затраты на распознавание изображения печати.
Эта задача решается тем, что в способ идентификации печати на цифровом изображении после операций предварительной обработки и центрирования изображения дополнительно введены процедура перевода значений яркостей пикселей из декартовой в полярную систему координат с внесением избыточности, процедура вычисления границ резких переходов в значениях яркостей пикселей изображения, процедура формирования характеристического вектора признака и процедура классификации изображения с помощью обученного классификатора.
Введение процедур формирования характеристического вектора для изображений печатей круглой формы на основе использования корреляционного анализа позволяет получить инвариантные к повороту информационные признаки. При этом формирование характеристического вектора происходит посредством вычисления коэффициента корреляции в смежных кольцах значений яркостей пикселей изображения.
Принципиальным отличием предложенного метода от методов сопоставления шаблонов является инвариантность получаемого информационного признака к повороту изображения печати. При этом в отличие от прототипа отсутствует необходимость полного перебора всех возможных положений анализируемого изображения относительно шаблона с шагом в 1 пиксель. Вследствие чего скорость работы значительно возрастает.
Под кольцом значений яркостей пикселей радиуса r понимается совокупность значений яркостей пикселей на окружности с центром в точке ( x ¯ , y ¯ ). Эти значения формируются посредством считывания значения яркости пикселя на расстоянии r от центра изображения и с шагом а в полярной системе координат.
Под значением яркостью пикселя понимается значение интенсивности цвета полутонового изображения (Гонсалес Р., Вудс Р., Эддинс С. Цифровая обработка изображений в среде MATLAB. Техносфера, Москва, 2006 г. С.502).
Под средней ошибкой при многоклассовом распознавании понимается усредненное значение суммы ложной тревоги и пропуска цели для каждого класса изображений.
Под классом изображений печати n понимается совокупность ЦИ печати, сделанной при разных углах поворота, освещенности, различном фоне.
В настоящее время разработаны способы, позволяющие с высокой точностью определять форму изображений-объектов. При идентификации печатей особую сложность представляют печати круглой формы.
Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности «новизна».
Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность отличительных существенных признаков, обусловливающих тот же технический результат, который достигнут в заявляемом способе. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».
Заявленный способ поясняется чертежами, на которых показано:
фиг.1 - блок-схема реализации способа идентификации оттиска печати на ЦИ;
фиг.2 - пример формирования векторов яркостей пикселей в полярной системе координат;
фиг.3 - пример вычисленного характеристического вектор-признака для различных печатей круглой формы;
фиг.4 - сравнение результатов имитационного моделирования для способа-прототипа и заявленного способа.
Реализация заявленного способа заключается в следующем (фиг.1).
Блок 1 поиска местоположения печатей на изображении осуществляется с помощью известных способов поиска объектов на цифровом изображении (Сай И.С. Эффективность алгоритмов поиска оттиска печати в изображении документа // Вестник ТОГУ. - 2009. - №4(15). - С.53-60).
Далее в блоке 2 осуществляется предобработка выделенной области изображения, предположительно содержащей печать, которая включает процедуры выравнивания освещенности, нормализации, удаления шумов, масштабирования и фильтрации. Затем в блоке 3 осуществляется процедура центрирования изображения и вычисляется его центр:
где
m - ширина;
n - высота изображения;
I(х,у) - значение яркости пикселя изображения с координатами (х,у).
Далее в блоке 4 осуществляется перевод пикселей изображения из декартовой в полярную систему координат с внесением избыточности
Сначала осуществляется расчет числа радиусов окружностей N:
Таким образом, все образовавшиеся окружности будут замкнутыми с увеличением радиуса каждой последующей окружности на 1 пиксель.
Далее вычисляется количество точек К на каждой окружности, которые в дальнейшем будут перенесены в полярную систему координат (4)
Иными словами, число точек вычисляется исходя из того условия, что на окружности наибольшего радиуса расстояние между 2 соседними точками должно быть не больше размера 1 пикселя. Пример такого разложения показан на фиг.2.
На нем красными линиями обозначены окружности, проведенные с увеличением радиуса на 1 пиксель. Желтыми линиями обозначены прямые, проведенные из центра масс данного изображения. При этом минимальный угол β между двумя прямыми, проходящими через точку ( x ¯ , y ¯ ), вычисляется по следующей формуле:
Далее осуществляется последовательный перевод пикселей в полярную систему координат с внесением избыточности. В силу того, что для расчета коэффициента корреляции между двумя последовательностями величин необходимо, чтобы они были одинаковой размерности, добавлена процедура внесения избыточности, т.е. для того, чтобы на окружностях меньшего радиуса число точек было таким же, как и на самой большой окружности. Избыточность вносится следующим образом: исходя из вычисленных N и К считываются значения яркостей пикселей изображения по радиусу с шагом β и увеличением радиуса кольца на 1 пиксель. Эта избыточность необходима для дальнейшей обработки. Необходимо отметить, что на скорость получения информативного признака данная избыточность сильного влияния не оказывает.
Пример получения колец значений яркостей пикселей в полярной системе координат от центра против часовой стрелки с определенным углом β и шагом радиуса в 1 пиксель представлен на фиг.2.
Далее в блоке 5 вычисляются границы резких переходов в значениях яркостей пикселей изображения. Т.е. из кортежей вида 〈In(αk,rn), k=1,2,…К; n=1,2,…,N;〉, формируется вектор бинарных значений U длины N.
Для этого рассчитывается коэффициент корреляции между двумя кольцами радиуса ra и rb соответственно (Кобзарь, А.И. Прикладная математическая статистика. Для инженеров и научных работников / А.И. Кобзарь. - М.: ФИЗМАТЛИТ, 2006. - 816 с. - ISBN 5-9221-0707-0):
где
Проверка значимости корреляционной связи осуществляется посредством сравнения рассчитанного коэффициента корреляции с критическим значением rα, где α - доверительная вероятность, rα является α-квантилем распределения r. Корреляция между случайными величинами признается значимой, если rab>rα.
При К>200, rα рассчитывается по следующей формуле:
где
uα - α-квантиль стандартного нормального распределения. Квантиль - значение, которое заданная случайная величина не превышает с заданной вероятностью.
В блоке 6 происходит формирование собственного характеристического вектора-признака U=〈f(2),f(3),…,f(N)〉 в соответствие с формулами 9, 10.
i(n), n=2, 3, …, N-1 - размер радиуса эталонной окружности для окружности радиуса n. Под эталонной окружностью понимается окружность меньшего радиуса, такая что:
i(2)=1;
В итоге формируют бинарный вектор значений. Значение 1 в позиции n означает, что в этой позиции коэффициент корреляции с достоверностью α больше значения критического коэффициента корреляции rα, то есть с достоверностью α в данном месте присутствует резкий переход функции яркости смежных колец пикселей. Пример сформированных характеристических векторов для различных печатей представлен на фиг.3.
После формирования массива признаков на основе теории распознавания образов (Vapnik V.N. The Nature of Statistical Learning Theory. Springer, 1995) с применением метода опорных векторов производят классифицирование ЦИ печатей на Z классов-эталонов (блок 7).
Правомерность теоретических предпосылок проверялась с помощью имитационных моделей системы-прототипа и системы, реализующей заявленный способ идентификации печати.
Показателем эффективности способов идентификации печатей является время, затрачиваемое на идентификацию одной печати, а также средняя ошибка классификации.
Для оценки качества функционирования разработанного способа были проведены эксперименты по идентификации печатей круглой формы. С этой целью были сформированы обучающие наборы для четырех классов печатей и контрольная выборка. Обучающий набор для каждого класса печати состоял из 1000 файлов одной и той же печати, повернутой на разный угол. В контрольную выборку были включены 2000 файлов, не входящих в обучающие наборы, 1000 являлись печатями других классов.
Результаты, представленные на фиг.4, подтверждают существенный положительный эффект от внедрения нового способа. График показывает значительное снижение временных затрат на распознавание одного изображения печати при средней ошибке классификации не превышающей 5%.
Промышленная применимость изобретения обусловлена тем, что устройство, реализующее предложенный способ, может быть осуществлено с помощью современной элементной базы с достижением указанного в изобретении назначения.
Способ идентификации печати на цифровом изображении, заключающийся в том, что предварительно приводят изображение объекта, вводимого в компьютер, к нормальному, стандартному для данного способа виду - изменению масштаба, центрированию, отличающийся тем, что производят поиск местоположения изображения объекта, соответствующего оттиску печати, а затем приводят изображение объекта к нормальному виду, после чего переводят значения яркостей пикселей изображения из декартовой в полярную систему координат с внесением избыточности, вычисляют границы резких переходов в значениях яркостей пикселей изображения, формируют характеристический вектор признаков, устанавливают идентичность изображения объекта одной из эталонных печатей путем распознавания на основе метода опорных векторов.