Способ разрешения противоречивых выходных данных из системы оптического распознавания символов (ocr), где выходные данные включают в себя более одной альтернативы распознавания изображения символа

Патент 2436156

Авторы

Правообладатели

ЛЮМЭКС АС (NO)

Классы МПК

G06K9/64 - с помощью одновременных сравнений или корреляций сигналов изображения с множеством эталонов, например с сеткой регистров

Способ разрешения противоречивых выходных данных из системы оптического распознавания символов (ocr), где выходные данные включают в себя более одной альтернативы распознавания изображения символа

Иллюстрации

Показать все

Изобретение относится к вычислительной технике. Технический результат заключается в сокращении неопределенностей, связанных с выбором правильных символов-кандидатов среди нескольких символов-кандидатов. Способ разрешения противоречивых выходных данных из системы оптического распознавания символов (OCR), обеспечивающей преобразование растровых документов в текст в компьютерных кодах в качестве выходных данных. Выходные данные системы OCR включают в себя, по меньшей мере, первый и второй символы, входящие в список вероятных кандидатов для экземпляра одного и того же выбранного образца символа из растрового документа. Разрешение противоречивых выходных данных осуществляется путем выполнения стадий, на которых идентифицируются местоположения различий в графическом виде между символами-кандидатами, а информация о местоположениях используется для идентификации соответствующих положений в выбранном образце символа. На основе метода корреляции информация о местоположении используется для выбора правильного символа-кандидата в качестве идентификации выбранного образца символа. 19 з.п. ф-лы, 31 ил., 2 табл.

Реферат

Настоящее изобретение относится к разрешению противоречивых выходных данных из системы оптического распознавания символов (OCR) и, в особенности, к способу обработки выходных данных OCR, где выходные данные включают в себя более одной альтернативы распознавания изображения символа.

Системы оптического распознавания символов обеспечивают трансформацию растрированных изображений документов в текст в кодах ASCII, что облегчает поиск, замену и переформатирование документов и т.д. в компьютерной системе. Одной из особенностей функциональности OCR является преобразование рукописных и машинописных документов, книг, медицинских журналов и т.д., например, в документы, доступные для поиска в сетях Интернет и Интранет. В целом, качество извлечения информации и поиска документов значительно улучшается в том случае, когда все документы доступны для электронного извлечения и поиска. Например, корпоративная система Интранет может связывать все старые и новые документы предприятия путем всестороннего применения функциональности OCR, являющейся частью сети Интранет (или частью сети Интернет в случае документов, представляющих общественный интерес).

Однако качество функциональности OCR ограничено большой сложностью системы OCR. Трудно обеспечить функциональность OCR, которая способна преодолеть любые трудности, встречающиеся при попытках преобразования изображений текста в текст в компьютерных кодах. Одним из примеров таких часто возникающих трудностей является неспособность системы OCR правильно различать символы тогда, когда их изображения в тексте кажутся эквивалентными. Например, символ с может быть легко интерпретирован как е и наоборот в случае, когда отличительные детали смазаны по причине грязи или старения и т.д. страницы, включающей эти символы. Эти трудности обычно идентифицируются программой OCR, поскольку система OCR может устанавливать, например, вероятность (или оценочное значение) для достоверного распознавания конкретного символа. Например, в случае, когда два или более символов имеют вероятность, позволяющую считать их, в значительной степени, равновероятными кандидатами для идентификации изображения символа, эти альтернативные символы-кандидаты вносятся, например, в список, являющийся частью выходных данных OCR, вместе со списком соответствующих слов, включающих в себя недостоверно распознаваемые символы, идентифицированные системой OCR. Иногда несколько символов могут быть недостоверно распознаны в одном и том же слове, что увеличивает сложность идентификации правильных символов-кандидатов и, таким образом, самих этих слов.

Согласно особенности настоящего изобретения, неопределенности, связанные с выбором правильных символов-кандидатов среди нескольких символов-кандидатов, можно разрешить, изучая различия в графическом виде, фактически встречающемся на изображениях символов-кандидатов в том виде, как они присутствуют в документе, включающем в себя эти символы, и использование этих идентифицированных графически различных видов для идентификации особенностей различий, присутствующих на изображении недостоверно распознаваемого символа. Ключевой пункт данной особенности настоящего изобретения заключается в том, что идентифицируется не графический вид различий между символами-кандидатами как таковой. Важная особенность настоящего изобретения заключается в идентификации на изображениях символов-кандидатов местоположений областей, которые включают в себя отличительные особенности. Используя информацию о местоположении области, обладающей отличительной особенностью, то же местоположение, или область, можно идентифицировать и в недостоверно распознаваемом символе. Сопоставляя одни и те же местоположения, или области, на изображениях символов-кандидатов и изображении недостоверно распознаваемого символа, можно принять решение о том, какой из символов-кандидатов из всех символов-кандидатов является правильной идентификацией недостоверно распознаваемого символа.

Согласно другой особенности настоящего изобретения, информация местоположения, или области, об отличительных особенностях изображений символов-кандидатов и недостоверно распознаваемых символов может последовательно сравниваться по всем изображениям соответствующих отдельных изображений символов, если изображения выровнены друг относительно друга таким образом, чтобы максимально возможные части самих символов располагались поверх друг друга при их рассмотрении расположенными один поверх другого. Для достижения такого выравнивания можно рассчитать смещения между различными изображениями, например, путем корреляции сочетаний изображений.

Согласно примеру осуществления настоящего изобретения, способ включает в себя стадии идентификации достоверно распознаваемых изображений символов в растрированном документе, которые используются для создания эталонного набора изображений символов, встречающихся в растрированном документе. Все изображения, идентифицированные для одного и того же символа, складываются пиксель к пикселю и взвешиваются по всем используемым изображениям, образуя класс для данного символа. Изображения различных классов используются в качестве эталонных изображений на различных стадиях настоящего изобретения. В случае, когда сообщается о том, что образец изображения символа содержит несколько, например, по меньшей мере, два, альтернативных символа-кандидата на выбор для правильной идентификации, образец изображения символа правильно выбирается и идентифицируется среди символов-кандидатов на стадиях, которые включают в себя сопоставление изображений символов-кандидатов с набором эталонных изображений, что позволяет установить, какое из эталонных изображений с наибольшей вероятностью представляет недостоверно распознаваемый символ.

Фиг.1а, 1б - примеры эталонов символов i и l.

Фиг.2 - смещение между эталонами по фиг.1.

Фиг.3 - пример матрицы разностей согласно настоящему изобретению.

Фиг.4 - положительные и отрицательные области в матрице по фиг.3.

Фиг.5 - пример корреляции выбранных образцов символов с эталоном по фиг.1.

Фиг.6 - различающиеся области по фиг.5.

Фиг.7 - пример корреляции выбранных образцов символов с другим эталоном по фиг.1.

Фиг.8 - различающиеся области по фиг.7.

Фиг.9 - матрица разностей соответствующих символов с и е.

Фиг.10 - пример использования медианы для обозначения областей по фиг.9 как областей с положительными или отрицательными значениями.

Фиг.11 - пример масштабированного изображения символа и коррекции масштабирования.

Фиг.12 - корреляция между эталоном изображения символа и изображениями по фиг.11.

Фиг.13 - пример изображения символа, содержащего систематическую погрешность в отпечатке символа.

Фиг.14 - различающиеся области по фиг.13.

Фиг.15 - пример шума на изображении символа.

Фиг.16 - изображение гистограммы взаимной корреляции по фиг.15.

Фиг.17 - другой пример шума на изображениях символа.

Фиг.18 - пример использования теоретического знания для идентификации положительных и отрицательных областей в матрице разностей согласно настоящему изобретению.

Настоящее изобретение будет подробно описано с отсылкой к примеру осуществления изобретения, который включает в себя недостоверно распознаваемые символы с изображений, соответственно, представляющих символы i и l. Согласно особенности настоящего изобретения, эталоны символов идентифицируются в самом текущем документе, обрабатываемом системой OCR. Таким образом, все характерные особенности символов, фактически присутствующие в документе, являются частью представляющих символы эталонов. На фиг.1а и 1б приведены примеры эталонов, которые идентифицируются процессом OCR как символы, распознаваемые с достоверностью, превышающей предварительно установленный пороговый уровень, и идентифицированные как изображения, представляющие символы i и l соответственно.

Растрированное кодированное изображение символа включает в себя пиксели в растровой матрице, где коды уровня "серого" пикселей представлены в виде ячеек матрицы. Пример изображения символа может включать в себя только белый и черный цвета. Белые части фона представляют бумагу, а черные - графические отпечатки символов на бумаге. Однако, как известно специалистам в данной области, реальные изображения символов могут включать в себя все уровни серого, которые возможно представить в динамическом диапазоне, предусматриваемом форматом пикселя, а прямые линии редко визуализируются как прямые линии - скорее, при рассмотрении на уровне пикселей, они визуализируются как мозаичная головоломка из пикселей. Поэтому способы обработки изображений требуют изучения отдельных пикселей, кластеров пикселей, связанных пикселей и т.д., а также возможности сопоставления частей изображений, например изображений символов, идентифицированных на странице. Поэтому для отнесения различных частей изображения на странице документа необходима система координат. Можно использовать систему координат с началом координат, определяемым углом страницы документа. Однако обработка изображений включает в себя, например, сопоставление изображения символа из одного местоположения на странице с другим изображением другого символа в другом местоположении на странице, что может потребовать огромного количества преобразований упорядоченных пар чисел, относящихся ко всем отличающимся пикселям, группам пикселей, связанным пикселям и т.д. Кроме того, как бы ни извлекалось изображение символа из изображения страницы документа, вокруг графического отпечатка, представляющего символ, необходимо в обязательном порядке предусматривать ограничивающий параллелепипед. Таким образом, трудность заключается в способности отнесения пикселей символа внутри отдельного ограничивающего параллелепипеда, а затем соотнесения с пикселями, расположенными в той же ячейке другого ограничивающего параллелепипеда, заключающего внутри себя отпечаток другого символа.

Согласно примеру осуществления настоящего изобретения, установление взаимно соотносящихся местоположений пикселей в различных ограничивающих параллелепипедах предусматривается способом, который включает в себя корреляцию изображений, ограниченных соответствующими ограничивающими параллелепипедами, и вычисление смещений между изображениями на основе этой корреляции. Различные изображения могут затем выравниваться друг относительно друга в степени, предусматриваемой вычисленными смещениями, способами, которые известны специалистам в данной области.

Пример способа обработки противоречивых выходных данных согласно настоящему изобретению включает в себя корреляцию экземпляра выбранного образца изображения недостоверно распознаваемого символа с изображениями из набора эталонов, полученного из встречающихся в документе изображений символов, которые распознаются с доверительным уровнем, превышающим заданный пороговый уровень. Целью этой корреляции является идентификация эталонного изображения, имеющего наибольшее сходство с выбранным образцом символа. Например, идентифицируются, соответственно, два изображения символов i и l (фиг.1). Эти два изображения затем коррелируют для идентификации первого смещения между изображениями. На фиг.2 показано выравнивание этих изображений с использованием установленного смещения (или отклонения) между изображениями. На фиг.2 черными линиями показаны все пиксели, которые «включены» на изображении, приведенном на фиг.1б. Выравнивание можно проиллюстрировать как размещение одного изображения поверх другого. Важной особенностью способа смещений и выравниваний согласно настоящему изобретению является та, что местоположение конкретной части одного из изображений можно отнести к частям, находящимся в том же местоположении на другом выровненном изображении. Таким образом, можно идентифицировать области, которые отличаются друг от друга в соответствующих изображениях символов. Например, сопоставление изображения символа i с изображением символа l значительно облегчается, если ножки двух символов располагаются непосредственно одна поверх другой. В этом случае легко идентифицировать часть каждого символа, отличающуюся от второго символа, как по соотнесению наборов пикселей или связанных пикселей, так и по отдельным соотносимым пикселям. На фиг.2 показана визуализированная сплошными черными линиями отличающаяся область 10 в верхнем левом углу выровненного изображения. Смещение представляет собой упорядоченную пару чисел, где, например, первое число представляет собой смещение в вертикальном направлении, а второе число - смещение в горизонтальном направлении относительно ограничивающего параллелепипеда. В примере на фиг.2 смещение имеет значение (0, -1), что указывает на отсутствие смещения в вертикальном направлении и на смещение на один пиксель в горизонтальном направлении.

После выравнивания, например, двух изображений ограничивающие параллелепипеды, связанные с каждым из двух соответствующих изображений, могут не совпадать. Совпадать могут только общие части (например, ножка, как обсуждалось выше). В этом случае, пользуясь способами, известными специалистам в данной области, можно создать общий ограничивающий параллелепипед вокруг выровненных изображений.

Согласно примеру осуществления настоящего изобретения, различия между изображениями, представляющими символы-кандидаты, можно идентифицировать, преобразовывая выровненные изображения, например выровненные изображения на фиг.2, в матрицу разностей. Каждый элемент матрицы разностей создается путем вычитания значений пикселей (значений уровней серого) в соответствующих местоположениях из выровненных изображений и размещения вычтенных значений в соответствующим образом расположенные элементы матрицы. На фиг.3 показано вычитание изображений, представляющих эталоны для i и l, путем вычитания i из l (l-i).

Как видно, большинство пикселей в матрице на фиг.3 близки к нулю, и только области, в которых эталоны обладают существенно различным видом, имеют большие положительные или отрицательные значения соответствующих элементов матрицы. На фиг.4 показаны области по фиг.3: положительная область 20, указывающая на преобладание в ней символа l, и отрицательная область 21, указывающая на преобладание в ней символа i (в указанном порядке вычитания, т.е. l-i). При измененном порядке вычитания матрица разностей будет выглядеть иначе.

Для идентификации местоположений различий между изображениями, однако, может использоваться любой способ. Согласно примеру осуществления настоящего изобретения, для идентификации различий между символами-кандидатами используются эталонные изображения, представляющие символы-кандидаты. Затем местоположения областей, включающих в себя отличительные особенности, идентифицируются в выбранном образце символа, который распознается недостоверно. Затем для идентификации эталонного изображения, включающего в себя особенности, представленные в этих областях, изучается содержимое таких областей в выбранном образце символа. Таким образом, эта идентификация является правильной идентификацией выбранного образца символа. Примером осуществления настоящего изобретения являются следующие стадии способа изобретения.

Способ разрешает сомнения относительно противоречивых выходных данных системы оптического распознавания символов (OCR), где выходные данные включают в себя растровые изображения символов, которые встречаются на изображении текстового документа, обрабатываемого системой OCR, и где первое подмножество выходных данных представляет собой изображения символов, которые распознаются со степенью достоверности, превышающей заранее определенный уровень, а также где выходные данные включают в себя второе подмножество символов, которое включает в себя, по меньшей мере, изображение первого символа-кандидата и изображение второго символа, которые идентифицированы как, в значительной степени, равновероятные идентификации одного и того же экземпляра выбранного образца символа из текстового документа, обрабатываемого системой OCR, где способ включает в себя следующие стадии:

а) поиск в первом подмножестве выходных данных, идентификация изображений символов, которые имеют качество изображения, превышающее заранее определенный уровень, и использование этих изображений символов в качестве набора эталонных изображений для символов;

б) сопоставление изображения первого символа-кандидата и изображения второго символа-кандидата с каждым из соответствующих эталонных изображений, идентификация первого эталонного изображения, представляющего изображение первого символа-кандидата, и второго эталонного изображения, представляющего изображение второго символа-кандидата;

в) сопоставление первого эталонного изображения со вторым эталонным изображением, идентификация первого смещения между этими изображениями и выравнивание первого эталонного изображения и второго эталонного изображения в соответствии с первым смещением;

г) идентификация местоположений областей, которые включают в себя особенности, отличающие первое эталонное изображение от второго эталонного изображения, на выровненных изображениях, выражение информации о местоположении областей относительно выровненных изображений;

д) сопоставление изображения выбранного образца символа с первым эталонным изображением и вторым эталонным изображением, идентификация второго смещения и выравнивание изображения выбранного образца символа с первым эталонным изображением и вторым эталонным изображением в соответствии со вторым смещением;

е) использование информации о местоположениях из стадии г) для идентификации соответствующих областей на выровненном изображении выбранного образца символа, сопоставление содержимого изображений областей с установленным местоположением путем вычисления средних значений пикселей, которые включают в себя области с установленным местоположением на изображении выбранного образца символа, и вычитание этих соответствующих средних значений, где результат вычитания совместно с фактически выбранным эталонным изображением, использованным для идентификации второго смещения, предоставляет критерий для выбора первого или второго символа-кандидата в качестве идентифицированного символа для выбранного образца символа.

Дополнительные стадии в другом примере осуществления настоящего изобретения включают в себя стадии способа выбора правильного эталонного изображения:

- если при использовании первого эталонного изображения для идентификации второго смещения результат вычитания вычисленных средних значений превышает первый пороговый уровень, то это означает, что первое эталонное изображение является правильной идентификацией выбранного образца символа, в то время как отрицательный результат вычитания средних значений, лежащий ниже второго порогового уровня, означает, что правильной идентификацией выбранного образца символа является второе эталонное изображение, а если результат вычитания средних значений представляет собой значение, лежащее между первым и вторым пороговыми уровнями, то это означает, что ни первое, ни второе эталонное изображение нельзя выбрать окончательно.

В другом примере осуществления изобретения:

- если при использовании второго эталонного изображения для идентификации второго смещения результат вычитания вычисленных средних значений превышает первый пороговый уровень, то это означает, что второе эталонное изображение является правильной идентификацией выбранного образца символа, в то время как отрицательный результат вычитания средних значений, лежащий ниже второго порогового уровня, означает, что правильной идентификацией выбранного образца символа является первое эталонное изображение, а если результат вычитания средних значений представляет собой значение, лежащее между первым и вторым пороговыми уровнями, то это означает, что ни первое, ни второе эталонное изображение нельзя выбрать окончательно.

В данном описании отсылка к областям с положительным значением и областям с отрицательным значением при отсылке к матрице разностей осуществляется в том смысле, что соответствующие положительные области и отрицательные области демонстрируют, соответственно, преобладание или незначительность различия между изображениями в этих областях в зависимости от порядка вычитания изображений символа-кандидата. Для получения возможности осуществить выбор на фактической стадии выбора правильного символа-кандидата принимается во внимание порядок вычитания. Поэтому при любой отсылке и (или) упоминании областей с положительным или отрицательным значением для правильной интерпретации необходимо принимать во внимание порядок вычитания.

В способе, описанном выше, области с положительным значением и отрицательные области предоставляют информацию о местоположениях, в которых проявляются различия между изображениями символов-кандидатов. Важной особенностью настоящего изобретения является та, что различие проявляется в данной фактической области. Область может не предоставлять точную информацию о контуре графического проявления различия по причине шума и неточного порога изображений документов и т.д. Однако путем, например, корреляции пикселей, ограниченных областью, которая связана с местоположением различий, со сходными областями на изображениях символов-кандидатов, можно отыскать пиксели, составляющие графическую особенность, представляющую различие. Поэтому, согласно настоящему изобретению, информация о местоположении является достаточной для установления степени сходства между областями на соответствующих изображениях, например, путем корреляции по способам, известным специалистам в данной области.

Однако, согласно другой особенности настоящего изобретения, измерение сходства между соответствующими областями можно улучшить, отфильтровывая области с положительным значением и области с отрицательным значением. Это подразумевает фильтрацию уровней серого внутри соответствующих областей, предусматривающую удаление зашумленных уровней серого. На дальнейших стадиях согласно настоящему изобретению контуры областей также могут меняться, например, с использованием теоретического знания о символах на изображении, предусматривая, таким образом, область, которая имеет контур, более точно представляющий графическое проявление различия. Примеры осуществления изобретения, использующие эти особенности настоящего изобретения, будут раскрыты ниже.

Согласно примеру осуществления настоящего изобретения, указанные положительные и отрицательные области можно лучше анализировать, если эти области отфильтрованы с использованием порогового уровня для фильтрации значений пикселей в различающихся областях. Например, на фиг.4 показана результирующая матрица пикселей, которые выбраны только в том случае, если они имеют значения уровня серого выше 25% максимального значения, идентифицированного в положительных областях, а также те, значения которых лежат ниже 25% минимального значения. Области 20, изображенные на фиг.4 при помощи образов «оп-арт», представляют собой остаточные положительные области, а область 21, изображенная «елочкой», представляет остаточную отрицательную область после фильтрации матрицы разностей, представленной на фиг.3. Как показано на фиг.4 при помощи области 22, изображенной в шахматном виде, также могут присутствовать небольшие «островки» областей, представляющих положительные области. Эти небольшие области можно удалить при помощи дополнительной фильтрации, удаляющей области, не превышающие заданный пороговый уровень. Таким образом, области, обозначаемые 22, удаляются.

Дальнейшие стадии согласно настоящему изобретению включают в себя идентификацию второго смещения между изображениями выбранного образца символа и одного из символов-кандидатов. Выбранный образец символа можно выровнять с выбранным символом-кандидатом. На фиг.5 показаны два различных выбранных образца символа, наложенные на эталонное изображение символа i. Второе смещение составляет (-2, 2) для левого изображения и (0, 1) - для правого.

При выравнивании изображения выбранного образца символа с одним из символов-кандидатов, для идентификации одинаковых положений на изображении образца символа, используется информация о местоположениях из матрицы разностей. На фиг.6 черными и белыми горизонтальными полосами показаны, соответственно, положительные и отрицательные области. В данном примере осуществления настоящего изобретения средние значения пикселей (значения уровня серого) вычисляются для каждой соответствующей идентифицированной положительной или отрицательной области. Разница между средними затем используется для идентификации символа-кандидата, являющегося правильным выбором для недостоверно распознаваемого символа.

В таблице I приведены примеры результирующих средних значений из соответствующих положительных и отрицательных областей.

Таблица I
Образец	Среднее области с положительным значением	Среднее области с отрицательным значением	Разность средних
Образец 1	190	107	83
Образец 2	167	227	-60

Таблица II иллюстрирует примеры средних значений для случая, когда выбранный образец символа коррелирует с другим символом-кандидатом, что продемонстрировано на фиг.7 и 8 соответственно. Выбор символа-кандидата основан на обратном отслеживании образца символа, который коррелирует с выбранным символом-кандидатом. Если используется первый символ-кандидат, положительная разность средних указывает на то, что первый символ-кандидат им является. Отрицательный результат вычитания указывает на то, что им является другой символ-кандидат.

Таблица II
Образец	Среднее области с положительным значением	Среднее области с отрицательным значением	Разность средних
Образец 1	165	110	54
Образец 2	138	224	-86

Согласно другим особенностям настоящего изобретения, альтернативные варианты осуществления настоящего изобретения включают в себя стадии перенормировки областей с положительными и отрицательными значениями в матрице разностей. Для каждой соответствующей области перенормировочный множитель может отличаться. Перенормировка обеспечивает арифметическое согласование различных изображений.

Согласно другим примерам осуществления настоящего изобретения, к изображениям символов возможно применение различных технологий фильтрации, например, для повышения качества графических деталей, снижения шума и т.д. Например, содержимое матрицы разностей можно отфильтровать с использованием пороговых значений уровня серого, превышающих или лежащих ниже порогового уровня, удаляя лишние детали. Кроме того, может применяться известный специалистам в данной области оператор морфологии отверстий.

Другая особенность настоящего изобретения заключается в том, что многие символы-кандидаты могут сообщаться системой OCR как, в значительной степени, эквивалентные кандидаты для недостоверно распознаваемого символа. Согласно примеру осуществления настоящего изобретения формируется вероятная пара символов-кандидатов. Например, если система OCR сообщает о трех символах кандидатах K1, K2 и K3, возможно формирование следующих пар: K1 и K2, K1 и K3, K2 и K3, K2 и K1, K2 и K3, K3 и K1, K3 и K2, которые представляют все возможные комбинации K1, K2 и K3 и могут использоваться для проверки соответствия результата сопоставления, например, K1 и K2, или сопоставления K2 и K1, которое должно давать аналогичный результат. Другими примерами возможных пар могут выступать K1 и K2, K1 и K3, а также K2 и K3. При выполнении способа согласно настоящему изобретению K1 и K2 обрабатывается как первый символ-кандидат, а K2 - как второй символ-кандидат. Способ осуществляется еще раз для K1 и K3 в качестве первого и второго символов-кандидатов соответственно. Затем обрабатываются K2 и K3, и т.д. После обработки всех возможных пар можно получить три возможных результата. Правильным выбором является выбор символа-кандидата, который представляет собой результат нескольких пар комбинаций. В другом примере осуществления изобретения выбор правильного символа-кандидата основан на идентификации пары символов-кандидатов, имеющей наибольшую корреляцию с выбранным образцом символа, а затем выбор результата испытания для данной конкретной пары в качестве правильного выбора для выбранного образца символа. В другом примере вариантов осуществления настоящего изобретения, все символы-кандидаты, сообщаемые системой OCR, коррелируют с выбранным образцом символа. В случае, если корреляция падает ниже заранее установленного порогового уровня, символ-кандидат исключается из рассмотрения согласно настоящему изобретению.

Согласно еще одной особенности настоящего изобретения, эталонные изображения могут улучшать эффективность настоящего изобретения, если изображения символов сгруппировать в классы символов. Например, система OCR может сообщать о многих образцах изображения одного и того же символа, которые непременно распознаются ниже заданного порогового уровня. Тогда все эти изображения одного и того же символа складываются путем сложения уровней серого каждого пикселя соответствующего изображения символа после выравнивания, а сумма взвешивается по количеству складываемых изображений. Данная особенность настоящего изобретения увеличивает графическое качество соответствующих изображений эталонных символов, во-первых, потому, что они являются изображениями реальных изображений, встречающихся в документе, и, во-вторых, путем усреднения компонент шума путем сложения и взвешивания значений пикселей способами, известными специалистам в данной области.

Согласно примеру осуществления настоящего изобретения, для создания классов символов осуществляются следующие стадии:

I. случайный выбор трех образцов в классе, корреляция всех комбинаций этих трех образцов, а затем выбор в качестве исходной позиции для эталона класса данного символа коррелированных образцов, имеющих корреляцию, которая превышает заранее установленный пороговый уровень;

II. в случае, если ни одна из выбранных на стадии I комбинаций не обладает корреляцией, превышающей пороговый уровень, отбор других образцов в классе до тех пор, пока полученная пара не будет иметь корреляцию, превышающую пороговый уровень;

III. в случае, если ни одна из выбранных на стадии II комбинаций не обладает корреляцией, превышающей пороговый уровень, исключение данного класса из дальнейшего использования;

IV. для исходной пары, идентифицированной на стадии I или II, корреляция изображений пары и идентификация смещения между ними для генерирования выровненного суммарного эталонного изображения из изображений, использованных в качестве исходных эталонных изображений для данного класса символа;

V. для всех остальных образцов в классе - корреляция с суммарным эталонным изображением на стадии IV для идентификации смещения между ними и, если корреляция превышает заранее установленный порог, выравнивание изображений перед сложением выровненных изображений с суммарным изображением на стадии IV;

VI. если некоторые из выровненных изображений, используемых на стадии V, включают в себя части изображения, выходящие за пределы исходного эталона (стадия IV), - расширение суммарного шаблона после того, как все используемые изображения оказываются находящимися внутри ограничивающего параллелепипеда, определяемого как средний размер ограничивающих параллелепипедов подмножества изображений, представляющего большинство изображений.

Согласно еще одному примеру осуществления настоящего изобретения, обозначение или вычисление соответствующих положительных и отрицательных областей матрицы разностей включает в себя в качестве критерия обозначения идентификации медианы усредненных различающихся областей классов, представляющих символы-кандидаты. Например, при значении медианы 38 отличающаяся область должна быть обозначена как положительная область, если усредненное значение отличающейся области образца символа не превышает 38, иначе - нуль.

На фиг.9 показан пример символов с и е, где левое изображение иллюстрирует матрицу разностей, полученную путем вычитания значений пикселей из с и е в порядке с-е, а второе изображение иллюстрирует матрицу разностей, полученную путем вычитания значений пикселей из с и е в порядке е-с. В примере осуществления настоящего изобретения такие вычитания осуществляются со всеми, или, по меньшей мере, большей частью изображений класса, где классы представляют собой, например, с и е из этого примера. На фиг.10 показано, как на гистограмме распределяются усредненные значения разностей для некоторых экземпляров изображений с и е. Высота столбца (по вертикальной оси) представляет собой количество образцов члена класса, имеющих усредненное значение разности, указанное вдоль нижней линии (горизонтальной оси). Все усредненные значения разностей на диаграмме, указывающие на символ с, находятся в светло-серых цветах, в то время как все усредненные значения разностей, указывающие на изображение символа е, находятся в темно-сером цвете. Значения всех светло-серых и темно-серых столбцов группируются по отдельности, и затем вычисляется значение медианы для этих значений, которое находится в положении числа 38 на горизонтальной оси и используется в качестве границы, определяющей отнесение областей к областям с положительными и отрицательными значениями в матрице разностей перед ее использованием на стадиях настоящего изобретения, где осуществляется отбор правильных образцов символов как правильного выбора для выбранного образца символа.

На фиг.11 показана трудность другого типа, создающая затруднения при идентификации изображений текста. Например, при сканировании книжной страницы на планшетном сканере изображения символов, находящиеся поблизости от переплета, оказываются искривленными, и при преобразовании системой OCR в растровое изображение масштабирование символов отличается в зависимости от расположения их отпечатков на странице. Аналогичные трудности возникают при фотографировании страницы. Изображение 11а на фиг.11 представляет эталон символа е, а 11б - изображение неправильно масштабированного символа е. Это может создавать трудности при осуществлении различных стадий осуществления настоящего изобретения, включающих в себя корреляции. На фиг.12а приведено изображение по фиг.11б, наложенное поверх эталонного изображения (фиг.11а). Максимальное значение корреляции в этом примере составляет 0,878. Однако эталоны предоставляют возможность оценки ширины и высоты символов, встречающихся в документе. Например, совместно с высотой символа может использоваться медиана всех пикселей, представляющих наложение в классе («включенные» пиксели, составляющие тело символа). Эта информация может затем использоваться для коррекции масштабирования символа, например, изображения на фиг.11б, давая скорректированное изображение, показанное на фиг.11в. Коррекция может осуществляться, например, путем подгонки максимально возможного количества пикселей неправильно масштабированного символа под соответствующие положения в скорректированном изображении с использованием известных специалистам в данной области морфологических операций. На фиг.12б показана результирующая корреляция между эталоном (фиг.11а) и изображением на фиг.11в. Максимальная корреляция составляет для скорректированного изображения 0,945, что является существенным улучшением корреляции.

Согласно другой особенности настоящего изобретения, сходным образом может обрабатываться вращение си