Способ и система оптического распознавания символов, которые сокращают время обработки изображений, потенциально не содержащих символы

Патент 2571616

Авторы

Чулинин Юрий Георгиевич (RU)

Правообладатели

Общество с ограниченной ответственностью "Аби Девелопмент" (RU)

Классы МПК

G06K9/68 - с помощью последовательных сравнений сигналов изображения с множеством эталонов, например адресной памятью

Способ и система оптического распознавания символов, которые сокращают время обработки изображений, потенциально не содержащих символы

Иллюстрации

Показать все

Изобретения относятся к способу и системе оптического распознавания символов. Техническим результатом является повышение эффективности распознавания символов посредством сокращения времени обработки документов. На первой стадии обработки каждое изображение символа связывается со множеством потенциальных графем. На второй стадии обработки каждое изображение символа оценивается относительно множества потенциальных графем, обнаруженного для изображения символа на первой стадии. В процессе обработки потенциальных графем представленные в настоящем документе способы и системы наблюдают за прогрессом обнаружения подходящей графемы и, если наблюдается недостаточный прогресс, прерывают обработку потенциальных графем и распознают изображение символа как область, содержащую несимвольный элемент, в изображении отсканированного документа или другом содержащем текст изображении. Далее осуществляют оценку каждой последовательной группы из одной или более потенциальных графем относительно возможного изображения символа. 3 н. и 16 з.п. ф-лы, 55 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

Настоящий документ относится к автоматической обработке изображений отсканированных документов и других содержащих текст изображений и, в частности, к способам и системам, которые эффективно конвертируют изображения символов в цифровые кодировки соответствующих символов и которые на раннем этапе процесса конвертации обнаруживают изображения, содержащие несимвольные элементы, и прерывают процесс конвертации изображений, содержащих несимвольные элементы.

УРОВЕНЬ ТЕХНИКИ

Печатные, машинописные и рукописные документы на протяжении долгого времени используют для записи и хранения информации. Несмотря на современные тенденции отказа от бумажного делопроизводства, печатные документы продолжают широко использовать в коммерческих организациях, учреждениях и домах. С развитием современных компьютерных систем создание, хранение, поиск и передача электронных документов превратились, наряду с непрекращающимся применением печатных документов, в чрезвычайно эффективный и экономически выгодный альтернативный способ записи и хранения информации. Из-за подавляющего преимущества в эффективности и экономической выгоде, обеспечиваемого современными средствами хранения и передачи электронных документов, печатные документы часто преобразуются в электронные с помощью различных способов и систем, включающих конвертацию печатных документов в цифровые изображения отсканированных документов с применением электронных оптико-механических сканирующих устройств, цифровых камер, а также других устройств и систем, и последующую автоматическую обработку изображений отсканированных документов для генерации электронных документов, закодированных в соответствии с одним или более различными стандартами кодирования электронных документов. Например, в настоящее время можно использовать настольный сканер и сложные программы оптического распознавания символов (OCR), позволяющие персональному компьютеру конвертировать печатный документ в соответствующий электронный документ, который можно просматривать и редактировать с помощью текстового редактора.

Хотя современные системы OCR развились до такой степени, что позволяют автоматически конвертировать в электронные документы сложные печатные документы, включающие в себя изображения, рамки, линии границ и другие нетекстовые элементы, а также текстовые символы множества распространенных алфавитных языков, остается нерешенной проблема конвертации печатных документов, содержащих китайские и японские иероглифы или корейские морфо-слоговые блоки.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Настоящий документ относится к способам и системам обнаружения китайских, японских, корейских иероглифов или символов похожих языков, которые соответствуют изображениям символов, представленным в изображении отсканированного документа или другом содержащем текст изображении. На первой стадии обработки каждое изображение символа связывается со множеством потенциальных графем. На второй стадии обработки каждое изображение символа оценивается относительно множества потенциальных графем, обнаруженного для изображения символа на первой стадии. Во время обработки потенциальных графем представленные в настоящем документе способы и системы наблюдают за прогрессом обнаружения подходящей графемы и, если наблюдается недостаточный прогресс, прерывают обработку потенциальных графем и распознают изображение символа как область, содержащую несимвольный элемент, в изображении отсканированного документа или другом содержащем текст изображении.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фигуры 1А-В иллюстрируют печатный документ.

Фигура 2 иллюстрирует обычный настольный сканер и персональный компьютер, которые применяются вместе для конвертации печатных документов в оцифрованные электронные документы, хранящиеся на запоминающих устройствах и/или в электронной памяти.

Фигура 3 иллюстрирует функционирование оптических компонентов настольного сканера, представленного на фигуре 2.

На фигуре 4 представлена общая архитектурная схема разных типов компьютеров и других устройств, управляемых процессором.

Фигура 5 иллюстрирует цифровое представление отсканированного документа.

На фигуре 6 представлено гипотетическое множество символов.

Фигуры 7А-В иллюстрируют различные объекты множества символов для естественных языков.

Фигуры 8А-В иллюстрируют параметры и значения параметров, рассчитанные для изображений символов.

На фигуре 9 представлена таблица значений параметров, рассчитанных для всех символов из множества, изображенного в качестве примера на фигуре 6.

Фигура 10 иллюстрирует трехмерный график для символов из множества, представленного в качестве примера на фигуре 6, в трехмерном пространстве, каждое измерение которого представляет значения одного из трех разных параметров.

На фигурах 11А-В показаны символы, содержащиеся в каждом из кластеров, представленных точками трехмерного пространства, изображенного на фигуре 10.

Фигура 12А иллюстрирует отдельный параметр, который можно использовать в сочетании с тремя параметрами, соответствующими каждому из измерений трехмерного пространства параметров, представленного на фигуре 10, для полного распознавания каждого из символов в кластере 8.

Фигура 12В иллюстрирует значение дополнительного параметра для каждого символа из кластера 8, которое следует рассматривать со ссылкой на фигуру 12А.

Фигура 13 иллюстрирует небольшое изображение, содержащее текст, которое было изначально обработано системой OCR для генерации сетки окон символов 1300, в каждом из которых содержится изображение символа.

Фигура 14 иллюстрирует общий подход к обработке сетки окон символов, представленной на фигуре 13.

Фигура 15 иллюстрирует первый подход к реализации подпрограммы «process» (1404 на фигуре 14).

Фигуры 16А-В иллюстрируют второй способ реализации подпрограммы «process» (1404 на фигуре 14).

Фигура 17 иллюстрирует третий способ реализации подпрограммы «process», рассмотренной в предыдущем подразделе, с использованием тех же иллюстраций и условных обозначений в псевдокоде, которые использовались в предыдущем подразделе.

Фигура 18 иллюстрирует структуры данных, обеспечивающие кластеризацию и предварительную обработку в одном варианте осуществления системы OCR, включающем в себя третий способ реализации подпрограммы «process», представленный выше.

Фигуры 19А-Е иллюстрируют предварительную обработку изображения символа с использованием структур данных, рассмотренных выше со ссылкой на фигуру 18.

Фигуры 20A-G иллюстрируют мультикластерную OCR-обработку документа, содержащего изображения символов.

Фигура 21 иллюстрирует вторую стадию способов OCR, на которой выполняется связывание кодов символов с изображениями символов.

Фигура 22 иллюстрирует один подход к распараллеливанию второй стадии обработки изображений символов относительно потенциальных графем.

Фигуры 23А-В иллюстрируют распараллеленную обработку отдельного изображения символа относительно потенциальных графем, обнаруженных для изображения символа.

Фигура 24 иллюстрирует пример способов наложения изображений.

Фигура 25 иллюстрирует проблему, которая может возникнуть при обработке изображения отсканированного документа.

Фигура 26 иллюстрирует общую функцию сравнения, которая сопоставляет изображение символа с потенциальной графемой и которая применяется на второй стадии обработки изображения отсканированного документа для оценки потенциальных графем, связанных с каждым изображением символа в таблице обработанных изображений символов.

Фигуры 27А-В иллюстрируют кривые прогресса распознавания для конвертации изображения символа в код символа с использованием способа и системы OCR.

Фигуры 28A-D иллюстрируют различные способы реализации функции отсечки, которая определяет необходимость прерывания обработки для улучшения эффективности обработки и предотвращения возникновения потенциальных дефектов при обработке изображений, содержащих несимвольные элементы.

На фигурах 29А-В представлены блок-схемы, иллюстрирующие применение функции отсечки на второй стадии обработки изображения отсканированного документа для прерывания обработки изображения символа до оценки всех потенциальных графем, связанных с изображением символа.

Фигуры 30А-С иллюстрируют различные типы стратегий отсечки.

Фигура 31 иллюстрирует способ второй стадии обработки, подходящий для вариантов осуществления, в которых для распознавания изображений символов могут применяться составные графемы.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

Настоящий документ относится к способам и системам обнаружения символов, соответствующих изображениям символов в изображении отсканированного документа. В одном варианте осуществления способы и системы, к которым относится настоящий документ, осуществляют стадию начальной обработки одного или более отсканированных изображений для обнаружения множества потенциальных графем для изображений отдельных символов в отсканированном документе. На второй стадии изображения символов оцениваются относительно потенциальных графем. В некоторых случаях изображение символа может быть неправильно распознано на первой стадии обработки документа, в результате чего предполагаемое изображение не содержит изображение символа. При оценке всех потенциальных графем, связанных с таким символом, потребуются существенные дополнительные расчеты, которые не обеспечат эффективную обработку документа. В настоящем документе описаны способы, позволяющие прервать вторую стадию обработки изображения символа в тот момент, когда можно определить, что изображение не включает в себя изображение символа.

Последующее описание разделено на две части. В первом подразделе рассматриваются сканирование документов и архитектура компьютера. Во втором подразделе рассматривается оптическое распознавание символов вместе с подробным описанием первой стадии обработки документа, на которой обнаруживаются потенциальные графемы для изображений символов и осуществляется связь между ними. В третьем подразделе описывается раннее распознавание изображений, содержащих несимвольные элементы, и сокращение времени второй стадии обработки изображений, содержащих несимвольные элементы.

Изображения отсканированных документов и электронные документы

Фигуры 1А-В иллюстрируют печатный документ.

На фигуре 1А представлен исходный документ с текстом на японском языке. Печатный документ 100 включает в себя фотографию 102 и пять разных содержащих текст областей 104-108, включающих в себя японские иероглифы. Этот документ будет использоваться в качестве примера при рассмотрении способа и систем определения смысла, к которым относится настоящая заявка. Текст на японском языке может быть написан слева направо, построчно, как пишется текст на английском языке, но также может использоваться способ написания сверху вниз в вертикальных столбцах. Например, область 107 явно содержит вертикально написанный текст, в то время как текстовый блок 108 включает в себя текст, написанный горизонтально. На фигуре 1В печатный документ, представленный на фигуре 1А, показан переведенным на английский язык.

Печатные документы могут быть конвертированы в оцифрованные изображения отсканированных документов с помощью различных средств, включающих электронные оптико-механические сканирующие устройства и цифровые камеры. Фигура 2 иллюстрирует обычный настольный сканер и персональный компьютер, которые применяются вместе для конвертации печатных документов в оцифрованные электронные документы, хранящиеся на запоминающих устройствах и/или в электронной памяти. Настольное сканирующее устройство 202 включает в себя прозрачное стекло 204, на которое лицевой стороной вниз помещается документ 206.

Запуск сканирования приводит к генерации оцифрованного изображения отсканированного документа, которое можно передать на персональный компьютер (ПК) 208 для хранения на запоминающем устройстве. Программа, предназначенная для отображения отсканированного документа, может вывести оцифрованное изображение отсканированного документа для отображения 210 на устройстве отображения 212 ПК.

Фигура 3 иллюстрирует функционирование оптических компонентов настольного сканера, представленного на фигуре 2. Оптические компоненты этого сканера с полупроводниковой светочувствительной матрицей (CCD) расположены под прозрачным стеклом 204. Перемещаемый фронтально источник яркого света 302 освещает фрагмент сканируемого документа 304, свет от которого отражается вниз. Этот свет отражается от фронтально перемещаемого зеркала 306 на неподвижное зеркало 308, которое отражает излучаемый свет на массив CCD-элементов 310, генерирующих электрические сигналы пропорционально интенсивности света, поступающего на каждый из них. Цветные сканеры могут включать в себя три отдельных строки или массива CCD-элементов с красным, зеленым и синим фильтрами. Перемещаемые фронтально источник яркого света и зеркало двигаются вместе вдоль документа, генерируя изображение сканируемого документа. Другой тип сканера, использующего контактный датчик изображения, называется CIS-сканером. В CIS-сканере подсветка документа осуществляется перемещаемыми цветными светодиодами (LED), при этом отраженный свет светодиодов улавливается массивом фотодиодов, который перемещается вместе с цветными светодиодами.

На фигуре 4 представлена общая архитектурная схема разных типов компьютеров и других устройств, управляемых процессором. Архитектурная схема высокого уровня позволяет описать современную компьютерную систему (например, ПК, представленный на фигуре 2), в которой программы отображения отсканированного документа и программы оптического распознавания символов хранятся на запоминающих устройствах для передачи в электронную память и выполнения одним или более процессорами, что позволяет преобразовать компьютерную систему в специализированную систему оптического распознавания символов. Компьютерная система содержит один или несколько центральных процессоров (ЦП) 402-405, один или более модулей электронной памяти 408, соединенных с ЦП при помощи шины подсистемы ЦП/память 410 или нескольких шин, первый мост 412, который соединяет шину подсистемы ЦП/память 410 с дополнительными шинами 414 и 416 или другими средствами высокоскоростного взаимодействия, включающими в себя несколько высокоскоростных последовательных линий. Эти шины или последовательные линии, в свою очередь, соединяют ЦП и память со специализированными процессорами, такими как графический процессор 418, а также с одним или более дополнительными мостами 420, взаимодействующими с высокоскоростными последовательными линиями или несколькими контроллерами 422-427, например, с контроллером 427, которые предоставляют доступ к различным типам запоминающих устройств 428, электронным дисплеям, устройствам ввода и другим подобным компонентам, подкомпонентам и вычислительным ресурсам.

Фигура 5 иллюстрирует цифровое представление отсканированного документа. На фигуре 5 небольшой круглый фрагмент изображения 502 печатного документа 504, используемого в качестве примера, представлен в увеличенном виде 506. Соответствующий фрагмент оцифрованного изображения отсканированного документа 508 также представлен на фигуре 5. Оцифрованный отсканированный документ включает в себя данные, которые представляют собой двухмерный массив значений пикселей. В представлении 508 каждая ячейка сетки под символами (например, ячейка 509) представляет квадратную матрицу пикселей. Небольшой фрагмент 510 сетки показан с еще большим увеличением (512 на фигуре 5), при котором отдельные пиксели представлены в виде элементов матрицы (например, элемента матрицы 514). При таком уровне увеличения края символов выглядят зазубренными, поскольку пиксель является наименьшим элементом детализации, который можно использовать для излучения света заданной яркости. В файле оцифрованного отсканированного документа каждый пиксель представлен фиксированным количеством битов, при этом кодирование пикселей осуществляется последовательно. Заголовок файла содержит информацию о типе кодировки пикселей, размерах отсканированного изображения и другую информацию, позволяющую программе отображения оцифрованного отсканированного документа получать данные кодировок пикселей и передавать команды устройству отображения или принтеру с целью воспроизведения двухмерного изображения исходного документа по этим кодировкам. Для представления оцифрованного отсканированного документа в виде монохромных изображений с оттенками серого обычно применяют 8-разрядное или 16-разрядное кодирование пикселей, в то время как при представлении цветного отсканированного изображения может выделяться 24 или более бит для кодирования каждого пикселя, в зависимости от стандарта кодирования цвета. Например, в широко применяемом стандарте RGB для представления интенсивности красного, зеленого и синего цветов используются три 8-разрядных значения, закодированных с помощью 24-разрядного значения. Таким образом, оцифрованное отсканированное изображение по существу представляет собой документ в той же степени, в какой цифровые фотографии представляют визуальные образы. Каждый закодированный пиксель содержит информацию о яркости света в определенных крошечных областях изображения, а для цветных изображений в нем также содержится информация о цвете. В оцифрованном изображении отсканированного документа отсутствует какая-либо информация о значении закодированных пикселей, например информация, что небольшая двухмерная зона соседних пикселей представляет собой текстовый символ. Фрагменты изображения, соответствующие изображениям символов, могут обрабатываться для генерации битов изображения символа, в котором биты со значением «1» соответствуют изображению символа, а биты со значением «О» соответствуют фону. Растровые отображения удобны для представления как полученных изображений символов, так и эталонов, используемых системой OCR для обнаружения конкретных символов.

В отличие от этого обычный электронный документ, созданный с помощью текстового редактора, содержит различные типы команд рисования линий, ссылки на представления изображений, таких как оцифрованные фотографии, а также оцифрованные текстовые символы. Одним из наиболее часто используемых стандартов для кодирования текстовых символов является стандарт Юникод. В стандарте Юникод обычно применяется 8-разрядный байт для кодирования символов ASCII и 16-разрядные слова для кодирования символов и знаков множества языков, включая японский, китайский и другие неалфавитные текстовые языки. Большая часть вычислительной работы, которую выполняет программа OCR, связана с обнаружением изображений текстовых символов, полученных из оцифрованного изображения отсканированного документа, и с конвертацией изображений символов в соответствующие кодировки стандарта Юникод. Очевидно, что для хранения текстовых символов стандарта Юникод будет требоваться гораздо меньше места, чем для хранения растровых изображений текстовых символов. Кроме того, текстовые символы стандарта Юникод можно редактировать, используя различные шрифты, а также обрабатывать всеми доступными в текстовых редакторах способами, в то время как оцифрованные изображения отсканированного документа можно изменить только с помощью специальных программ редактирования изображений.

На начальной стадии конвертации изображения отсканированного документа в электронный документ печатный документ (например, документ 100, представленный на фигуре 1) анализируется для определения в нем различных областей. Во многих случаях области могут быть логически упорядочены в виде иерархического ациклического дерева, состоящего из корня, представляющего документ как единое целое, промежуточных узлов, представляющих области, содержащие меньшие области, и конечных узлов, представляющих наименьшие обнаруженные области. Дерево, представляющее документ, включает в себя корневой узел, соответствующий всему документу, и шесть конечных узлов, каждый из которых соответствует одной обнаруженной области. Области можно обнаружить, применяя к изображению разные методы, среди которых различные типы статистического исследования распределения пикселей или значений пикселей. Например, в цветном документе фотографию можно выделить по большему изменению цвета в области фотографии, а также по более частым изменениям значений яркости пикселей по сравнению с областями, содержащими текст.

Как только начальное исследование выявит различные области на изображении отсканированного документа, области, которые с большой вероятностью содержат текст, дополнительно обрабатываются подпрограммами OCR для обнаружения и конвертации текстовых символов в символы стандарта Юникод или любого другого стандарта кодировки символов. Для того чтобы подпрограммы OCR могли обработать содержащие текст области, определяется начальная ориентация содержащей текст области, благодаря чему подпрограммы OCR эффективно используют различные способы наложения эталона для обнаружения текстовых символов. Следует отметить, что изображения в документах могут быть не выровнены должным образом в рамках изображений отсканированного документа из-за погрешности в позиционировании документа на сканере или другом устройстве, создающем изображение, из-за нестандартной ориентации содержащих текст областей или по другим причинам. Области, содержащие текст, затем делят на фрагменты изображений, содержащие отдельные иероглифы или символы, после чего эти фрагменты по существу масштабируются и ориентируются, а изображения символов центрируются относительно этих фрагментов для облегчения последующего автоматического распознавания символов, соответствующих изображениям символов.

Примеры способов и систем OCR

Для перехода к конкретному обсуждению различных методов оптического распознавания символов в качестве примера будет использоваться множество символов для некоторого гипотетического языка. На фигуре 6 представлено гипотетическое множество символов. На фигуре 6 представлены 48 различных символов, расположенных в 48 прямоугольных областях, таких как прямоугольная область 602. В правом верхнем углу каждой прямоугольной области указан числовой индекс, или код, символа, вписанный в круг; например, индекс, или код, «1» 604 соответствует первому символу 606, представленному в прямоугольной области 602. Данный пример выбран для иллюстрации работы как существующих в настоящее время способов и систем OCR, так и новых способов и систем, описанных в настоящем документе. Фактически в письменных иероглифических языках, включая китайский и японский языки, для печати и письма могут использоваться десятки тысяч различных символов.

Фигуры 7А-В иллюстрируют различные объекты множества символов для естественных языков. На фигуре 7А в столбце представлены различные формы изображения восьмого символа из множества, показанного на фигуре 6. В столбце 704 для восьмого символа 702 из множества символов, показанного на фигуре 6, представлены разные формы написания, встречающиеся в разных стилях текста. Во многих естественных языках могут использоваться различные стили текста, а также различные варианты написания каждого символа.

На фигуре 7В представлены разные подходы к распознаванию символов естественного языка. На фигуре 7В конкретный символ естественного языка представлен узлом 710 на графе 712. Конкретный символ может иметь множество различных общих письменных или печатных форм. В целях оптического распознавания символов каждую из этих общих форм представляют в виде отдельной графемы. В некоторых случаях определенный символ может содержать две или более графем. Например, китайские иероглифы могут содержать комбинацию из двух или более графем, каждая из которых присутствует в других иероглифах. Корейский язык, на самом деле, основан на алфавите, при этом в нем используются корейские морфо-слоговые блоки, содержащие ряд буквенных символов в различных позициях. Таким образом, корейский морфо-слоговой блок может представлять символ более высокого уровня, состоящий из нескольких компонентов графем. Для символа 710, представленного на фигуре 7В, существуют шесть различных графем 714-719. Кроме того, существуют одна или более различных печатных или письменных форм написания графем, каждая из которых представлена соответствующим эталоном. На фигуре 7В каждая из графем 714 и 716 имеет два возможных варианта написания, представленных эталонами 720-721 и 723-724 соответственно. Каждая из графем 715 и 717-719 связана с одним из эталонов 722 и 725-727 соответственно. Например, восьмой символ из множества, представленного в качестве примера на фигуре 6, может быть связан с тремя графемами, первая из которых соответствует написаниям 702, 724, 725 и 726, вторая - 728 и 730, а третья - 732. В этом случае к первой графеме относятся написания, в которых используются прямые горизонтальные элементы, ко второй графеме относятся написания, в которых используются горизонтальные элементы и короткие вертикальные элементы с правой стороны, а к третьей графеме относятся написания, включающие в себя изогнутые (а не прямые) элементы. Кроме того, все написания восьмого символа 702, 728, 724, 732, 725, 726 и 730 можно представить в виде эталонов, связанных с единственной графемой для восьмого символа. В определенной степени выбор графем осуществляется произвольно. В некоторых типах иероглифических языков можно определить множество тысяч разных графем. Эталоны можно рассматривать в качестве альтернативного представления или изображения символа, при этом они могут быть представлены в виде множества пар «параметр - значение параметра», как описано ниже.

Хотя отношение между символами, графемами и эталонами представлено на фигуре 7В как строго иерархическое, при котором каждая графема связана с одним конкретным родительским символом, фактические отношения не могут быть так просто структурированы. Фигура 7С иллюстрирует несколько более сложное множество отношений, в котором два символа 730 и 732 являются родительскими для двух разных графем 734 и 736. В качестве еще одного примера можно привести следующие символы английского языка: строчная буква «о», прописная буква «О», цифра «0» и символ градусов «°», которые могут быть связаны с кольцеобразной графемой. Отношения также могут быть представлены в виде графов или сетей. В некоторых случаях графемы (в отличие от символов или в дополнение к ним) могут отображаться на самых высоких уровнях в рамках выбранного представления отношений. В сущности, обнаружение символов, графем, выбор эталонов для конкретного языка, а также определение отношений между ними осуществляются в большой степени произвольно.

Фигуры 8А-В иллюстрируют параметры и значения параметров, рассчитанные для изображений символов. Следует заметить, что словосочетание «изображение символа» может описывать печатный, рукописный или отображаемый на экране символ или графему. В следующем примере параметры и значения параметров рассматриваются применительно к изображениям символов, но в фактическом контексте реального языка параметры и значения параметров часто применяются для характеристики и представления изображений графем. На фигуре 8А представлено изображение прямоугольного символа 802, полученное из содержащего текст изображения, которое включает в себя 22-й символ из множества, показанного в качестве примера на фигуре 6. На фигуре 8В представлено изображение прямоугольного символа 804, полученное из содержащего текст изображения, которое соответствует 48-му символу из множества, показанного в качестве примера на фигуре 6. При печати и письме на гипотетическом языке, соответствующем множеству символов, приведенному в качестве примера, символы размещаются в середине прямоугольных областей. Если это не так, системы OCR произведут начальную обработку изображений, изменив ориентацию, масштаб и положение полученных изображений символов относительно фоновой области для нормализации полученных изображений символов в целях дальнейшей обработки.

Фигура 8А иллюстрирует три разных параметра, которые могут использоваться системой OCR для получения отличительных признаков символов. Следует заметить, что область изображения символа, или окно символа, характеризуется вертикальным размером окна символа 806, обозначаемым сокращенно «vw», и горизонтальным размером окна символа 808, обозначаемым сокращенно «hw». Первым параметром является самый длинный в изображении символа непрерывный горизонтальный отрезок линии, обозначаемый «h» 810. Это самая длинная последовательность смежных темных пикселей на фоне по существу белых пикселей в окне символа. Вторым параметром является самый длинный в изображении символа непрерывный вертикальный отрезок линии 812. Третий параметр представляет собой долю пикселей изображения символа от общего числа пикселей в окне символа, выраженное в процентах; в данном примере это доля черных пикселей в по существу белом окне символа. Во всех трех случаях значения параметров могут быть непосредственно рассчитаны сразу после создания растрового отображения окна символа. На фигуре 8В представлены два дополнительных параметра. Первым параметром является количество внутренних горизонтальных белых полос в изображении символа; изображение символа, представленное на фигуре 8В, имеет одну внутреннюю горизонтальную белую полосу 816. Вторым параметром является количество внутренних вертикальных белых полос в изображении символа. В 48-м символе из множества, представленном изображением в окне символа 804 на фигуре 8В, имеется одна внутренняя вертикальная белая полоса 818. Количество горизонтальных белых полос обозначается как «hs», а количество внутренних вертикальных белых полос - «vs».

На фигуре 9 представлена таблица значений параметров, рассчитанных для всех символов из множества, изображенного в качестве примера на фигуре 6. В каждой строке таблицы 902, показанной на фигуре 9, представлены значения параметров, рассчитанные для конкретного символа. Параметры включают в себя: (1) отношение самого длинного непрерывного горизонтального отрезка линии к окну символа, , 904; (2) отношение самого длинного непрерывного вертикального отрезка линии к вертикальному размеру окна символа, 906; (3) выраженная в процентах общая площадь, соответствующая изображению символа или черной области, , 908; (4) количество внутренних вертикальных полос, vs, 910; (5) количество внутренних горизонтальных полос, hs, 912; (6) общее количество внутренних вертикальных и горизонтальных полос, vs+hs, 914; и (7) отношение самого длинного непрерывного вертикального отрезка к самому длинному непрерывному горизонтальному отрезку, , 916. Как и следовало ожидать, в первой строке 920 таблицы 902, представленной на фигуре 9, первый символ множества (606 на фигуре 6) представляет собой вертикальную черту, и численное значение параметра , равное 0,6, значительно больше численного значения параметра , равного 0,2. Символ 606 занимает всего 12 процентов от площади окна символа 602. У символа 606 нет ни внутренних горизонтальных, ни внутренних вертикальных белых полос, поэтому значения параметров vs, hs и vs+hs равны 0. Соотношение равно 3. Поскольку используемые в качестве примера символы имеют относительно простую блочную структуру, то значения каждого из параметров в таблице 902 отличаются незначительно.

Несмотря на то что значения каждого из параметров, рассмотренных выше в отношении фигуры 9, имеют относительно небольшие отличия для используемых в качестве примера 48 символов, всего трех параметров достаточно для разделения всех этих символов на 18 частей или кластеров. Фигура 10 иллюстрирует трехмерный график для символов из множества, представленного в качестве примера на фигуре 6, в трехмерном пространстве, каждое измерение которого представляет значения одного из трех разных параметров. На фигуре 10 первая горизонтальная ось 1002 представляет параметр (916 на фигуре 9), вторая горизонтальная ось 1004 представляет параметр+hs (914 на фигуре 9), а третья вертикальная ось 1006 представляет параметр b (908 на фигуре 9). На график нанесены 18 различных точек (таких как нанесенная точка 1008), каждая из которых представлена в виде небольшого черного диска с вертикальной проекцией на горизонтальную плоскость, проходящую через оси 1002 и 1004; эта проекция представлена в виде вертикальной пунктирной линии, такой как вертикальная пунктирная линия 1010, соединяющая точку 1008 с ее проекцией на горизонтальную плоскость 1012. Код, или номер последовательности, символов, которые соответствуют определенной точке на графике, представлен в скобках справа от соответствующей точки. Например, символы 14, 20 и 37 (1014) соответствуют одной точке 1016 с координатами (1, 0, 0, 32) относительно осей 1002, 1004 и 1006. Каждая точка связана с номером части или кластера, который указан в небольшом прямоугольнике слева от точки. Например, точка 1016 связана с кластером под номером «14» 1018. На фигурах 11А-В показаны символы, содержащиеся в каждом из кластеров, представленных точками трехмерного пространства, изображенного на фигуре 10. Рассмотрев символы, входящие в состав этих кластеров или частей, можно легко заметить, что три параметра, используемые для распределения символов в трехмерном пространстве, представленном на фигуре 10, эффективно разбивают 48 символов, используемых в качестве примера, на связанные множества символов.

Можно использовать дополнительные параметры для однозначного распознавания каждого символа в каждом кластере или части. Рассмотрим, например, кластер 8 (1102), представленный на фигуре 11А. Этот кластер символов включает в себя четыре угловых (L-образных) символа, отличающихся углом поворота и имеющих коды 26, 32, 38 и 44, а также Т-образный символ с кодом 43 и крестообразный символ с кодом 45. Фигура 12А иллюстрирует отдельный параметр, который можно применять в сочетании с тремя параметрами, соответствующими каждому из измерений трехмерного пространства параметров, представленного на фигуре 10, для полного распознавания каждого из символов в кластере 8. Как показано на фигуре 12А, окно символа 1202 делится на четыре квадранта: Q1 1204, Q2 1205, Q3 1206 и Q4 1207. После этого в каждом квадранте вычисляется площадь, занимаемая изображением символа, которая указывается рядом с квадрантом. Например, в квадранте Q1 1204 фрагмент изображения символа занимает 13,5 единиц площади 1210. Затем вычисленные значения единиц площади каждого квадранта присваиваются переменным Q1, Q2, Q3 и Q4. Следовательно, в примере, представленном на фигуре 12А, переменной Q1 присвоено значение 13,5, переменной Q2 присвоено значение 0, переменной Q3 присвоено значение 18, а переменной Q4 присвоено значение 13,5. Затем согласно небольшому фрагменту псевдокода 1212, представленному на фигуре 12А под окном символа, рассчитывается значение нового параметра р. Например, если все четыре переменные Q1, Q2, Q3 и Q4 имеют одинаковые значения, то параметру p будет присвоено значение 0 (1214), что указывает на равенство четырех квадрантов в окне символа относительно количества единиц площади, занимаемой изображением символа. Фигура 12В иллюстрирует значение дополнительного параметра для каждого символа из кластера 8, которое следует рассматривать со ссылкой на фигуру 12А. Как можно увидеть из значений параметров, связанных с символами на фигуре 12В, новый параметр, описанный выше относительно фигуры 12А, имеет разное значение для каждого из шести символов в кластере 8. Другими словами, для однозначной идентификации всех символов в кластере 8 можно использовать комбинацию трех параметров, применяемых для формирования трехмерного графика, представленного на фигуре 1