Способ и система определения ориентации изображения текста
Иллюстрации
Показать всеИзобретение относится к способам и системам автоматического определения ориентации областей изображений отсканированных документов. Технический результат – обеспечение возможности преобразования в соответствующие электронные документы печатных документов, содержащих текст на неалфавитных языках. В одном из вариантов реализации изобретения задействуют относительно небольшой набор символов ориентации, часто встречающихся в печатном тексте. При этом для, по меньшей мере, одного набора символов ориентации каждая из двух или более различных ориентаций содержащих символ подобластей в содержащей текст области отсканированного изображения документа сравнивается с каждым символом ориентации в, по меньшей мере, одном наборе символов ориентации, чтобы определить ориентацию для каждой из содержащих символы подобластей относительно исходной ориентации содержащей текст области. Выявленные для содержащих символы подобластей ориентации затем используются для определения ориентации содержащей текст области изображения отсканированного документа. 3 н. и 20 з.п. ф-лы, 43 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ
Настоящая заявка относится к автоматической обработке изображений отсканированных документов и других изображений, содержащих текст, и, в частности, к способам и системам определения ориентации для области или блока содержащего текст изображения.
УРОВЕНЬ ТЕХНИКИ
Уже на протяжении долгого времени для записи и хранения информации используются печатные, машинописные и рукописные документы. Несмотря на современные тенденции отказа от бумажного делопроизводства, печатные документы продолжают широко использоваться в коммерческих организациях, учреждениях и домашних обстановках. С развитием современных компьютерных систем создание, хранение, поиск и передача электронных документов превратились, наряду с непрекращающимся применением печатных документов, в чрезвычайно эффективный и экономически выгодный альтернативный способ записи и хранения информации. Из-за подавляющего преимущества в эффективности и экономической выгоде, обеспечиваемого современными средствами хранения и передачи электронных документов, печатные документы легко преобразуются в электронные с помощью различных способов и систем, включающих преобразование печатных документов в цифровые изображения отсканированных документов с использованием электронных оптико-механических сканирующих устройств, цифровых камер, а также других устройств и систем, и последующую автоматическую обработку изображений отсканированных документов для получения электронных документов, закодированных в соответствии с одним или более различными стандартами кодирования электронных документов. Например, в настоящее время можно использовать настольный сканер и современные программы оптического распознавания символов (OCR), позволяющие с помощью персонального компьютера преобразовывать печатный документ в соответствующий электронный документ, который можно просматривать и редактировать с помощью текстового редактора.
Хотя современные программы OCR развились до такой степени, что позволяют автоматически преобразовывать в электронные документы сложные печатные документы, включающие в себя изображения, рамки, линии границ и другие нетекстовые элементы, а также текстовые символы множества распространенных алфавитных языков, остается нерешенной проблема преобразования в соответствующие электронные документы печатных документов, содержащих текст на неалфавитных языках.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Настоящая заявка относится к способам и системам автоматического определения ориентации областей изображений отсканированных документов. В одном из вариантов реализации рассматриваемые в настоящей заявке способ и система определения ориентации задействуют относительно небольшой набор символов ориентации, часто встречающихся в печатном тексте. В этом варианте реализации для, по меньшей мере, одного набора символов ориентации, каждая из двух или более различных ориентаций содержащих символ подобластей в содержащей символ области отсканированного изображения документа сравнивается с каждым символом ориентации из, по меньшей мере, одного набора символов ориентации, для того, чтобы определить ориентацию для каждой содержащей символ подобласти относительно исходного положения содержащей текст области. Выявленные для содержащих символы подобластей ориентации затем используются для определения ориентации содержащей текст области изображения отсканированного документа.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
На Фиг. 1А-В показан печатный документ.
На Фиг. 2 показаны обычный настольный сканер и персональный компьютер, которые используются вместе для преобразования печатных документов в закодированные в цифровом виде электронные документы, которые можно хранить на запоминающих устройствах и (или) в электронной памяти.
На Фиг. 3 показана работа оптических компонентов настольного сканера, изображенного на Фиг. 2.
На Фиг. 4 представлена общая архитектурная схема различных видов компьютеров и других устройств с процессорным управлением.
На Фиг. 5 показано цифровое представление отсканированного документа.
На Фиг. 6 показаны шесть областей изображения отсканированного документа, распознанного в ходе начальной стадии преобразования изображения отсканированного документа, на примере типового документа 100, показанного на Фиг. 1.
На Фиг. 7 показано вращение в горизонтальной плоскости.
На Фиг. 8-10 показан подход к определению исходной ориентации области, содержащей текст.
На Фиг. 11A-D показаны 16 различных возможных ориентаций для содержащей текст области.
На Фиг. 12 показана задача распознания символов текста для различных типов иероглифических языков или языков, в которых текст представлен не в виде простых строк символов алфавита.
На Фиг. 13 показаны симметрии вращения знаков или символов.
На Фиг. 14A-F показан описанный ранее подход к формированию возможной абсолютной ориентации содержащей текст области, а также несколько альтернативных способов определения ориентации текстовой области, рассматриваемых в настоящем документе.
На Фиг. 15 показан первый этап определения ориентации содержащей символ подобласти в соответствии со способами, описываемыми в настоящем документе.
На Фиг. 16А-Н показано использование областей символов в рамке для расчета вектора значений признаков для символа в рамке.
На Фиг. 17А-В показан пример трансформации значения признака.
На Фиг. 18 приведена таблица, показывающая небольшое количество примеров классов трансформации.
На Фиг. 19A-F представлены блок-схемы, показывающие в обобщенном виде способ ориентации содержащей текст области, который охватывает способы, рассмотренные на Фиг. 14Е и F.
На Фиг. 19G представлена блок-схема, показывающая способ вычисления балла для сопоставления признаков, рассчитанных для содержащей символ подобласти, и признаков, рассчитанных для каждой пары символ-ориентации/ориентации.
На Фиг. 19Н представлена блок-схема, показывающая способ вычисления ориентации для вычисления ориентации содержащей текст области.
ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИ
Настоящая заявка относится к способам и системам автоматического определения ориентации для содержащих текст областей отсканированных изображений документов за счет определения ориентации некоторого количества символов ориентации или знаков в содержащей текст области. В рамках нижеследующего обсуждения сначала описываются вопросы, связанные с изображениями отсканированных документов и электронными документами, а затем - способы определения общей ориентации содержащих текст областей изображений отсканированных документов. Далее рассматриваются задачи определения ориентации областей изображения, содержащих текстовые знаки языка, в особенности языка, текст в котором не записывается в виде строк последовательных символов алфавита. Наконец, рассматриваются символы ориентации или эталоны ориентации символов и приводится детальное описание способов и систем для использования эталонов ориентации символов с целью определения ориентации содержащей текст области отсканированного изображения документа.
На Фиг. 1А-В показан печатный документ. На Фиг. 1А показан исходный документ с текстом на японском языке. Печатный документ (100) включает в себя фотографию (102) и пять разных содержащих текст областей (104-108), включающих в себя японские иероглифы. Этот документ будет использоваться в качестве примера при рассмотрении способа и систем определения ориентации, к которым относится настоящая заявка. Текст на японском языке может писаться слева направо, построчно, как пишется текст на английском языке, но альтернативно может использоваться способ написания сверху вниз в вертикальных столбцах. Например, как видно, область (107) содержит вертикально написанный текст, в то время как фрагмент текста (108) содержит текст, написанный горизонтально. На Фиг. 1В показан перевод на русский язык печатного документа, изображенного на Фиг. 1А.
Печатные документы могут быть преобразованы в закодированные в цифровом виде изображения отсканированных документов различными средствами, в том числе с использованием электронных оптико-механических сканирующих устройств и цифровых камер. На Фиг. 2 показаны обычный настольный сканер и персональный компьютер, которые используются вместе для преобразования печатных документов в закодированные в цифровом виде электронные документы, которые можно хранить на запоминающих устройствах и (или) в электронной памяти. Настольное сканирующее устройство (202) включает в себя прозрачное стекло (204), на которое лицевой стороной вниз помещается документ (206). Запуск сканирования приводит к получению закодированного в цифровом виде изображения отсканированного документа, которое можно передать на персональный компьютер (далее ПК) (208) для хранения на запоминающем устройстве. Программа отображения отсканированного документа может вывести закодированное в цифровом виде изображение отсканированного документа на экран (210) устройства отображения ПК (212).
На Фиг. 3 показана работа оптических компонентов настольного сканера, изображенного на Фиг. 2. Оптические компоненты этого сканера с приборами с зарядовой связью (ПЗС) расположены под прозрачным стеклом (204). Фронтально перемещаемый источник яркого света (302) освещает часть сканируемого документа (304), свет от которой отражается вниз. Переизлученный и отраженный свет отражается от фронтально перемещаемого зеркала (306) на неподвижное зеркало (308), которое отражает излучаемый свет на массив элементов ПЗС (310), формирующих электрические сигналы пропорционально интенсивности света, падающего на каждый из них. Цветные сканеры могут включать в себя три отдельных ряда или набора элементов ПЗС с красным, зеленым и синим фильтрами. Фронтально перемещаемые источник яркого света и зеркало двигаются вместе вдоль документа, в результате чего получается изображение сканируемого документа. Другой тип сканера, использующего контактный датчик изображения, называется CIS-сканером. В CIS-сканере подсветка документа осуществляется перемещаемыми цветными светодиодами (LED), при этом отраженный свет светодиодов улавливается набором фотодиодов, который перемещается вместе с цветными светодиодами.
На Фиг. 4 представлена общая архитектурная схема различных видов компьютеров и других устройств с процессорным управлением. Современную компьютерную систему можно описать с помощью высокоуровневой архитектурной схемы, как, например, ПК на Фиг. 2, на которой программы преобразования изображений отсканированных документов и программы оптического распознавания символов хранятся на запоминающих устройствах для передачи в электронную память и выполнения одним или несколькими процессорами. Компьютерная система содержит один или множество центральных процессоров (ЦП) (402-405), один или более модулей электронной памяти (408), соединенных с ЦП при помощи шины подсистемы ЦП/память (410) или множества шин, первый мост (412), который соединяет шину подсистемы ЦП/память (410) с дополнительными шинами (414) и (416) или другими средствами высокоскоростного взаимодействия, включающими в себя множество высокоскоростных последовательных линий. Данные шины или последовательные линии, в свою очередь, соединяют ЦП и запоминающее устройство со специализированными процессорами, такими как графический процессор (418), а также с одним или несколькими дополнительными мостами (420), межсоединенными с высокоскоростными последовательными линиями или с несколькими контроллерами (422-427), такими как контроллер (427), которые предоставляют доступ к различным видам устройств массовой памяти (428), электронным дисплеям, устройствам ввода и другим подобным компонентам, подкомпонентам и вычислительным ресурсам.
На Фиг. 5 показано цифровое представление отсканированного документа. На Фиг. 5 в увеличенном виде (506) показан небольшой круглый фрагмент изображения (502) типового печатного документа (504). На Фиг. 5 также представлен соответствующий фрагмент закодированного в цифровом виде изображения отсканированного документа (508). Закодированный в цифровом виде отсканированный документ включает в себя данные, которые представляют собой двухмерный массив кодировок значений пикселов. В представлении (508) каждая ячейка сетки под символами (например, ячейка (509)) представляет собой квадратную матрицу пикселов. Небольшой фрагмент (510) сетки показан с еще большим увеличением (512 на Фиг. 5), при котором отдельные пиксели представлены в виде элементов матрицы (например, элемента матрицы (514)). При таком уровне увеличения края символов выглядят зазубренными, поскольку пиксель является наименьшим элементом детализации, который можно использовать для излучения света заданной яркости. В файле оцифрованного отсканированного документа каждый пиксель представлен фиксированным числом битов, при этом кодирование пикселей осуществляется последовательно. Заголовок файла содержит информацию о типе кодировки пикселей, размерах отсканированного изображения и другую информацию, позволяющую программе отображения оцифрованного отсканированного документа получать данные кодирования пикселей и передавать команды устройству отображения или принтеру с целью воспроизведения двухмерного изображения исходного документа по этим кодировкам. Для цифрового кодирования отсканированного изображения документа в виде монохромных изображений с оттенками серого обычно используют 8-битное или 16-битное кодирование пикселей, в то время как при представлении цветного отсканированного изображения может выделяться 24 или более бит для кодирования каждого пикселя, в зависимости от стандарта кодирования цвета. Например, в широко применяемом стандарте RGB для представления интенсивности красного, зеленого и синего цветов используются три 8-битных значения, закодированных с помощью 24-битного значения. Таким образом, оцифрованное отсканированное изображение, по существу, представляет документ аналогично тому, как цифровые фотографии представляют визуальные образы. Каждый закодированный пиксель содержит информацию о яркости света в определенных крошечных областях изображения, а для цветных изображений в нем также содержится информация о цвете. В оцифрованном изображении отсканированного документа отсутствует какая-либо информация о значении закодированных пикселей, например информация, что небольшая двухмерная зона соседних пикселей представляет собой текстовый символ.
Напротив, обычный электронный документ, созданный с помощью текстового редактора, содержит различные виды команд рисования линий, ссылки на представления изображений, такие как закодированные в цифровом виде фотографии и закодированные в цифровом виде текстовые символы. Одним из наиболее часто используемых стандартов для кодирования текстовых символов является стандарт Юникод. В стандарте Юникод обычно применяется 8-разрядный байт для кодирования символов ASCII (американский стандартный код обмена информацией) и 16-разрядные слова для кодирования символов и знаков множества языков, включая японский, китайский и другие неалфавитные текстовые языки. Большая часть вычислительной работы, которую выполняет программа OCR, связана с распознаванием изображений текстовых символов, полученных из оцифрованного изображения отсканированного документа, и с преобразованием изображений символов в соответствующие кодовые комбинации стандарта Юникод. Очевидно, что для хранения текстовых символов стандарта Юникод будет требоваться гораздо меньше места, чем для хранения растровых изображений текстовых символов. Более того, текстовые символы, закодированные по стандарту Юникод, можно редактировать, переформатировать в различные шрифты и обрабатывать множеством доступных в программах обработки текстов способов, в то время как закодированные в цифровом виде изображения отсканированного документа можно изменить только с помощью специальных программ редактирования изображений.
На начальной стадии преобразования изображения отсканированного документа в электронный документ печатный документ (например, документ (100), показанный на Фиг. 1) анализируется для определения в нем различных областей. Во многих случаях области могут быть логически упорядочены в виде иерархического ациклического дерева, состоящего из корня, представляющего документ как единое целое, промежуточных узлов, представляющих области, содержащие меньшие области, и конечных узлов, представляющих наименьшие области. На Фиг. 6 показаны шесть различных областей типового документа (100), показанного на Фиг. 1, которые были распознаны на начальной стадии преобразования изображения отсканированного документа. В данном случае дерево, представляющее документ, включает в себя корневой узел, соответствующий всему документу в целом, и шесть тупиковых узлов, каждый из которых соответствует одной из идентифицированных областей (602-607). Области можно идентифицировать применяя целый ряд различных способов, в том числе различные виды статистического анализа распределения кодировок пикселей или значений пикселей по поверхности изображения. Например, в цветном документе фотографию можно выделить по большему изменению цвета в области фотографии, а также по более частым изменениям значений яркости пикселей по сравнению с областями, содержащими текст.
Как только в рамках начальной стадии анализа будут установлены различные области на изображении отсканированного документа, области, которые с большой вероятностью содержат текст, дополнительно обрабатываются подпрограммами OCR для выявления и преобразования текстовых символов в символы стандарта Юникод или любого другого стандарта кодировки символов. Для того чтобы подпрограммы OCR могли обработать содержащие текст области, определяется исходная ориентация содержащей текст области, благодаря чему в подпрограммах OCR эффективно используются различные способы сопоставления с эталоном для определения текстовых символов. Следует отметить, что изображения в документах могут быть не выровнены должным образом в рамках изображений отсканированного документа из-за погрешности в позиционировании документа на сканере или другом устройстве, формирующем изображение, из-за нестандартной ориентации содержащих текст областей или по другим причинам. В случаях, когда подпрограммы OCR не могут воспринять стандартную ориентацию строк и столбцов текста, вычислительная задача сопоставления шаблонов символов с областями изображения отсканированного документа будет намного более сложной и ее выполнение будет намного менее эффективным, так как подпрограммы OCR будут, как правило, пытаться повернуть шаблон символа на угловые интервалы до 360° и при каждом повороте будут пытаться сопоставить данный шаблон символа с потенциальной содержащей текст областью изображения.
Следует пояснить, что исходная ориентация определяется поворотами содержащей текст области в горизонтальной плоскости. На Фиг. 7 показано вращение в горизонтальной плоскости. На Фиг. 7 квадратная область изображения отсканированного документа (702) располагается горизонтально с вертикальной осью вращения (704), проходящей по центру области. При вращении квадратной области по часовой стрелке на 90° получается ориентация (706), показанная на правой стороне Фиг. 7.
Как правило, сразу после выявления содержащей текст области изображение содержащей текст области преобразуется из изображения на основе пикселов в растр (данный процесс именуется «бинаризацией»), когда каждый пиксель представляется значением бита «0», что указывает на то, что данный пиксель не содержится во фрагменте текстового символа, или значением бита «1», что означает, что данный пиксель содержится в текстовом символе. Таким образом, например, в черно-белой содержащей текст области изображения отсканированного документа, в которой текст напечатан черным цветом на белом фоне, пиксели со значениями менее порогового значения, соответствующего темным областям данного изображения, переводятся в биты со значением «1», тогда как пиксели со значениями, равными или превышающими пороговое значение, соответствующее фону, переводятся в биты со значение «0». Преобразование в значения битов, естественно, имеет произвольный характер, и возможно обратное преобразование, при этом значение «1» означает фон, а значение «0» - символ. Для более эффективного хранения битовую карту можно сжать с помощью кодирования по длинам серий (RLE).
На Фиг. 8-10 показан подход к определению исходной ориентации области, содержащей текст. На Фиг. 8 показано формирование гистограммы, соответствующей одной ориентации содержащей текста области. На Фиг. 8 содержащая текст область (802) имеет вертикальную ориентацию. Содержащая текст область разделяется на столбцы, разграничиваемые вертикальными линиями, такими как вертикальная линия (804). В каждом столбце по дочитывается количество битов со значением «1» на битовой карте, соответствующей содержащей текст области, которое используется для формирования гистограммы (806), показанной над содержащей текст области. Столбцы в содержащей текст области, не содержащие фрагментов символов или, что то же самое, содержащие только биты со значением «0», не имеют соответствующих столбцов в гистограмме, тогда как столбцы, содержащие фрагменты символов, соотносятся с столбцам в гистограмме высотой, соответствующей пропорции битов в столбце со значением «1». В качестве альтернативы, высота столбцов гистограммы может масштабироваться с учетом абсолютного количества битов со значением «1» или представлять часть битов в столбце со значением «1» или часть количества битов со значением «1» в столбце в отношении общего количества битов со значением «1» в содержащей текст области.
На Фиг. 9 показаны гистограммы, сформированные для столбцов и строк надлежащим образом ориентированной содержащей текст области. На Фиг. 9 содержащая текст область (902) выравнивается по границам страницы, строкам текста, параллельного верхней и нижней части страницы, и столбцам текста, параллельного сторонам страницы. Способ формирования гистограмм, описанный выше со ссылкой на Фиг. 8, был применен ко всей содержащей текст области (902) для формирования гистограмм для вертикальных столбцов в содержащей текст области (904) и для горизонтальных строк в содержащей текст области (906). Следует отметить, что гистограммы показаны в виде слитных кривых, пики которых, такие как пик (908) в гистограмме (904) соответствуют центральным фрагментам столбцов и строк текста, таких как текстовый столбец (910), которому соответствует пик (908), а впадины, такие как впадина (912), соответствуют столбцам и строкам пробелов между столбцами и строками текста, таким как столбец пробела (914) между столбцами текста (916) и (918). Сетка стрелок (920) на Фиг. 9 указывает на направление вертикальных и горизонтальных разделов, используемых для формирования гистограммы столбцов (904) и гистограммы строк (906).
На Фиг. 10 показана та же содержащая текст область изображения, что показана на Фиг. 9, но с другой угловой ориентацией. В случае содержащей текст области с другой ориентацией (1002) применяется тот же способ, что был описан выше со ссылкой на Фиг. 9, когда гистограммы столбцов (1004) и гистограммы строк (1006) формируются с помощью разделов столбцов и строк в направлении вертикальных и горизонтальных стрелок (1008). В данном случае гистограммы обычно не имеют объектов и не имеют равноудаленных пиков и впадин, как на гистограммах, показанных на Фиг. 9. Причину этому можно легко понять, рассмотрев вертикальный столбец (1010), показанную на Фиг. 10 пунктирными линиями. Данный вертикальный столбец проходит через текстовые столбцы (1012-1015) и столбцы пробелов (1016-1020). Почти каждый вертикальный столбец и горизонтальная строка, кроме находящихся на крайних концах гистограмм, проходит как через текст, так и через пробел, в результате чего каждый из вертикальных столбцов и горизонтальных строк, как правило, содержит биты со значением «1» и биты со значением «0».
Таким образом, подпрограммы оптического распознавания символов (OCR) могут изначально определить ориентацию содержащей текст области путем поворота данной области в пределах 90° и вычисления гистограмм столбцов и строк на определенных угловых интервалах, в результате чего получается, как минимум, одна гребневидная гистограмма, а чаще всего две гребневидные гистограммы, как показано на Фиг. 9, с наилучшими соотношениями пик-впадина. Следует также отметить, что о пробелах между символами в строках и столбцах можно судить по пробелам (922) и (924) между пиками в гистограммах столбцов и строк.
Существует множество различных альтернативных способов определения исходной ориентации содержащей текст области. Описанный выше со ссылкой на Фиг. 8-10 способ приведен в качестве примера типовых подходов, которые можно реализовать. Во многих случаях расстояния между символами могут быть не такими повторяемыми, как показано на Фиг. 9-10, в результате чего для определения границ символов могут использоваться различные методики. При одном таком подходе вертикальные столбцы пробелов определяются для горизонтальной строки текстовых символов, а расстояния между такими столбцами показаны на гистограмме. Затем определяются границы символов в виде траектории обхода строки от одного столбца пробелов к другому по элементам, наиболее полно соответствующим ожидаемым разрывам между символами, расположенными между столбцами пробелов, на основе гистограммы.
После определения исходной ориентации все еще существует, по меньшей мере, 16 различных возможных ориентаций для содержащей текст области. На Фиг. 11A-D показаны 16 различных возможных ориентаций. На Фиг. 11A-D показаны 16 различных возможных ориентаций для примера содержащей текст области, используемой на Фиг. 9 и 10. В этих ориентациях принимается, что текстовые символы читаются слева направо в горизонтальных рядах, как показано стрелками 1104-1107. Если исходная ориентация содержащей текст области показана в левой части Фиг. 11А 1108, которой произвольно назначается значение вращения 0°, то содержащая текст область может быть повернута на 90° для создания второй ориентации 1110, на 180° для создания третьей ориентации 1112, и на 270° для создания четвертой ориентации 1114.
На Фиг. 11В показаны дополнительные четыре ориентации. В этом случае принимается, что текст читается вертикально вниз, как показано с помощью стрелок 1116-1119. Так же, как на Фиг. 11А, содержащая текст область может быть повернута на 0°, 90°, 180° и 270° для создания четырех дополнительных ориентаций. На Фиг. 11C-D показаны восемь дополнительных ориентаций, при этом предполагается, что при ориентации на Фиг. 11С текст читается справа налево по горизонтали, а на Фиг. 11D - вертикально сверху вниз.
На Фиг. 12 показана задача распознания символов текста для различных типов иероглифических языков или языков, в которых текст представлен не в виде простых строк символов алфавита. Если текст содержит символы иероглифических языков, подпрограмме OCR может быть необходимо выполнить сопоставление 40000 или более эталонов символов 1202 для каждого изображения символа в каждой возможной ориентации в содержащей текст области. Даже если при различных соображениях и исходных анализах количество возможных ориентаций может быть снижено с 16 возможных ориентаций, как показано на Фиг. 11A-D, до всего лишь четырех возможных ориентаций 1204-1207, вычислительная сложность задачи определения фактической ориентации остается высокой. Вычислительная сложность может быть выражена следующим образом:
где с - вычислительная сложность для сопоставления отдельного эталона с изображением символа;
m - количество строк в исходной ориентации 0°;
n - количество столбцов в исходной ориентации 0°;
р - количество эталонов символов для заданного языка;
- доля изображений символов в содержащей текст области, которые должны быть оценены для успешного определения ориентации содержащей текст области;
о - количество возможных ориентаций.
Вычислительная сложность определяется переменной р, значение которой, как было сказано выше, может достигать 40000 и более для иероглифических языков. При одном из подходов программа OCR может выполнять попытку сопоставления каждой возможной ориентации с некоторой долей изображений символов и затем определять, какая из возможных ориентаций дает наибольшую долю совпадений с эталонами с высокой вероятностью. Учитывая большое количество эталонов символов и сложность задачи сопоставления с эталоном, вероятно, что для значительной доли изображений символов в содержащей текст области может потребоваться сопоставление с эталоном для обеспечения точного определения ориентации содержащей текст области.
Настоящая заявка относится к способам и системам определения ориентации содержащей текст области в изображении сканированного документа, которые связаны с гораздо меньшей вычислительной сложностью, чем описанный выше способ со ссылкой на Фиг. 12. Рассматриваемые в настоящей заявке способы и системы направлены на снижение вычислительной сложности задачи определения ориентации содержащей текст области путем снижения величины рис.
На Фиг. 13 показаны симметрии вращения знаков или символов. Далее рассматриваются симметрии относительно осей вращения. Существует неограниченный ряд различных возможных симметрий относительно осей вращения. Примером текстового символа с самой высокой степень симметрии относительно осей вращения является символ алфавита «о». Как показано в верхней строке 1302 на Фиг. 13, буква «о» имеет одинаковый вид независимо от того, на какой угол повернут этот символ вокруг центральной оси вращения, перпендикулярной плоскости символа. Тип оси вращения считается осью вращения с бесконечным количеством вариантов поворота. Символ «+» имеет четырехкратную симметрию вращения, как показано в строке 1304 на Фиг. 13. Внешний вид этого символа показан при вращении вокруг перпендикулярной оси вращения на 0° (1306 на Фиг. 13), 90° (1308 на Фиг. 13), 180° (1310 на Фиг. 13), и 270° (1312 на Фиг. 13). Вращение на другой градус, кроме 0°, 90°, 180° и 270° приведет к ориентации символа, при которой внешний вид символа будет отличаться от символа «+», в котором вертикальный элемент пересекается с горизонтальным. Символ «-» имеет двукратную симметрию вращения, как показано в строке 1316 на Фиг. 13. Символ может быть повернут на 180° вокруг центральной оси вращения, перпендикулярной плоскости символа, без изменения внешнего вида символа. В последней строке 1318 на Фиг. 13 показан японский символ с однократной симметрией вращения. Для этого символа отсутствует другая ориентация, кроме ориентации 0° 1320, при которой символ выглядит так же, как при ориентации 0°. Однократная симметрия вращения представляет собой минимальную степень симметрии вращения, которую может иметь символ. Символы с однократной симметрией вращения называются «асимметричными знаками» или «асимметричными символами». Асимметричные символы являются надежными кандидатами для эффективного определения ориентации содержащей текст области в соответствии со способами и системами, описываемыми в настоящей заявке. Следует отметить, что термин «символ« может относиться к букве алфавитного языка или к символу или знаку на таких языках, как мандаринский, которые основаны на большом наборе символов в виде изображений, а не элементов алфавита. Иными словами термин «символ» относится к элементу письменного или печатного языка, независимо от того, является этот язык алфавитным или нет.
На Фиг. 14A-F показан описанный ранее подход к формированию возможной абсолютной ориентации содержащей текст области, а также несколько альтернативных способов определения ориентации текстовой области, рассматриваемых в настоящем документе. На Фиг. 14А показана содержащая текст область с использованием преобразований иллюстрации, применяемых на многих из последующих фигур в настоящем документе. Содержащая текст область 1402 считается обработанной различными описанными выше способами для определения исходной ориентации содержащей текст области и для наложения сетки на содержащую текст область, которая отделяет каждую содержащую символ или знак подобласть или содержащее символ или знак под-изображение в содержащей текст области. Таким образом, каждая ячейка в сетчатом представлении содержащей текст области, например, ячейка 1403, представляет собой подобласть, которая содержит один символ или знак. Для простоты иллюстрации принимается, что на содержащую текст область может быть наложена ровная прямоугольная сетка для разграничения отдельных содержащих символы подобластей. Для случаев, когда содержащие символы подобласти расположены неравномерно и имеют неравномерный размер, может потребоваться использование неровной сетки.
Один из подходов к формированию вероятной абсолютной ориентации содержащей текст области, представленный на Фиг. 14В, подразумевает рассмотрение каждой содержащей символы подобласти по траектории обхода. На Фиг. 14В пунктирной изгибающейся стрелкой 1404 представлена траектория обхода, при этом каждая содержащая символы подобласть начинается с первой содержащей символ подобласти 1403 и заканчивается конечной содержащей символ подобластью 1405 на траектории обхода 1404. Конечно, существует множество различных траекторий обхода, которые можно использовать. Рассмотрение содержащей символ подобласти во время обхода подразумевает расчет значений признаков для образца из значений пикселей 0 и 1 в содержащей символ подобласти, и сравнение рассчитанных значений признаков с соответствующими рассчитанными значениями признаков для набора символов ориентации или знаков. Существует несколько различных возможных признаков, для которых могут быть рассчитаны значения. Например, один признак представляет соотношение пикселей со значением 1 к общему количеству пикселей в содержащей символ подобласти. Значение, формируемое вычитанием этого значения из 1, соответствует отношению пикселей со значением 0 к общему количеству пикселей в содержащей символ подобласти, что представляет собой другой, связанный признак. Еще одним признаком является центр масс для точечного изображения на основанного на весах 0 или 1 для пикселей в содержащей символы подобласти. Еще одним признаком является размер в пикселях самой крупной непрерывной области с пикселями, имеющими значение 1. Еще одним признаком является самая длинная строка или столбец из пикселей со значением 1 в содержащей символ подобласти. Существует множество различных признаков, для которых значения могут быть рассчитаны для заданной содержащей символ подобласти.
Как показано на Фиг. 14С, результатом рассмотрения содержащей символ подобласти при обходе, рассмотренном выше со ссылкой на Фиг. 14В, является выявление вероятной ориентации символа. Как описано выше, исходная ориентация содержащей текст подобласти дает 4-кратную неоднозначность ориентации символа относительно сетки, сформированной за счет исходной ориентации содержащей текст области. Символ может иметь следующую ориентацию: (1) вертикальную ориентацию, произвольно назначаемую ориентации 0°, которая представлена направленной вверх стрелкой 1406; (2) направленную вправо горизонтальную ориентацию, назначенную для ориентации 90°, как показано стрелкой 1407; (3) направленную вниз ориентацию, назначенную ориентации 180°, как представлено стрелкой 1408; или (4) горизонтальную направленную влево ориентацию, назначенную ориентации 270°, как представлено стрелкой 1409. Следует отметить, что в настоящем описании используется стандартное направление вращения по часовой стрелке. В примере на Фиг. 14А-С обход содержащих символы подобластей в содержащей текст области приводит к определению ориентаций символов, показанных стрелками 1402 на Фиг. 14С. Для символов без стрелки, например, для символа в содержащей символ подобласти 1410, определение вероятной ориент