Определение направления строк текста

Иллюстрации

Показать все

Изобретение относится к области определения ориентации страницы. Технический результат – повышение эффективности определения ориентации строк текстового контента на изображении документа. Способ определения ориентации строк текстового контента включает: получение изображения документа устройством обработки; преобразование изображения в бинаризованное изображение путем выполнения в отношении данного изображения операции бинаризации; определение фрагмента бинаризованного изображения, который включает одну или более строк текстового контента; определение множества горизонтальных серий белых пикселей в одной или более строк текстового контента в данном фрагменте бинаризованного изображения и множество вертикальных серий белых пикселей в одной или более строк текстового контента в данном фрагменте бинаризованного изображения; создание первой гистограммы для множества горизонтальных серий белых пикселей и второй гистограммы для множества вертикальных серий белых пикселей; и определение устройством обработки ориентации одной или более строк текстового контента на изображении на основе первой гистограммы и второй гистограммы. 3 н. и 42 з.п. ф-лы, 14 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

[001] Настоящее изобретение в целом относится к вычислительным системам - в частности, к определению ориентации страницы на изображениях.

УРОВЕНЬ ТЕХНИКИ

[002] Оптическое распознавание символов (OCR) представляет собой электронное преобразование отсканированных или сфотографированных изображений машинописного или печатного текста в машиночитаемый текст. OCR является общепринятым методом оцифровки печатных текстов, чтобы их можно было редактировать в электронном виде, производить в них поиск, отображать их в режиме онлайн, и используется в таких процессах, как преобразование текста в речь, извлечение данных и интеллектуальный анализ текста. В результате постраничной фотосъемки документа могут возникнуть перспективные или геометрические искажения отснятых страниц документа. Для правильной обработки методом OCR может потребоваться определить ориентацию строк текста на изображении документа, с тем чтобы исправить искаженную перспективу перед проведением OCR-обработки.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[003] Для более полного понимания настоящего изобретения ниже приводится подробное описание, в котором для примера, а не способом ограничения, оно иллюстрируется со ссылкой на чертежи, на которых:

[004] На Фиг. 1 изображена схема компонентов верхнего уровня для примера архитектуры вычислительного устройства в соответствии с одним или более аспектами настоящего изобретения.

[005] На Фиг. 2А показан пример гистограммы горизонтальных серий белых пикселей на изображении документа в соответствии с одним или более аспектами настоящего изобретения.

[006] На Фиг. 2В показан пример гистограммы вертикальных серий белых пикселей на изображении документа в соответствии с одним или более аспектами настоящего изобретения.

[007] На Фиг. 3А показан пример графика распределения коэффициентов зависимости, указывающего на вертикальную ориентацию текста в соответствии с одним или более аспектами настоящего изобретения.

[008] На Фиг. 3В показан пример графика распределения коэффициентов зависимости, указывающего на горизонтальную ориентацию текста в соответствии с одним или более аспектами настоящего изобретения.

[009] На Фиг. 4 приведена блок-схема способа определения ориентации строк текстового контента на изображении в соответствии с одним или более аспектами настоящего изобретения.

[0010] На Фиг. 5 приведена блок-схема способа определения ориентации строк текстового контента путем сопоставления площадей гистограмм в соответствии с одним или более аспектами настоящего изобретения.

[0011] На Фиг. 6 приведена блок-схема способа расчета площадей гистограмм в соответствии с одним или более аспектами настоящего изобретения.

[0012] На Фиг. 7 приведена блок-схема способа перерасчета отношения площадей в соответствии с одним или более аспектами настоящего изобретения.

[0013] На Фиг. 8 приведена блок-схема способа расчета коэффициентов зависимости в соответствии с одним или более аспектами настоящего изобретения.

[0014] На Фиг. 9 приведена блок-схема способа определения горизонтальной ориентации строк текстового контента с использованием коэффициентов зависимости в соответствии с одним или более аспектами настоящего изобретения.

[0015] На Фиг. 10 приведена блок-схема способа определения вертикальной ориентации строк текстового контента с использованием коэффициентов зависимости в соответствии с одним или более аспектами настоящего изобретения.

[0016] На Фиг. 11 приведена блок-схема способа определения ориентации строк текстового контента с использованием компонента классификатора в соответствии с одним или более аспектами настоящего изобретения.

[0017] На Фиг. 12 приведена блок-схема иллюстративной вычислительной системы, работающей в соответствии с примерами осуществления настоящего изобретения.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

[0018] В настоящем документе описаны способы и системы определения направления строк текстового контента на изображении документа. В результате фотосъемки страниц документа могут возникнуть перспективные или геометрические искажения отснятых страниц документа. Для правильной обработки методом OCR может потребоваться определить ориентацию строк текста на изображении документа, с тем чтобы исправить искаженную перспективу перед проведением OCR-обработки. Типичные способы определения ориентации строк текста на изображении документа могут включать выполнение OCR-обработки с анализом документа для идентификации символов на изображении. Затем система анализа документа методом OCR получает возможность определить ориентацию страницы на основе ориентации символов, распознанных путем OCR-обработки с анализом документа. Использование метода OCR для определения ориентации строк текста может быть ресурсоемким и неэффективным, так как в процессе может потребоваться определять ориентацию отдельных распознанных символов в блоках текстового контента, чтобы определить искаженную перспективу на строках текста.

[0019] Аспекты настоящего изобретения позволяют решить проблемы вышеуказанного и других недостатков путем использования механизма, который определяет ориентацию строк текста на изображении документа, не применяя метод OCR-обработки и анализа документа для определения и распознавания конкретных символов текста. Осуществляется анализ изображения документа, с тем чтобы установить область изображения, в которой с наибольшей вероятностью имеется текстовый контент. Затем устанавливаются горизонтальные и вертикальные серии белых пикселей на изображении, и как для горизонтальных, так и для вертикальных серий создаются гистограммы.

Ориентация текстового контента на изображении документа может быть определена путем анализа информации из гистограмм для горизонтальных и вертикальных серий белых пикселей.

[0020] Аспекты настоящего изобретения, таким образом, дают возможность более эффективно определять ориентацию строк текстового контента на изображении документа, сокращая время и ресурсы обработки, которые тратятся при методе OCR для установления ориентации символов. Более того, может быть улучшено качество последующей OCR-обработки, так как при OCR-обработке с анализом документа определять ориентацию страницы будет не нужно.

[0021] На Фиг. 1 показана схема компонентов верхнего уровня для примера архитектуры вычислительного устройства в соответствии с одним или более аспектами настоящего изобретения. В иллюстративных примерах вычислительное устройство 100 может представлять собой разнообразные вычислительные устройства, включая планшетный компьютер, смартфон, ноутбук, фотокамеру, видеокамеру и т.д. В одном из вариантов реализации изобретения вычислительное устройство 100 может представлять собой мобильное устройство, которое производит съемку изображения (например, на камеру мобильного устройства) и выполняет локальную обработку ориентации страницы на изображении на самом мобильном устройстве, как описано ниже. В другом варианте реализации изобретения мобильное устройство может произвести съемку изображения и передать его на сервер, который осуществляет обработку ориентации страницы, как описано ниже. Сервер затем может вернуть изображение и информацию об ориентации на мобильное устройство, с тем чтобы мобильное устройство могло провести дополнительную обработку (например, OCR, исправление горизонтальных искажений и т.п.).

[0022] Вычислительное устройство 100 может содержать процессор 110, подключенный к системной шине 120. Другие устройства, подключенные к системной шине 120, могут включать память 130, дисплей 135, оснащенный устройством ввода с сенсорным экраном 170, клавиатуру 140, сетевой интерфейс 160 и оптическое устройство ввода 150. В настоящем документе термин «подключенный» относится к устройствам, которые соединены электрически или подключены с возможностью связи через один или более интерфейсных устройств, адаптеров и т.д.

[0023] Процессор 110 может представлять собой одно или более устройств обработки, в том числе универсальные процессоры и (или) специализированные процессоры. Память 130 может включать одно или более устройств энергозависимой памяти (например, микросхем ОЗУ), одно или более устройств энергонезависимой памяти (например, микросхем ПЗУ или EEPROM) и (или) одно или более запоминающих устройств (например, оптические или магнитные диски). Оптическое устройство ввода 150 может представлять собой и (или) содержать одну или более камер, сканеров, считывателей штрих-кодов и (или) любых других устройств, способных формировать изображения документа.

[0024] Вычислительное устройство 100 может включать устройство ввода с сенсорным экраном 170, выполненное в виде сенсорной области ввода и (или) чувствительной поверхности, наложенной на дисплей 135. Пример вычислительного устройства, в котором реализованы аспекты настоящего изобретения, будет рассмотрен более подробно ниже со ссылкой на Фиг. 12.

[0025] Память 130 может хранить команды модуля ориентации страницы 190 для определения направления строк текста на изображении документа. В некоторых вариантах реализации изобретения модуль ориентации страниц 190 может быть реализован в виде функции, которая вызывается через пользовательский интерфейс другого приложения (например, приложения сканирования документов, приложения для съемки на камеру и т.д.). В качестве альтернативного варианта модуль ориентации страниц 190 может быть реализован в виде автономного приложения. В качестве иллюстративного примера модуль ориентации страниц 190 может сначала получить изображение документа. Документ может включать одну или более страниц открытой книги, печатный лист содержащей текст бумаги (например, туристическая брошюра, карта, юридический документ, печатный отчет и т.д.), текстовый документ, прикрепленный к некой конструкции (например, повешенный на стену документ или рекламный щит) и тому подобное.

[0026] В некоторых вариантах реализации изображение документа может быть получено через пользовательский интерфейс, с помощью которого пользователь производит съемку изображения документа. Данный пользовательский интерфейс может быть выполнен в виде модуля ориентации страницы 190, выполняемого на мобильном устройстве. Модулем ориентации страниц 190 может быть мобильное приложение (или часть мобильного приложения), установленное на мобильном устройстве, которое включает камеру, позволяющую производить съемку изображения. Мобильным устройством может быть мобильный телефон, карманный компьютер (PDA), камера, видеокамера, ноутбук и т.д. Например, пользователь может запустить приложение на мобильном телефоне с камерой, после чего может появиться пользовательский интерфейс, с помощью которого пользователь делает фотоснимок документа. В качестве альтернативного варианта данное приложение может получить изображение документа, импортировав изображение из фотоархива, хранящегося на мобильном устройстве, скачав изображение с внешнего источника, захватив кадр из потокового видео либо любым другим образом. В качестве альтернативного варианта модуль ориентации страниц 190 может исполняться сервером, который может получить изображение документа с мобильного устройства по сети.

[0027] В некоторых вариантах реализации изобретения модуль ориентации страниц 190 может преобразовать изображение с получением нормализованного изображения путем уменьшения размера изображения до предопределенного. Уменьшение размера изображения может сократить объем требуемых вычислительных ресурсов, тем самым повышая производительность модуля ориентации страниц 190 на мобильном устройстве. Например, нормализованное изображение может иметь размер 800 пикселей на 600 пикселей. В качестве альтернативного варианта модуль ориентации страниц 190 может преобразовать изображение с использованием различных значений длины и ширины в зависимости от размеров исходного документа. В некоторых вариантах реализации модуль ориентации страниц 190 может получить изображение документа, которое уже было нормализовано.

[0028] Модуль ориентации страниц 190 может преобразовать нормализованное изображение в бинаризованное изображение, произведя операцию бинаризации данного изображения. Операция бинаризации может конвертировать полутоновое или цветное изображение документа в бинаризованное изображение документа с двумя значениями для каждого пикселя. Например, бинаризованное изображение может хранить значение каждого пикселя как черного или белого. В некоторых вариантах реализации модуль ориентации страниц 190 может производить операцию бинаризации с использованием адаптивной бинаризации. Адаптивная бинаризация измеряет яркость фона изображения и насыщенность черных областей на изображении, с тем чтобы определить оптимальные параметры бинаризации для отдельных областей документа. Таким образом, адаптивная бинаризация позволяет получать более точное бинаризованное изображение в случаях, когда исходный документ содержит фоновые изображения, текстуры или шумы.

[0029] Модуль ориентации страниц 190 может определить фрагмент бинаризованного изображения, который включает одну или более строк текстового контента. Текстовый контент может включать последовательности буквенных символов, буквенно-цифровых символов, символьных знаков (например, знаки азиатских языков), символы кириллицы и т.п. Строки текстового контента могут включать строки текста в том виде, в каком они встречаются в составе предложений или абзацев печатных документов. Модуль ориентации страниц 190 может определить область изображения документа, которая с наибольшей вероятностью содержит область скопления текста, исключив область по периметру изображения. Во многих случаях края по периметру изображения документа чаще всего содержат значительную часть пустого пространства (например, поля страниц) и шумов (например, искажения изображения на дальних краях изображения).

[0030] Модуль ориентации страниц 190 может определять область периметра бинаризованного изображения, ширина которого не превышает предопределенное пороговое значение. В некоторых вариантах реализации предопределенным пороговым значением ширины может быть фиксированный размер (например, ширина 100 пикселей вдоль каждого края изображения). В других вариантах реализации данным порогом может быть процент от размера изображения. Например, порог ширины периметра может быть установлен на 15% от ширины изображения документа. Таким образом, в случае бинаризованного изображения шириной 600 пикселей модуль ориентации страниц 190 может определить область периметра вокруг изображения, ширина которой не превышает 90 пикселей. Затем модуль ориентации страниц 190 может выбрать фрагмент бинаризованного изображения, исключающий данную область периметра.

[0031] В некоторых вариантах реализации область периметра может определяться с помощью компонента классификатора. Классификатор - это метод машинного обучения, который может присваивать входным данным категорию путем растрового распознавания. Классификатор может определять, к какой из множества категорий относится новое наблюдаемое значение данных, используя обучающую выборку ранее наблюдаемых значений данных, в которой известны категории, присвоенные каждому наблюдаемому значению данных. Таким образом, классификатор может, анализируя характеристики изображения документа, определять размер области периметра на основе аналогичных характеристик ранее анализированных изображений документов.

[0032] В качестве иллюстративного примера модуль ориентации страниц 190 может обучить компонент классификатора, соотнеся некий набор предопределенных значений периметра с соответствующими характеристиками изображения. Характеристики изображения могут включать размеры документа на изображении (например, стандартное письмо, юридический и т.д.), источник (например, книга, учебник, журнал и т.д.), классификацию контента (например, только текст, текст и изображения, колонки и т.д.) и другую подобную информацию. В некоторых вариантах реализации классификатор может быть обучен таким образом, чтобы область периметра в случае документа формата 33×40,6 см (который может содержать больше пустого пространства по периметру ввиду более широких полей) была больше, чем в случае документа формата 21,6×27,9 см. Модуль ориентации страниц 190 затем может установить характеристики изображения, соотнесенные с бинаризованным изображением, и затем определить область периметра бинаризованного изображения, применив классификатор к характеристикам изображения, соотнесенным с бинаризованным изображением. Например, если бинаризованное изображение имеет размеры изображения, сходные по длине и ширине с размерами ранее анализированных изображений документов формата 33×40,6 см с более широкими областями периметра, модуль ориентации страниц 190 может установить, что из бинаризованного изображения следует исключить более крупную область периметра. Ранее анализированные результаты, используемые для обучения классификатора, могут дать классификатору возможность установить, что исключение более крупной области периметра приведет к более точной идентификации области бинаризованного изображения, в которой с наибольшей вероятностью заключено текстовый контент.

[0033] Затем модуль ориентации страниц 190 может определить множество горизонтальных серий белых пикселей в одной или более строк текстового контента в данном фрагменте бинаризованного изображения и множество вертикальных серий белых пикселей в одной или более строк текстового контента в данном фрагменте бинаризованного изображения. «Серией» пикселей может быть последовательность, в которой одно и то же значение данных встречается во множестве последовательных пикселей. Например, горизонтальную строку пикселей в бинаризованном изображении, которое включает 20 белых пикселей, за которыми следуют 10 черных пикселей, далее 3 белых пикселя, затем 10 черных пикселей и 5 белых пикселей, можно представить в виде пяти «серий»: 3 серии белых пикселей (длиной 20, 3 и 5) и две серии черных пикселей (длиной 10 каждая). В некоторых вариантах реализации модуль ориентации страниц 190 может определить серии белых пикселей, применив к данному фрагменту бинаризованного изображения алгоритм сжатия данных методом кодирования длин серий (run-length encoding - RLE). Кодирование длин серий является формой сжатия данных без потерь, которая позволяет определять серии и хранить их в виде одного значения данных с соотнесенным с ним числом повторов. Используя приведенный выше пример, алгоритм RLE позволяет сохранить данную горизонтальную строку пикселей в виде «20W10B3W10B5W».

[0034] Модуль ориентации страниц 190 может устанавливать серии белых пикселей, а не черных пикселей, так как во многих случаях серии белых пикселей имеют различную длину в горизонтальном и вертикальном направлениях на изображении документа, что может быть информативным с точки зрения ориентации строк текста. Например, строка текста может иметь более длинные вертикальные серии белых пикселей по сравнению с горизонтальными сериями. Учитывая большое разнообразие шрифтов черные пиксели равномерно распределяются в горизонтальном и вертикальном направлениях и поэтому могут быть неинформативными с точки зрения ориентации текста. Однако в вариантах реализации изобретения, в которых изображение содержит шрифты различного размера и в которых горизонтальные и вертикальные серии черных пикселей, скорее всего, будут разными, модуль ориентации страниц 190 может также устанавливать серии черных пикселей.

[0035] Затем модуль ориентации страниц 190 может использовать серии белых пикселей для построения первой гистограммы множества горизонтальных серий белых пикселей в данном фрагменте бинаризованного изображения и второй гистограммы для множества вертикальных серий белых пикселей в данном фрагменте бинаризованного изображения. В данных гистограммах по оси ординат может быть отложено число серий, а по оси абсцисс - длина серий. В некоторых вариантах реализации первая гистограмма может включать первое множество интервальных бинов (ячеек гистограммы), каждый из которых соответствует длине одной или более из множества горизонтальных серий белых пикселей в данном фрагменте бинаризованного изображения. Таким образом, каждый интервальный бин (ячейка гистограммы) на оси абсцисс гистограммы может быть соотнесен с длиной горизонтальной серии для горизонтальных серий белых пикселей. Вторая гистограмма может включать второе множество интервальных бинов (ячеек гистограммы), каждый из которых соответствует длине одной или более из множества вертикальных серий белых пикселей в данном фрагменте бинаризованного изображения. Таким образом, каждый интервальный бин (столбец гистограммы) на оси абсцисс второй гистограммы может быть соотнесен с длиной вертикальной серии для вертикальных серий белых пикселей. Ниже со ссылкой на Фиг. 2А-2В рассматриваются иллюстративные примеры гистограмм для горизонтальных и вертикальных серий белых пикселей.

[0036] Затем модуль ориентации страниц 190 может определить ориентацию одной или более строк текстового контента в данном фрагменте бинаризованного изображения, на основе первой гистограммы и второй гистограммы. В одном из вариантов реализации изобретения модуль ориентации страниц 190 может определять ориентацию, сопоставляя площади двух гистограмм для серий белых пикселей, не превышающих некое максимальное пороговое значение длины. Используя максимальную пороговую длину, модуль ориентации страниц 190 может направить анализ на более короткие серии белых пикселей, что может быть более информативным в отношении ориентации строк текста. В некоторых вариантах реализации более длинные серии белых пикселей могут представлять пробел между строчками текста (в горизонтальном направлении), а также пробел между колонками текста (в вертикальном направлении). Таким образом, модуль ориентации страниц 190 может использовать максимальную пороговую длину для снижения влияния, которое может оказывать более длинная серия белых пикселей на определение ориентации строк текста.

[0037] Аналогичным образом модуль ориентации страниц 190 может далее уточнить площадь двух гистограмм, установив минимальную пороговую длину для использования при анализе площадей. Использование минимального порога позволяет уменьшить влияние, которое могут оказывать шум и искажения изображения на определение ориентации строк текста. Таким образом, анализ может быть направлен на короткие серии белых пикселей, длина которых больше минимального порога, но меньше максимального. В некоторых вариантах реализации минимальный порог можно задать, используя атрибуты бинаризованного изображения. Например, минимальный порог можно установить на значение пикселей, которое немногим меньше расстояния между символами в бинаризованном изображении, что позволит снизить вероятность влияния цифрового шума на изображении на определение ориентации страницы.

[0038] В различных вариантах реализации для максимальной пороговой длины и минимальной пороговой длины могут быть заданы фиксированные значения. В качестве альтернативного варианта модуль ориентации страниц 190 может установить пороговые значения эмпирическим путем, обратившись к информации о ранее сканированных копиях документов, чтобы определить оптимальную минимальную пороговую длину и оптимальную максимальную пороговую длину на основе атрибутов, соотнесенных с бинаризованным изображением (например, расстояние между символами, разметка документа, размеры изображения и т.д.). В других вариантах реализации модуль ориентации страниц 190 для задания пороговых значений может использовать классификатор согласно вышеприведенному описанию. Модуль ориентации страниц 190 может определить пороговые значения одновременно с расчетом значений периметра либо, в качестве альтернативного варианта, может обучить и применить второй классификатор, специально предназначенный для определения одного или обоих пороговых значений.

[0039] Модуль ориентации страниц 190 может выбрать первый набор интервальных бинов (столбцов гистограммы) из первого множества интервальных бинов (столбцов гистограммы) первой гистограммы, при этом первый набор интервальных бинов (столбцов гистограммы) включает горизонтальные серии белых пикселей, которые не превышают максимальную пороговую длину. В качестве альтернативного варианта модуль ориентации страниц 190 может выбрать первый набор интервальных бинов (столбцов гистограммы), который включает горизонтальные серии белых пикселей, превышающих минимальную пороговую длину и не превышающих максимальную пороговую длину. Например, модуль ориентации страниц 190 может установить минимальный порог на 2 пикселя, а максимальный - на 4 пикселя. Таким образом, модуль ориентации страниц 190 может выбрать в качестве набора для расчета площади интервальные бины из первой гистограммы, которые соответствуют длинам серий 2, 3, и 4 пикселей. В качестве альтернативного варианта модуль ориентации страниц 190 может не задавать минимальный порог и выбрать интервальные бины из первой гистограммы, которые соответствуют длинам серий 1, 2, 3 и 4 пикселя.

[0040] Затем модуль ориентации страниц 190 может рассчитать площадь выбранного набора интервальных бинов из первой гистограммы. В некоторых вариантах реализации модуль ориентации страниц 190 может рассчитывать данную площадь по уравнению (1) ниже:

,

[0041] В уравнении (1) S1 - общая площадь по выбранному набору интервальных бинов из гистограммы, L - длина серии белых пикселей, a NL - количество серий белых пикселей с длиной L. Общая площадь по выбранному набору интервальных биноа (S1) рассчитывается путем суммирования площади каждого интервального бина от первого бинадо интервального бина для максимальной пороговой длины thL серий белых пикселей. В каждом интервальном бине площадь данного бина рассчитывается как длина серии данного бина, умноженная на число серий, определенных для данной длины. Например, если минимальный порог не задан и первый набор интервальных бинов включает бины, которые соответствуют длинам серии L 1, 2, 3 и 4 пикселя, площадь S1 может быть рассчитана как сумма площадей по каждому из четырех бинов. Если было 10 серий длиной 1 пиксель, 20 серий длиной 2 пикселя, 30 серий длиной 3 пикселя и 40 серий длиной 4 пикселя, площадь S1 можно рассчитать как (10×1)+(20×2)+(30×3)+(40×4).

[0042] Затем модуль ориентации страниц 190 может повторить вышеописанный процесс по второй гистограмме для множества вертикальных серий белых пикселей. Модуль ориентации страниц 190 может выбрать второй набор интервальных бинов из второго множества интервальных бинов второй гистограммы, при этом второй набор интервальных бинов включает вертикальные серии белых пикселей, которые не превышают максимальную пороговую длину. В качестве альтернативного варианта модуль ориентации страниц 190 может выбрать второй набор интервальных бинов, который включает вертикальные серии белых пикселей, превышающих минимальную пороговую длину и не превышающих максимальную пороговую длину. Например, модуль ориентации страниц 190 может установить минимальный порог на 2 пикселя, а максимальный - на 4 пикселя. Таким образом, модуль ориентации страниц 190 может выбрать в качестве набора для расчета площади интервальные бины из второй гистограммы, которые соответствуют длинам серий 2, 3, и 4 пикселей. В качестве альтернативного варианта модуль ориентации страниц 190 может не задавать минимальный порог и выбрать интервальные бины из первой гистограммы, которые соответствуют длинам серий 1, 2, 3 и 4 пикселя.

[0043] Затем модуль ориентации страниц 190 может рассчитать значение площади выбранного набора интервальных бинов из второй гистограммы. В некоторых вариантах реализации модуль ориентации страниц 190 может рассчитывать данную площадь по уравнению (2) ниже:

,

[0044] В уравнении (2) S2 - общая площадь по выбранному набору интервальных бинов из гистограммы, L - длина серии белых пикселей, a NL- количество серий белых пикселей с длиной L. Общая площадь по выбранному набору интервальных бинов (S2) рассчитывается путем суммирования площади каждого интервального бина от первого бина до интервального бина для максимальной пороговой длины rhL. В каждом интервальном бине площадь данного бина рассчитывается как длина серии данного бина (L), умноженная на число серий, определенных для данной длины (NL). Например, если минимальный порог не задан и второй набор интервальных бинов включает бины, которые соответствуют длинам серии 1, 2, 3 и 4 пикселя, площадь S2 может быть рассчитана как сумма площадей по каждому из четырех бинов. Если предположить, что имеется 5 серий длиной 1 пиксель, 10 серий длиной 2 пикселя, 15 серий - 3 пикселя и 20 серий - 4 пикселя, то площадь S2 может быть рассчитана следующим образом: (5×1)+(10×2)+(15×3)+(20×4).

[0045] Затем модуль ориентации страниц 190 может сопоставить первую площадь (S1) для первого выбранного набора бинов в первой гистограмме со второй площадью (S2) для второго набора бинов во второй гистограмме. Модуль ориентации страниц 190 может определить ориентацию строк текстового контента по уравнению (3) ниже:

[0046] В уравнении (3) максимальное значение из первой площади (SI) и второй площади (S2) делится на меньшее из первой площади (SI) и второй площади (S2), в результате чего получаем отношение максимального значения к минимальному. Если данное отношение превышает значение k, которое представляет собой пороговое значение уверенности, то модуль ориентации страниц 190 может принять решение об ориентации строк текстового контента. Может быть установлено пороговое значение уверенности, указывающее на то, что для принятия решения об ориентации текста максимальная площадь должна не менее чем в k раз превосходить минимальное значение площади.

Пороговое значение уверенности может быть задано на конкретное значение (например, 2), эмпирическим путем на основе значений уверенности, использованных для предыдущих сканированных копий документов (например, среднее значение предыдущих значений и т.п.), с использованием классификатора, как описано выше (например, с использованием того же классификатора для периметра или другого классификатора) или любым иным образом. Если отношение не превышает данный порог уверенности, то модуль ориентации страниц 190 может сделать вывод, что для принятия решения об ориентации недостаточно информации, и затем пересчитать площади гистограмм, увеличив максимальные пороговые длины как для S1, так и для S2, как описано ниже.

[0047] В ответ на решение о том, что первая площадь (S1) больше второй (S2), модуль ориентации страниц 190 может установить максимальную площадь на значение первой площади (S1), а минимальную площадь - на значение второй площади (S2). И наоборот, в ответ на решение о том, что вторая площадь (S2) больше первой (S1), модуль ориентации страниц 190 может установить максимальную площадь на значение второй площади (S2), а минимальную площадь - на значение первой площади (S1). Затем модуль ориентации страниц 190 может рассчитать отношение площадей, разделив максимальную площадь на минимальную. В ответ на решение о том, что данное отношение превышает порог уверенности (k), модуль ориентации страниц 190 может определить ориентацию строк текстового контента на изображении на основе того, какая из площадей выбрана в качестве максимальной.

[0048] Например, в ответ на решение о том, что максимальным является значение первой площади (S1) (например, S1 больше S2), модуль ориентации страниц 190 может решить, что ориентация строк текстового контента является горизонтальной (например, так как значение первой площади (S1) соответствует гистограмме для горизонтальных серий белых пикселей). Аналогичным образом, в ответ на решение о том, что максимальным является значение второй площади (S2) (например, S2 больше S1), модуль ориентации страниц 190 может решить, что ориентация строк текстового контента является вертикальной (например, так как значение второй площади (S2) соответствует гистограмме вертикальных серий белых пикселей).

[0049] В ответ на решение о том, что данное отношение меньше порога уверенности (k), модуль ориентации страниц 190 может пересчитать значения для S1 и S2 с увеличенной максимальной пороговой длиной. Например, если исходная максимальная пороговая длина была установлена на 4 пикселя, модуль ориентации страниц может увеличить пороговую длину до 5 пикселей. Затем модуль ориентации страниц 190 может пересчитать первую площадь для горизонтальных серий с увеличенной пороговой длиной (например, рассчитать обновленную S1 или S1') и пересчитать вторую площадь для вертикальных серий с увеличенной пороговой длиной (например, рассчитать обновленную S2 или S2'). В некоторых вариантах реализации модуль ориентации страниц 190 может пересчитать площади по уравнениям (1) и (2), описанным выше, при этом максимальная пороговая длина thL заменяется на увеличенную максимальную пороговую длину. Затем модуль ориентации страниц 190 может сопоставить пересчитанную первую площадь (S1') с пересчитанной второй площадью (S2'), чтобы определить новую максимальную площадь и новую минимальную площадь на основе пересчитанной первой площади (S1') и пересчитанной второй площади (S2'). Затем модуль ориентации страниц 190 может пересчитать отношение площадей на основе новой максимальной площади и новой минимальной площади и в случае решения о том, что пересчитанное отношение площадей превышает порог уверенности (k), определить ориентацию строк текстового контента на изображении на основе новой максимальной площади, как описано выше. Если пересчитанное отношение площадей все равно не превышает порог уверенности (k), модуль ориентации страниц 190 может еще более увеличить максимальную пороговую длину и затем пересчитать значения для S1 и S2 с вновь увеличенной максимальной пороговой длиной, как описано выше. Данный процесс может повторяться до тех пор, пока пересчитанное отношение площадей не превысит порог уверенности (k).

[0050] В другом варианте реализации изобретения модуль ориентации страниц 190 может определять ориентацию одной или более строк текстового контента в данном фрагменте бинаризованного изображения путем анализа коэффициентов зависимости площадей первой гистограммы по отношению к площадям второй гистограммы. Коэффициент зависимости - это отношение площади для определенной длины серий первой гистограммы к площади для той же длины серий второй гистограммы. Например, для длины серий 1 коэффициентом зависимости может быть площадь первой гистограммы для интервального бина, соотнесенного с длиной серий 1 (например, по уравнению площади (1), описанному выше с порогом 1), деленная на площадь второй гистограммы для интервального бина, соотнесенного с длиной серий 1 (например, по уравнению площади (2), описанному выше с порогом 1). Для длины серий 2 коэффициентом зависимости может быть общая площадь для интервальных бинов для длин 1 и 2 (например, по приведенным выше уравнениям с порогом 2), деленная на площадь второй гистограммы для интервальных бинов для длин серий 1 и 2 (например, по приведенному выше уравнению площади (2) с порогом 2).

[0051] В качестве иллюстративного примера модуль ориентации страниц 190 может выбрать первый набор интервальных бинов из первого множества интервальных бинов первой гистограммы, при этом первый набор интервальных бинов включает горизонтальные серии белых пикселей, не превышающие первую длину. Например, первая длина может быть установлена на значение наименьшего числа пикселей в гистограмме (например, 1 пиксель). В качестве альтернативного варианта первая длина может быть установлена на минимальную пороговую длину, как описано выше. Затем модуль ориентации страниц 190 может рассчитать площадь первого набора интервальных бинов из первой гистограммы (например, по уравнению (1) выше). Затем модуль ориентации страниц 190 может выбрать второй набор интервальных бинов из второго множества интервальных бинов второй гистограммы, который представл