2608239 - Способ и система определения пригодности изображения документа для оптического распознавания символов и других операций по обработке изображений

Способ и система определения пригодности изображения документа для оптического распознавания символов и других операций по обработке изображений

Иллюстрации

Показать все

Изобретение относится к технологиям обработки изображений посредством электронных средств. Техническим результатом является устранение ошибок обработки изображений с целью устранения шума при сохранении резких контуров. Предложена система анализа цифрового изображения. Система содержит один или более процессоров, один или более модулей памяти, команды в машинном коде, хранящиеся в одном или более из одного или более электронных запоминающих устройств. Команды машинного кода при выполнении одним или более процессорами управляют системой для получения исходного изображения, осуществления фильтрации исходного изображения, осуществления анализа резкости исходного изображения и определения типа его искажения. Далее создают из полученного исходного изображения производные изображения, представляющие собой серые изображения, или бинаризованные изображения, или контурные изображения, представляющие направленные компоненты оцениваемых градиентов интенсивности. Далее сохраняют производные изображения в одном или более электронных запоминающих устройствах. 3 н. и 18 з.п. ф-лы, 37 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

В настоящем изобретении рассматриваются способы и системы обработки изображений, в частности оценочный компонент устройства получения изображения или системы обработки изображений, который оценивает пригодность изображения документа для различных типов получения и обработки изображения.

УРОВЕНЬ ТЕХНИКИ

Печатные документы на естественном языке до сих пор являются широко распространенным средством коммуникации между людьми, в организациях и используются для донесения информации до ее потребителей. Ввиду появления и повсеместного использования мощных вычислительных ресурсов, в том числе ресурсов, доступных в пользовательских смартфонах, планшетах, ноутбуках и персональных компьютерах, а также с распространением более мощных вычислительных ресурсов облачных вычислительных сервисов, центров обработки данных и корпоративных серверов организаций и предприятий, шифрование и обмен информацией на естественном языке все более часто выполняется в виде электронных документов. Печатные документы по своей сути представляют собой изображения, в то время как электронные документы содержат последовательности цифровых кодов символов и знаков на естественном языке. Поскольку электронные документы дешевле печатных и превосходят их по возможностям передачи и рассылки, простоте редактирования и изменения, а также по надежности хранения, за последние 50 лет развилась целая отрасль, поддерживающая способы и системы преобразования печатных документов в электронные. Компьютерные способы и системы оптического распознавания символов совместно с электронными сканерами обеспечивают надежное и экономичное получение изображений печатных документов и компьютерную обработку получаемых цифровых изображений, содержащих текст, для создания электронных документов, соответствующих печатным.

Раньше электронные сканеры представляли собой крупногабаритные настольные или напольные электронные устройства. Однако с появлением смартфонов и других мобильных устройств получения изображения с процессорным управлением появилась возможность получения цифровых изображений, содержащих текст документов, с помощью целого набора различных типов широко распространенных портативных устройств. Среди них - смартфоны, недорогие цифровые камеры, камеры видеонаблюдения, а также устройства получения изображений, включая планшетные компьютеры и ноутбуки. Получаемые при помощи таких портативных устройств и приборов цифровые изображения, содержащие текст документов, могут обрабатываться вычислительными системами оптического распознавания символов, в том числе приложениями оптического распознавания символов в смартфонах для создания соответствующих электронных документов.

К сожалению, получение изображений содержащих текст документов, при помощи портативных устройств связано с повышенным шумом, оптическим смазом и иными дефектами, а также недостатками цифровых изображений по сравнению с получением таковых при помощи специальных приборов для сканирования документов. Эти дефекты и недостатки могут значительно снизить производительность вычислительного оптического распознавания символов и значительно увеличить частоту ошибочного распознавания символов, а также привести к отказу способов и систем оптического распознавания символов при кодировании текста на больших областях цифровых изображений, содержащих текст. Таким образом, несмотря на то что портативные устройства и приборы получения изображений документов имеют значительные преимущества по стоимости и доступности для пользователя, они связаны с недостатками, которые могут затруднить и исключить возможность создания электронных документов из цифровых изображений, содержащих текст, полученных портативными устройствами и приборами. Во многих других ситуациях содержащие текст цифровые изображения могут иметь аналогичные дефекты и недостатки, которые могут привести к неудовлетворительным результатам применяемых впоследствии способов обработки изображений. По этой причине проектировщики и разработчики устройств, приборов для получения изображений и способов, систем оптического распознавания символов, а также пользователи устройств, приборов и систем оптического распознавания символов продолжают искать способы и системы для устранения дефектов и недостатков, присущих многим цифровым изображениям, содержащим текст, включая содержащие текст цифровые изображения, полученные с помощью мобильных устройств, которые затрудняют дальнейшую вычислительную обработку содержащего текст цифрового изображения.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

В настоящем документе рассматриваются вычислительно-эффективный способ и система оценки пригодности цифрового изображения, содержащего текст, для различных типов вычислительной обработки изображения, включая оптическое распознавание символов. Содержащее текст цифровое изображение оценивается способами и системами настоящего изобретения на предмет резкости или, иными словами, на отсутствие или низкий уровень шума, оптического размытия (смаза) и прочих дефектов и недостатков. В процессе оценки резкости используются вычислительно-эффективные шаги, в том числе операции свертки с малыми ядрами для создания контурных изображений и оценка пикселей на основе яркости на контурных изображений, для оценки резкости и близости к предельной яркости с целью оценки резкости содержащего текст цифрового изображения в целях обработки изображения. Способы и системы настоящего изобретения позволяют пользователям оценивать пригодность содержащих текст цифровых изображений для обработки изображений до образования вычислительных и временных затрат, связанных с применением способов обработки изображений к содержащим текст цифровым изображениям, значительно увеличивая вероятность того, что обработка изображения создаст из содержащих текст цифровых изображений электронные документы без ошибок или с небольшим количеством ошибок.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

На Фиг. 1A-D показаны два типа портативных устройств получения изображений.

На Фиг. 2A-D показан оптический фокус и оптическое размытие.

На Фиг. 3 показан сфокусированный и смазанный (размытый) текст.

На Фиг. 4 показано типовое изображение с цифровым кодированием.

На Фиг. 5 показан один вариант цветовой модели RGB.

На Фиг. 6 показана другая цветовая модель «оттенок-насыщенность-светлота» (HSL).

На Фиг. 7 показано различие между сфокусированным изображением текстового символа и несфокусированным изображением текстового символа.

На Фиг. 8 показано дискретное вычисление градиента интенсивности.

На Фиг. 9 показан градиент, рассчитанный для точки на непрерывной поверхности.

На Фиг. 10 показан ряд примеров для градиента интенсивности.

На Фиг. 11 показано использование ядра, охватывающего три пикселя, на котором выполняется свертка серого цифрового изображения для формирования контурного изображения или дифференциального изображения, в котором значения пикселей соответствуют модулям направленных векторов, соответствующих модулю градиента интенсивности в конкретном направлении.

На Фиг. 12 показано вычисление четырех различных контурных изображений из примера серого цифрового изображения.

На Фиг. 13 показан результат вычисления контурных изображений из серого изображения, указанного выше со ссылкой на Фиг. 12.

На Фиг. 14 показано разбиение цифрового изображения на неперекрывающиеся блоки.

На Фиг. 16 показан основанный на гистограмме способ определения значения контраста для конкретного блока

На Фиг. 17 показано определение пороговых значений на основе интенсивности для создания бинаризованного изображения из серого изображения.

На Фиг. 18 показан один из подходов к определению контурных пикселей.

На Фиг. 19 приведена вторая блок-схема из серии блок-схем, демонстрирующих один из вариантов реализации раскрываемого в настоящем документе способа предварительного анализа резкости.

На Фиг. 20 представлен выбор блоков-кандидатов из исходного изображения и бинаризованного исходного изображения для последующего анализа резкости.

На Фиг. 21 представлено определение количества резких пикселей (num_sharp) и количества контурных пикселей (num_edge) в блоке исходного изображения и производных изображений.

На Фиг. 22-24 представлены блок-схемы, дополняющие описание и иллюстрацию первого варианта реализации раскрываемого в настоящем документе способа предварительного анализа резкости.

На Фиг. 25-30 представлен второй вариант реализации раскрываемого в настоящем документе способа предварительного анализа резкости.

На Фиг. 26-30 представлены блок-схемы, иллюстрирующие альтернативный вариант реализации раскрываемого в настоящей заявке способа предварительного анализа резкости.

На Фиг. 31 представлена структурная схема компьютерной системы высокого уровня, например компьютерной системы, в которой применяется раскрываемый способ предварительного анализа резкости для получения метрики пригодности для последующей обработки изображения.

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИ

На Фиг. 1A-D показаны два типа портативных устройств получения изображений. На Фиг. 1А-С показана цифровая камера 102. Цифровая камера содержит объектив 104, кнопку спуска затвора 105, нажатие которой пользователем приводит к захвату цифрового изображения, которое соответствует отраженному свету, поступающему в объектив 104 цифровой камеры. С задней стороны цифровой камеры, которая видна для пользователя, когда он держит камеру при съемке цифровых изображений, имеется видоискатель 106 и жидкокристаллический дисплей видоискателя 108. С помощью видоискателя 106 пользователь может напрямую просматривать создаваемое объективом камеры изображение, а с помощью жидкокристаллического дисплея 108 - просматривать электронное отображение создаваемого в настоящий момент объективом изображения. Обычно пользователь камеры настраивает фокус камеры с помощью кольца фокусировки 110, смотря при этом через видоискатель 106 или рассматривая изображение на жидкокристаллическом дисплее 108 для выбора необходимого изображения перед нажатием на кнопку спуска затвора 105 с целью цифрового захвата изображения и сохранения изображения в электронной памяти цифровой камеры.

На Фиг. 1D показан типовой смартфон с передней стороны 120 и с задней стороны 122. На задней стороне 122 имеется объектив цифровой камеры 124 и цифровой экспонометр и (или) датчик приближения 126. Под управлением приложения на передней стороне смартфона 120 может отображаться получаемое изображение 126, аналогично работе жидкокристаллического дисплея видоискателя 108 цифровой камеры, а также сенсорная кнопка спуска затвора 128, при прикосновении к которой происходит захват цифрового изображения и сохранение его в памяти смартфона.

На Фиг. 2A-D показан оптический фокус и оптический смаз. На Фиг. 2А показан вид сбоку оптической линзы 202, на которую попадают параллельные лучи света от удаленных объектов. Первый набор параллельных лучей света 204-206 проходит от удаленного объекта, расположенного рядом с горизонтом, или, иными словами, по направлению от точки, находящейся под углом 180° от линзы, а второй набор параллельных лучей света 208-210 поступает от удаленного объекта, расположенного под углом приблизительно 215° от линзы. Первый набор лучей сходится в точке 212, расположенной на фокальной плоскости 214 на удалении от линзы, соответствующем фокусному расстоянию . Второй набор параллельных лучей 208-210 сходится во второй точке 218 на фокальной плоскости, выше точки 212. Таким образом, удаленные объекты, которые создают в целом параллельные лучи света, формируют перевернутое изображение на фокальной плоскости 214 с противоположной стороны от линзы 202.

Как показано на Фиг. 2В, объект 230, расположенный ближе к линзе 202, чем удаленные объекты, указанные со ссылкой на Фиг. 2А, создает перевернутое изображение 232 на плоскости 234 дальше от плоскости 202, чем фокусная точка 212 для удаленных объектов. Таким образом, при расстоянии s_o от линзы 236 имеется соответствующая фокальная плоскость 234 на расстоянии s_i 238. В камере расстояние от плоскости изображения 234 до линзы регулируется с помощью механизма фокусировки для механической фокусировки изображения объекта. Чем ближе расположен объект, тем больше будет расстояние между линзой и плоскостью изображения. Объекты, расположенные к линзе ближе, чем расстояние, равное фокусному, не могут быть отображены. В этом случае лучи, исходящие от точки на таком объекте, проходят через линзу и расходятся с противоположной стороны линзы.

На Фиг. 2C-D показан смаз (размытие) изображения. На Фиг. 2С и 2D плоскость снятия изображения 240 в камере расположена для получения изображения на расстоянии s_focus 242 от линзы 244. Когда объект в поле зрения находится ближе к линзе, чем расстояние s_focus 246, как показано на Фиг. 2С, сфокусированное изображение 248 будет находиться за плоскостью снятия изображения 240. В результате лучи света 250-252, исходящие из конкретной точки 254 на поверхности объекта, будут сходиться в соответствующей точке 256 на сфокусированном изображении 248, но не будут сходиться на плоскости снятия изображения 240. Вместо этого лучи падают на дискообразную область 258 на плоскости снятия изображения. Аналогичным образом, как показано на Фиг. 2D, когда объект 246 находится на расстоянии от линзы, превосходящем s_focus, объект будет сфокусирован 260 перед плоскостью снятия изображения 240. Вместо схождения в точке на поверхности снятия изображения оптические лучи распространяются по дискообразной области 262 на плоскость снятия изображения. Как в случае на Фиг. 2С, так и в случае на Фиг. 2D, если лучи, исходящие из конкретной точки снимаемого объекта, не сходятся в соответствующей точке на поверхности снятия изображения, а попадают в дискообразную область, то возникает дефект размытия. На Фиг. 3 показан сфокусированный и размытый текст. Как показано на Фиг. 3, слово «focus» отображается резко 302 при фокусировке камеры на плоскости снятия изображения или смазано 304 (без четких контуров) на снимке несфокусированной камерой, в которой сфокусированное перевернутое изображение, сформированное линзой, оказывается ближе или дальше плоскости снятия изображения, как показано на Фиг. 2C-D.

На Фиг. 4 показано типовое изображение с цифровым кодированием. Кодированное изображение включает двухмерный массив пикселей 402. На Фиг. 4 каждый небольшой квадрат, например 404, является пикселем, который в целом определяется как часть с наименьшей степенью детализации изображения, для которой предусматривается цифровая кодировка. Каждый пиксель представляет собой место, обычно представленное как пара цифровых значений, соответствующих значениям на осях прямоугольных координат x и y, 406 и 408, соответственно. Таким образом, например, пиксель 404 имеет координаты x, y (39, 0), а пиксель 412 имеет координаты (0, 0). В цифровой кодировке пиксель представлен числовыми значениями, указывающими на то, как область изображения, соответствующая пикселю, представляется при печати, отображается на экране компьютера или ином дисплее. Обычно для черно-белых изображений для представления каждого пикселя используется единичное значение в диапазоне от 0 до 255 с числовым значением, соответствующим уровню серого, на котором передается пиксель. В общепринятом понимании значение «0» соответствует черному цвету, а значение «255» - белому. Для цветных изображений может применяться множество различных наборов числовых значений, указывающих на цвет. В одной из обще принятых цветовых моделей, показанной на Фиг. 4, каждый пиксель связан с тремя значениями, или координатами (r, g, b), которые указывают на интенсивность красного, зеленого и синего компонентов цвета, отображаемых в соответствующей пикселю области.

На Фиг. 5 показан один вариант цветовой модели RGB. Тремя координатами первичных цветов (r, g, b) представлен весь спектр цветов, как указано выше со ссылкой на Фиг. 4. Цветовая модель может считаться соответствующей точкам в пределах единичного куба 502, в котором трехмерное цветовое пространство определяется тремя осями координат: (1) r 504; (2) g 506; и (3) b 508. Таким образом, индивидуальные координаты цвета находятся в диапазоне от 0 до 1 по каждой из трех цветовых осей. Например, чистый синий цвет максимально возможной интенсивности соответствует точке 510 по оси b с координатами (0, 0, 1). Белый цвет соответствует точке 512 с координатами (1, 1, 1,), а черный цвет - точке 514, началу системы координат с координатами (0, 0, 0).

На Фиг. 6 показана другая цветовая модель «оттенок-насыщенность-светлота» (HSL). В этой цветовой модели цвета содержатся в трехмерной бипирамидальной призме 600 с шестигранным сечением. Оттенок (h) связан с доминантной длиной волны излучения света, воспринимаемого наблюдателем. Значение оттенка находится в диапазоне от 0° до 360°, начиная с красного цвета 602 в точке 0°, проходя через зеленый 604 в точке 120°, синий 606 в точке 240° и заканчивая красным 602 в точке 660°. Насыщенность (s), находящаяся в диапазоне от 0 до 1, напротив, связана с количеством белого и черного цветов, смешанных при определенной длине волны или оттенке. Например, чистый красный цвет 602 является полностью насыщенным при насыщенности s=1,0; розовый цвет имеет насыщенность менее 1,0, но более 0,0; белый 608 является полностью ненасыщенным при s=0,0; а черный 610 также является полностью ненасыщенным при s=0,0. Полностью насыщенные цвета падают на периметр среднего шестигранника, содержащего точки 602, 604 и 606. Шкала оттенков серого проходит от черного 610 до белого 608 по центральной вертикальной оси 612, представляющей полностью ненасыщенные цвета без оттенка, но с различными пропорциональными сочетаниями черного и белого.

Например, черный 610 содержит 100% черного и не содержит белого, белый 608 содержит 100% белого и не содержит черного, а исходная точка 613 содержит 50% черного и 50% белого. Светлота , представленная центральной вертикальной осью 612, указывает на уровень освещенности в диапазоне от 0 для черного 610 (при ) до 1 для белого 608 (при ). Для произвольного цвета, представленного на Фиг. 6 точкой 614, оттенок определяется как угол θ 616 между первым вектором из исходной точки 613 к точке 602 и вторым вектором из исходной точки 613 к точке 620, в которой вертикальная линия 622, проходящая через точку 614, пересекает плоскость 624, включающую исходную точку 613 и точки 602, 604 и 606. Насыщенность представлена отношением расстояния репрезентативной точки 614 от вертикальной оси 612 d', разделенным на длину горизонтальной линии, проходящей через точку 620 от исходной точки 613, к поверхности бипирамидальной призмы 600, d. Светлота представлена вертикальным расстоянием от репрезентативной точки 614 до вертикального уровня точки, представляющей черный цвет 610. Координаты конкретного цвета в цветовой модели HSL (h, s, ) могут быть получены на основе координат цвета в цветовой модели RGB (r,g,b) следующим образом:

, и

где значения r, g и b соответствуют интенсивности красного, зеленого и синего первичных цветов, приведенной к диапазону [0, 1]; C_max представляет приведенное значение интенсивности, равное максимальному значению из r, g и b; C_min представляет собой приведенное значение интенсивности, равное минимальному значению из r, g и b; а Δ определяется как C_max-C_min.

На Фиг. 7 показано различие между сфокусированным изображением текстового символа и несфокусированным изображением текстового символа. Сфокусированное изображение текстового символа 702 имеет резкие контуры, или интенсивные контуры, между темными областями символа и светлым фоном. Во вставке 706 увеличена небольшая область 704 сфокусированного символа, в которой показаны пиксели в этой области. У сфокусированного символа имеется резкая линия или граница 708 между темными пикселями 710 и светлыми пикселями 712. В несфокусированном изображении символа 714, контуры, наоборот, нечеткие, и, как показано на вставке 716, резкая граница между темными пикселями 718 и светлыми фоновыми пикселями 720 отсутствует.

Один из вычислительных способов определения контуров в изображении, например контура 708, показанного во вставке 706 Фиг. 7, заключается в расчете вектора градиента интенсивности для каждого пикселя, принимая, что изображение является функцией z=F(x, y), где (x, y) - координаты пикселей, a z - значение интенсивности. Поскольку изображения представляют собой скорее дискретные функции, а не непрерывные функции, непрерывные уравнения в частных производных для вычисления градиента не применяются. При этом цифровое изображение может быть принято как матричный образец, лежащий в основе непрерывной функции интенсивности и градиент, соответствующий контрольным точкам, может быть оценен с помощью дискретных операций. На Фиг. 8 представлен дискретные вычисления градиента интенсивности. На Фиг. 8 показан небольшой квадратный участок 802 цифрового изображения. Каждая клетка, например клетка 804, представляет пиксель, а числовое значение в клетке, например значение «106» в клетке 804, представляет интенсивность серого цвета. Допустим, пиксель 806 имеет значение интенсивности «203». Этот пиксель и четыре непосредственно соседних пикселя показаны на крестообразной схеме 808 справа от участка 802 цифрового изображения. Учитывая левый 810 и правый 812 соседние пиксели, изменение значения интенсивности в направлении x, (Δx) может быть дискретно вычислено как:

Учитывая нижний 814 и верхний 816 соседние пиксели, изменение значения интенсивности в вертикальном направлении, (Δy) может быть вычислено как:

Вычисленное значение Δх является оценкой частного дифференциала непрерывной функции интенсивности относительно оси x в центральном пикселе 806:

Частный дифференциал функции F относительно координаты y в центральном пикселе 806 рассчитывается по Δy:

Градиент интенсивности в пикселе 806 может быть рассчитан следующим образом:

где i и j представляют собой единичные векторы в направлениях x и y. Модуль (длина) вектора градиента и угол вектора градиента далее рассчитываются следующим образом:

Направление вектора 820 градиента интенсивности и угол θ 822 показаны наложенными на участок 802 цифрового изображения на Фиг. 8. Следует учесть, что точки не векторе градиента расположены в направлении максимального увеличения интенсивности от пикселя 806. Модуль вектора градиента указывает на ожидаемое увеличение интенсивности на единицу увеличения в направлении градиента. Следовательно, поскольку градиент рассчитан исключительно с помощью дискретных операций, в вычислении, показанном на Фиг. 8, направление и величина градиента представлены исключительно приближенными значениями.

На Фиг. 9 показан градиент, рассчитанный для точки на непрерывной поверхности. На Фиг. 9 представлена непрерывная поверхность z=F(x, y). Непрерывная поверхность 902 строится относительно трехмерной декартовой системы координат 904 и имеет похожую на шляпу форму. Контурные линии, например, контурная линия 906, могут быть построены на поверхности для отображения непрерывного набора точек с постоянным значением z. В конкретной точке 908 на контуре, построенном на поверхности, вектор градиента 910, рассчитанный для точки, находится перпендикулярно к контурной линии и к точкам в направлении максимального наклона вверх на поверхности от точки 908.

Обычно вектор градиента интенсивности направлен перпендикулярно резкому контуру, при этом чем больше величина градиента, тем резче контур, т.е. тем больше разность в резкости пикселей с двух сторон контура. На Фиг. 10 показан ряд примеров для градиента интенсивности. Каждый пример (пример 1002) содержит центральный пиксель, для которого рассчитывается градиент, а для расчета Δx и Δy используются четыре смежных пикселя. Контуры с наибольшей резкостью показаны в первой колонке 1004. В этих случаях модуль градиента составляет не менее 127,5, а в третьем случае - 1006-180,3. Относительно небольшая разность на контуре, показанная в примере 1008, создает градиент модулем всего 3,9. Во всех случаях вектор градиента расположен перпендикулярно очевидному направлению резкого контура, проходящему через центральный пиксель.

На Фиг. 11 показано использование ядра, охватывающего три пикселя, на котором выполняется свертка серого цифрового изображения для формирования контурного изображения, или дифференциального изображения, в котором значения пикселей соответствуют модулям направленных векторов, представляющих компоненту градиента интенсивности в конкретном направлении. Контурное изображение, рассчитанное на Фиг. 11, представляет собой контурное изображение для направления по оси x, при этом значения интенсивности пикселей в контурном изображении представляют вектор градиента в направлении x или . Фактически, рассчитанные значения интенсивности связаны с фактическими модулями вектора градиента в направлении x с применением множителя 2. Для обеспечения вычислительной эффективности разность между значениями левого и правого пикселей не делится на 2. Ядро из трех пикселей 1102 показано пунктирными линиями, наложенными на три пикселя 1104-1106 в пределах небольшого участка цифрового изображения. Применение ядра к этим трем пикселям создает значение, связанное с модулем градиента в направлении x (4), которое вводится как значение для центрального пикселя 1108 из трех пикселей 1104-1106 в исходном сером изображении. Как показано на Фиг. 11, ядро 1102 применяется к трем пикселям путем умножения каждого значения ядра на соответствующее значение интенсивности расположенного ниже пикселя. Как показано в нижней части Фиг. 11, ядро применяется к каждому пикселю (кроме пикселей левой и правой границ) цифрового изображения в ходе операции, называемой «сверткой». Применение ядра к каждому пикселю включает центровку ядра над пикселем, по типу того как ядро 1102 отцентровано над пикселем 1105 в левом верхнем углу Фиг. 11, с последующим расчетом значения, связанного с модулем градиента в направлении x. Изначально ядро располагается таким образом, чтобы обеспечить расчет значения для второго слева верхнего пикселя 1110. После этого значение помещается на контурное изображение, как показано фигурной стрелкой 1112. Затем ядро перемещается вправо на один пиксель 1114, и рассчитывается следующий пиксель, который помещается на контурное изображение 1113, что показано фигурной стрелкой 1116. Этот процесс продолжается, как показано пунктирными стрелками 1120 на Фиг. 11, по типу сканирования растрового изображения для расчета значений пикселей контурного изображения для всех пикселей, кроме граничных пикселей с левой стороны и граничных пикселей с правой стороны на исходном сером изображении. В определенных случаях измененное ядро может использоваться для вычисления приближенных значений граничных пикселей, при этом измененное ядро содержит только два, а не три значения.

На Фиг. 12 показано вычисление четырех различных контурных изображений из примера серого цифрового изображения. Пример серого цифрового изображения 1202 имеет светлый фон с темной восьмигранной фигурой 1204 в центре. Выполняется отдельная свертка четырех различных ядер 1206-1209 для создания четырех различных контурных изображений 1210-1213. Рассмотрим ядро k_x 1206. Это ядро описано выше со ссылкой на Фиг. 11. В нем вычисляется модуль градиента в направлении x. Поэтому контуры серого цифрового изображения, перпендикулярные направлению x, будут иметь большие вычисленные значения на контурном изображении. В него входят левый контур 1220 и правый контур 1221 восьмигранника 1204. В получившемся контурном изображении 1210 эти два контура 1222 и 1223 имеют большие значения. Они показаны темными линиями, но поскольку в представлении в оттенках серого большие значения стремятся к белому, а малые значения стремятся к черному, контурные изображения 1210-1213 на Фиг. 12 имеют инверсивное цветовое представление, что четко показано с помощью темных линий - пикселей с высокой яркостью на контурных изображениях. Если показаны фактические цветные представления, контурные изображения будут в основном черными с белыми контурами. Диагональные контуры восьмигранника 1226-1229 ни перпендикулярны, ни параллельны направлению x. Поэтому компонент в направлении x для направления, перпендикулярного этим контурам, имеет существенную, но меньшую величину, чем компонент в направлении x для вектора градиента вертикальных контуров 1220 и 1221. Таким образом, диагональные контуры контурного изображения 1230-1233 видимы на контурном изображении, но имеют меньшую интенсивность, чем два вертикальных контура 1222 и 1223. Аналогичный анализ трех дополнительных ядер 1207-1209 объясняет разнонаправленные пары признаков в каждом соответствующем контурном изображении 1211-1213. В условных наименованиях ядер используется нижний индекс для указания направлений, в которых направлены расчетные значения градиента. Например, ядро 1207 называется «k_x,_y», поскольку в ядре вычисляется величина компонента вектора градиента в направлении i+j.

На Фиг. 13 показан результат вычисления контурных изображений из серого изображения, указанного выше со ссылкой на Фиг. 12. Исходное серое изображение 1202 свертывается с применением четырех ядер 1206-1209 для создания четырех контурных изображений 1210-1213, которые представлены на Фиг. 13 четырьмя стрелками 1214. Второй набор стрелок 1216 показывает, что четыре контурных изображения могут быть суммированы со значениями пикселей контурного изображения для конкретного пикселя в конкретной координате во всех четырех сложенных вместе контурных изображениях для создания суммарного значения пикселя, которое затем делится на соответствующее постоянное значение таким образом, чтобы максимальное значение пикселя в объединенном контурном изображении 1218 было меньше или равно 255. Объединенное контурное изображение 1218 имеет представление контуров восьмиугольника 1220 в виде белых линий на темном фоне. Таким образом, сочетание четырех контурных изображений создает составное контурное изображение 1218, в котором яркие контуры в исходном сером изображении представлены ярким или белым цветом, а неконтурные пиксели на исходном сером изображении представлены темными цветами. Иными словами, дискретные дифференциальные операторы, или ядра, сворачиваются с серым изображением для выявления контуров в изображении.

На Фиг. 14 показано разбиение цифрового изображения на неперекрывающиеся блоки. На Фиг. 14 небольшое цифровое изображение 1402 содержит 625 пикселей, по 25 пикселей с каждой стороны. Это изображение можно разбить, например, на 25 меньших блоков размером 5×5, например блок 1404. Отдельные блоки могут быть связаны с системой координат отдельных блоков x',y' 1406. Исходное изображение может быть связано с двухмерной системой координат x,y, 1408. 25 меньших блоков могут быть связаны с двухмерной декартовой системой координат x,y 1410, каждая точка в которой соответствует блоку, а каждое расположение связано с внутренними координатами, соответствующими блоку размером 5×5. Конечно, разбиение изображения на более мелкие неперекрывающиеся блоки, как показано на Фиг. 14, не обязательно предполагает копирование значений в разные места в памяти, но предполагает использование различных способов индексирования для доступа к значениям пикселя в изображении. Например, существует линейная трансформация между координатами пикселя на исходном изображении (x,y) и координатами содержащего пиксель блока (X, Y), а также расположением пикселя в пределах блока (x',y'), что показано в формулах 1412 на Фиг. 14. Таким образом, разбиение изображения может быть просто вопросом использования различных наборов координат с применением линейных трансформаций между ними.

На Фиг. 15 приведена первая блок-схема из серии блок-схем, демонстрирующих один из вариантов реализации способа, оценивающего пригодность содержащего текст цифрового изображения для применения оптического распознавания символов и других способов обработки изображения. Этот вариант реализации называется «предварительным анализом резкости». На первом этапе 1502 раскрываемый способ предварительного анализа резкости получает цифровое изображение и метаданные изображения. Метаданные изображения могут быть представлены заголовком изображения, включающим различные параметры, характеризующие изображение (например, используемая цветовая модель, размеры изображения в пикселях, особый тип кодировки пикселя и прочие подобные параметры). Полученное цифровое изображение может, например, отображаться на жидкокристаллическом видоискателе камеры или экране приложения смартфона, предоставляя пользователю возможность настроить фокус, кадр, ориентацию снимка, диафрагму и другие параметры оптического устройства с целью получения желаемого качественного изображения до момента активации функции непосредственной съемки желаемого изображения и его последующего получения в цифровом виде и сохранения в памяти устройства. В качестве другого примера, различные типы вычислительных систем могут задействовать способ предварительного анализа резкости для оценки цифровых изображений, полученных из различных типов источников для обработки изображений перед выполнением такой обработки, с целью недопущения временных и вычислительных издержек, связанных с применением обработки изображения для цифровых изображений со смазом или шумами, или непригодных по иным причинам. При разработке или регулировании предварительного анализа резкости с помощью вводимых аргументов или значений параметров для первичной фильтрации исходного изображения в соответствии с определением на этапе 1504, к полученному исходному цифровому изображению применяются все различные типы фильтров изображения с целью удаления шума при сохранении контраста и, в частности, сохранения резких контуров на этапе 1506. Например, может использоваться тип фильтра, представляющий собой билатеральный фильтр, использующий весовые коэффициенты на основе распределения Гауссова. Ниже представлено общее выражение для билатерального фильтра:

где член уравнения, обеспечивающий нормализацию

обеспечивает сохранение фильтром энергии изображения и где

I^filtered - отфильтрованное изображение;

I - исходное изображение, подлежащее фильтрации;

x - координаты текущего пикселя, подлежащего фильтрации;

Ω - окно, отцентрированное в х;

- ядро диапазона для сглаживания различий в интенсивности;

g_s - пространственное ядро для сглаживания различий в координатах.

Если изображение цветное, то на этапе 1508 из исходного изображения формируется серое изображение. Генерация серого изображения из цветного может выполняться множеством различных способов, в зависимости от конкретной цветовой схемы, используемой для кодировки цветного изображения. В случае кодировки изображения по описанной выше цветовой схеме HSL, компонент яркости из трех компонентов, определяющих цвет и интенсивность пикселя, може

Способ и система определения пригодности изображения документа для оптического распознавания символов и других операций по обработке изображений

Патент 2608239