Реконструкция документа из серии изображений документа

Иллюстрации

Показать все

Изобретение относится к реконструкции документа из серии изображений документа. Технический результат – повышение эффективности получения и обработки изображений документов. Способ реконструкции документа включает получение множества кадров изображений, где каждый кадр изображения из множества кадров изображений содержит часть изображения исходного документа, выявление множества присущих изображениям визуальных особенностей на множестве кадров изображения, выполнение пространственного выравнивания множества кадров изображений исходя из совпадений выявленных визуальных особенностей, разделение каждого из множества кадров изображений на множество фрагментов изображения, выявление одного или более фрагментов изображения с изображением текста во множестве фрагментов изображения, связывание каждого выявленного содержащего текст фрагмента изображения с кадром изображения, на котором этот фрагмент изображения имеет оптимальное значение заранее определенного показателя качества из значений показателя качества для этого фрагмента изображения на множестве кадров изображений, и создание реконструированного кадра изображения путем совмещения фрагментов изображения указанных связанных кадров изображений. 3 н. и 20 з.п. ф-лы, 9 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

[0001] Настоящее изобретение в целом относится к вычислительным системам, а точнее - к системам и способам получения и предварительной обработки изображений для оптического распознавания символов (OCR).

УРОВЕНЬ ТЕХНИКИ

[0002] Оптическое распознавание символов (OCR) представляет собой реализованное вычислительными средствами преобразование изображений текстов (включая типографский, рукописный или печатный текст) в машиночитаемые электронные документы.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

[0003] В соответствии с одним или более вариантами реализации настоящего изобретения описанный в примере способ реконструкции документа из серии изображений документа может содержать: получение с помощью вычислительной системы множества кадров изображений, где каждый кадр изображения из множества кадров изображений содержит по меньшей мере часть изображения исходного документа; выявление множества визуальных особенностей на множестве кадров изображения; выполнение пространственного выравнивания множества кадров изображений исходя из совпадений выявленных визуальных особенностей; разделение каждого из множества кадров изображений на множество фрагментов изображения; выявление одного или более фрагментов изображения с изображением текста во множестве фрагментов изображения; связывание каждого выявленного фрагмента изображения с изображением текста к кадру изображения, на котором этот фрагмент изображения имеет оптимальное значение заранее определенного показателя качества из значений показателя качества для этого фрагмента изображения на множестве кадров изображений; и создание реконструированного кадра изображения путем совмещения фрагментов изображения соответствующих кадров изображений.

[0004] В соответствии с одним или более вариантами реализации настоящего изобретения описанная в примере система для реконструкции документа из серии изображений документа может содержать: запоминающее устройство; устройство обработки, подключенное к запоминающему устройству, выполненное с возможностью: получения множества кадров изображений, где каждый кадр изображения из множества кадров изображений содержит по меньшей мере часть изображения исходного документа; выявления множества визуальных особенностей на множестве кадров изображения; выполнения пространственного выравнивания множества кадров изображений исходя из совпадений выявленных визуальных особенностей; разделения каждого из множества кадров изображений на множество фрагментов изображения; выявления одного или более фрагментов изображения с изображением текста во множестве фрагментов изображения; связывания каждого выявленного фрагмента изображения с изображением текста к кадру изображения, на котором этот фрагмент изображения имеет оптимальное значение заранее определенного показателя качества из значений показателя качества для этого фрагмента изображения на множестве кадров изображений; и создания реконструированного кадра изображения путем совмещения фрагментов изображения соответствующих кадров изображений.

[0005] В соответствии с одним или более вариантами реализации настоящего изобретения пример постоянного машиночитаемого носителя данных может включать исполняемые команды, которые при исполнении их обрабатывающим устройством приводят к выполнению обрабатывающим устройством операций, включающих в себя: получение с помощью вычислительной системы множества кадров изображений, где каждый кадр изображения из множества кадров изображений содержит по меньшей мере часть изображения исходного документа; выявление множества визуальных особенностей на множестве кадров изображения; выполнение пространственного выравнивания множества кадров изображений исходя из совпадений выявленных визуальных особенностей; разделение каждого из множества кадров изображений на множество фрагментов изображения; выявление одного или более фрагментов изображения с изображением текста во множестве фрагментов изображения; связывание каждого выявленного фрагмента изображения с изображением текста к кадру изображения, на котором этот фрагмент изображения имеет оптимальное значение заранее определенного показателя качества из значений показателя качества для этого фрагмента изображения на множестве кадров изображений; и создание реконструированного кадра изображения путем совмещения фрагментов изображения соответствующих кадров изображений.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0006] Настоящее изобретение иллюстрируется примерами, что не является ограничивающим, и может быть более понято при рассмотрении приведенного ниже описания предпочтительных вариантов реализации в сочетании с чертежами, на которых:

[0007] На Фиг. 1 приведена блок-схема одного иллюстративного примера способа реконструкции документа из серии изображений документа в соответствии с одним или более вариантами реализации настоящего изобретения;

[0008] На Фиг. 2 схематично иллюстрируются два изображения документа, полученные от устройства получения изображений, находящегося в разных положениях, что привело к появлению областей блика в разных местах изображения;

[0009] На Фиг. 3 схематично иллюстрируются два изображения документа, полученные из соответствующих исходных изображений путем обрезки и регулировки соотношения сторон;

[00010] На Фиг. 4 схематично иллюстрируется изображение, полученное путем объединения двух изображений с Фиг. 3 таким образом, чтобы область блика первого изображения совпадала с соответствующим фрагментом изображения на втором изображении;

[00011] На Фиг. 5А-5В иллюстрируются два изображения документа с разными размытыми областями;

[00012] На Фиг. 6 схематично иллюстрируется изображение, полученное путем объединения двух изображений с Фиг. 5А-5В таким образом, чтобы размытая область первого изображения совпадала с соответствующим фрагментом изображения на втором изображении;

[00013] На Фиг. 7 схематично иллюстрируется изображение, полученное путем постобработки изображения с Фиг. 6;

[00014] На Фиг. 8 представлена подробная схема компонентов примера вычислительной системы, внутри которой исполняются инструкции, которые вызывают выполнение вычислительной системой любого из способов или более способов, рассматриваемых в этом документе.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

[00015] В настоящем документе описываются способы и системы реконструкции документа из серии изображений документа.

[00016] В приведенном ниже описании термин «документ» должен толковаться расширительно, как относящийся к широкому спектру носителей текста, включая, помимо прочего, печатные или написанные от руки бумажные документы, баннеры, постеры, знаки, рекламные щиты и (или) другие физические объекты, несущие видимые символы текста на одной или более поверхностях. В приведенном ниже описании термин «Изображение документа» относится к изображению как минимум части исходного документа (например, страницы бумажного документа).

[00017] Система оптического распознавания символов (OCR) может преобразовать изображение документа в машиночитаемый формат, допускающий поиск и содержащий текстовую информацию, извлеченную из изображения бумажного документа. Однако процесс OCR может быть затруднен различными дефектами изображения, такими как зашумленность, расфокусировка или низкая резкость изображения, блики, смаз и др., которые обычно возникают из-за пространственной нестабильности устройства получения изображений, недостаточной освещенности, неправильно выбранной выдержки затвора или диафрагмы и/или другими условиями и осложняющими обстоятельствами. Для компенсации дефектов изображений можно реконструировать пригодное для OCR изображение документа путем обработки серий изображений (например, последовательности видеокадров или неподвижных кадров изображения) документа. Следует заметить, что такая серия кадров не всегда может быть получена при фиксированном положении устройства получения изображений относительно исходного документа и/или при неизменных условиях получения изображений, в то же время эти факторы могут привести к невозможности получения пригодного для OCR изображения документа исходя из полученной серии изображений.

[00018] Описанные в настоящем документе системы и способы предоставляют значительные улучшения по сравнению с обычными способами получения и предварительной обработки, которые состоят в получении пригодного для OCR изображения путем обработки серии кадров, которые могут быть сделаны при различных положениях устройства получения изображений относительно исходного документа и/или при различных условиях получения изображений (таких как освещение, фокус, скорость затвора, диафрагма и т.д.). Поэтому системы и способы, описанные в этом документе, могут быть эффективно использованы для получения и обработки изображений документов в мобильных вычислительных устройствах (таких как смартфоны, планшеты и им подобные), оборудованных фото- и/или видеокамерами. Обработка изображений существенно повышает качество изображения, компенсируя различные искажения изображения, вызванные бликами, тенями, размытием, расфокусировкой и/или шумом. Качество изображения, создаваемое системами и способами по настоящему изобретению, позволяет значительно улучшить точность OCR по сравнению с различными известными способами получения изображений.

[00019] В иллюстративном примере вычислительная система, в которой реализованы описанные здесь способы, может получать множество кадров изображений, где каждый кадр изображения содержит по меньшей мере часть изображения исходного документа. Обработка изображений может включать регистрацию изображений, например, путем пространственного выравнивания кадров изображения, исходя из наличия определенных визуальных особенностей, выявленных на каждом кадре изображения. Каждый из множества кадров изображений затем может быть разделен на множество перекрывающихся или неперекрывающихся фрагментов изображения, и среди множества фрагментов изображения могут быть выявлены один или более фрагментов изображения, содержащих текст. Каждый фрагмент изображения, содержащий текст, можно связать с кадром изображения, на котором этот фрагмент имеет оптимальное значение определенного показателя качества из значений показателя качества этого фрагмента изображения на всех кадрах изображений. Реконструированный кадр изображения может быть получен путем совмещения фрагментов изображения со связанных кадров изображения, как более подробно описано ниже в этом документе.

[00020] Различные аспекты упомянутых выше способов и систем подробно описаны ниже в этом документе с помощью примеров, что не является ограничивающим.

[00021] На Фиг. 1 показана блок-схема одного из иллюстративных примеров способа 100 выполнения OCR серии кадров изображений, содержащих символы текста, в соответствии с одним или более вариантами реализации настоящего изобретения. Способ 100 и/или каждая из его отдельно взятых функций, процедур, подпрограмм или операций могут осуществляться с помощью одного или более процессоров вычислительной системы (например, вычислительной системы 800 на Фиг. 8), реализующей этот способ. В некоторых реализациях способ 100 может быть реализован в одном потоке обработки. В качестве альтернативы способ 100 может выполняться с использованием двух и более потоков обработки, при этом каждый поток выполняет одну или более отдельных функций, стандартных программ, подпрограмм или операций способа. В одном из иллюстративных примеров потоки обработки, в которых реализован способ 100, могут быть синхронизированы (например, с использованием семафоров, критических секций и/или других механизмов синхронизации потоков). При альтернативном подходе потоки обработки, в которых реализован способ 100, могут выполняться асинхронно по отношению друг к другу. Таким образом, несмотря на то что Фиг. 1 и соответствующее описание содержат список операций для способа 100 в определенном порядке, в различных вариантах осуществления способа по меньшей мере некоторые из описанных операций могут выполняться параллельно и/или в произвольно выбранном порядке.

[00022] На шаге 110 блок-схемы вычислительная система, реализующая этот способ, может получать серию кадров изображений (например, последовательность видеокадров или неподвижных кадров изображения) исходного документа. Эти кадры могут содержать по меньшей мере частично перекрывающиеся фрагменты документа и отличаться положением устройства получения изображений относительно исходного документа и/или условиями получения изображений. Различное положение устройства получения изображений относительно исходного документа может привести к разнице в масштабе изображения, различным оптическим искажениям изображения, вызванным различиями в углах съемки, разному положению исходного документа на кадре изображения и/илиили разному положению различных визуальных артефактов, таких как блики или тени. Следует отметить, что различия в положении документа на кадре изображения могут быть вызваны не только перемещением устройства получения изображений, но и перемещением исходного документа относительно поля зрения (FOV) устройства получения изображений. На Фиг. 2 схематично иллюстрируются два изображения документа 250А, 250В, полученные от устройства получения изображений, находящегося в разных положениях, что привело к наличию областей блика в разных местах изображения.

[00023] Различия в условиях получения изображений могут быть вызваны разницей в скорости затвора, диафрагме, фокусном расстоянии и/или наличием внешних объектов, по меньшей мере частично перекрывающих исходный документ, что может привести к различиям в яркости, резкости, бликам, смазам и/или другим особенностям изображения и визуальным артефактам.

[00024] Получение серии изображений может быть выполнено с помощью фото- или видеокамеры. В иллюстративном примере некоторые изображения из серии изображений могут быть получены с использованием встроенного или внешнего осветительного устройства (например, вспышки), в то время как остальные изображения серии могут быть получены при естественном освещении без применения дополнительных осветительных устройств. При ином подходе все изображения серии могут быть получены с использованием встроенного или внешнего осветительного устройства (например, вспышки) или при естественном освещении без применения дополнительных осветительных устройств.

[00025] В некоторых вариантах осуществления работа осветительного устройства может контролироваться пользователем вручную. При ином подходе осветительное устройство может активироваться вычислительной системой, реализующей способ, например, исходя из заранее определенного количества изображений, получаемых с использованием или без использования осветительного устройства. Эта вычислительная система может иметь предопределенные параметры, по меньшей мере некоторые из которых могут изменяться пользователем, например количество изображений, получаемых при различных условиях получения изображений.

[00026] В некоторых вариантах осуществления вычислительная система может реализовывать режим серийного получения изображений (то есть режим получения нескольких изображений, активируемый одним нажатием на кнопку активации затвора). В некоторых вариантах осуществления вычислительная система может реализовывать режим автоматического брекетинга экспозиции, который включает автоматическое изменение параметров получения изображений (то есть экспозиции) при получении серии изображений.

[00027] В некоторых вариантах осуществления положение устройства получения изображений относительно исходного документа и угол съемки могут вручную регулироваться пользователем (например, исходя из визуальной обратной связи, получаемой через видоискатель). При альтернативном подходе вычислительная система, реализующая способ, может направлять пользователя, указывая на необходимость сместить устройство получения изображений относительно исходного документа и/или изменить угол съемки для получения серии кадров изображений, на которых различные дефекты и визуальные артефакты (которые могут быть вызваны, например, тенями, бликами, внешними объектами, которые могут по меньшей мере частично закрывать исходный документ) имеют разное положение на кадрах, что позволяет реконструировать исходный документ исходя из полученной серии кадров изображений.

[00028] В некоторых вариантах реализации вычислительная система может использовать различные устройства пользовательского интерфейса (например, видоискатель, один или более светодиодных (LED) индикаторов и/или аудиовыход) для уведомления пользователя о рекомендуемых моделях и параметрах получения изображений (например, рекомендаций о положении устройства получения изображений, исходного документа или внешнего источника света). В иллюстративном примере вычислительная система, реализующая способ, может обнаруживать различные визуальные дефекты на ранее полученном кадре изображения и/или в данных изображения, получаемых в реальном времени через видоискатель, и может предоставлять пользователю визуальную обратную связь путем выделения обнаруженных дефектных областей в видоискателе. В некоторых вариантах реализации анализ изображения может включать детектирование границ, которое может выполняться путем анализа второй производной от яркости пикселей. Отсутствие контрастных границ в некоторых областях изображения может указывать на высокий уровень шума (например, вызванный расфокусировкой) или сильный смаз. В иллюстративном примере профили второй производной яркости в направлении градиента яркости могут быть образованы пикселями, расположенными в визуальной близости детектированных границ. Параметры этих профилей могут анализироваться и сравниваться с известными профилями для определения типа искажения (например, смаз или расфокусировка), уровня искажения и некоторых параметров искажения (например, направления смаза). Параметры профиля могут включать среднее значение, дисперсию, коэффициент асимметрии, абсолютные значения локальных минимумов и максимумов и др. В некоторых вариантах реализации вычислительная система может использовать одну или более обучаемых функций классификатора, которые могут обрабатывать профили вторых производных яркости в направлении градиента яркости и вычислять уровень искажения определенного типа, обнаруженного на изображении.

[00029] В одном из иллюстративных примеров вторые производные яркости пикселей могут определяться путем применения фильтра Лапласа или его аппроксимации. Для уменьшения эффекта шума перед наложением фильтра Лапласа изображение может быть сглажено, например, с помощью сглаживающего фильтра Гаусса, медианного фильтра, прямоугольного фильтра, адаптивного медианного фильтра и/или других методов сглаживания. В некоторых вариантах осуществления можно использовать комбинированный фильтр, например Лапласиана над Гауссианом (LoG) или фильтр Разности Гауссианов (DoG). Тип фильтра и параметры фильтрации могут быть выбраны исходя из характеристик данного класса изображений или устройства получения изображений для повышения качества и эффективности обнаружения дефектов.

[00030] Обнаруженные дефекты изображения могут быть отражены в визуальной обратной связи, предоставляемой пользователю устройства получения изображений. Визуальная обратная связь может включать подсветку, заполнение цветом или другое визуальное выделение в видоискателе областей изображения, содержащих обнаруженные дефекты изображения. В некоторых вариантах осуществления цвет, используемый для заполнения области изображения, может указывать на тип искажения, а его яркость - на степень искажения изображения, вызванного соответствующим дефектом изображения. В одном из иллюстративных примеров пользователь может реагировать на визуальную обратную связь, перемещая устройство получения изображений для того, чтобы свести к минимуму количество и/или общую площадь выделенных дефектов изображения.

[00031] При альтернативном подходе вычислительная система, реализующая способ, может автоматически инициировать получение второго и последующих кадров серии. В одном из иллюстративных примеров вычислительная система может анализировать данные изображения, получаемого в реальном времени в видоискателе, и получать следующий кадр изображения, когда положение документа в кадре изображения или ракурс (POV) изменятся более чем на заданное пороговое значение. Это пороговое значение может быть задано, например, в виде предопределенного соотношения (например, 10% или 20%) размера кадра изображения или размера документа в заданном направлении в пространстве. В некоторых вариантах реализации изменения положения документа в кадре изображения могут обнаруживаться путем применения методов эпиполярной геометрии, которые могут включать сравнение проекций определенных ключевых точек (например, углов документа) на двух последовательно полученных кадрах изображения.

[00032] На шаге 115 блок-схемы вычислительная система может осуществлять бинаризацию полученного изображения. Бинаризованное изображение представляет собой цифровое изображение, в котором каждый пиксель может иметь только два возможных значения, например, ноль или один. Обычно значения битов пикселей интерпретируются как соответствующие черному и белому цветам, однако для визуализации бинаризованных изображений могут использоваться любые два цвета.

[00033] В одном из иллюстративных примеров бинаризация изображения может включать конвертацию исходного цветного изображения в серое изображение, в котором каждый пиксель кодируется его значением яркости, и сравнение каждого пикселя с заранее определенным или динамически адаптируемым пороговым значением яркости для получения черного или белого пикселя. Динамически адаптируемое пороговое значение может быть получено с помощью алгоритма кластеризации, который регулирует пороговое значение бинаризации, изучая профили распределения серого одного или более изображений.

[00034] На шаге 120 блок-схемы вычислительная система может осуществлять регистрацию изображения, то есть выравнивание в пространстве двух или более изображений документа исходя из согласующихся визуальных особенностей. В некоторых вариантах осуществления можно выявлять базовое изображение серии (например, как изображение, имеющее наилучшую резкость в серии), а остальные изображения серии будут преобразованы путем выравнивания в пространстве относительно выявленного базового изображения.

[00035] Регистрация изображения может включать конвертацию полученных изображений по определенным размерам и/или соотношению сторон. Размеры и/или соотношения сторон могут указываться пользователем в настройках приложения или выбираться из списка стандартных значений размеров и соотношений сторон. На Фиг. 3 схематично иллюстрируются два изображения документа 350А и 350В, полученные из соответствующих исходных изображений 250А и 250В путем обрезки и регулировки соотношения сторон.

[00036] Регистрация изображений может также включать применение к полученным изображениям проективного преобразования. Под «проективным преобразованием» здесь подразумевается преобразование, которое отображает линии в линии, но не обязательно сохраняет параллельность. Проективное преобразование может быть описано следующими уравнениями:

где (x, y) и (X, Y) представляют собой координаты случайно выбранной точки на первом изображении и втором изображении соответственно. Коэффициенты преобразования Ax1, Ах2, Ах3, Ах4, Ay1, Ay2, Ay3 и Ay4 могут определяться исходя из известных координат не менее чем четырех опорных точек на каждом из двух изображений, на основе чего можно получить систему из восьми уравнений с восемью переменными. После определения коэффициентов преобразования уравнения (1) и (2) можно применить к координатам случайно выбранной точки первого изображения, чтобы получить координаты той же точки на втором изображении.

[00037] В одном из иллюстративных примеров, если в кадр изображения помещается документ целиком, проективное преобразование может быть применено к углам документа, которые определяются как пересечения обнаруженных границ документа. При альтернативном подходе, если документ целиком не помещается в кадр изображения, проективные преобразования могут применяться к определенным ключевым точкам. Ключевые точки могут быть расположены в областях резких изменений градиента яркости, таким образом, они часто находятся в визуальной близости к углам, пятнам или границам. В различных вариантах реализации ключевые точки могут быть обнаружены, например, путем применения матрицы Гессе, фильтров Хаара, детектора углов Харриса, DoG и др.

[00038] Для каждой обнаруженной ключевой точки может быть определен один или более дескрипторов, представленных векторами, описывающими данные изображения в визуальной близости к этой ключевой точки. Для упрощения сопоставления ключевых точек на нескольких изображениях дескрипторы ключевых точек можно выбрать инвариантными по отношению к освещенности, шуму, положению и поворотам камеры и/или другим факторам, которые могут включать искажение изображения. В различных иллюстративных примерах для выявления ключевых точек и получения соответствующих им дескрипторов могут использоваться один или более способов, например, масштабно-инвариантная трансформация признаков (SIFT), аффинная SIFT (ASIFT), робастные ускоренные признаки (SURF), ориентированный Features from Accelerated Test (Oriented FAST) и Binary Robust Independent Elementary Features с вращением (Rotated BRIEF (ORB)) и др.

[00039] В случае выявления ключевых точек и определения соответствующих им дескрипторов на одном кадре изображения можно выявить соответствующие ключевые точки на другом кадре изображения, например используя метод kd-дерева, метод иерархического дерева k-средних и/или другие методы. К выявленным соответствующим ключевым точкам можно применить проективное преобразование для пространственного выравнивания двух изображений. Аналогичная процедура может быть выполнена для всех изображений серии.

[00040] Ошибки регистрации изображений, например, пространственное смещение определенной ключевой точки на одном или более изображениях относительно базового изображения, могут быть скомпенсированы исходя из заданного или динамически изменяемого порога ошибки, например путем сглаживания поля векторов перемещения, определяющего двумерные преобразования определенных фрагментов изображения (также именуемых «макроблоками»). Сглаживание может выполняться путем наложения на векторы движения одного или более фильтров различных типов (например, сверточных фильтров с большим отцентрированным окном).

[00041] На шаге 125 блок-схемы вычислительная система может разделить кадр изображения на множество неперекрывающихся фрагментов. В некоторых вариантах осуществления фрагменты могут иметь прямоугольную форму и быть одинакового или разного размера. При альтернативном подходе для разделения кадров изображения могут использоваться другие фигуры и различные размеры, например, ромбы, параллелограммы, шестиугольники и др. В некоторых вариантах осуществления геометрические фигуры могут поворачиваться на определенный угол, например, на 30, 45, 60 или 90 градусов. Изображение может разделяться на фрагменты разной формы, например, квадраты и прямоугольники. Размеры фрагментов могут выбираться таким образом, чтобы фрагменты содержали по меньшей мере некоторое количество текстовой информации (например, как минимум заранее определенное количество строк текста и/или как минимум заранее определенное количество символов в строке), при этом размер фрагмента ограничивается так, чтобы обеспечивать достаточно хорошее обнаружение и обработку локальных дефектов изображения. В одном из иллюстративных примеров ширина фрагмента может соответствовать заранее определенному количеству строк текста (например, двум или трем строкам). В другом иллюстративном примере длина фрагмента может соответствовать заранее определенному количеству символов текста (например, от пяти до семи символов).

[00042] На шаге 130 блок-схемы вычислительная система может выявлять фрагменты кадра изображения, содержащие символы текста. В одном из иллюстративных примеров вычислительная система может определять контрастность изображения как разницу между максимальным и минимальным значениями яркости фрагмента изображения и может сравнивать определенную контрастность изображения с заранее определенным пороговым значением контрастности; фрагмент изображения, вероятно, содержит текстовые символы, если контрастность изображения превышает пороговое значение контрастности. В другом иллюстративном примере вычислительная система может определять отношение пикселей со значением текста (например, имеющих значение бинарной «1») к общему количеству пикселей, входящих во фрагмент изображения, и сравнивать определенное отношение с заранее определенным пороговым отношением; фрагмент изображения, вероятно, содержит текстовые символы, если найденное отношение ниже порогового отношения. В некоторых вариантах осуществления необходимо выполнение одного или более указанных критериев для хотя бы одного изображения в серии, чтобы фрагмент изображения рассматривался в качестве фрагмента изображения, содержащего текст.

[00043] На шаге 135 вычислительная система может вычислять качество изображения для каждого фрагмента изображения. Вычисляемые коэффициенты качества изображения могут включать резкость изображения, уровень шума, контрастность изображения, уровень оптических искажений (например, искривление прямых линий) и/или наличие определенных визуальных артефактов. В одном из иллюстративных примеров резкость изображения и/или уровень шума могут отражаться в степени отклонения профиля яркости (например, вторых производных яркости в направлении градиента яркости), возвращаемой ступенчатой функцией. В другом иллюстративном примере уровень смаза изображения может отражаться в среднем расстоянии от точки начала координат до локального экстремума второй производной яркости изображения. В другом иллюстративном примере уровень шума может отражаться в среднем и/или в отклонении яркости изображения. В другом иллюстративном примере наличие и уровень бликов могут определяться путем выявления и анализа связных компонент внутри изображения. «Связной компонентой» в этом документе называется набор пикселей, которые соединены друг с другом путями, которые полностью состоят их этой компоненты.

[00044] В некоторых вариантах реализации качество изображения может вычисляться обучаемой функцией классификатора, которая может обрабатывать определенные параметры изображения и выдавать величину определенного типа искажений, обнаруженных в изображении. Параметры изображения могут включать различные профили вторых производных яркости изображения в направлении градиента яркости, например, среднее значение, дисперсию, коэффициент асимметрии, абсолютные значения локальных минимумов и максимумов, параметры выявленных связных компонент и др. В или более кадров изображения, полученных в различных условиях получения из включены последовательно, так что выход одного классификатора будет являться входом другого классификатора.

[00045] В некоторых вариантах реализации к изображению параллельно или последовательно могут применяться два или более детектора искажений изображения, которые обнаруживают различные типы искажений. Качество изображения будет представлено суммой взвешенных значений каждого из обнаруженных типов искажений.

[00046] В некоторых вариантах реализации качество изображения может быть представлено отношением дисперсий классов Фон и Текст, полученных при выполнении бинаризации Оцу изображения к полной дисперсии фрагмента изображения:

[00047]

где M1 - среднее значение яркости пикселей, для которых не превышается порог бинаризации Оцу;

w1 - отношение числа подобных пикселей к общему количеству пикселей во фрагменте изображения;

М2 - среднее значение яркости пикселей, для которых превышается порог бинаризации Оцу;

w2 - отношение числа подобных пикселей к общему количеству пикселей во фрагменте изображения;

σ - межклассовое стандартное отклонение (то есть квадратный корень из межклассовой дисперсии).

[00048] При альтернативном подходе качество изображения может быть представлено оценкой точности OCR изображения, которая может быть получена с помощью обученной сверточной нейронной сети (СНС). СНС представляет собой вычислительную модель, основанную на многоэтапном алгоритме, который применяет набор заранее определенных функциональных преобразований ко множеству исходных данных (например, пикселей изображения), а затем использует преобразованные данные для выполнения распознавания образов. СНС может быть реализована в виде искусственной нейронной сети с прямой связью, в которой схема соединений между нейронами подобна тому, как организована зрительная зона коры мозга животных. Отдельные нейроны коры откликаются на раздражение в ограниченной области пространства, известной под названием рецептивного поля. Рецептивные поля различных нейронов частично перекрываются, образуя поле зрения. Отклик отдельного нейрона на раздражение в границах его рецептивного поля может быть аппроксимирован математически с помощью операции свертки.

[00049] В иллюстративном примере СНС может содержать несколько слоев, в том числе слои свертки, нелинейные слои (например, реализуемые блоками линейной ректификации (ReLU)), слои субдискретизации и слои классификации (полносвязные). Сверточные слои могут извлекать элементы из исходного изображения, применяя один или более обучаемых фильтров пиксельного уровня к исходному изображению. В иллюстративном примере фильтр пиксельного уровня может быть представлен матрицей целых значений, производящей свертку по всей площади исходного изображения для вычисления скалярных произведений между значениями фильтра и исходного изображения в каждом пространственном положении, создавая таким образом карту признаков, представляющих собой отклики фильтра в каждом пространственном положении исходного изображения.

[00050] К карте признаков, созданной сверточным слоем, могут применяться нелинейные операции. В иллюстративном примере нелинейные операции могут быть представлены блоком линейной ректификации (ReLU), который заменяет нулями все отрицательные значения пикселей на карте признаков. В различных других реализациях нелинейные операции могут быть представлены функцией гиперболического тангенса, сигмоидной функцией или другой подходящей нелинейной функцией.

[00051] Слой субдискретизации может выполнять подвыборку для получения карты признаков с пониженным разрешением, которая будет содержать наиболее актуальную информацию. Подвыборка может включать усреднение и/или определение максимального значения групп пикселей.

[00052] В некоторых вариантах реализации сверточные, нелинейные и слои и слои субдискретизации могут применяться к исходному изображению несколько раз, прежде чем результат будет передан в классифицирующий (полносвязный) слой. Совместно эти слои извлекают полезные признаки из исходного изображения, вводят нелинейность и снижают разрешение изображения, делая признаки менее чувствительными к масштабированию, искажениям и мелким трансформациям исходного изображения.

[00053] Результат работы сверточного слоя и слоя субдискретизации позволяет получить признаки высокого уровня исходного изображения. Задачей классифицирующего слоя является использование этих признаков для классификации исходных изображений на различные классы. В иллюстративном примере класси