Способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения

Реферат

 

Изобретение относится к области электроники и может быть использовано в компьютерных технологиях, например, в качестве построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения. Техническим результатом является совершенствование способов построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения с достижением технического результата в виде ускорения процесса распознавания. Способ заключается в том, что производят выборку распознаваемых фрагментов изображения объема V1, выбираемого по отношению к общему объему V2 исходной графической информации в пределах 1(V1+V2)/V25/1, где - экспериментальный коэффициент, который выбирают в зависимости от статистической значимости распределения распознаваемых оригиналов и скорости распознавания в пределах 0,234.1. Отобранную выборку сортируют по ее статистической значимости, преобразуя исходный объем V1 в структурированный объем V3 преобразованной графической информации в виде динамических растровых эталонов компьютерных кодов, который в зависимости от V1 и V2 выбирают в пределах 1(V2 + V1 + V3)/(V2 + V3)105, где - экспериментальный коэффициент, который выбирают в зависимости от выделенных промежутков времени на сортировку и на распознавание фрагментов оригиналов в пределах 0,32,5. При этом соотношение между минимальным t1 и максимальным t2 значениями длительности преобразования выбирают в пределах 1(t1 + t2)/t27,8, где - экспериментальный коэффициент, который выбирают в зависимости от величин V1, V2 и V3, в пределах 0,176,8.

Изобретение относится к области электроники и может быть использовано в компьютерных технологиях, например, в качестве способа построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов в процессе распознавания соответствующих им фрагментов изображения.

Известен способ преобразования компьютерных кодов и соответствующих им фрагментов изображения, включающий производимое компьютерной программой построение массивов данных, используемых для распознавания соответствующих им фрагментов изображения и сличение оператором соответствия компьютерных кодов с оригиналом [Patent USA N 5153927: Character reading system and method., МПК Oct. 6, 1992].

Известен также способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов в процессе распознавания соответствующих им фрагментов изображения, включающий производимое компьютерной программой построение дополнительных структурированных массивов данных, используемых для распознавания соответствующих им фрагментов изображения [Руководство пользователя Fine Reader 4.0 ABBYY Software House, Москва, 1998. Казанский производственный комбинат программных средств. Заказ Ф-377].

Недостатком известных способов являются относительно низкие их функциональные и технические характеристики, в том числе низкие значения достигаемой скорости процесса распознавания.

Решаемой изобретением задачей является совершенствование способов построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов в процессе распознавания соответствующих им фрагментов изображения, с достижением технического результата в виде ускорения процесса распознавания.

Для удобства и однозначного понимания целесообразно привести расшифровки и определения используемых далее обозначений и/или терминов.

Компьютерный код (например, символ) - компьютерное представление некоторого фрагмента информации (в частности, символьной).

Оригинал - преобразуемая информация, материализованная преимущественно в виде совокупности компьютерных кодов, соответствующих исходному объекту, например распознаваемому фрагменту изображения.

Процесс построения динамических растровых эталонов - производимое компьютерной программой построение дополнительного структурированного массива данных, используемых для ускорения процесса распознавания.

Динамический растровый эталон - это дополнительный структурированный массив данных, создаваемый и используемый для ускорения процесса распознавания. Понятие "динамический" отражает изменяемый характер создаваемых эталонов, то есть означает, что в процессе использования предложенного способа постоянно изменяют совокупность построенных эталонов пополнением ее новыми эталонами, видоизменением существующих и исключением ненужных, а понятие "растровый" характеризует их особенности выполнения в виде совокупности элементов, образующих, например, периодическую структуру. Создать эталон - значит для каждого встречающегося в тексте символа записать в память растровой подсистемы пару: точечное изображение символа и его название (т.е. какую буквы это изображение представляет).

Процесс распознавания - процесс обработки системой распознавания введенного в компьютер графического изображения некоторого символа, в результате чего система распознавания приписывает изображению компьютерный код этого символа.

Скорость процесса распознавания - количество распознанных изображений символов в единицу времени.

Статистическая значимость выборки распознаваемых оригиналов - это степень соответствия распределения частоты появления символов в выборке распределению для всего исходного массива данных.

В качестве кратких сведений, раскрывающих сущность изобретения, следует отметить, что достигаемый технический результат обеспечивают с помощью предложенного способа построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов в процессе распознавания соответствующих им фрагментов изображения, состоящего в том, что производят выборку распознаваемых фрагментов изображения объема, выбираемого по отношению к общему объему исходной графической информации в пределах 1 ( V1 + V2)/V2 5,1, где V1 - общий произведенной выборки распознаваемых фрагментов изображения; V2 - общий объем исходной графической информации; - экспериментальный коэффициент, который выбирают в зависимости от статистической значимости распределения распознаваемых фрагментов изображения и скорости распознавания, а также от быстродействия используемых компьютерных средств в пределах 0,23 4,1.

Отобранную выборку сортируют по ее статистической значимости путем преобразования объема V1 произведенной выборки распознаваемых фрагментов изображения в структурированный объем V3, который в зависимости от VI и V2 выбирают в пределах 1 (V2+V1 + V3)/ (V2 + V3) 105, где V3 - структурированный объем преобразованной графической информации в виде динамических растровых эталонов компьютерных кодов; - экспериментальный коэффициент, который выбирают в зависимости от выделенных промежутков времени на сортировку и на распознавание фрагментов оригиналов в пределах 0,3 2,5; При этом соотношение между минимальным и максимальным значениями длительности преобразования выбирают в пределах 1 (t1+ t2)/t2 7,8, где t1 - минимальное значение длительности преобразования; t2 - максимальное значение длительности преобразования; - экспериментальный коэффициент, который выбирают в зависимости от величин V1, V2 и V3, в пределах 0,17 6,8.

При изложении сведений, подтверждающих возможность осуществления изобретения целесообразно более детально описать предложенный способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов в процессе распознавания соответствующих им фрагментов изображения. Подробно целесообразно остановиться только на существенных особенностях осуществления операций предложенного способа, заключающихся в том, что производят выборку распознаваемых фрагментов изображения объема, выбираемого по отношению к общему объему исходной графической информации в пределах 1 ( V1+V2)/V2 5,1, где V1 - объем произведенной выборки распознаваемых фрагментов изображения; V2 - общий объем исходной графической информации; - экспериментальный коэффициент, который выбирают в зависимости от статистической значимости распределения распознаваемых фрагментов изображения и скорости распознавания, а также от быстродействия используемых компьютерных средств в пределах 0,23 4,1.

Следует учитывать при этом также качество исходных графических изображений, которое определяется тем, что предъявляют для распознавания, например, изготовленное на ксерокопировальном аппарате изображение, факсограмму, машинописный или рукописный текст. Менее существенны здесь другие технические характеристики используемых компьютерных средств, в частности вид операционной системы, объем оперативной памяти и др. Отобранную выборку сортируют по ее статистической значимости путем преобразования объема V1 произведенной выборки распознаваемых фрагментов изображения в структурированный объем V3, который в зависимости от V1 и V2 выбирают в пределах 1 (V2+V1+ V3)/(V2 + V3) 105, где V3 - структурированный объем преобразованной графической информации в виде динамических растровых эталонов компьютерных кодов; - экспериментальный коэффициент, который выбирают в зависимости от выделенных промежутков времени на сортировку и на распознавание фрагментов оригиналов в пределах 0,3 2,5.

При этом соотношение между минимальным и максимальным значениями длительности преобразования выбирают в пределах 1 (t1 + t2)/t2 7,8, где t1 - минимальное значение длительности преобразования; t2 - максимальное значение длительности преобразования; - экспериментальный коэффициент, который выбирают в зависимости от величин V1, V2 и V3, в пределах 0,17 6,8.

Для дополнительного пояснения целесообразно привести следующий пример практического применения заявленного способа, реализованный в последних версиях системы FineReader - метод построения динамических растровых эталонов в процессе распознавания. Компьютерный код в заявленном объекте, как уже указывалось, - это преобразуемая компьютером совокупность электромагнитных сигналов, адекватно соответствующих распознаваемым исходным символам или любым другим распознаваемым фрагментам исходной информации. Каждый из эталонов совокупности динамических растровых эталонов, образующих периодическую структуру, представляет собой, например, упорядоченный набор электромагнитных сигналов или соответствующих рельефно намагниченных фрагментов жесткого диска. Динамические свойства растровых эталонов определяют временными параметрами их преобразования, основными из которых являются t1, и t2.

В процессе распознавания производят выборку распознаваемых фрагментов изображения объема V1, выбираемого по отношению к общему объему V2 исходной графической информации в виде графического изображения текста при условии ( V1 + V2)/V2 = 4, где выбирают равным = 1,1. Отобранную выборку сортируют по ее статистической значимости, преобразуя исходный объем информации V1 в структурированный объем V3 в виде динамических растровых эталонов компьютерных кодов, который в зависимости от V1 и V2 выбирают с учетом условия (V2 + V1 + V3) / (V2 + V3) = 1,5, где - выбирают равным = 1,2. При этом соотношение между минимальным t1 и максимальным t2 значениями длительности преобразования выбирают при условии (t1 + t2)/t2 = 1,6, где - экспериментальный коэффициент, который выбирают в зависимости от величин V1, V2 и V3, в пределах 0,7 0,8.

Таким образом достигается высокая скорость распознавания текстов набранных незнакомым системе шрифтом, превышающая аналогичный параметр у известных способов в 1,5-2 раза.

В отношении технических средств, необходимых для реализации заявленного способа, целесообразно в дополнение к вышеизложенному отметить, что ими могут быть как специализированные функциональные блоки, так и функциональные узлы компьютера, управляемые задаваемой системой команд. В частности, операции типа отсортировать по статистической значимости, осуществляются математическим сопроцессором центрального процессора системного блока компьютера под управлением специализированных для операций с массивами данных и статистических вычислений функциональных программных блоков (библиотек команд, эталонов и других данных), производящих выборку и сортировку списков эталонов. Сами списки находятся либо в оперативной памяти (ОЗУ), либо на дисковом носителе компьютера и управляются системными библиотеками команд операционной среды. Под заменяющим человека устройством подразумевается любое устройство, которое может на необходимом для осуществления способа уровне выполнить операции, которые ранее выполнял или которые может выполнить человек.

Достигаемый технический результат, как показали данные экспериментов, может быть реализован только взаимосвязанной совокупностью всех существенных признаков заявленного объекта, отраженных в формуле изобретения. Указанные в ней отличия дают основание сделать вывод о новизне данного технического решения, а совокупность испрашиваемых притязаний в связи с их неочевидностью - о его изобретательском уровне, что доказывается также вышеприведенным их детальным описанием. Соответствие критерию промышленная применимость предложенного способа доказывается как его реализацией, так и отсутствием в заявленных притязаниях каких-либо практически трудно реализуемых в промышленных масштабах признаков. Нижние и верхние значения заявленных пределов были получены на основе статистической обработки результатов экспериментальных исследований, анализа и обобщения их и известных из опубликованных источников данных, а также с использованием изобретательской интуиции, исходя из условия достижения указанного технического результата. Особенности использования способа и других объектов, не отраженные в описании, общеизвестны и не являются предметом изобретения.

Кроме указанного выше технического результата практическое осуществление заявленного объекта позволяет существенно расширить возможности его использования применительно, например, к различным документам, заполняемым рукописными символами, либо документам плохого качества.

Формула изобретения

Способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения, состоящий в том, что производят выборку распознаваемых фрагментов изображения объема, выбираемого по отношению к общему объему исходной графической информации в пределах 1 (V1 + V2)/V2 5,1, где V1 - объем произведенной выборки распознаваемых фрагментов изображения; V2 - общий объем исходной графической информации; - экспериментальный коэффициент, который выбирают в зависимости от статистической значимости распределения распознаваемых фрагментов изображения и скорости распознавания, а также от быстродействия используемых компьютерных средств в пределах 0,23 4,1; отобранную выборку сортируют по ее статистической значимости путем преобразования объема V1 произведенной выборки распознаваемых фрагментов изображения в структурированный объем V3, который в зависимости от V1 и V2 выбирают в пределах 1 (V2 + V1 + V3)/(V2 + V3) 105, где V3 - структурированный объем преобразованной графической информации в виде динамических растровых эталонов компьютерных кодов; - экспериментальный коэффициент, который выбирают в зависимости от выделенных промежутков времени на сортировку и на распознавание фрагментов оригиналов в пределах 0,3 2,5, при этом соотношение между минимальным и максимальным значениями длительности преобразования выбирают в пределах 1 (t1 + t2)/t2 7,8, где t1 - минимальное значение длительности преобразования; t2 - максимальное значение длительности преобразования; - экспериментальный коэффициент, который выбирают в зависимости от величин V1, V2 или V3, в пределах 0,17 6,8.

TE4A Изменение адреса для переписки

Адрес для переписки:123100, Москва, Шмитовский пр., 2, стр. 2, Агентство «Ермакова, Столярова и Партнеры»

Дата публикации: 27.04.2012