Способ распознавания текстовой информации из векторно-растрового изображения
Изобретение относится к области техники предварительной обработки векторно-растрового изображения графического файла, содержащего изображение текста. Технический результат изобретения заключается в повышении надежности выявления текстовых, растровых и векторных объектов, получении информации о форматировании документа и ускорении процесса обработки. Достигается технический результат за счет того, что обработка текстовых объектов включает разбивку на отдельные символы и группы символов по предполагаемым местам размещения пробелов или других неиндицируемых символов и анализ и объединение групп символов в слова, обработка векторных объектов включает выявление разделителей, фона, обработка растровых объектов включает анализ на наличие изображения текста в нетекстовых объектах, и/или анализ на наличие векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта, причем дополнительно возможно проведение анализа корректности кодировки, и в случае необходимости исправление, для чего анализируют отдельные символы на принадлежность к заданному алфавиту, а слова текста - на принадлежность к заданному словарю. 2 з.п. ф-лы.
Реферат
Предлагаемое техническое решение относится к распознаванию образов и, в частности, к предварительной обработке представления документа в электронном виде, выполняемой перед операциями по распознаванию текста (или вместо распознавания).
Предлагаемое техническое решение позволяет выявить информацию о содержании и форматировании из векторно-растрового изображения документа в электронном виде, например, файла в формате PDF достаточную, чтобы затем восстановить документ в исходном или близком к исходному виде в любом известном формате, допускающем редактирование.
Из уровня техники известен способ извлечения текстовой информации из электронного файла в векторно-растровом формате. Этот способ использует компания-производитель инструментария для получения документов в векторно-растровом формате (в формате PDF). "Acrobat and PDF Library API Reference", January 7, 2005, Adobe Solutions Network, 3603 р.
Недостатком известного способа является его приспособленность для извлечения только текстовой информации без сохранения информации о форматировании (о внешнем оформлении документа).
Описанный способ выбран как прототип.
Технический результат состоит в расширении возможностей по распознаванию документа из электронного файла в векторно-растровом формате, повышении надежности выявления текстовых, растровых и векторных объектов, получении (извлечении) информации о форматировании документа (форматной информации), ускорении процесса обработки.
Известный способ не позволяет достичь заявленного технического результата.
Заявленный технический результат достигают последовательным выполнением разбивки изображения до получения областей, содержащих неразрывный логически связанный текст наибольшего размера, обработки текстовых объектов, обработки растровых объектов, обработки векторных объектов, удаления избыточной и излишней информации, дополнительной обработкой объектов, не относящихся к текстовым, растровым, векторным, как растровые, дополнительного анализа каждого объекта с учетом всей имеющейся информации по результатам обработки других объектов.
Ускорение обработки достигают в том числе благодаря исключению или сокращению части обычно выполняемых операций.
Например, во многих случаях частично или полностью отпадает необходимость распознавать растровый текст.
Сущность способа предварительной обработки текстовой информации по информации векторно-растрового изображения в электронном виде состоит в следующем.
В порядке предварительной (перед распознаванием символов) обработки выполняют следующие операции, используя атрибуты форматирования файла, имеющиеся в файле векторно-растрового изображения.
Выполняют разбивку изображения до получения областей, содержащих неразрывный логически связанный текст наибольшего размера. Для этого разбивают изображение на области, предположительно содержащие текст, и затем анализируют соседние области на возможность объединения в более крупные.
Обрабатывают текстовые объекты. Обработка текстовых объектов включает, по крайней мере, разбивку на отдельные символы и группы символов по предполагаемым местам размещения пробелов или других неиндицируемых символов, анализ и составление (объединение, сборка) групп символов в строки. Разбивка на отдельные символы и группы символов включает, по крайней мере, преобразование абсолютных координат символов в группы, разделенные пробелами и увеличенными межсимвольными промежутками.
Анализ и составление (сборка) групп символов в строки включает, по крайней мере, следующие действия:
а) определение ориентации текста,
б) выявление текста, написанного в положении верхнего индекса,
в) выявление текста, написанного в положении нижнего индекса,
г) выявление текста, написанного в виде буквицы.
После сборки строк делят строку на слова, по пробелам там, где они есть, и анализируя интервалы между символами там, где пробелов нет.
Обрабатывают векторные объекты. Обработка векторных объектов включает, по крайней мере, идентификацию (выявление) разделителей, фона, подложек в блоке.
Обрабатывают растровые объекты. Обработка растровых объектов включает, по крайней мере, анализ на наличие изображения текста в нетекстовых объектах, анализ на наличие векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта.
Удаляют избыточную и излишнюю информацию. К удаляемой избыточной и излишней информации относят, по крайней мере, информацию для оттенения символов и информацию об излишних атрибутах, некоторую другую, в зависимости от особенностей документа.
Объекты, не относящиеся к текстовым, растровым, векторным, обрабатывают как растровые.
Каждый объект повторно дополнительно анализируют с учетом всех имеющихся результатов обработки других объектов. Если по полученным результатам первичной обработки объекта появилась информация, способная повлиять на другие объекты, проводят повторный анализ этих других объектов.
После разбиения на строки и слова проводят анализ корректности кодировки символов, при необходимости исправляют. Для определения корректности кодировки анализируют текст на принадлежность букв к алфавиту и слов текста к словарю, с учетом заданного языка.
Если не удается получить текст другими известными способами, текстовый блок направляют на распознавание.
1. Способ предварительной обработки векторно-растрового изображения графического файла, содержащего изображение текста, характеризующийся
наличием текстовых, и/или растровых, и/или векторных объектов,
разбиением изображения на области, предположительно содержащие абзацы, таблицы, строки текста, символы текста, нетекстовые объекты;
отличающийся тем, что выполняют следующие операции, используя атрибуты форматирования файла:
разбивку изображения выполняют до получения областей содержащих неразрывный логически связанный текст наибольшего размера,
обработку текстовых объектов,
обработку растровых объектов,
обработку векторных объектов,
удаление избыточной и излишней информации,
обработка объектов, не относящихся к текстовым, растровым, векторным, как растровых,
анализ каждого объекта с учетом всех имеющихся результатов обработки других объектов;
причем удаляемая избыточная и излишняя информация, включает, по крайней мере, следующие виды:
а) информация для оттенения символов,
б) лишние атрибуты;
причем получение областей содержащих неразрывный логически связанный текст наибольшего размера включает, по крайней мере, следующие этапы:
разбивку изображения на области, предположительно содержащие текст,
анализ соседних областей на возможность объединения в более крупную область;
причем обработка указанных текстовых объектов включает, по крайней мере, следующие этапы:
разбивку на отдельные символы и группы символов по предполагаемым местам размещения пробелов и/или других неиндицируемых символов,
анализ и объединение групп символов в слова;
причем обработка указанных векторных объектов включает, по крайней мере, выявление разделителей, фона;
причем обработка указанных растровых объектов включает, по крайней мере, следующие этапы:
анализ на наличие изображения текста в нетекстовых объектах, и/или
анализ на наличие векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта.
2. Способ по п.1, отличающийся тем, что дополнительно включает анализ корректности кодировки символов, путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка, и в случае необходимости исправление.
3. Способ по п.1, отличающийся тем, что анализ и составление групп символов в слова, включает, по крайней мере, следующие действия:
а) определение ориентации текста,
б) выявление текста, написанного в положении верхнего индекса,
в) выявление текста, написанного в положении нижнего индекса,
г) выявление текста, написанного в виде буквицы.