2417435 - Способ и система для проверки правильности неоднозначно распознанных слов в ocr-системе

Способ и система для проверки правильности неоднозначно распознанных слов в ocr-системе

Иллюстрации

Показать все

Настоящее изобретение относится к системам Оптического Распознавания Символов, а в частности к способу и системе для подтверждения неоднозначно распознанных слов, которые представлены процессом оптического распознавания символов, используя варианты написания в качестве аргументов поиска для средства поиска в сети Интернет. Техническим результатом является повышение точности распознавания текстов. Измеренное количество совпадений для каждого варианта написания используется, чтобы предоставить количественный показатель подтверждения для наиболее вероятного варианта написания. Всякий раз, когда количественный показатель подтверждения не является окончательным, используется множество стратегий поиска, чтобы добиться результата измерений, содержащего нулевые совпадения за исключением одного варианта написания, который используется в качестве правильной альтернативы. 2 н. и 54 з.п. ф-лы, 2 табл., 7 ил.

Реферат

Настоящее изобретение в целом имеет отношение к системам Оптического Распознавания Символов (OCR - Optical Character Recognition), и в частности к способу для автоматической проверки правильности наиболее вероятной версии неоднозначно распознанных слов, которые представляются процессом распознавания.

Существует много предложений в предшествующем уровне техники относительно обеспечения оптического распознавания символов на основании изображений текста. Системы Оптического Распознавания Символов (OCR) довольно хорошо работают с отсканированными с высоким качеством бумажными документами, но обычно терпят неудачу при отсканированном с низким качеством изображении или нечетких шрифтах. Кроме того, иногда имеют место орфографические ошибки в документах, захваченных компонентом OCR-системы. Чтобы иметь возможность повторной печати документов, чтобы иметь возможность электронного поиска в документах (медицинские записи, например с поиском по ключевому слову и т.д., электронные каталоги, базы данных с историческими документами и информацией и т.д.), необходимо преобразование изображений текста к виду, поддающемуся компьютерной обработке (преобразование текста в текст в кодировке ASCII), что обеспечивает высокоэкономичное средство для работы с документами, как известно специалисту в данной области техники. Следовательно, существует потребность в улучшении качества выходных данных компонентов OCR-системы для осуществления способности в полной мере использовать все возможности электронной обработки документов. Внедрение сети Интернет также было фактором, повысившим потребности в более высоком качестве OCR-процесса. Изображения текста, сохраненные на компьютерах в формате PDF, например, доступны для поиска посредством программ-обозревателей сети Интернет. Однако текст, содержащийся в PDF-файлах, должен преобразовываться в компьютерочитаемый цифровой формат, чтобы быть доступным для поиска.

Программные OCR-системы могут разрабатываться с возможностью приспособления к качеству текста и шрифту фактического отсканированного документа. Самонастраивающееся OCR ограничивается теми символами, для которых имеются известные случаи надежного распознавания символов, известная статистика, и/или которые находятся в списках слов или словарях. Некоторые из остающихся неоднозначных символов после процесса распознавания будут символами, которые или редко встречаются, или которые легко перепутать с другим символом в процессе распознавания, предоставляющем символьную группу альтернативных интерпретаций символа. Эти символы не могут быть распознаны (или подтверждены) в рамках существующих интегрированных сред для OCR предшествующего уровня техники. Например, многие из этих символов могут не принадлежать словам в словаре заданного языка, поскольку они могут быть именами собственными, иностранными словами или выражениями, или просто принадлежать другому языку. Выходными данными OCR-системы обычно является строка символов, представляющая текст в виде цифрового текста. Также туда может включаться информация о шрифте, размере и расположении, чтобы иметь возможность восстановления вида исходного документа, например при повторной печати документа. В дополнение, большинство программных OCR-систем используют собственные вероятностные или оценочные величины символов для идентификации неоднозначно распознанных символов или слов, и средство проверки орфографии, которое предусматривает альтернативные слова для этих неоднозначно распознанных слов.

В предшествующем уровне техники есть несколько примеров использования сети Интернет в качестве источника документов и тематической информации и т.д. для организации способа для коррекции ошибок при OCR-обработке документов.

Статья "Использование Всемирной Сети для Получения Повторяемости Новых Биграмм", Франк Келлер (Frank Keller) и Мирелла Лапта (Mirella Lapta), Ассоциация Компьютерной Лингвистики, 2003 год, содержит исследование и подход к преодолению недостаточности данных для трудных слов при OCR-процессе. Один из вопросов, обсуждаемых в этой статье - применима ли повторяемость во Всемирной Сети для вероятностного моделирования.

Статья "Коррекция Текста с Использованием Биграммных Моделей, зависящих от конкретной предметной области, на основании Просмотра Всемирной Сети", Кристофер Рингслеттер (Christoffer Ringsletter) и др., AND, 2007 год, описывает, как повторяемость в сети может использоваться в качестве оценочной величины для изменения существующей упорядоченности кандидатов для существующей коррекционной стратегии. В примерах, описанных в статье, Всемирная Сеть используется в качестве словаря, как понятно специалисту в данной области техники.

Статья "Точная и Эффективная Коррекция Текста с использованием Автоматов Левенштейна, Динамических Словарей Всемирной Сети и Оптимизированных Коррекционных Моделей", Стоян Михов (Stoyan Mihov) и др., Болгарская Академия Наук, 2004 год, описывает способ построения локального словаря, связанного с темой подвергающегося OCR-обработке документа, на основании поисковых запросов в сети. Вывод состоит в том, что небольшие локальные словари обеспечивают лучший результат.

Ни один из этих упомянутых документов, относящихся к предшествующему уровню техники, не обеспечивает значительно улучшенного исчерпывающего способа для коррекции выходных данных OCR. Следовательно, существует потребность в расширенных функциональных возможностях OCR, которые обеспечивают подтверждение наиболее вероятной версии неоднозначно распознанных слов в OCR-системах.

Согласно аспекту настоящего изобретения средство поиска в сети Интернет может обеспечить это подтверждение просто путем измерения количества совпадений, подсчитываемых при использовании неоднозначного слова в качестве аргумента поиска в средстве поиска в сети Интернет. Согласно этому аспекту настоящего изобретения аргумент поиска, обеспечивающий нулевые совпадения, расценивается как безусловное подтверждение того, что неоднозначно распознанное слово не представляет собой эту конкретную версию исследуемого слова. Если измеренное количество совпадений для неоднозначного слова очень велико, то безусловно возможно, что оно является правильной версией. Однако согласно дополнительному аспекту настоящего изобретения поисковые запросы должны выполняться с использованием таких альтернативных слов и/или сочетаний слов, что количество измеренных совпадений равно нулю для всех слов и/или сочетаний, за исключением одного слова и/или одного сочетания. Тогда наиболее вероятной версией неоднозначно распознанных слов является это конкретное слово, идентифицируемое в этой последовательности результатов измерений с помощью ненулевого результата измерения.

Согласно аспекту настоящего изобретения означенные этапы способа могут быть реализованы в программе на сетевом компьютере, который устанавливает связь с сетью Интернет через Интерфейс Прикладных Программ (API - Application Program Interface), взаимодействующий с узлами сети Интернет. Согласно этому аспекту настоящего изобретения реализованная программа принимает входные данные, касающиеся неоднозначно распознанных слов, от OCR-программы, выполняет поисковые запросы, например через API, а затем измеряет количество совпадений, которые представляются программой-обозревателем через API, затем результаты измерений для различных вариантов написания используются для определения наиболее вероятного слова, или используются, чтобы ввести дополнительные результаты измерений относительно вариантов написания с использованием отдельного слова, сочетания нескольких слов, фраз и/или в сочетании с символами-шаблонами в качестве дополнительных измеряемых аргументов поиска.

Согласно примеру варианта осуществления настоящего изобретения есть возможность установить количественный показатель подтверждения для неоднозначно распознанных слов. В примере варианта осуществления, в котором поисковые запросы в сети Интернет выполняются согласно настоящему изобретению, количество измеренных совпадений полностью перенормируются, чтобы можно было сравнить относительное количество совпадений. В альтернативных вариантах осуществления настоящего изобретения предоставляются более детально подготовленные результаты измерений и пороговые уровни, используемые для принятия или отклонения вариантов написания. Количественный показатель подтверждения, основанный на этих относительных количествах, также может сравниваться с верхним пороговым значением подтверждения и нижним пороговым значением подтверждения. Согласно этому примеру варианта осуществления всякий раз, когда количественный показатель подтверждения для неоднозначно распознанного слова больше верхнего порогового значения подтверждения, считается, что оно безусловно идентифицировано. Если количественный показатель подтверждения меньше нижнего порога подтверждения, считается, что оно безусловно не является этой конкретной версией слова. Если количественный показатель подтверждения попадает между верхним и нижним пороговыми значениями подтверждения, необходимо дополнительное исследование неоднозначно распознанного слова путем выполнения дополнительных поисковых запросов и измерений.

Согласно другому аспекту настоящего изобретения могут использоваться различные стратегии предоставления альтернатив слов для неоднозначно распознанного слова, например, на основании альтернатив для неоднозначно распознанного символа, который представляется OCR-функцией, буквенной статистики и т.д., и посредством комбинирования исследуемого слова с другими безусловно распознанными словами в тексте в качестве аргументов поиска. Согласно примеру варианта осуществления настоящего изобретения такие альтернативные слова и/или сочетания слов исследуются с помощью установления количественного показателя подтверждения согласно настоящему изобретению для всех представленных результатов поиска и последующего использования этого количественного показателя, как обрисовано выше, и повторения поисковых запросов с альтернативными аргументами поиска до тех пор, пока не будет достигнуто решение относительно наиболее вероятной версии исследуемого слова (все нули, за исключением одного).

Согласно другому примеру варианта осуществления настоящего изобретения верхнее пороговое значение подтверждения и нижнее пороговое значение подтверждения могут регулироваться, совместно или независимо друг от друга, для обеспечения настройки условий классифицирования исследуемого неоднозначно распознанного слова.

Согласно примеру варианта осуществления настоящего изобретения OCR-функция представляет список неоднозначно распознанных символов и слов, в которых встретились неоднозначно распознанные символы. Более того, также представляются альтернативы, которые являются возможными для каждой вероятной версии символов. На основании этих альтернативных символов создается некоторое количество потенциальных слов, которые являются вероятной правильной версией слова, причем каждое потенциальное слово содержит один из альтернативных символов, соответственно. Согласно аспекту настоящего изобретения идентификация наиболее вероятного правильного потенциального слова может достигаться, используя каждое потенциальное слово в качестве аргумента поиска в средстве поиска в сети Интернет (путем использования API, например), а измеренное количество совпадений по основанию каждой словоформы для принятия решения о наиболее вероятной версии слова. Согласно другому примеру варианта осуществления настоящего изобретения указанный выше количественный показатель подтверждения используется в процессе принятия решения.

Согласно другому примеру варианта осуществления настоящего изобретения, когда результат измерения совпадений приводит к невозможности выбора между кандидатами, например к равному количеству совпадений между двумя кандидатами, потенциальное слово, во-первых, комбинируется со словом, предшествующим исследуемому неоднозначному слову, а затем словосочетания используются в качестве аргумента поиска в сети Интернет, во-вторых, аналогичным образом используется, по меньшей мере, одно слово, следующее за исследуемым словом в той же самой текстовой строке. Дополнительно, в качестве аргумента поиска также используется сочетание, по меньшей мере, одного предшествующего слова, исследуемого слова и, по меньшей мере, одного последующего слова. Количество совпадений для каждого сочетания используется в процессе подтверждения для принятия решения о наиболее вероятной версии слов.

Согласно еще одному примеру варианта осуществления настоящего изобретения, когда сочетания слов обеспечивают неокончательное решение, исследуемое слово комбинируется с более отдаленным словом, предшествующим исследуемому слову. Согласно настоящему примеру варианта осуществления диапазон слов, которые могут быть выбраны в качестве сочетания, может быть ограничен расположением на предварительно заданном удалении, таком, например, как 5 слов от исследуемого слова. Аналогичным образом те же этапы выполняются с последующими словами, например, ограниченными пятым последующим словом. Впрочем, может использоваться любое удаление от исследуемого слова, что является конструктивным признаком настоящего изобретения. Согласно другому конструктивному признаку настоящего изобретения положение, от которого рассчитывается удаление, не обязательно должно принадлежать самому исследуемому слову, а удаление может быть ограниченно областью, которая охватывает исследуемое слово, например. Полученные в результате измеренные совпадения для этих поисковых запросов затем используются как основание для принятия решения о наиболее вероятной версии слова.

Согласно еще одному примеру варианта осуществления настоящего изобретения при выборе предшествующих слов и последующих слов для комбинирования с исследуемым словом учитывается не только положение относительно исследуемого слова, но также и количество содержащихся в слове символов. Согласно аспекту настоящего изобретения длинные слова (например, длиной более 8 символов, но может использоваться любая длина, которая может задаваться предварительно или выбираться пользователем) предпочтительны в качестве уточняющего параметра для исследуемых слов, как описано выше.

Согласно еще одному примеру варианта осуществления настоящего изобретения, по меньшей мере, одно предшествующее слово или, по меньшей мере, одно последующее слово относительно исследуемого слова выбирается на основании частоты встречаемости в определенном языке. Часто встречающиеся слова обычно являются "маленькими словами", такими как "и", "в", "из", и т.д., и вполне могут приниматься как не способствующие процессу проверки правильности. Поэтому предпочтительно использовать предшествующие или последующие слова с низкой частотой встречаемости. В примере варианта осуществления настоящего изобретения количество экземпляров конкретного слова представляется от OCR-функции, и процесс согласно настоящему изобретению проверяет это количество на соответствие пороговому значению. Представленное количество экземпляров и пороговое значение могут быть перенормированы, как понятно специалисту в данной области техники, чтобы обеспечить относительный количественный показатель встречаемости.

Однако слова с высокой повторяемостью в документе, но которые обеспечивают небольшое количество измеренных совпадений при поисковых запросах в сети Интернет, являются хорошими кандидатами для использования в поисковых запросах по сочетаниям с вариантами написания для исследуемого слова.

Согласно еще одному примеру варианта осуществления настоящего изобретения имена собственные могут распознаваться сами по себе, основываясь на сочетании нескольких имен собственных, идентифицированных в тексте. Согласно этому примеру варианта осуществления настоящего изобретения все слова, начинающиеся с заглавной буквы, интерпретируются как имя собственное, при условии, что предшествующий символ не является знаком препинания, которым заканчивается предложение, таким, как ".!?:". Комбинируя, по меньшей мере, два имени собственных, которые встречаются в тексте, процесс подтверждения может возвращать правильное решение. Согласно этому примеру варианта осуществления настоящего изобретения OCR-функция представляет все возможные потенциальные имена собственные процессу подтверждения при выполнении процесса распознавания.

Согласно еще одному аспекту настоящего изобретения OCR-системы часто используются в определенном контексте, например в архивной системе в больнице. Сегодня журналы регистрации пациентов часто заполняются и хранятся в электронном виде, но старые журналы часто существуют в бумажном виде и, следовательно, требуется их сканирование, для встраивания в электронную версию системы. Согласно примеру варианта осуществления настоящего изобретения узлы сети Интернет, которые используются для поисковых запросов в процессе подтверждения, являются выбираемыми. Например, в случае с больничными регистрационными журналами, узлы сети Интернет, содержащие медицинскую информацию, являются лучшим выбором узлов, по которым будет осуществляться поиск.

Согласно другому аспекту настоящего изобретения любые сведения о контексте, связанном с документом, который будет сканироваться в OCR-системе, могут использоваться в качестве уточняющих параметров слов. Медицинский контекст, как описано выше, может дополнительно уточняться медицинскими специальностями, такими как ортопедия и т.д. Другими примерами может служить семейная история, в которой определенная фамилия является преобладающей. Другие примеры могут быть из науки, сельского хозяйства, и т.д. Общим для всех этих "сведений" является то, что просто преобразовать эти "сведения" в адреса для средств поиска, содержащие значимую информацию, связанную с контекстом страниц документа, которые будут распознаваться. Ссылки на эти страницы затем используются при поиске в сети с различными потенциальными словами неоднозначно распознанных слов, и количества совпадений для различных альтернатив затем используются как основание для выбора наиболее вероятного слова. Согласно примеру варианта осуществления настоящего изобретения в качестве средства поиска используется поисковая система Copernic Agent Professional, причем критерии поиска, которые будут использоваться, выбираются в соответствии с содержимым страниц, которые будут распознаваться. В этом примере средства поиска есть возможность выбрать узлы, соответствующие законодательству, трудовым ресурсам, правительству, науке и т.д.

Согласно еще одному аспекту настоящего изобретения, даже если слово неоднозначно распознается из-за неоднозначно распознанных символов в слове, частями таких слов может все же быть достоверно распознанное слово. Например, "домохозяйка" содержит два слова "дом" и "хозяйка". Если неоднозначно распознанная часть слова относится к части слова "хозяйка", поисковые запросы с сочетаниями, содержащими "дом", упростили бы процесс подтверждения. Согласно примеру варианта осуществления настоящего изобретения используется словарь для выделения идентифицируемых главных частей неоднозначно распознанных слов. Это достигается путем принятия первой буквы слова в качестве аргумента для процесса поиска по словарю, и комбинирования затем первой буквы с последующей буквой, пока не будет идентифицировано самое длинное возможное сочетание букв из слова, которое обеспечивает результативный процесс поиска по словарю. Затем эта часть слова используется в процессе поиска в качестве уточняющего параметра для остальной части слова, для которого нужно получить подтверждение как наиболее вероятное слово. Если результат процесса поиска по словарю является неокончательным, процесс продолжается согласно одному из примеров вариантов осуществления, изложенных выше.

Согласно еще одному аспекту настоящего изобретения те же этапы способа согласно настоящему изобретению могут использоваться в процессе проверки орфографии. Алгоритмы проверки орфографии в большинстве случаев будут способны проверять орфографию тех слов, которые входят в состав словаря для определенного языка. Нельзя рассчитывать обнаружить в словаре для определенного языка некоторые категории слов, наподобие слов на иностранных языках и имен собственных, поскольку часто имеются ограничения на размер и согласованность словаря. Используя аспекты настоящего изобретения, которые указаны выше, способ, содержащий этапы согласно настоящему изобретению, может разрешить проблему неверной орфографии слов.

Согласно еще одному аспекту настоящего изобретения неоднозначно распознанные слова часто встречаются также в системах распознавания речи. Всякий раз, когда процесс распознавания, являющийся оптическим распознаванием или процессом распознавания речи и т.д., представляет неоднозначно распознанные слова, устанавливаются возможные варианты неоднозначного слова, например, посредством указаний альтернатив символов для неоднозначно распознанного символа, которые предлагаются самим процессом распознавания, или при помощи идентификации существующих слов как части слова, что описано выше, при этом поиск в сети может обеспечить процесс, идентифицирующий наиболее вероятное слово как правильное распознавание слова.

Согласно еще одному аспекту настоящего изобретения неоднозначно распознанные символы могут представлять собой сочетания двух или более символов. Например, символ "m" может быть сочетанием "r" и "n", или наоборот. То есть неоднозначное распознавание "r" и "n" может быть "m". Вследствие этого в объем настоящего изобретения входит предоставление решений для переменного количества неоднозначно распознанных символов.

Фиг.1 иллюстрирует пример трудного слова "Helligolav".

Фиг.2 иллюстрирует пример сомнительного распознавания букв "N" и "H".

Фиг.3 иллюстрирует изображение судна, встречающееся при поиске в сети Интернет.

Фиг.4 иллюстрирует пример результата поискового запроса, использующего поисковые фразы "Helligolav" и "Nelligolav".

Фиг.5 иллюстрирует другой пример трудно распознаваемого слова.

Фиг.6 изображает блок-схему примера способа согласно настоящему изобретению.

Фиг.7 иллюстрирует пример результата работы существующей OCR-программы.

Согласно аспекту настоящего изобретения процесс подтверждения выполняется в три основных этапа. Процесс распознавания, например процесс оптического распознавания (OCR), во-первых, идентифицирует неоднозначно распознанные символы вместе с альтернативами символьной классификации для этого символа. Фиг.7 иллюстрирует пример результата работы коммерческой доступной OCR-программы. Примером OCR-процесса может быть то, что символ "i" может иметь альтернативы "1" и "j". Во-вторых, слово или фраза, частью которых является символ, используется в качестве входных данных для средства сетевого поиска, формируя один поисковый запрос для каждой альтернативной символьной комбинации в этом конкретном слове или фразе. Например, с альтернативами "i", "1" и "j", для исследуемого слова используются три альтернативы. В-третьих, результаты работы средства сетевого поиска анализируются относительно количества экземпляров или вероятности для каждой альтернативной символьной комбинации, и выбирается наиболее вероятная альтернатива. Согласно примеру варианта осуществления настоящего изобретения программа выполняет вышеупомянутые этапы способа, взаимодействуя с сетью Интернет через API для программ-обозревателей сети Интернет, предоставляя варианты написания в качестве аргументов поиска, и измеряет совпадения для вариантов написания. Варианты написания, изображенные на Фиг.7, могут также представляться в виде файла, который может передаваться программе согласно настоящему изобретению, как понятно специалисту в данной области техники.

Пример, который иллюстрирует приложение согласно варианту осуществления в соответствии с настоящим изобретением, взят из письма, написанного в 1926 году, и которое хранится в Национальном Архиве Норвегии (Riksarkivet). Содержание письма связано с отправкой северного оленя через Атлантический Океан пароходами Helligolav и Stavangerfjord. Имена собственные этих двух судов не могут быть найдены ни в одном существующем словаре английского языка. Дополнительно, в этом примере OCR-обработки, как проиллюстрировано на Фиг.2, трудно различить символы "N" и "H". На Фиг.1 проиллюстрировано предложение из письма 1926 года. Соответственно имеются две альтернативы, которые представлены OCR-функцией, "Helligolav" и "Nelligolav". Не существует никакого статистического предпочтения для любой из альтернатив в статистике повторяемости в письме.

При этом, если мы используем эти две альтернативы "Helligolav" и "Nelligolav" в качестве запросов в средстве сетевого поиска, имеется 65 сетевых страниц, содержащих слово "Helligolav", и ни одной, содержащей бессмысленное слово "Nelligolav", явное подтверждение того, что слово должно распознаваться как "Helligolav". Одним из результатов поиска является изображение судна, как проиллюстрировано на Фиг.3.

Согласно другому аспекту настоящего изобретения знание о содержании документа, который будет распознаваться, может использоваться в процессе подтверждения. В вышеприведенном примере знание того, что письмо содержит информацию, связанную с судами, животными и т.д., может использоваться с тем, чтобы запросы подавались на узлы сети Интернет, содержащие информацию, связанную с судами, животными и т.д. В таком случае возвращение изображения из галереи изображений, содержащей иллюстрации судов, является строгой идентификацией значения слова. Одним способом идентификации изображения является идентификация с помощью расширения файла, которое представляет собой, например, ".BMP", ".JPG ", и т.д.

Другой пример использования варианта осуществления настоящего изобретения содержит фразу из популярной книги "Темный Огонь" автора Си Джей Сансом (C.J.Sansom), напечатанной необычным старинным готическим шрифтом, как изображено на Фиг.4. Качество отсканированного изображения этого предложения является превосходным, и поэтому большая часть текста может быть декодирована путем сопоставления аналогичных символов и выполнения расшифровки символов как одноалфавитного шифра замены, который хорошо знаком специалисту по технологиям, используемым в криптоанализе.

Остающиеся нерасшифрованными слова являются такими словами, как имя собственное "Vaughan", поскольку 'V' не поддается расшифровке из-за того, что нет другой заглавной буквы 'V' в тексте и слово "Vaughan" не обнаруживается в словаре. Согласно статистическим данным повторяемости букв, как известно специалисту в данной области техники, возможности смешанных альтернатив для 'V' ограничиваются согласными заглавными буквами 'BCDFGHJKLMNPQRSTVWX'. Измеренные результаты запросов сетевого поиска с использованием этих альтернативных гипотез перечислены в нижеприведенной Таблице 1.

Таблица 1
Запрос по слову	Результат запроса (количество сетевых страниц)
Baughan	629000 страниц
Caughan	12300 страниц
Daughan	3030 страниц
Faughan	32300 страниц
Gaughan	1240000 страниц
Haughan	13800 страниц
Jaughan	45 страниц
Kaughan	199 страниц
Laughan	502 страницы
Maughan	897000 страниц
Naughan	376 страниц
Paughan	46 страниц
Qaughan	1 страница
Raughan	211 страниц
Saughan	63 страницы
Taughan	98 страниц
Vaughan	24900000 страниц
Waughan	733 страницы
Xaughan	2 страницы

Даже притом, что Vaughan является наиболее вероятным почти с 90% от общего количества совпадений по запросу, не может быть принято окончательное решение, основываясь непосредственно на этих результатах. Есть возможность исключить 'Xaughan' и 'Qaughan' как очень маловероятные из-за очень низкого количества совпадений, но все же остается 10%-ый шанс на ошибочную классификацию, если выбирается альтернатива 'Vaughan'.

Однако, если вместо этого мы используем поисковую фразу "Vaughan livery" (ливрея Вогана), мы найдем только 4 страницы, содержащие фразу, начинающуюся с 'V', а ни одна из других символьных комбинаций не возвращает количественного измерения совпадений по запросу. Объяснением этих результатов является то, что, в то время как семейство Vaughan принадлежит старой английской аристократии и, следовательно, имело слуг в "ливрее Вогана", ни одно из других семейств Baughan, Caughan, Maughan и т.д. не имело служащих в собственных ливреях, поскольку они не относились к титулованному дворянству. Используя сведения о содержании текста, который будет распознаваться, может быть идентифицировано наиболее вероятное слово. В этом примере, слово "livery" является первым последующим словом после исследуемого слова. Поэтому, только при комбинировании этого слова со всеми другими возможными альтернативами в качестве аргументов поиска, словосочетание раскрывает значение содержания и, следовательно, наиболее вероятную версию исследуемого слова.

На Фиг.5 изображен текст, взятый из Энеиды Вергилия, в котором одним из неоднозначно распознанных слов является Danae с вариантом написания Danac. Ни одно из двух слов не обнаруживается в словаре. В том же самом тексте мы имеем безусловно распознанные слова Latinus, Turnus, Rutulian, Argos и Long.

Обратимся к Таблице 2, соотношение совпадений при поиске по запросам в сети между Danae и Danac составляет 96 % в пользу Danae, такое соотношение не может признаваться как решающее. Одна возможная стратегия состоит в том, чтобы использовать поиск в сети, комбинируя искомые слова с другими безусловно распознанными словами. Слово Long является широко распространенным, и только 0.1 документа на тысячу всех документов, содержащих слово Long, содержит или Danae или Danac, и коэффициент совпадения равен 93%. Слова Argos, Turnus и Latinus все выдают в результате коэффициенты совпадения, в сочетании с Danae и Danac, которые свидетельствуют в пользу Danae (>99%), но относительная совместная встречаемость слов остается все еще небольшой. Rutulian является наименее распространенным словом, которое само по себе дает в результате только 880 совпадений, что подводит к окончательному аргументу. Rutulian никогда не сочетается с Danac, но в 27% документов, содержащих слово Rutulian, мы также обнаружим слово Danae, что свидетельствует об устойчивой совместной встречаемости слов.

Обобщением этого принципа является то, что безусловно распознанные слова с низкими значениями повторяемости при поисковых запросах в сети, которые встречаются совместно с одной из альтернатив слова, обеспечивает более достоверное решение, чем безусловно распознанные слова с высокой повторяемостью. В целом, аспектом согласно настоящему изобретению является то, что есть возможность безусловно идентифицировать, какое слово не подходит. Это достигается с помощью идентификации альтернатив, которые возвращают нулевые результаты измерений совпадений, исходя из поиска в сети Интернет. Вообще, количество возвращенных измеренных совпадений может попадать в пределы трех категорий:

1) Итоговое количество измеренных совпадений больше предварительно заданного верхнего порогового значения для одной из альтернатив. Тогда эта альтернатива выбирается.

2) Количество измеренных совпадений меньше нижнего порогового значения. Тогда эта альтернатива отклоняется.

3) Количество измеренных совпадений попадает между верхним и нижним пороговыми значениями. Тогда альтернатива дополнительно исследуется.

Согласно примеру варианта осуществления настоящего изобретения эти три категории могут использоваться как количественный показатель подтверждения вероятной версии исследуемого слова. Согласно иному варианту осуществления настоящего изобретения верхнее пороговое значение и нижнее пороговое значение могут повышаться или понижаться совместно, или независимо. Например, 100% всех совпадений могут разделиться на три группы, определяемые как 10% больше верхнего порогового значения, 10% меньше нижнего порогового значения, из чего следует, что 80% совпадений попадают между пороговыми значениями. Согласно иному варианту осуществления диапазоны могут быть разделены как 5%, 90%, 5% соответственно или как 10%, 70%, 30% соответственно. Любое разделение находится в пределах объема настоящего изобретения.

Согласно примеру варианта осуществления настоящего изобретения способ, содержащий этапы, на которых подтверждают наиболее вероятную версию неоднозначно распознанного слова, содержит следующие этапы:

a) Всякий раз, когда процесс распознавания представляет неоднозначно распознанный символ, слово, содержащее этот символ, записывается так, что альтернативы версий для символа вставляются на место символа в слове, таким образом, формируя список, содержащий альтернативы слова. OCR-функция, как понятно специалисту в данной области техники, предоставляет такую информацию.

b) Затем слова из списка поочередно используются в качестве запросов в программе-обозревателе сети Интернет, как понятно специалисту в данной области техники. Результаты поиска измеряются и сохраняются в списке, например.

c) Затем на следующем этапе нужно исследовать результат в списке отчетов. Процесс выбора подтверждения основывается на наблюдении, что те поисковые запросы, которые возвращают нулевые результаты, обеспечивают безусловное подтверждение того, что слово не подходит. Поэтому процесс будет дополнительно исследовать только те записи, которые обеспечивают отличный от нуля результат поискового запроса. Однако интерпретация количества совпадений связана не только с самым большим количеством совпадений в сети Интернет, но и относительным коэффициентом совпадений относительно других совпадений. Если относительный коэффициент совпадений больше верхнего предварительно заданного порогового значения для определенной альтернативы, эта альтернатива выбирается как наиболее вероятное слово.

d) Если относительный коэффициент совпадений меньше верхнего порогового значения, и относительный коэффициент совпадений больше нижнего порогового значения для коэффициента совпадений, выполняется дополнительное исследование. Если альтернативное слово обладает относительным коэффициентом совпадений за пределами верхнего и нижнего пороговых значений, альтернатива интерпретируется как безусловно не являющаяся словом.

e) Дополнительно, исследование неоднозначно распознанного слова содержит этапы, на которых проверяют, имеет ли слово заглавную букву, и вследствие этого вероятно является именем собственным. Если процесс распознавания возвращает другие вероятные имена собственные, по меньшей мере, два имени собственных используются как объединенный поисковый запрос. И в этом случае комбинация слов, возвращающая нулевые совпадения, исключается из числа кандидатов. Затем остающиеся результаты проверяются на соответствие доверительному интервалу, являющиеся или больше верхнего порогового значения или меньше нижнего порогового значения, или как являющиеся кандидатами на дополнительное исследование, если находятся в пределах ограничений верхнего и нижнего пороговых значений.

f) Если проверка на имя собственное терпит неудачу, на дополнительном этапе выполняют комбинирование найденных в тексте, по меньшей мере, одного предшествующего и, по меньшей мере, одного последующего слова относительно исследуемого слова. Выполняется такая же проверка на достоверность.

g) Если проверки со словосочетаниями на этапе f) терпят неудачу, то выбирается, по меньшей мере, одно предшествующее или, по меньшей мере, одно последующее слово, содержащее количество символов больше предварительно заданного порогового значения, для комбинирования с исследуемым словом. Затем по представленным результатам выполняется проверка достоверности. Используя только слова больше определенной длины, избегают использования маленьких

Способ и система для проверки правильности неоднозначно распознанных слов в ocr-системе

Патент 2417435