Оптимизация извлечения факта с использованием многоэтапного подхода

Иллюстрации

Показать все

Изобретение относится к способу и устройству для проведения информационного поиска. Техническим результатом является повышение достоверности результатов поиска. Из электронных документов извлекаются факты посредством распознавания фактографических описаний с использованием таблицы слов факта, сопоставляемых со словами электронных документов. Слова этих фактографических описаний могут быть обеспечены признаком соответствующей части речи. Далее выполняется более подробный анализ этих фактографических описаний, а не всего электронного документа, и, в частности, текста, окружающего соответствующие слова факта. Анализ может включать в себя идентификацию лингвистических элементов каждого словосочетания и определение их роли как подлежащего или как дополнения. Могут применяться правила исключения для удаления тех словосочетаний, которые, скорее всего, не являются частью фактов, причем эти правила исключения частично основаны на лингвистических элементах. К оставшимся словосочетаниям могут быть применены правила оценки, и для тех словосочетаний, которые имеют оценку, превышающую порог, соответствующая часть предложения, целое предложение, абзац или другая часть документа могут быть представлены как представляющие один или несколько фактов. 3 н. и 17 з.п. ф-лы, 6 ил., 4 табл.

Реферат

Уровень техники

Электронные документы могут содержать смесь фактов и мнений. Время от времени читателя могут интересовать только факты, или ему может потребоваться идентифицировать факты. Например, пользователю, выполняющему поиск информации в режиме онлайн, может потребоваться получить факты по конкретной теме настолько быстро и эффективно, насколько возможно. Однако представление списка web-страниц или других электронных документов, которые относятся к используемым термам поиска, требует, чтобы пользователь сам исследовал каждую web-страницу или другой электронный документ и отличал факты от мнений или субъективной информации.

Были сделаны попытки извлечения факта. Однако точное извлечение факта может быть медленным и неэффективным даже для быстродействующих компьютеров сервера. При таких попытках извлечения факта, как правило, применяют лингвистический анализ ко всему содержимому электронного документа для извлечения тех фактов, которые он может содержать. При применении извлечения факта к сотням или тысячам электронных документов, количество времени, необходимое для достижения результата, может быть недопустимым.

Сущность изобретения

С использованием многоэтапного подхода варианты осуществления обеспечивают оптимизацию извлечения факта. Бегло просматриваются электронные документы для обнаружения фактографических описаний, которые, скорее всего, содержат факты с использованием таблицы слов факта для сопоставления с термами в предложениях электронных документов для получения набора фактографических описаний. После этого можно выполнить дополнительный анализ, включающий в себя определение лингвистических элементов, например синтаксических элементов и/или семантики, в окружении этого набора фактографических описаний, а не во всем документе. Соответственно, за счет отказа от сложного лексического и синтаксического анализа всего документа для каждого представляющего интерес электронного документа обеспечивается экономия времени.

В этом кратком описании представлен в упрощенной форме перечень понятий, которые также описаны ниже в подробном описании. Это краткое описание не предназначено для определения основных или существенных признаков заявленного объекта изобретения, равно как и для использования в качестве вспомогательного средства в определении объема заявленного объекта изобретения.

Краткое описание чертежей

На фиг.1 изображен пример компьютерной системы для реализации вариантов осуществления.

На фиг.2 изображен пример последовательности операций поиска, включающей в себя представление фактов, которые были извлечены до поиска.

На фиг.3 изображен пример последовательности операций поиска, включающей в себя представление фактов, которые были извлечены во время поиска.

На фиг.4 изображен пример последовательности операций множества этапов извлечения факта.

На фиг.5 изображен пример более подробной последовательности операций множества этапов извлечения факта.

На фиг.6 изображен пример экранного устройства отображения, обеспечивающего результаты поиска, которые включают в себя представление фактов, полученных из электронных документов, обнаруженных при поиске.

Подробное описание

Варианты осуществления предусматривают извлечение факта с использованием нескольких этапов, чтобы избежать выполнения сложного анализа всех представляющих интерес документов. Фактографические описания документов распознаются согласно таблице слов факта на предварительном этапе. Эти фактографические описания могут быть обеспечены признаком их частей речи - существительного или глагола. Далее, на последующем этапе по этим фактографическим описаниям может быть сделан более подробный анализ, чтобы тем самым избежать такого подробного анализа по всем представляющим интерес документам. Для каждого фактографического описания можно определять лингвистические элементы, и затем можно использовать исключения и оценки для удаления фактографических описаний, которые, скорее всего, не являются фактами. Фактографические описания, оставшиеся после исключений и оценки, могут далее быть представлены как факт.

На фиг.1 изображен пример компьютерной системы 100, которая обеспечивает операционную среду для вариантов осуществления. Изображенная компьютерная система 100 может быть стандартной, универсальной программируемой компьютерной системой 100, включающей в себя процессор 102, а также различные компоненты, в том числе массовую память 112, память 104, адаптер 108 дисплея и одно или несколько устройств 110 ввода, например клавиатуру, вспомогательную клавиатуру, мышь и т.п. Процессор 102 обменивается информацией с каждым из компонентов через шину 106 передачи данных. Компьютерная система 100 также может включать в себя сетевой интерфейс 124, например проводное или беспроводное соединение, которое обеспечивает компьютерной системе 100 возможность обмениваться информацией с другими компьютерными системами через сети передачи данных. Компьютерная система 100 может в качестве альтернативы быть жестко закодированным специализированным устройством, которое реализует один или несколько вариантов осуществления.

В примере на фиг.1 процессор 102 реализует команды, сохраненные в массовой памяти 112 в виде операционной системы 114. Операционная система 114 в этом примере обеспечивает основу, на которой могут быть реализованы различные приложения, использующие компоненты компьютерной системы 100. Компьютерная система 100 может реализовать поисковый механизм 118 или аналогичное приложение для обнаружения электронных документов, относящихся к конкретной ситуации. Например, поисковый механизм 118 может принимать термы поиска, введенные непосредственно через устройство 110 ввода пользователем компьютерной системы 100, или может принимать термы поиска, указанные пользователем удаленного компьютера, которые принимаются через сетевой интерфейс 122.

Поиск и/или извлечение факта могут иметь место в отношении одного или нескольких наборов электронных документов, которые содержат текстовую информацию, например, web-страницы, стандартные документы обработки текстов, электронные таблицы и т.д. Эти электронные документы могут быть сохранены локально как набор 116 электронных документов. Эти электронные документы также могут быть сохранены не локально, например, на сетевом запоминающем устройстве 124, содержащем набор 126 электронных документов. Сетевое запоминающее устройство 124 представляет запоминающее устройство локальной сети, контролируемые центральным процессором ячейки памяти в Интернете и т.д. Сетевое запоминающее устройство 124 доступно через сетевой интерфейс 122.

Кроме того, эти варианты осуществления обеспечивают логику для реализации процессором 102 для извлечения фактов из электронных документов 116, 126. Инструмент 120 для извлечения факта может находиться на локальном запоминающем устройстве 112 как компонент операционной системы 114, или как компонент поискового механизма 118, или как другое приложение, или как автономное приложение, которое может формировать свои собственные независимые результаты. Логические операции, выполняемые вариантами осуществления инструмента 120 для извлечения факта, обсуждаются ниже согласно фиг.2 - фиг.5.

Компьютерная система 100 по фиг.1 может включать в себя множество машиночитаемых носителей информации. Такие машиночитаемые носители информации содержат команды для работы компьютерной системы и для реализации вариантов осуществления, обсуждаемых в этом документе. Машиночитаемыми носителями информации могут быть любые доступные носители информации, к которым компьютер 100 может получить доступ и которые содержат как энергозависимые, так и энергонезависимые носители информации, съемные и несъемные носители информации. В качестве примера, машиночитаемые носители информации могут включать в себя компьютерные носители информации, средства связи и т.д.

Компьютерные носители информации включают в себя энергозависимые и энергонезависимые, съемные и несъемные носители информации, реализованные любым способом или технологией для хранения информации, например, машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители информации включают в себя, например, RAM, ROM, EEPROM, флэш-память или другую технологию памяти, CD-ROM, универсальные цифровые диски (DVD) или другой накопитель на оптических дисках, магнитофонные кассеты, магнитную ленту, накопитель на магнитных дисках или другие магнитные запоминающие устройства, или любой другой носитель информации, который можно использовать для хранения требуемой информации и к которому компьютерная система 100 может получить доступ.

Коммуникационная среда обычно воплощает машиночитаемые команды, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущее колебание или другой транспортный механизм, и включают в себя любые среды доставки информации. Термин "модулированный сигнал данных" означает сигнал, одна или более характеристик которого установлены или изменяются таким образом, чтобы кодировать в этом сигнале информацию. В качестве неограничивающего примера, коммуникационная среда включает в себя проводную среду передачи, такую как проводная сеть или прямое проводное соединение, и беспроводную среду передачи, такую как акустическая, радиочастотная, инфракрасная и другие беспроводные среды. Комбинации любых приведенных выше носителей и сред также должны включаться в объем машиночитаемых носителей информации.

На фиг.2 изображен пример логических операций, выполняемых поисковым механизмом 118 вместе с инструментом 120 для извлечения факта. В этом примере инструмент 120 для извлечения факта используется до поиска, осуществляемого для формирования библиотеки фактов, присутствующих в электронных документах, в которых будет осуществляться поиск. Следовательно, не требуется время обработки для извлечения фактов, вместо этого эти факты уже извлечены и выбраны из библиотеки фактов на основе введенных термов поиска.

Логические операции начинаются с операции 202 сбора, в ходе которой получают набор электронных документов или каким-либо другим способом осуществляют доступ. Например, электронные документы, в которых со временем будет осуществляться поиск, могут быть сохранены на локальном запоминающем устройстве или могут запрашиваться для доступа по сети. Далее с каждым из этих электронных документов работает инструмент 120 для извлечения факта, который пытается извлечь все факты, которые присутствуют в упомянутых электронных документах. Инструмент 120 для извлечения факта может формировать библиотеку фактов, которые сохраняют совместно с соответствующими электронными документами и которые доступны во время будущих поисков. Например, такая библиотека ассоциаций представлена в таблице 1.

Таблица 1
Электронный документ Факты
www.sample1.com Факт AФакт BФакт C
www.sample2.com Факт AAФакт BBФакт CC
www.sample3.com Факт AAA

Продолжая последовательность операций фиг.2, пользователь, которому требуется выполнить поиск для обнаружения соответствующих электронных документов, и, в частности, найти соответствующие факты из этих электронных документов, вводит терм поиска в поисковый механизм 118 при операции 206 с термом. В этом примере поисковый механизм 118 далее осуществляет поиск в упомянутых электронных документах на предмет термов поиска и находит соответствующие документы при операции 208 с документами. Поисковый механизм также находит ранее извлеченные факты, которые соответствуют термам поиска, из этих соответствующих электронных документов, и затем выводит на экран соответствующие документы или ссылку на них вместе с соответствующими фактами при операции 210 вывода на экран. Например, терм поиска может быть найдено в www.sample1.com, и также может быть обнаружено, что этот терм поиска соответствует Факту A и Факту B так, что на экран выводится ссылка на www.samplel.com вместе с Фактом A и Фактом B. Соответственно, пользователю быстро предоставляются факты, относящиеся к термам поиска, которые были введены. Пример такого экранного устройства отображения описан ниже со ссылкой на фиг.6.

Конечно, в качестве альтернативы поиск может осуществляться только в отношении ранее извлеченных фактов, а не в отношении самих электронных документов. Кроме того, при определенных обстоятельствах ранее извлеченные факты могут соответствовать термам поиска независимо от того, соответствуют ли электронные документы, содержащие упомянутые факты, термам поиска.

На фиг.3 изображен другой пример логических операций, выполняемых поисковым механизмом 118 вместе с инструментом 120 для извлечения факта. В этом примере инструмент 120 для извлечения факта используется во время поиска для обнаружения фактов, присутствующих в электронных документах, по мере их обнаружения при поиске. Следовательно, нет необходимости в извлечении фактов предварительного поиска и нет необходимости в хранении библиотеки фактов. При таком сценарии инструмент для извлечения факта может бегло просматривать только фрагменты или краткие описания документа для обеспечения очень быстрых результатов, или также может быть бегло просмотрен весь документ для извлечения всех потенциальных фактов.

Логические операции начинаются с операции 302 с термом поиска, где пользователь вводит терм поиска в поисковый механизм 118. В этом примере поисковый механизм 118 далее осуществляет поиск в упомянутых электронных документах на предмет термов поиска и находит соответствующие документы при операции 304 с документами. После этого инструмент 120 для извлечения используют при операции 306 извлечения для анализа электронных документов, которые были найдены при поиске, для извлечения фактов из тех документов, которые относятся к термам поиска. В результате операции 306 извлечения может формироваться временный набор ассоциаций между электронными документами и фактами, как представлено в таблице 1, который может затем быть помещен в постоянное запоминающее устройство в ожидании последующих поисков по этим термам поиска. После этого при операции 308 вывода на экран поисковый механизм выводит на экран соответствующие документы или ссылку на них вместе с соответствующими фактами, возвращенными инструментом 120 для извлечения факта при операции 306 извлечения.

На фиг.4 изображен многоэтапный подход, используемый вариантами осуществления инструмента 120 для извлечения факта. Вначале, инструмент 120 для извлечения факта пытается распознать набор фактографических описаний из представляющих интерес электронных документов при операции 402 распознавания. Цель данной работы состоит в том, чтобы найти те описания в тексте, которые, скорее всего, являются фактами, на основе обнаружения соответствий таблице слов факта, более подробно обсуждаемой ниже со ссылкой на фиг.5. С выполнением быстрой установки соответствия большая часть электронного документа, которая должна быть проигнорирована при поиске фактов, может быть удалена из дальнейшей обработки для извлечения факта, тем самым увеличивается эффективность последующего(их) этапа(ов), которые используются для увеличения точности.

После идентификации набора фактографических описаний для анализируемого документа далее при операции 404 извлечения в этом наборе фактографических описаний выполняется извлечение факта. Здесь более подробный анализ выполняется только в наборе фактографических описаний, в отличие от целого документа, для поддержки удовлетворительной эффективности при достижении адекватной точности. Анализ операции извлечения включает в себя принятие решения на основе определения лингвистических элементов фактографических описаний. Такие лингвистические элементы могут включать в себя синтаксические элементы, семантику и т.д.

На фиг.5 изображен пример подробностей операций распознавания и извлечения фиг.4. Логические операции начинаются с операции 502 сканирования, где инструмент 120 для извлечения факта сканирует электронный документ для обнаружения слов или словосочетаний, соответствующих словам или словосочетаниям из таблицы слов факта. Таблица слов факта является списком слов или словосочетаний, которые, как известно, скорее всего используются при выражении факта, в отличие, например, от мнения. В таблице 2 представлен короткий пример. Следует отметить, что для обеспечения выполнения оптимальной обработки слова из этой таблицы могут быть обеспечены признаком наиболее подходящей части речи (POS), который описан ниже согласно операции 504 с признаком.

Таблица 2
Список слов факта Признаки POS
Слово/Словосочетание 1 Признак POS
Слово/Словосочетание 2 Признак POS
Слово/Словосочетание N Признак POS

Для определения слов, при которых приходит мысль о фактах, а не о мнениях, было проведено исследование. Например, класс слов, которые представляют факты, может быть получен с использованием исследования и работы по классификации глаголов и их лексических функций. Две соответствующих работы, которые можно использовать как материал для этого, включают в себя:

(1) Mel´cuk (1996) Lexical Functions: A Tool for the Description of Lexical Relations in the Lexicon. In L. Wanner (ed.): Lexical Functions in Lexicography and Natural Language Processing, Amsterdam/Philadelphia: Benjamins, 37-102.

(2) Fontenelle, T. (1997): "Discovering Significant Lexical Functions in Dictionary Entries", in Cowie, AP. (ed.) Phraseology: Theory, Analysis, and Applications, Oxford University Press, Oxford.

Соответственно, на основе такого исследования может быть создан список слов факта, как показано в таблице 2, включающий в себя эти глаголы или другие слова, которые наводят на мысль о выражении факта, в отличие от нефактической информации. Например, термы поиска "изобретенный" или "нанятый" наводят на мысль о выражении факта, тогда как термы "может быть" или "жалуется" не наводят на подобную мысль. Конкретный пример списка слов факта может быть найден в приложении A, находящемся в конце этого описания. Этот конкретный пример не является исчерпывающим списком глаголов, которые являются словами факта и могут использоваться для обнаружения фактографических описаний в электронных документах.

После применения таблицы слов факта к электронному документу или параллельно с применением таблицы слов факта, например, где признак POS уже связан со словами в таблице слов факта, части речи (POS) каждого из слов каждого фактографического описания обеспечиваются признаком при операции 504 обеспечения признаком. Эта операция 504 обеспечения признаком, которая может выполняться параллельно с операцией 502 сканирования (беглого просмотра) или после нее, может включать в себя устранение неоднозначности выборов для слов, которые имеют несколько признаков POS, например, предпочтение признака существительного признаку глагола, так как подразумевается, что синтаксические словосочетания, подобные именным словосочетаниям, как известно, являются сущностями, связанными с фактографическим событием. По этой причине любые неизвестные и предварительно не обеспеченные признаками слова могут также по умолчанию объявляться существительными. Как и существительные, прилагательные могут быть предпочтительнее глаголов (например, "запланированный" как прилагательное по сравнению с "запланирован" как глагол), а также те слова, которые имеют признак и прилагательного и глагола, по умолчанию будут объявляться прилагательными, так как прилагательное является частью именных словосочетаний, которые, как известно, являются сущностями, связанными с фактографическим событием. При создании ассоциаций признаков POS со словами таблицы слов факта, например, при создании таблицы, эти выборы с устранением неоднозначности могут уже быть применены, так что, например, слово "запланированный" в таблице связано с признаком POS прилагательного, а не с признаком POS глагола.

После обнаружения фактографических описаний и обеспечения слов фактографических описаний признаками POS может быть выполнен более полный анализ для улучшения точности извлечения факта без требования применения этой более полной обработки ко всему документу. При операции 506 идентификации идентифицируются синтаксические словосочетания, подобные именным словосочетаниям и глагольным словосочетаниям. Синтаксические словосочетания идентифицируются с использованием общепринятых правил грамматики и несложного лингвистического анализа. Идентифицируются окружающие синтаксические словосочетания, т.е. находящиеся в самой непосредственной близости от набора фактографических описаний в документе, и если у фактографического описания нет связанных с ним синтаксических словосочетаний, то соответствующее предложение может быть удалено из дальнейшего рассмотрения. Соответственно, при сосредоточении только на тех синтаксических словосочетаниях, которые находятся в окружении фактографического описания, избегают просмотра всех лингвистических элементов целого предложения.

Кроме того, при операции 506 идентификации с оценкой роли, которую синтаксическое словосочетание играет в соответствующем предложении, на основе образца, идентифицированного в фактографическом описании, далее определяются лингвистические элементы фактографических описаний, имеющих окружающие синтаксические словосочетания. Соответственно, из образца слова фактографического описания определяется, играет ли синтаксическое словосочетание роль подлежащего или дополнения в предложении, содержащем анализируемое в данный момент фактографическое описание.

После определения лингвистических элементов фактографических описаний, т.е. когда синтаксические словосочетания и их роли идентифицированы, далее при операции 508 исключения к этим именным словосочетаниям фактографических описаний могут быть применены правила исключения для дальнейшего удаления тех, которые, скорее всего, не являются выражением факта. Правила исключения могут применяться на основании того, что синтаксическое словосочетание является дополнением, синтаксическое словосочетание является подлежащим или без учета роли синтаксического словосочетания. Кроме того, в этом конкретном варианте осуществления правило исключения, применяемое к отдельным словам, к синтаксическим словосочетаниям или к целому предложению, приводит к идентичному результату, который заключается в исключении целого предложения из фактографических описаний. Пример правил исключения, которые могут быть применены, представлен в таблице 3.

Таблица 3
Правила исключения Вывод
«Дополнение» имеет модификатор «мнение/необъективный» Исключить предложение-кандидат
Фильтры предложения:- начальное слово предложения (например, местоимения)- пунктуация: например «?» Исключить предложение-кандидат
«Подлежащее» имеет определенный артикль - если не имя собственное Исключить предложение-кандидат
Окружающий «Контекст» «Дополнения» Исключить предложение-кандидат, если окружающий контекст имеет конкретный POS, который не указывает на факт (например, некоторый класс местоимений)
В предложении встречаются стоп-слова Исключить предложение-кандидат
«Подлежащее» (или) «Объект» содержат местоимения Исключить именное словосочетание

После применения правил исключения или параллельно с применением правил исключения применяют правила оценки при операции 510 оценки. Правила оценки задают вес и именным словосочетаниям-подлежащим, и именным словосочетаниям-дополнениям для каждого из различных признаков, и общей оценкой для фактографического описания-кандидата является сумма весов отдельных признаков плюс оценка достоверности соответствующего слова факта. Веса отдельных признаков могут быть положительными при указании на факт и могут быть отрицательными при указании на нефактическую информацию. Примеры признаков и связанных правил оценки приведены ниже в таблице 4. Оценки признаков могут назначаться вручную с использованием суждения человека, или их можно узнавать автоматически.

Таблица 4
Признаки Правила оценки
Оценка достоверности соответствующего образца (слово факта, например, смысловой глагол)
Класс ролей (т.е. подлежащее или глагол), например человек, страна, организация и т.д. Оценка для каждого класса
Основное «Подлежащее» содержит имя собственное Обычный вес
Длина «Дополнения» Оценка длины
Длина «Подлежащего» Оценка длины
Длина предложения Оценка длины
«Подлежащее» появляется в начале предложения - например, вынос подлежащего«Дополнение» имеет модификатор (прилагательное, наречия) Положительная оценкаОтрицательный - Основной вес
«Дополнение» имеет определенный артикль (“the”) Отрицательный - ОсновнойИсключается, когда заканчивает предложение с глаголом-связкой

Далее, при операции 512 вопроса общая оценка для фактографического описания сравнивается с предопределенным порогом для определения, превышает ли общая оценка порог. Если порог не превышен, то соответствующее фактографическое описание может быть отвергнуто. Если порог превышен, то фактографическое описание, полное предложение и/или полный абзац или другая часть документа могут быть представлены как факт при операции 514 представления. Это представление может включать в себя вывод на экран факта, сохранение факта в библиотеке и т.д.

При использовании правил оценки и сравнении с порогом, весами, назначенными признакам, и/или значением порога можно манипулировать без манипуляции целым подходом к извлечению факта. Следовательно, степенью точности извлечения факта и представлением можно управлять, в то время как этапы обработки остаются неизменными.

На фиг.6 изображен иллюстративный снимок 600 экрана, получающийся в результате выполнения поиска. Термы поиска были введены в поисковое поле 602 для проведения поиска. Терм поиска был сопоставлен с различными ссылками 604 на web-сайты, доступные в Интернете. Пользователь может обращаться к электронным документам обычным способом.

Кроме того, факты 610, 612 и 614 о терме поиска выводятся на экран в разделе 608. Соответственно, пользователь может быстро определять факты о предмете поиска без необходимости обращения к какому-либо из электронных документов, которые были найдены, и без необходимости самому читать и отличать факт от мнения. В этом конкретном примере факты 610, 612 и 614 включают в себя гиперссылки, которые пользователь может выбирать, для предоставления подробной информации об источнике факта и/или для представления контекста, в котором факты были обнаружены (например, связанная с фактом дата, другие факты и т.д.).

Следует понимать, что снимок 600 экрана является лишь одним примером того, как факты могут быть представлены пользователю. Вместо того, чтобы представлять их в отдельном столбце, как показано, они могут быть перечислены как подэлементы электронного документа, из которого они были извлечены. Кроме того, в качестве альтернативы перечислению фактов на странице с результатами поиска или в дополнение к нему, факты, извлеченные из конкретного электронного документа, могут также быть перечислены в столбце или другом месте при просмотре пользователем самого электронного документа. Кроме того, в качестве альтернативы отделению фактов от документа для вывода на экран или в дополнение к нему, факты могут выделяться в электронных документах и в списке 604 документов в пределах результатов поиска, и в пределах всего электронного документа, когда его выбирают для вывода на экран. В качестве еще одной альтернативы, факты могут выводиться на экран независимо от результатов поиска, например, вывод на экран только фактов с выбираемой ссылкой для получения исходных документов, где осуществлен поиск только извлеченных фактов, чтобы тем самым полностью избежать поиска в документе.

Кроме того, следует понимать, что представление извлеченных фактов, например представленных на снимке 600 экрана, может быть обеспечено в виде вывода на экран локального компьютера с реализацией поиска и извлечения факта для локального пользователя. В качестве альтернативы, представление извлеченных фактов, например изображенных на снимке 600 экрана, может быть обеспечено в виде вывода на экран удаленного компьютера, который запросил локальный компьютер выполнить поиск и извлечение факта от его имени, например, в случае поискового механизма, размещенного в Интернете.

Соответственно, можно эффективно и точно извлекать факты из документов для представления пользователям. За счет многоэтапного подхода увеличена эффективность при исключении необходимости детализированного анализа всех документов, а также при исключении необходимости детализированного анализа всего предложения, где было найдено фактографическое описание. Точность поддерживается с использованием дополнительного анализа фактографических описаний, которые были обнаружены в документе на предварительном этапе обработки.

Несмотря на то что изобретение было изображено и описано, в частности, согласно различным вариантам его осуществления, специалистам в данной области техники будет понятно, что могут быть внесены различные другие изменения по форме и в деталях, не выходящие за пределы сущности и объема изобретения. Например, при проведении синтаксического анализа фактографического описания, а не позже, во время применения других правил исключения, могут быть применены определенные правила исключения, которые не имеют отношения к лингвистическим элементам фактографического описания, например правила исключения, основанные на пунктуации предложения.

Приложение A - Слова факта

abase (унижать) abate (уменьшать) abort (прерывать) abrade (стирать) abridge (сокращать) absorb (поглощать) abstract (абстрагировать) accelerate (ускорять) accent (акцентировать) accept (принимать) accredit (аккредитовать) achieve (достигать) act (действовать) add (добавлять) address (обращаться) adduce (представлять) adjust (регулировать) administer (управлять) admit (признавать) advance (продвигать) advertise (рекламировать) aerate (проветривать) afford (предоставлять) aggravate (ухудшать) agree (соглашаться) aid (помогать) aim (нацеливать) air (проветривать) allay (смягчать) alleviate (облегчать) alter (изменять) amend (исправлять) amplify (усиливать) amuse (развлекать) animate (оживлять) announce (объявлять) answer (отвечать) antedate (предшествовать) appear (появляться) appease (успокаивать) apply (применять) argue (утверждать) arouse (пробуждать) arrange (организовывать) arrest (арестовывать) arrive (прибывать) ask (спрашивать) assemble (собирать) assert (утверждать) asseverate (торжественно заявлять) assign (назначать) assuage (успокаивать) assure (уверять) attach (прилагать) attack (нападать) attenuate (уменьшать) avert (предотвращать) avoid (избегать) awake (будить) award (награждать) back (поддерживать) bail (брать на поруки) bank (наваливать) bar (преграждать) barbarize (одичать) bare (обнажать) base (базировать) batter (разбивать) beach (вытаскивать на берег) beam (излучать) bear (переносить) become (становиться) befog (затуманивать) befuddle (удивлять) beget (порождать) begin (начинать) begrime (чернить) belch (изрыгать) belie (противоречить) bend (сгибать) benumb (парализовать) bequeath (завещать) bestow (даровать) betray (предавать) better (улучшать) bind (связать) blackleg (жульничать) blanket (покрывать) bleach (отбеливать) blemish (портить) blend (смешивать) blight (разрушать) blister (вызывать пузыри) block (блокировать) blockade (блокировать) blow (дуть) blunder (натыкаться) blunt (притуплять) blur (размывать) blurt (выбалтывать) bob (слегка ударять) bog (увязать) boil (кипятить) bolster (поддерживать) boost (повышать) bowdlerize (выхолащивать) bowl (катать) brace (окружать) brand (клеймить) brave (выдерживать) break (ломать) brief (сокращать) brighten (проясняться) bring (приносить) broadcast (вещать) bruise (ушибать) buckle (скреплять пряжкой) build (строить) bull (играть на повышение) bunch (связывать) bundle (связывать) bung (закупоривать) burlesque (пародировать) burn (жечь) burst (разрывать) bury (хоронить) buy (покупать) bypass (обходить) canvass (агитировать) cap (увенчивать) capitalize (капитализировать) carry (нести) cast (бросать) castigate (наказывать) castrate (кастрировать) catch (ловить) chafe (тереть) change (изменять) channel (направлять) charge (обвинять) check (проверять) chill (охлаждать) chime (звенеть) chip (разбиваться) chock (подпирать) choke (душить) choose (выбирать) churn (взбалтывать) cipher (шифровать) circulate (циркулировать) circumvent (обходить) claim (требовать) clash (сталкиваться) clean (чистить) cleanse (чистить) clear (очищать) climb (подниматься) clinch (договариваться) clip (обрезать) clog (засоряться) close (закрывать) clot (сгущаться) cloud (омрачать) cockle (морщиться) coin (чеканить) collapse (разрушаться) collect (собирать) colour (окрашивать) comfort (успокаивать) commission (уполномочивать) commit (совершать) communicate (сообщать) compare (сравнивать) complete (заканчивать) compound (составлять) compress (сжимать) compromise (компрометировать) conceal (скрывать) concede (уступать) conceive (понимать) conciliate (примирять) conclude (заключать) conduct (проводить) confess (признаваться) confide (доверять) confirm (подтверждать) confound (путать) confuse (путать) congeal (замораживать) connect (соединять) conserve (сохранять) consolidate (объединять) constitute (составлять) constrain (ограничивать) constrict (сжимать) continue (продолжать) contort (искажать) contract (сокращать) control (управлять) convert (преобразовать) convey (передавать) cook (готовить) cool (охлаждать) cordon (загораживать) correct (исправлять) corrode (разъедать) corrupt (развращать) counter (противостоять) countersink (зенковать) cover (покрывать) crack (взламывать) crank (проворачивать) crash (разбивать) craze (сводить с ума) create (создавать) cripple (калечить) crop (подрезать) cross (пересекать) crumble (крошить) crush (давить) cry (кричать) curb (обуздывать) curdle (свертываться) curtail (сокращать) cushion (смягчать) cut (резать) damage (повреждать) damp (заглушать) dance (танцевать) dangle (свисать) darken (темнеть) darn (чинить) dash (разбивать) deaden (ослаблять) deal (иметь дело) debase (понижать качество) debauch (соблазнять) debunk (разоблачать) decay (разлагать) decide (решать) declare (объявлять) deepen (углублять) deface (стирать) defeat (побеждать) defend (защищать) deflate (выкачивать) deflect (отклонять) deform (искажать) defrost (размораживать) delay (задерживать) delegate (делегировать) deliver (поставлять) demise (передавать по наследству) demonstrate (демонстрировать) dent (вдавливать) deny (отрицать) deplete (исчерпывать) depreciate (обесценивать) depress (подавлять) deprive (лишать) depute (передавать) derange (нарушать) describe (описывать) desecrate (осквернять) design (проектировать) designate (обозначать) desolate (опустошать) despoil (грабить) destroy (разрушать) detail (детализировать) detect (обнаруживать) deteriorate (ухудшать) determine (устанавливать) develop (развивать) die (умирать) differentiate (дифференцировать) diffuse (разбрасывать) dilute (растворять) dim (тускнеть) diminish (уменьшать) direct (направлять) dirty (пачкать) disable (калечить) disappear (исчезать) discharge (разгружать) discipline (дисциплинировать) disclose (раскрывать) discolour (обесцвечивать) disconnect (разъединять) discontinue (прекращать) discover (обнаруживать) discuss (обсуждать) disfigure (уродовать) disguise (маскировать) dislocate (смещать) dislodge (смещать) dismantle (демонтировать) dismount (снимать) disorder (приводить в беспорядок) dispatch (отправлять) dispense (распределять) disperse (рассеивать) display (отображать) dispute (дискутировать) disrupt (разрушать) distil (дистиллировать) distinguish (различать) distort (искажать) disturb (нарушать) divert (отклонять) divide (делить) dock (состыковывать) doctor (лечить) dodge (избегать) double (удваивать) douse (окунать) draft (проектировать) dramatize (драматизировать) draw (тянуть) dredge (посыпать) dress (украшать) drive (ездить) drop (понижать) drown (тонуть) duff (подновлять) dull (притуплять) earth (закапывать) ease (ослаблять) eat (есть) educate (обучать) effect (осуществлять) elevate (поднимать) elicit (выявлять) elude (уклоняться) emancipate (эмансипировать) embellish (украшать) embitter (озлоблять) embody (воплощать) emit (испускать) emphasize (подчеркивать) enable (позволять) encourage (поощрять) end (заканчивать) endorse (подтверждать) endow (обеспечивать) enforce (заставлять) engage (участвовать) enhance (увеличивать) enjoin (предписывать) enlarge (увеличивать) enliven (оживлять) ennoble (облагораживать) enrich (обогащать) enrol (регистрировать) enshrine (хранить) entail (влечь за собой) entangle (запутывать) enthrone (возводить на престол) entrust (поручать) enunciate (излагать) epitomize (воплощать) equalize (уравнивать) erect (устанавливать) escalate (наращивать) establish (устанавливать) evade (уклоняться) evaporate (испаряться) evince (проявлять) evoke (вызывать) exacerbate (усиливать) exact (взыскивать) exaggerate (преувеличивать) examine (исследовать) exasperate (сердить) exceed (превышать) exci