Извлечение сущностей из текстов на естественном языке

Иллюстрации

Показать все

Изобретение относится к системам и способам обработки естественного языка. Технический результат заключается в повышении степени близости семантических структур с определенным концептом онтологии. Способ поиска и извлечения сущностей в текстах на естественном языке включает получение вычислительным устройством посредством пользовательского интерфейса идентификаторов первого множества групп слов в тексте на естественном языке, ассоциацию объекта, выполнение семантико-синтаксического анализа текста на естественном языке для получения первого множества семантических структур, определение в тексте на естественном языке второго множества групп слов, в ответ на получение подтверждения того, что группа слов из второго множества групп слов представляет объект, ассоциированный с тем же концептом онтологии, изменение параметра модели классификации, используемой для классификации семантических структур, отражающего степень ассоциации данного объекта с соответствующим концептом онтологии. 3 н.п. и 15 з.п. ф-лы, 18 ил.

Реферат

ОБЛАСТЬ ИЗОБРЕТЕНИЯ

[0001] Настоящее изобретение в целом относится к вычислительным системам, а точнее к системам и способам обработки естественного языка.

УРОВЕНЬ ТЕХНИКИ

[0002] Интерпретация неструктурированной информации, представленной текстом на естественном языке, может быть затруднена многозначностью, которая является неотъемлемой особенностью естественных языков. Задаче интерпретации текстов на естественном языке может способствовать поиск семантически подобных языковых конструкций, их сравнение и определение степени подобия.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

[0003] В соответствии с одним или несколькими аспектами настоящего изобретения, описанный в примере способ может включать: получение вычислительным устройством идентификаторов первого множества групп слов в тексте на естественном языке, причем каждая группа слов содержит одно или более слов естественного языка; ассоциацию объекта, представленного каждой группой слов, с некоторым концептом онтологии; определение в тексте на естественном языке второго множества групп слов, в которых каждая группа слов из второго множества групп слов ассоциирована с тем же концептом онтологии; в ответ на получение подтверждения того, что группа слов из второго множества групп слов представляет объект, ассоциированный с тем же концептом онтологии, изменение параметра модели классификации, которая дает значение, отражающего степень ассоциации заданного объекта с соответствующим концептом онтологии.

[0004] В соответствии с одним или несколькими аспектами настоящего изобретения, описанная в примере система может включать: память и процессор, соединенный с запоминающим устройством, в котором процессор выполнен с возможностью выполнения следующих действий: получение вычислительным устройством идентификаторов первого множества групп слов в тексте на естественном языке, причем каждая группа слов содержит одно или более слов естественного языка; ассоциацию объекта, представленного каждой группой слов, с некоторым концептом онтологии; определение в тексте на естественном языке второго множества групп слов, в которых каждая группа слов из второго множества групп слов ассоциирована с тем же концептом онтологии; в ответ на получение подтверждения того, что группа слов из второго множества групп слов представляет объект, ассоциированный с тем же концептом онтологии, изменение параметра модели классификации, которая дает значение, отражающего степень ассоциации заданного объекта с соответствующим концептом онтологии.

[0005] В соответствии с одним или несколькими аспектами настоящего изобретения, описанный в примере машиночитаемый постоянный носитель данных может содержать исполняемые команды, которые при выполнении на вычислительном устройстве приводят к следующим действиям вычислительного устройства: получение вычислительным устройством идентификаторов первого множества групп слов в тексте на естественном языке, причем каждая группа слов содержит одно или более слов естественного языка; ассоциацию объекта, представленного каждой группой слов, с некоторым концептом онтологии; определение в тексте на естественном языке второго множества групп слов, в которых каждая группа слов из второго множества групп слов ассоциирована с тем же концептом онтологии; в ответ на получение подтверждения того, что группа слов из второго множества групп слов представляет объект, ассоциированный с тем же концептом онтологии, изменение параметра модели классификации, которая дает значение, отражающего степень ассоциации заданного объекта с соответствующим концептом онтологии.

[0006] Технический результат от внедрения изобретения состоит в получении возможности конечному пользователю создавать онтологии в автоматическом режиме, используя простые средства пользовательского интерфейса и методы машинного обучения.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0007] Настоящее изобретение иллюстрируется с помощью примеров, а не путем ограничения, его проще понять со ссылкой на приведенное ниже подробное описание при рассмотрении в связи с чертежами, на которых:

[0008] На Фиг. 1 приведена блок-схема одного иллюстративного примера способа для поиска и извлечения сущностей на основе анализа текстов на естественном языке в соответствии с одним или несколькими аспектами настоящего изобретения;

[0009] На Фиг. 2А-2С дан пример экрана графического интерфейса пользователя (GUI) для отображения текстов на естественном языке, в котором объекты, связанные с различными концептами онтологии, визуально выделены в соответствии с одним или несколькими аспектами настоящего изобретения;

[00010] На Фиг. 3А приведен пример размеченного текста, в котором сущности, соответствующие различным концептам онтологии, выделены разными цветами.

[00011] На Фиг. 3В приведен фрагмент графа, схематично изображающего информацию (сущности и связи между ними), извлеченную из текста, представленного на Фиг. 2А-2С в соответствии с одним или несколькими аспектами настоящего изобретения;

[00012] На Фиг. 4 показана блок-схема одного иллюстративного примера способа 400 семантико-синтаксического анализа предложения на естественном языке в соответствии с одним или несколькими аспектами настоящего изобретения;

[00013] На Фиг. 5 схематически показан пример лексико-морфологической структуры предложения в соответствии с одним или несколькими аспектами настоящего изобретения;

[00014] На Фиг. 6 схематически показаны языковые описания, представляющие модель естественного языка в соответствии с одним или несколькими аспектами настоящего изобретения;

[00015] На Фиг. 7 схематически показаны примеры морфологических описаний в соответствии с одним или несколькими аспектами настоящего изобретения;

[00016] На Фиг. 8 схематически показаны примеры синтаксических описаний в соответствии с одним или несколькими аспектами настоящего изобретения;

[00017] На Фиг. 9 схематически показаны примеры семантических описаний в соответствии с одним или несколькими аспектами настоящего изобретения;

[00018] На Фиг. 10 схематически показаны примеры лексических описаний в соответствии с одним или несколькими аспектами настоящего изобретения;

[00019] На Фиг. 11 схематически показаны примеры структур данных, которые могут использоваться одним или несколькими способами, реализованными в соответствии с одним или несколькими аспектами настоящего изобретения;

[00020] На Фиг. 12 схематически показан пример графа обобщенных составляющих в соответствии с одним или несколькими аспектами настоящего изобретения;

[00021] На Фиг. 13 показан пример синтаксической структуры, соответствующей предложению, приведенному на Фиг. 12;

[00022] На Фиг. 14 приведена семантическая структура, соответствующая синтаксической структуре, показанной на Фиг. 13;

[00023] На Фиг. 15 показана схема описанного в примере вычислительного устройства, в котором реализуются способы, описанные в этом документе.

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИ

[00024] В настоящем документе описываются способы и системы извлечения сущностей для пополнения онтологий на основе анализа текстов на естественном языке. Способ основан на предположении, что различные сущности, принадлежащие одному и тому же классу, концепту онтологии, в некоторых семантических контекстах могут вести себя одинаково или схожим образом, и для выявления таких сущностей в текстах на естественном языке достаточно "обучить" вычислительное устройство обнаруживать аналогичные семантические контексты и выдвигать гипотезы.

[00025] «Онтология» в настоящем документе означает модель, которая представляет объекты, относящиеся к определенной области знаний (предметной области), и отношения между данными объектами. Онтология может включать определения некого множества классов, где каждый класс соответствует концепту предметной области. Каждое определение класса может включать определения одного или более отнесенных к данному классу объектов. Согласно общепринятой терминологии класс онтологии может также называться «концепт», а принадлежащий классу объект может означать экземпляр данного концепта.

[00026] Определение каждого класса может далее включать одно или несколько определений отношений одного или более отнесенных к данному классу объектов. Отношения определяют различные типы взаимодействия между связанными объектами. В некоторых реализациях изобретения различные отношения могут быть организованы во всеобщей таксономии, например, отношения «отцовства» и «материнства» могут быть включены в более общее отношение «быть родителем», которое, в свою очередь, может быть включено в более общее отношение «быть кровным родственником».

[00027] Каждое определение класса может дополнительно содержать одно или несколько ограничений, определяющих некоторые свойства объектов класса. В некоторых реализациях изобретения класс может быть предком или потомком другого класса.

[00028] Определение объекта может представлять собой материальный реальный объект (например, человека или предмет) или определенное понятие, связанное с одним или несколькими реальными объектами (например, число или слово). В иллюстративном примере класс «Person» (Персона) может быть связан с одним или более объектами, соответствующими определенным личностям.

[00029] В некоторых реализациях объект может быть ассоциирован с двумя или более классами. Онтология может являться предком или (и) потомком другой онтологии, в этом случае концепты и свойства онтологии-предка также относятся к онтологии-потомку.

[00030] В некоторых реализациях изобретения онтология может быть представлена графами Resource Definition Framework (Среды определения ресурса) или сокращенно RDF. RDF присваивает уникальный идентификатор каждому информационному объекту и сохраняет информацию о таком объекте в виде троек SPO, где S обозначает «субъект» и содержит идентификатор объекта, Р обозначает «предикат» и определяет некоторое свойство этого объекта, а О обозначает «объект» и хранит значение этого свойства данного объекта. Это значение может быть либо примитивным типом данных (строка, число, логическое значение) или идентификатором другого объекта. Граф RDF можно рассматривать как набор непротиворечивых утверждений об информационных объектах и их свойствах, следовательно, его можно использовать для представления отношения между концептом онтологии и связанными экземплярами. В различных альтернативных вариантах реализации изобретения онтологии могут быть представлены с помощью других средств с использованием подходящих структуры данных, таких как графики, связанные списки, массивы и т.д.

[00031] Настоящее изобретение обеспечивает систему и способы для выявления вычислительным устройством нескольких семантических структур, представляющих аналогичные или идентичные объекты, факты, особенности, или явления, а также для связывания выявленных сущностей с соответствующими классами и концептами онтологии.

[00032] В соответствии с одним или более аспектами настоящего изобретения, вычислительное устройство, в котором реализован этот способ, может получить текст на естественном языке (например, документ или совокупность документов), ассоциированный с определенным текстовым корпусом). Это вычислительное устройство может дополнительно получить идентификаторы групп из одного или более слов в тексте на естественном языке, при этом группы слов, представляют экземпляры объектов, связанные с определенным концептом онтологии. Концепт онтологии может представлять личность, организацию, событие и т.д. В некоторых реализациях изобретения идентификаторы групп слов можно получить с помощью графического интерфейса пользователя (GUI), который позволяет пользователю визуально выделить группы слов отображаемого текста. При альтернативном подходе идентификаторы групп слов можно получить в виде метаданных, сопровождающих текст на естественном языке. В иллюстративном примере идентификаторы групп слов могут присутствовать в определенной части текста на естественном языке (например, в некотором подмножестве страниц).

[00033] Затем вычислительное устройство может произвести семантико-синтаксический анализ текста на естественном языке. При синтактико-семантическом анализе может быть получено множество семантических структур, каждая из которых представляет предложение на естественном языке. Каждая семантическая структура может быть представлена ациклическим графом, который включает множество вершин, соответствующих семантическим классам, и множество дуг, соответствующих семантическим отношениям между составляющими предложения, что описано более подробно ниже со ссылкой на Фиг. 4. Из полученных при семантико-синтаксическом анализе нескольких семантических структур вычислительное устройство может определить одну или несколько схожих семантических структур, которые, по меньшей мере, с точки зрения определенной метрики сходства, соответствуют одной из семантических структур, которые представляют предложения, включающие выделенные слова.

[00034] В некоторых реализациях идентификацию схожих семантических структур можно произвести с использованием модели классификации, которая может, в свою очередь, включать набор правил классификации. Правило классификации может включать набор логических выражений, определенных на одном или нескольких шаблонах семантических структур. Эти логические выражения могут отражать один или несколько факторов подобия семантических структур, так что набор правил классификации может определять, действительно ли две заданные семантические структуры похожи при выбранной метрике подобия.

[00035] Вычислительное устройство может многократно применить модель классификации к множеству семантических структур, полученных при семантико-синтаксическом анализе текста на естественном языке для того, чтобы построить граф, представляющий множество сущностей, принадлежащих различным концептам и связи между ними.

[00036] В некоторых вариантах реализации при оценке степени ассоциации заданной семантической структуры с заданным концептом онтологии вычислительное устройство может использовать методы машинного обучения, которые используют уже существующий или динамически созданный набор обучающих данных. В иллюстративном примере такой набор обучающих данных можно создать, с помощью графического интерфейса пользователя, когда пользователь подтверждает, что группа слов, ассоциированная с соответствующей семантической структурой, выявленная с помощью модели классификации, как представляющая объект, связанный с определенным концептом онтологии, действительно представляет такой объект, который связан с выявленным концептом онтологии.

[00037] В иллюстративном примере устройство обработки может использовать подтверждающие данные, настроенные на создание или изменение одного или более правил классификации, которые дают значение, отражающее степень ассоциации объекта, представленного выделенной группой слов и принадлежащей данной семантической структуре, с определенным концептом онтологии. Вычислительное устройство может применить модель классификации для нескольких концептов, а затем связать семантическую структуру с концептом, соответствующим оптимальному (например, минимальному или максимальному) значению близости.

[00038] Онтологию, полученную системами и способами, работающими в соответствии с одним или несколькими аспектами настоящего изобретения, можно использовать для выполнения различных операций обработки естественного языка, таких как машинный перевод, семантический поиск, классификация и кластеризация объектов и т.д.

[00039] Различные аспекты упомянутых выше способов и систем подробно описаны ниже в этом документе с помощью примеров, а не способом ограничения.

[00040] В настоящем документе термин «вычислительное устройство» означает устройство обработки данных, имеющее универсальный процессор, память и по меньшей мере один коммуникационный интерфейс. Примерами вычислительных устройств, которые могут использовать описанные в этом документе способы, являются, помимо прочего, настольные компьютеры, портативные компьютеры, планшетные компьютеры и смартфоны.

[00041] На Фиг. 1 приведена блок-схема одного иллюстративного примера способа (100) извлечения сущностей на основе анализа текстов на естественном языке в соответствии с одним или несколькими аспектами настоящего изобретения. Способ 100 и (или) каждая из его отдельных функций, процедур, подпрограмм или операций может быть реализован с помощью одного или нескольких процессоров вычислительного устройства (например, вычислительного устройства 1000 на Фиг. 15), в котором реализован этот способ. В некоторых реализациях способ 100 может быть реализован в одном потоке обработки. При альтернативном подходе способ 100 может быть реализован с использованием двух или более потоков обработки, при этом в каждом потоке реализована одна или несколько отдельных функций, процедур, подпрограмм или операций этого способа. В иллюстративном примере потоки обработки, в которых реализован способ 100, могут быть синхронизированы (например, с помощью семафоров, критических секций и/или других механизмов синхронизации потоков). При альтернативном подходе потоки обработки, в которых реализован способ 100, могут выполняться асинхронно по отношению друг к другу.

[00042] В блоке 110 вычислительное устройство может получить текст на естественном языке (например, документ или совокупность документов), связанный с некоторым текстовым корпусом. В иллюстративном примере вычислительное устройство может получить текст на естественном языке в виде электронного документа, который может быть получен путем сканирования или за счет применения иного способа получения изображения с бумажного документа с последующим выполнением оптического распознавания символов (OCR), чтобы получить текст документа, связанный с этими документами. В иллюстративном примере вычислительное устройство может получить текст на естественном языке в виде одного или более форматированных файлов, например, файлов для системы электронной обработки текста, сообщений электронной почты, файлов цифровых данных и т.д.

[00043] В блоке 115 вычислительное устройство может получить идентификаторы в тексте на естественном языке в виде одной или более групп слов. Каждая группа слов может включать одно или более слов. Группа слов может ссылаться на экземпляр объекта, связанный с определенным концептом онтологии. Такой концепт может представлять персону, организацию или событие, например, Steve Jobs (Стив Джобе), United Nations (Организация Объединенных Наций) или the Olympics (Олимпийские игры). В некоторых реализациях изобретения идентификаторы групп слов можно получить через графический интерфейс пользователя (GUI). Такой графический интерфейс пользователя может включать различные элементы управления для выбора идентификатора в концепте онтологии и для выделения в тексте на естественном языке (что отображается в экране графического интерфейса пользователя) одного или нескольких слов, представляющих примеры объектов, связанные с выбранным концептом онтологии. При альтернативном подходе идентификаторы из одной или более групп слов, которые ссылаются на объект, представляющий определенный концепт онтологии, можно получить в виде метаданных, сопровождающих текст на естественном языке. В некоторых реализациях изобретения такие метаданные могут быть созданы другим приложением обработки естественного языка. В иллюстративном примере идентификаторы используемых в примере объектов могут располагаться лишь в некоторой части текста (например, на некотором подмножестве страниц). При альтернативном подходе идентификаторы объектов, например, могут быть регулярным или случайным образом распределены по всему тексту.

[00044] В блоке 120 вычислительное устройство может ассоциировать с концептом онтологии объект, представленный каждой выявленной группой слов. В иллюстративном примере концепт онтологии может быть выявлен с помощью интерфейса пользователя, предлагающего пользователю выбрать концепт онтологии, соответствующий выделенной группе слов. При альтернативном подходе концепт онтологии может быть выявлен по метаданным, сопровождающим текст на естественном языке.

[00045] В блоке 125 вычислительное устройство может выполнить семантико-синтаксический анализ текста на естественном языке. При синтаксическом и семантическом анализе может быть получено множество семантических структур, каждая из которых представляет предложение на естественном языке. Каждая семантическая структура может быть представлена ациклическим графом, который включает множество вершин, соответствующих семантическим классам, и множество дуг, соответствующих семантическим отношениям, что описано более подробно ниже со ссылкой на Фиг. 4. Для упрощения любое подмножество семантической структуры в этом документе мы будем называть «структурой» (а не «подструктурой»), если только не рассматривается отношение типа родитель-потомок между двумя семантическими структурами.

[00046] В блоке 130 вычислительное устройство может выявить среди нескольких полученных в результате семантико-синтаксического анализа семантических структур семантические структуры, представляющие предложения, которые содержат одну или несколько групп слов, определенных метаданными, на которые имеются ссылки в блоке 115.

[00047] В блоке 135 вычислительное устройство может выявить из нескольких семантических структур, полученных операциями, описанными со ссылкой на блок 125, одну или более семантических структур, которые являются схожими с точки зрения определенной метрики сходства, по меньшей мере, с одной семантической структурой, представляющей предложения, которые содержат одну или несколько групп слов, определенных полученными метаданными.

[00048] В зависимости от требований к точности и (или) сложности вычислений эта метрика схожести может учитывать различные факторы, в том числе: структурное подобие семантических структур; наличие идентичных глубинных позиций или позиций, соотнесенных с тем же семантическим классом; наличие идентичных лексических или семантических классов в узлах семантических структур; наличие отношений родитель-потомок в определенных узлах семантических структур, так чтобы родитель и потомок были разделены определенным числом уровней семантической структуры; наличие общего предка по определенным семантическим классам и расстояния между узлами, представляющими данные классы. Если обнаруживается, что определенные семантические классы являются эквивалентными или в основном схожими, то эта метрика может далее принять во внимание наличие или отсутствие определенных дифференцирующих семантем и (или) другие факторы.

[00049] В некоторых реализациях изобретения выявление подобных семантических структур может выполняться с использованием модели классификации, которая, в свою очередь, может включать набор правил классификации. Правило классификации может включать набор логических выражений, определенных на одном или нескольких шаблонах семантических структур. Логические выражения могут отражать один или более упомянутых выше факторов сходства, так что набор правил классификации может определить, действительно ли две заданные семантические структуры являются сходными в выбранной метрике сходства. В различных иллюстративных примерах правило классификации может констатировать структурное сходство семантических структур; другое правило классификации может констатировать наличие тех же глубинных позиций или позиций, связанных с тем же семантическим классом; другое правило классификации может констатировать наличие тех же лексических или семантических классов, связанных с узлами семантических структур; другое правило классификации может констатировать наличие отношений предок-потомок в некоторых узлах семантических структур, таких, что предок и потомок разделены определенным числом уровней семантической структуры; другое правило классификации может констатировать наличие общего предка для определенных семантических классов и расстояния между узлами, представляющими эти классы; другое правило классификации может констатировать наличие определенных отличительных семантем и (или) других факторов.

[00050] Вычислительное устройство может применить модель классификации к множеству семантических структур, полученных в результате семантико-синтаксического анализа текста на естественном языке для получения аннотированного RDF-графа, представляющего множество сущностей и отношения между ними.

[00051] В некоторых реализациях изобретения при оценке степени ассоциации данной семантической структуры с некоторым концептом онтологии вычислительное устройство может использовать машинные методы классификации, которые используют уже существующий или динамически созданный набор данных доказательств, которые коррелируют параметры семантической структуры и концепты онтологии. Такие методы могут включать методы дифференциальной эволюции, генетические алгоритмы, наивный классификатор Байеса, метод Random forest (случайный лес) и т.д.

[00052] Вычислительное устройство может создавать и (или) обновлять набор данных на основе обратной связи, полученной по отношению к семантическим структурам, которые были определены в блоке 130, как аналогичные, с учетом выбранной метрики сходства, по крайней мере, одной из множества семантических структур, представляющих предложения, которые содержат одну или несколько групп слов, выявленных полученными метаданными.

[00053] В иллюстративном примере такой набор обучающих данных может быть создан или обновлен через запрос пользователю через графический интерфейс пользователя подтвердить, что выявленная в блоке 130 семантическая структура, как схожая, по меньшей мере, с одной из множества семантических структур, представляющих предложения, которые содержат одну или несколько групп слов, определенных полученными метаданными, фактически похожа на одну или более из этих семантических структур. В другом иллюстративном примере такой набор обучающих данных можно дополнительно изменить через графический интерфейс пользователя, когда пользователь подтверждает, что данная семантическая структура, выявленная с помощью применения модели классификации, как представляющая объект, связанный с определенным концептом онтологии, на самом деле представляет такой объект, который связан с данным концептом онтологии.

[00054] В блоке 140 вычислительное устройство может выявлять группы слов, представляющие семантические структуры, определенные в блоке 135, как схожие с учетом выбранной метрики схожести, по меньшей мере одной из множества семантических структур, представляющих предложения, которые содержат одну или несколько групп слов, выявленных полученными метаданными.

[00055] В блоке 145 вычислительное устройство может отображать, через GUI выявленные группы слов. Для каждой отображаемой группы слов вычислительное устройство может предложить пользователю подтвердить группу слов, которая на самом деле представляют объект, ассоциированный с первоначально выбранным концептом онтологии.

[00056] В ответ на получение в блоке 150 такого подтверждения для конкретной семантической структуры, вычислительное устройство может в блоке 155 обновить данные, полученные подтверждением, и может дополнительно использовать обновленный набор параметров правил классификации в модели классификации, которые дают значение, отражающее степень ассоциации данной семантической структуры с определенным концептом онтологии. В иллюстративном примере вычислительное устройство может изменить один или более параметров модели классификации с учетом откликов, полученных в блоке 155. После изменения параметров модели классификации процесс 100 может быть повторен на том же или другом наборе текстов до тех пор, пока результат автоматического выделения сущностей не станет удовлетворительным.

[00057] Затем вычислительное устройство может использовать обновленный набор параметров модели классификации для обработки других текстов на естественном языке. В иллюстративном примере вычислительное устройство может получить такой текст на естественном языке в блоке 160.

[00058] В блоке 165 вычислительное устройство может произвести семантико-синтаксический анализ полученного текста на естественном языке. При синтаксическом и семантическом анализе могут быть получены множество семантических структур, представляющих каждое предложение на естественном языке, что описано более подробно ниже со ссылкой на Фиг. 5.

[00059] В блоке 170 вычислительное устройство может применить модель классификации к множеству семантических структур, полученных при семантико-синтаксическом анализе, с тем чтобы определить семантические структуры, которые представляют объекты, ассоциированные с изначально определенным концептом онтологии. В иллюстративном примере вычислительное устройство может применить одно или несколько правил классификации для нескольких концептов, а затем ассоциировать семантическую структуру с концептом, соответствующем оптимальному (например, минимальному или максимальному) значению близости, полученному правилами классификации.

[00060] Операции способа 100, описанного выше со ссылками на блоки 115-170 можно применить для других концептов онтологии либо использовать отличающиеся способы для выделения объектов различных концептов. Например, пользователь может использовать разные цвета для подсвечивания групп слов, ассоциированных с объектами разных концептов.

[00061] В блоке 175 полученную в результате онтологию можно использовать для выполнения различных операций обработки естественного языка, таких как машинный перевод, семантический поиск, классификация и кластеризация объектов и т.д.

[00062] В некоторых реализациях изобретения способ 100 можно применить к набору структурированных документов определенного типа. Такие документы могут иметь похожую структуру, и в различных иллюстративных примерах они могут быть представлены контрактами, сертификатами, приложениями и т.д. Например, в одних и тех же полях могут содержаться ФИО (персоны), в других - названия учреждений или компаний, в третьих - даты и т.п. Таким образом, семантико-синтаксическому анализу текста на естественном языке, описанному выше со ссылкой на блок 120 на Фиг. 1, может предшествовать одна или несколько операций предварительной обработки документов, которые выполняются для определения структуры этого документа. В одном иллюстративном примере структура документа может включать иерархическую многоуровневую структуру, в которой разделы документа разделяются заголовками и подзаголовками. В другом иллюстративном примере структура документа может включать одну или несколько таблиц, содержащих несколько строк и столбцов, по меньшей мере некоторые из которых могут быть связаны с заголовками, которые в свою очередь могут быть организованы в многоуровневую иерархию. В другом иллюстративном примере структура документа может включать определенные текстовые поля, связанные с заранее определенными типами информации, такими как поле подписи, поле даты, поле адреса, поле ими т.д. Вычислительное устройство 100, в котором реализован этот способ, может интерпретировать структуру документа для получения определенной информации о структуре документа, которая может использоваться для расширения текстовой информации, содержащейся в этом документе. В некоторых реализациях изобретения при анализе структурированных документов вычислительное устройство может использовать различные вспомогательные онтологии, содержащие классы и концепты, отражающие специфическую структуру документа. Классы вспомогательной онтологии могут быть ассоциированы с определенными правилами обработки, которые могут быть применены к множеству семантических структур, полученных при синтактико-семантическом анализе соответствующего документа.

[00063] Как уже отмечалось выше в настоящем изобретении, вычислительное устройство, в котором реализован способ 100, может предоставлять один или более дисплеев GUI, которые включают различные элементы управления для выбора идентификатора концепта онтологии и для выделения в тексте на естественном языке, который отображается на экране графического интерфейса пользователя, одного или нескольких слов или групп слов, представляющих экземпляры объектов, связанных с выбранным концептом онтологии. На Фиг. 2А-2С представлены примеры экрана графического интерфейса пользователя (GUI), отображающего текст на естественном языке, в котором визуально выделены объекты, связанные с определенными концептами онтологии.

[00064] На Фиг. 2А показан пример графического интерфейса пользователя, содержащий текст на естественном языке, в котором выделены объекты, ассоциированные с концептом «Person» (Персона). Графический интерфейс пользователя, реализованный с помощью устройства обработки, может включать текстовое окно 210, в котором пользователь может выделять слова и словосочетания, представляющие примеры объектов, ассоциированные с выбранным концептом онтологии (Person). Данный пример экрана дополнительно содержит таблицу 220, представляющую, небольшой фрагмент онтологии, полученный в результате разметки, ассоциированной с выбранным концептом онтологии. Онтология может хранить значения атрибутов для каждого объекта класса Person, включая атрибуты firstname (Имя), middlename (Отчество) и surname (фамилия), что схематично показано на фиг. 2А.

[00065] На Фиг. 2В показан пример графического интерфейса пользователя, содержащий текст на естественном языке, в котором выделены объекты, ассоциированные с концептом Inhabited Locality (Населенный пункт). Графический интерфейс пользователя, реализованный с помощью устройства обработки, может включать текстовое окно 230, в котором пользователь может выделять слова и словосочетания, представляющие примеры объектов, ассоциированные с выбранным концептом онтологии Inhabited Locality (Населенный пункт). В данном иллюстративном примере графический интерфейс пользователя может дополнительно содержать таблицу 240, представляющую, фрагмент онтологии, полученный в результате разметки, ассоциированной с выбранным концептом онтологии. Как схематично показано на Фиг. 2В, онтология может хранить одно или несколько значений атрибута для каждого объекта класса Inhabited Locality (Населенный пункт).

[00066] На Фиг. 2С пример графического интерфейса пользователя, содержащий текст на естественном языке, в котором выделены объекты, ассоциированные с концептом Occupation (Профессия). Графический интерфейс пользователя, может включать текстовое окно 250, в котором пользователь может выделять слова и словосочетания, представляющие примеры объектов, ассоциированные с выбранным концептом онтологии Occupation (Профессия). Графический интерфейс может дополнительно содержать таблицу 260, представляющую, полученный фрагмент онтологии, полученный в результате разметки, связанной с выбранным концептом онтологии. Эта онтология, схематично показанная на Фиг. 2С, отражает отношения employer-employee (работодатель-работник), а также определяет атрибут position (положение), связанный с объектом класса employee (работник).

[00067] В вычислительном устройстве, в котором реализован способ 100, может быть реализован интерфейс для визуального представляющий онтологии, полученной в результате анализа текстов на естественном языке в соответствии с одним или несколькими аспектами настоящего изобретения, что схематически показано на Фиг. 3А-3В. На Фиг. 3А показан пример экрана GUI, включающий текстовое окно 310, в котором подсвечены слова и (или) словосочетания, которые представляют собой различные объекты, которые идентифицированы вычислительным устройством как ассоциированные с определенными концептами онтологии. Экран графического интерфейса пользователя может дополнительно содержать таблицу 320, представляющую по меньшей мере фрагмент онтологии, связанной с выбранными концептами онтологии. На Фиг. 3В приведен экран GUI, отображающий по меньшей мере часть графа 350, который включает неск