Определение степеней уверенности, связанных со значениями атрибутов информационных объектов

Иллюстрации

Показать все

Изобретение относится к вычислительным системам извлечения информации на естественном языке. Технический результат заключается в повышении точности оценки извлекаемой информации. Способ извлечения информации из текстов на естественном языке включает: получение текста на естественном языке с помощью устройства обработки; выполнение синтактико-семантического анализа текста на естественном языке для получения множества семантических структур, интерпретацию множества семантических структур с помощью набора продукционных правил для получения множества элементов данных, каждый из которых связывает значение атрибута с информационным объектом, представляющим сущность, определение как минимум для одного элемента данных в множестве элементов данных степени уверенности путем вычисления функции уверенности, представленной посредством линейного классификатора и связанной с набором продукционных правил. 3 н. и 17 з.п. ф-лы, 17 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

[0001] Настоящее изобретение относится в целом к извлечению вычислительными системами информации из текстов на естественном языке, а точнее, к системам и способам определения степеней уверенности, связанных со значениями атрибутов извлекаемых информационных объектов.

УРОВЕНЬ ТЕХНИКИ

[0002] Интерпретация неструктурированной или слабо структурированной информации, представленной в виде текста на естественном языке, может быть затруднена из-за неоднозначности, присущей конструкциям естественного языка. Эта неоднозначность может быть вызвана, например, многозначностью слов и фраз естественного языка и (или) определенными особенностями механизмов естественного языка, которые используются для установления связей между словами и (или) группами слов в предложениях на естественном языке (таких как падежи существительных, порядок слов и т.д.).

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

[0003] В соответствии с одним или более аспектами настоящего изобретения описанный метод определения степени уверенности, связанной со значениями атрибутов информационных объектов, может содержать получение текста на естественном языке с помощью устройства обработки; выполнение синтактико-семантического анализа текста на естественном языке с получением множества семантических структур; интерпретацию множества семантических структур с использованием набора продукционных правил, позволяя получить множество элементов данных, каждый из которых связывает значение атрибута с информационным объектом, представляющим сущность, ссылающуюся на текст на естественном языке; и определение (как минимум для одного элемента данных из множества элементов данных) степени уверенности, связанной со значениями атрибутов информационных объектов, путем оценки функции уверенности, связанной с набором продукционных правил.

[0004] В соответствии с одним или более аспектами настоящего изобретения описанная в примере система для определения степеней уверенности, связанных со значениями атрибутов информационных объектов, может содержать память и процессор, работающий с этой памятью, причем этот процессор настроен так, чтобы получать текст на естественном языке с помощью устройства обработки; выполнять синтактико-семантический анализ текста на естественном языке с получением множества семантических структур; интерпретировать множество семантических структур с использованием набора продукционных правил, позволяя получить множество элементов данных, каждый из которых связывает значение атрибута с информационным объектом, представляющим сущность, ссылающуюся на текст на естественном языке; и определять (как минимум для одного элемента данных из множества элементов данных) уровень уверенности, связанный со значениями атрибутов информационных объектов, путем оценки функции уверенности, связанной с набором продукционных правил.

[0005] В соответствии с одним или более аспектами настоящего изобретения пример постоянного машиночитаемого носителя данных может содержать исполняемые инструкции, которые при выполнении вычислительной системой заставляют эту вычислительную систему получать текст на естественном языке с помощью устройства обработки; выполнять синтактико-семантический анализ текста на естественном языке с получением множества семантических структур; интерпретировать множество семантических структур с использованием набора продукционных правил, позволяя получить множество элементов данных, каждый из которых связывает значение атрибута с информационным объектом, представляющим сущность, ссылающуюся на текст на естественном языке; и определять (как минимум для одного элемента данных из множества элементов данных) уровень уверенности, связанный со значениями атрибутов информационных объектов, путем оценки функции уверенности, связанной с набором продукционных правил.

Технический результат от внедрения изобретения состоит в получении возможности для пользователя системы извлечения информации из текстов на естественном языке контролировать и верифицировать достоверность извлекаемых данных.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0006] Настоящее изобретение иллюстрируется с помощью примеров, а не способом ограничения, и может быть лучше понято при рассмотрении приведенного ниже описания предпочтительных вариантов реализации в сочетании с чертежами, на которых:

[0007] На Фиг. 1 приведена блок-схема одного иллюстративного примера способа определения степени уверенности, связанного со значениями атрибутов информационных объектов, в соответствии с одним или более аспектами настоящего изобретения;

[0008] На Фиг. 2 схематично показана разделительная гиперплоскость в гиперпространстве признаков, в соответствии с одним или более аспектами настоящего изобретения;

[0009] На Фиг. 3 схематично показан фрагмент примера обучающей выборки данных, содержащей текст на естественном языке, в соответствии с одним или более аспектами настоящего изобретения;

[00010] На Фиг. 4 показан график сигмоидной функции, используемой для определения степени уверенности для значений атрибутов информационного объекта, вычисляемой на основе расстояния между информационным объектом и разделительной гиперплоскостью, в соответствии с одним или более аспектами настоящего изобретения;

[00011] На Фиг. 5 схематично показан пример графического интерфейса пользователя (GUT), используемого для получения реакции пользователя для подтверждения или изменения значений атрибутов, в соответствии с одним или более аспектами настоящего изобретения;

[00012] На Фиг. 6 приведена блок-схема описанного в пояснительном примере способа выполнения семантико-синтаксического анализа предложения на естественном языке в соответствии с одним или более аспектами настоящего изобретения.

[00013] На Фиг. 7 схематически показан пример лексико-морфологической структуры предложения в соответствии с одним или более аспектами настоящего изобретения;

[00014] На Фиг. 8 схематически показаны языковые описания, представляющие модель естественного языка в соответствии с одним или более аспектами настоящего изобретения;

[00015] На Фиг. 9 схематически иллюстрируются примеры морфологических описаний в соответствии с одним или более аспектами настоящего изобретения;

[00016] На Фиг. 10 схематически иллюстрируются примеры синтаксических описаний в соответствии с одним или более аспектами настоящего изобретения;

[00017] На Фиг. 11 схематически иллюстрируются примеры семантических описаний в соответствии с одним или более аспектами настоящего изобретения;

[00018] На Фиг. 12 схематически иллюстрируются примеры лексических описаний в соответствии с одним или более аспектами настоящего изобретения;

[00019] На Фиг. 13 схематически иллюстрируются примеры структур данных, которые могут быть использованы в рамках одного или более способов, реализованных в соответствии с одним или более аспектами настоящего изобретения;

[00020] На Фиг. 14 схематически иллюстрируется пример графа обобщенных составляющих в соответствии с одним или более аспектами настоящего изобретения;

[00021] На Фиг. 15 показан пример синтаксической структуры, соответствующей предложению, приведенному на Фиг. 14;

[00022] На Фиг. 16 приведена семантическая структура, соответствующая синтаксической структуре, показанной на Фиг. 15;

[00023] На Фиг. 17 показана схема примера вычислительной системы, реализующей методы настоящего изобретения.

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИ

[00024] В настоящем документе описаны способы и системы для определения степени уверенности, связанные со значениями атрибутов информационных объектов.

[00025] В настоящем документе термин «вычислительная система» означает устройство обработки данных, оснащенное универсальным процессором, памятью и по меньшей мере одним интерфейсом связи. Примерами вычислительных систем, которые могут использовать описанные в этом документе методы, являются, в частности, настольные компьютеры, ноутбуки, планшетные компьютеры и смартфоны.

[00026] Извлечение информации является одной из важных операций автоматизированной обработки текстов на естественных языках. Информация, извлекаемая из документов на естественном языке, может быть представлена в виде одного или более объектов данных, содержащих описания объектов, связи объектов и (или) утверждения, связанные с объектами. В некоторых вариантах реализации изобретения объекты данных могут быть представлены в виде графов Среды описания ресурсов (Resource Definition Framework - RDF), как более подробно будет описано ниже в этом документе.

[00027] Способы извлечения информации, реализованные в соответствии с одним или более аспектами варианта осуществления настоящего изобретения, могут представлять извлекаемую информацию в соответствии с некоторыми заранее определенными или динамически создаваемыми онтологиями путем связывания информационных объектов, которые были получены в результате обработки текста на естественном языке с использованием концептов данной онтологии.

[00028] «Онтология» в настоящем документе означает модель, которая представляет объекты, относящиеся к определенной области знаний (предметной области), и отношения между данными объектами. Онтология может включать определения некоего множества классов, где класс соответствует концепту предметной области. Каждое определение класса может включать определения одного или более отнесенных к данному классу объектов. Согласно общепринятой терминологии класс может также называться концептом онтологии, а принадлежащий классу объект может означать экземпляр данного концепта.

[00029] Определение информационного объекта может представлять материальный реальный объект (например, человека или предмет) или определенные характеристики, связанные с одним или более реальными объектами (например, числовой атрибут или качество). В некоторых вариантах осуществления информационный объект может быть связан с двумя или более классами.

[00030] В соответствии с одним или более аспектами варианта осуществления настоящего изобретения вычислительная система может получать текст на естественном языке (например, представленный в виде одного или более исходных документов). Вычислительная система может выполнять синтактико-семантический анализ текста (см. Фиг. 6) на естественном языке, используя множество лингвистических описаний, перечень которых приводится в настоящем описании и которые иллюстрируются на Фиг. 8-12. При синтактико-семантическом анализе для каждого предложения могут быть созданы одна или более независимых от языка семантических структур, представляющих предложение в независимых от этого естественного языка терминах. В некоторых вариантах реализации изобретения, как минимум для некоторых предложений, могут быть получены две или более независимых от языка семантических структур; в этой ситуации для каждого предложения как наиболее вероятная может быть выбрана семантическая структура, ассоциирующаяся с наивысшим значением некоторого рейтинга.

[00031] Каждая семантическая структура может быть представлена в виде ациклического графа, в вершинах которого находятся семантические классы, соответствующие словам предложения, и множество дуг, представляющих семантические связи между вершинами, как более подробно будет описано ниже в этом документе. Семантический класс является элементом семантических описаний, где семантические классы представляют иерархию понятий реального мира, называемую ниже семантической иерархией. Вычислительная система может применять к множеству семантических структур набор продукционных правил. Каждое продукционное правило может содержать набор логических выражений, определенных для одного или более шаблонов семантических структур, и может связывать один или более атрибутов (отражающих лексические, синтаксические и (или) семантические свойства слов исходного предложения) с определенным информационным объектом, представляющим некоторую сущность, ссылка на которую имеется в данном тексте на естественном языке.

[00032] Ввиду существенной неоднозначности конструкций естественных языков, связывание атрибута с информационным объектом не всегда может быть точным; в этом случае оно может сопровождаться степенью уверенности, который может быть выражен в виде числового значения на заданной шкале (например, действительным числом в диапазоне от 0 до 1). В соответствии с одним или более аспектами варианта осуществления настоящего изобретения степень уверенности, связанная с определенным атрибутом, может быть определена путем вычисления функции уверенности, ассоциированной с продукционными правилами, которые были использованы для получения атрибута. Область определения функции может быть представлена одним или более аргументами, отражающими различные аспекты процесса извлечения информации, включая идентификаторы продукционных правил, задействованных для получения рассматриваемого атрибута или родственных атрибутов, определенных признаков семантических классов, полученных при синтактико-семантическом анализе исходного предложения, содержащего ссылку на информационный объект, который характеризуется рассматриваемым атрибутом, и (или) другие характеристики процесса извлечения информации, как будет более подробно описано ниже в этом документе.

[00033] В вариантах реализации изобретения вычислительная система, реализующая способы, описанные в настоящем документе, может выполнять синтактико-семантический анализ входного текста на естественном языке. При синтактико-семантическом анализе могут быть получены одна или более независимых от языка семантических структур, представляющих каждое предложение на естественном языке, как будет более подробно описано ниже в этом документе.

[00034] Вычислительная система может интерпретировать множество семантических структур с помощью продукционных правил, создавая набор объектов данных, представляющих предложения текста на естественном языке. В одном из иллюстративных примеров результирующие объекты данных могут быть затем представлены в виде RDF-графа.

[00035] В этом процессе вычислительная система может вычислить степень уверенности, связанную с одним или более атрибутами информационных объектов путем вычисления функции уверенности, связанной с набором продукционных правил, как будет более подробно описано ниже в этом документе. Компьютерная система может затем дополнить граф RDF, отображающий этот текст на естественном языке, соответствующими значениями степени уверенности с атрибутами объектов; в результате чего будет получен уточненный RDF-граф.

[00036] Затем компьютерная система может выполнить верифицировать полученные значения атрибутов, степень уверенности которых окажется ниже определенного порога. В некоторых вариантах реализации изобретения верификация может производиться с применением графического интерфейса пользователя (GUI), используемого для получения ввода от пользователя, подтверждающего или изменяющего значение атрибута, как будет более подробно описано ниже.

[00037] Различные аспекты упомянутых выше способов и систем подробно описаны ниже в этом документе с помощью примеров, а не способом ограничения.

[00038] На Фиг. 1 приведена блок-схема одного иллюстративного примера метода 100 для определения степени уверенности, связанной со значениями атрибутов информационных объектов, в соответствии с одним или более аспектами настоящего изобретения. Метод 100 и (или) каждая из его отдельных функций, процедур, подпрограмм или операций может быть реализована с помощью одного или более процессоров вычислительной системы (например, вычислительной системы 100 на Фиг. 1), в которой реализован этот способ. В некоторых вариантах реализации метод 100 может выполняться в одном потоке обработки. При альтернативном подходе метод 100 может быть реализован с использованием двух или более потоков обработки, при этом в каждом потоке реализована одна или более отдельных функций, процедур, подпрограмм или операций этого способа. В иллюстративном примере потоки обработки, в которых реализован метод 100, могут быть синхронизированы (например, с помощью семафоров, критических секций и (или) других механизмов синхронизации потоков). При альтернативном подходе потоки обработки, в которых реализован метод 100, могут выполняться асинхронно по отношению друг к другу. Таким образом, несмотря на то, что Фиг. 1 и соответствующее описание содержат список операций для метода 100 в определенном порядке, в различных вариантах осуществления способа как минимум некоторые из описанных операций могут выполняться параллельно и (или) в случайно выбранном порядке.

[00039] В блоке 120 вычислительная система, реализующая метод 100, может выполнять синтактико-семантический анализ входящего текста 110 на естественном языке, используя лингвистические описания, представленные на Фиг. 8-12 При синтактико-семантическом анализе для каждого предложения на естественном языке могут быть получены одно или более синтактико-семантическом деревьев, а затем -независимых от языка семантических структур, как будет более подробно описано ниже в этом документе со ссылками на Фиг. 6-16.

[00040] В блоке 140 вычислительная система может интерпретировать множество семантических структур с помощью набора продукционных правил, создавая набор объектов данных, представляющих предложения текста на естественном языке. В иллюстративных примерах объекты данных представлены в виде RDF-графа (150).

[00041] RDF каждому информационному объекту присваивается уникальный идентификатор и информация о таком объекте хранится в виде триплетов вида SPO, где S обозначает «субъект» и содержит идентификатор объекта, Р обозначает «предикат» и определяет некоторое свойство этого объекта, а O обозначает «объект» и сохраняет значение этого свойства данного объекта. Это значение может быть как примитивным типом данных (строкой, числом, булевым значением), так и идентификатором другого объекта.

[00042] Множества продукционных правил, используемых для интерпретации множества семантических структур, могут включать правила интерпретации и правила идентификации. Правило интерпретации может содержать левую часть, представленную набором логических выражений, определенных в одном или более шаблонах семантических структур, и правую часть, представленную одним или более утверждениями, относящимися к информационным объектам, представляющим сущности, ссылающиеся на текст на естественном языке.

[00043] Шаблон семантической структуры может содержать определенные элементы семантической структуры {например, проверку принадлежности к определенным лексическим/семантическим классам, наличие определенной граммемы или семантемы, нахождение в определенной поверхностной или глубинной позиции и т.д.). Отношения между элементами семантических структур могут задаваться с помощью одного или более логических выражений (конъюнкция, дизъюнкция и отрицание) и (или) операций, характеризующих взаимное расположение узлов в синтактико-семантическом дереве. Например, такая операция может проверять, принадлежит ли узел к поддереву другого узла.

[00044] Соответствие шаблона семантической структуре, представляющей предложение из текста на естественном языке или его часть, может инициировать правую сторону продукционного правила для одного или более узлов поддерева, которые соответствуют шаблону, определенному левой стороной продукционного правила. Правая сторона продукционного правила может связывать один или более атрибутов (относящихся к лексическим, синтаксическим и (или) семантическим свойствам слов исходного предложения) с информационными объектами, представленными вершинами.

[00045] Правило идентификации может использоваться для отождествления двух информационных объектов в случае, когда информационные объекты соответствуют одному и тому же объекту реального мира. Правило идентификации представляет собой продукционное правило, левая часть которого содержит одно или более логических выражений, относящихся к узлам семантического дерева, соответствующим информационным объектам. Если пара информационных объектов соответствует условию, определенному логическим выражением, информационные объекты объединяются в один информационный объект.

[00046] На Фиг. 1 в блоке 160 вычислительная система может определять степени уверенности, связанные с одним или более атрибутами информационных объектов. Степени уверенности могут быть выражены числовыми значениями на заданной шкале (например, в виде действительных чисел в диапазоне от 0 до 1). В соответствии с одним или более аспектами варианта осуществления настоящего изобретения степень уверенности, связанная с некоторым атрибутом, может быть определена посредством вычисления функции уверенности, связанной с набором продукционных правил. Область определения функции может быть представлена одним или более аргументами, отражающими различные аспекты процесса извлечения информации, указанного в блоке 140.

[00047] В некоторых вариантах реализации изобретения компьютерная система может сопроводить объекты данных, соответствующие тексту на естественном языке (например, RDF-граф 150), соответствующими значениями степени уверенности с атрибутами объектов, в результате чего будет получен усовершенствованный RDF-граф 165.

[00048] В одном из иллюстративных примеров степень уверенности, связанная с определенным атрибутом, может зависеть от надежности отдельных продукционных правил, которые используются для получения этого атрибута. В одном из иллюстративных примеров конкретное правило может использовать шаблон высокого уровня абстракции, что может привести к ложно-положительной идентификации совпадения семантических поддеревьев. Например, правило может объявлять все сущности, связанные с дочерними семантическими классами семантического класса «Человек», прямо связанными с семантическим классом-предком, что может привести к ложно-положительному связыванию названия футбольной команды с классом «Человек». Поэтому степень уверенности, связанная с данным атрибутом, может быть снижена, если для получения атрибута было использовано определенное продукционное правило. В соответствии с одним или более аспектами настоящего изобретения такие продукционные правила и их вклад в степень уверенности атрибута могут быть определены путем использования методов машинного обучения, как будет более подробно описано ниже.

[00049] В другом иллюстративном примере на степень уверенности, связанную с данным атрибутом, может оказывать влияние многозначность определенных лексем, обнаруженных в тексте. Например, «serve» - лексема, относящаяся к нескольким семантическим классам, и правильное снятие семантической неоднозначности для нее возможно не всегда. Неправильное отнесение лексемы к семантическому классу может привести к ложно-положительной идентификации совпадения семантических поддеревьев. Таким образом, степень уверенности, связанная с данным атрибутом, может быть уменьшена, если в тексте на естественном языке будут обнаружены определенные семантические классы, граммемы, семантемы и (или) глубинные или поверхностные позиции. В соответствии с одним или более аспектами настоящего изобретения такие семантические классы и их вклад в степень уверенности атрибута могут быть определены путем использования методов машинного обучения, как будет более подробно описано ниже.

[00050] В другом иллюстративном примере одно и то же продукционное правило может применяться к объектам определенных семантических классов, их предкам или потомкам (так же как, например, при разрешении анафорических конструктов). Обычно применение продукционного правила к предку или потомку определенного семантического класса, а не к объекту, прямо ассоциируемому с этим семантическим классом, дает менее надежные результаты. В соответствии с одним или более аспектами настоящего изобретения такие семантические классы и их вклад в уровень уверенности атрибута могут быть определены путем использования методов машинного обучения, как будет более подробно описано ниже.

[00051] В другом иллюстративном примере на степень уверенности, связанную с данным атрибутом, могут влиять значения рейтинга одной или более семантических структур, полученных в результате синтактико-семантического анализа текста на естественном языке. В соответствии с одним или более аспектами настоящего изобретения влияние низких значений рейтинга на уровень уверенности атрибута может быть определено путем использования методов машинного обучения, как будет более подробно описано ниже в этом документе.

[00052] В другом иллюстративном примере текст на естественном языке может содержать множество ссылок на один и тот же информационный объект, и эти ссылки могут использовать различные лексемы (например, ссылаясь на человека по его полному имени, имени и (или) должности внутри организации). К этим языковым конструкциям можно применить одно или более правил идентификации, чтобы объединить указанные информационные объекты. Степень уверенности, связанная с определенным атрибутом, может зависеть от надежности отдельных правил идентификации, которые используются для получения этого атрибута. Например, правила идентификации, которые связывают несколько атрибутов объединяемых объектов, могут давать более надежные результаты по сравнению с правилами идентификации, которые относятся к меньшему количеству атрибутов.

[00053] В другом иллюстративном примере степень уверенности, связанная с атрибутом определенного объекта, может увеличиться, если указать, что группа объектов, включающая рассматриваемый объект и один или более связанных с ним объектов, совместно использует некоторые атрибуты. Например, если слово «Apple» связано с одним или более объектами, относящимися к информационным технологиям, уровень уверенности классификации этого слова как названия компании может быть увеличен.

[00054] Как было указано выше, степень уверенности, относящаяся ся к некоторому атрибуту, может быть определена путем вычисления функции уверенности, связанной с набором продукционных правил. В отдельных вариантах реализации изобретения функция уверенности может быть представлена посредством линейного классификатора, обученным на размеченной выборке и вычисляющего величину "расстояния" от информационного объекта до разделительной гиперплоскости в гиперпространстве признаков, связанных с набором продукционных правил, как схематически показано на Фиг. 2. В различных иллюстративных примерах признаки могут отражать не только указанные выше, но и другие аспекты процесса извлечения информации, указанного в блоке 140.

[00055] Фиг. 2 схематически иллюстрирует пример линейного классификатора, создающего разделительную гиперплоскость, представленную плоскостью 220 в гиперпространстве, которое представлено на рисунке двумерным пространством 207, задаваемом значениями F1 и F2, которые соответствуют признакам, связанным с набором продукционных правил. Таким образом, каждый объект может быть представлен точкой в двухмерном гиперпространстве 207, такой, что координаты точки соответствуют значениям F1 и F2 соответственно. Например, объект, имеющий значения признаков F1=f1 и F2=f2, может быть представлен точкой 201 с координатами (f1, f2).

[00056] Линейный классификатор может быть представлен функцией wT*x=b, где x - вектор, представляющий значения признаков объекта, w - вектор параметра, который вместе со значением b определяет границу решений. Таким образом, объект может ассоциироваться с определенным классом, если wT*x=b, а может не ассоциироваться с этим классом в противном случае. В иллюстративном примере на Фиг. 2 объекты 231 и 233 принадлежат к конкретному классу C, а объекты 211 и 213 не принадлежат к этому классу.

[00057] Значения параметров линейного классификатора (например, значения w и b) могут быть определены с помощью методов машинного обучения. В некоторых вариантах реализации изобретения набор данных для обучения, используемый в методах машинного обучения, может содержать один или более текстов на естественном языке, в которых для некоторых объектов указаны соответствующие значения атрибутов (например, в тексте указан концепт или класс онтологии для отдельных слов). На Фиг. 3 схематично показан фрагмент набора данных для обучения, содержащий текст на естественном языке, в котором подчеркнуты все ссылки на объекты класса Person. Таким образом, набор данных для обучения на Фиг. 3 можно использовать для определения степени уверенности соотнесения объектов текста с классом Person.

[00058] Вычислительная система может итеративно идентифицировать значения параметров линейного классификатора, которые оптимизируют выбранную целевую функцию (например, позволяют выбрать максимальное значение функции соответствия, равное числу текстов на естественном языке, которые можно правильно классифицировать, используя указанные значения параметров линейного классификатора).

[00059] В соответствии с одним или более аспектами настоящего изобретения расстояние между некоторым объектом и разделительной гиперплоскостью 220 в гиперпространстве 207, как показано на Фиг. 2, может определять степень уверенности, связанный с атрибутом объекта, который был идентифицирован в ходе процесса извлечения информации, описанного в блоке 140. В некоторых вариантах реализации изобретения степень уверенности может быть представлен значением сигмоидной функции от расстояния между объектом и разделительной гиперплоскостью, как схематически показано на Фиг. 4.

[00060] На Фиг. 1 видно, что в блоке 170 вычислительная система может верифицировать значения атрибутов, степень уверенности которых ниже определенного порога. В соответствии с одним или более аспектами реализации настоящего изобретения верификация может производиться с помощью графического интерфейса пользователя (GUI), используемого для получения ввода пользователя, подтверждающего или модифицирующего значение атрибута, как схематично показано на Фиг. 5. В иллюстративном примере на Фиг. 5 GUI используется для вывода фрагмента текста на естественном языке с выделением слов, относящихся к информационным объектам, которые в ходе процесса извлечения информации, проводимого в блоке 140, были связаны с определенным классом (например, Person). Слова, степень уверенности которых ниже определенной границы, в данном примере выделяются и заключаются в ограничивающий прямоугольник. GUI может использоваться для выделения пользователем отдельного слова (например, исходя из текущего положения курсора) и последующего получения ввода пользователя, подтверждающего или отменяющего связь слова с семантическим классом.

[00061] В некоторых реализациях изобретения необходимый порог степени уверенности может выбираться пользователем с помощью ползунка GUI. Кроме того, граница степени уверенности может автоматически устанавливаться вычислительной системой и может, например, увеличиваться в один или более раз после получения указания пользователя о завершении процесса верификации при достигнутой степени уверенности. Поскольку основное количество ошибок предварительно обнаруживается при невысокой степени уверенности, по мере повышения степени уверенности количество ошибок будет уменьшаться, и пользователь может закончить процесс верификации, когда соотношение количества ошибок и количества правильно определенных атрибутов будет достаточным, чтобы удовлетворить пользователя.

[00062] В некоторых вариантах реализации вычислительная система может определять долю обнаруживаемых ошибок (то есть отношение числа неправильно определенных атрибутов к общему количеству атрибутов, степень уверенности которых ниже установленного порога). Это отношение можно использовать для определения объема работ по верификации для данного текста при заданном предельном уровне степени уверенности и (или) объема работ по верификации для данного текста для исправления как минимум указанной доли неправильно определенных атрибутов.

[00063] В ответ на получение сообщений пользователя о завершении процесса верификации вычислительная система может создать верифицированный RDF-граф 180, соответствующий тексту 110 на естественном языке.

[00064] В некоторых вариантах реализации тексты на естественном языке с верифицированными пользователем атрибутами могут добавляться к обучающей выборке. В результате после каждой новой итерации точность классификатора будет повышаться, увеличивая таким образом долю правильно определенных атрибутов со степенью уверенности ниже указанной границы в общем количестве объектов текста на естественном языке.

[00065] В некоторых вариантах реализации онтология, включающая итоговый RDF-граф 180, может использоваться для выполнения различных задач обработки естественного языка, таких как машинный перевод, семантический поиск, классификация документов и т.д.

[00066] На Фиг. 6 приведена блок-схема одного иллюстративного примера реализации способа 200 для выполнения семантико-синтаксического анализа предложения на естественном языке 212 в соответствии с одним или несколькими аспектами настоящего изобретения. Способ 200 может быть применен к одной или более синтаксическим единицам (например, предложениям), включенным в определенный текстовый корпус, для формирования множества семантико-синтаксических деревьев, соответствующих синтаксическим единицам. В различных иллюстративных примерах подлежащие обработке способом 200 предложения на естественном языке могут извлекаться из одного или нескольких электронных документов, которые могут создаваться путем сканирования (или другим способом получения изображений бумажных документов) и оптического распознавания символов (OCR) для получения текстов, соответствующих этим документам. Предложения на естественном языке также могут извлекаться из других различных источников, включая сообщения, отправляемые по электронной почте, тексты из социальных сетей, файлы с цифровым содержимым, обработанные с использованием способов распознавания речи и т.д.

[00067] В блоке 214 вычислительное устройство, реализующее данный способ, может проводить лексико-морфологический анализ предложения 212 для установления морфологических значений слов, входящих в состав предложения. В настоящем документе "морфологическое значение" слова означает одну или несколько лемм (т.е. канонических или словарных форм), соответствующих слову, и соответствующий набор значений грамматических признаков, которые определяют грамматическое значение слова. В число таких грамматических признаков могут входить лексическая категория (часть речи) слова и один или более морфологических и грамматических признаков (например, падеж, род, число, спряжение и т.д.). Ввиду омонимии и (или) совпадающих грамматических форм, соответствующих разным лексико-морфологическим значениям определенного слова, для данного слова может быть установлено два или более морфологических значений. Более подробное описание иллюстративного примера проведения лексико-морфологического анализа предложения приведено ниже в настоящем документе со ссылкой на Фиг. 7.

[00068] В блоке 215 вычислительное устройство может проводить грубый синтаксический анализ предложения 212. Грубый синтаксический анализ может включать применение одной или нескольких синтаксических моделей, которые могут быть соотнесены с элементами предложения 212, с последующим установлением поверхностных (т.е. синтаксических) связей в рамках предложения 212 для получения графа обобщенных составляющих. В настоящем документе "составляющая" означает группу соседних слов исходного предложения, функционирующую как одна грамматическая сущность. Составляющая включает в себя ядро в виде одного или более слов и может также включать одну или несколько дочерних составляющих на более низких уровнях. Дочерняя составляющая является зависимой составляющей, которая может быть соотнесена с одной или несколькими родительскими составляющими.

[00069] В блоке 216 вычислительное устройство может проводить точный синтаксический анализ предложения