2665261 - Восстановление текстовых аннотаций, связанных с информационными объектами

Восстановление текстовых аннотаций, связанных с информационными объектами

Иллюстрации

Показать все

Изобретение относится к способам восстановления текстовых аннотаций в системах извлечения информации из текстов на естественном языке и постоянному машиночитаемому носителю данных. Технический результат заключается в восстановлении текстовых аннотаций, связанных с информационными объектами и атрибутами информационных объектов. Способ включает в себя получение текста на естественном языке, извлечение из текста на естественном языке одного или более информационного объекта, где каждый информационный объект связан с одним или более атрибутами, при этом указанное извлечение включает определение значения степени уверенности, ассоциированного с атрибутом каждого информационного объекта, верификацию значений атрибутов множества информационных объектов, идентификацию во множестве информационных объектов такого информационного объекта, для которого по меньшей мере один атрибут определенного информационного объекта не был связан с по меньшей мере одной текстовой аннотацией, и восстановление текстовой аннотации, связанной с атрибутом определенного информационного объекта, где текстовая аннотация представлена фрагментом текста на естественном языке, соответствующим значению атрибута. 3 н. и 13 з.п. ф-лы, 25 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

[0001] Настоящее изобретение в целом относится к вычислительным системам, а точнее - к системам и способам обработки естественного языка.

УРОВЕНЬ ТЕХНИКИ

[0002] Интерпретация неструктурированной или слабо структурированной информации, представленной в виде текста на естественном языке, может быть затруднена из-за неоднозначности, присущей конструкциям естественного языка. Эта неоднозначность может быть вызвана, например, многозначностью слов и фраз естественного языка и (или) некоторыми особенностями механизмов естественного языка, которые используются для установления связей между словами и (или) группами слов в предложениях на естественном языке (таких как падежи существительных, порядок слов и т.д.).

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

[0003] В соответствии с одним или более вариантами реализации настоящего изобретения пример способа восстановления текстовой аннотации, связанной с информационным объектом, может включать: получение текста на естественном языке, извлечение из текста на естественном языке множества информационных объектов, где каждый информационный объект связан с одним или более атрибутами; верификацию значений атрибутов множества информационных объектов, определение информационного объекта в множестве информационных объектов, такого, чтобы как минимум один атрибут определенного информационного объекта не был связан как минимум с одной текстовой аннотацией; и восстановление текстовой аннотации, связанной с атрибутом определенного информационного объекта, где текстовая аннотация представлена фрагментом текста на естественном языке, соответствующим значению атрибута.

[0004] В соответствии с одним или более вариантами реализации настоящего изобретения пример способа восстановления текстовой аннотации, связанной с информационным объектом, может включать: получение текста на естественном языке, связанного с множеством информационных объектов, где каждый информационный объект связан с одним или более атрибутами; определение информационного объекта из множества информационных объектов, такого, чтобы как минимум один атрибут определенного информационного объекта не был связан как минимум с одной текстовой аннотацией;определение одной или более текстовых аннотаций-кандидатов, связанных с этим атрибутом, таких, чтобы каждая текстовая аннотация-кандидат была представлена фрагментом текста на естественном языке, соответствующим значению атрибута; определение рейтинговых оценок определенных текстовых аннотаций-кандидатов и выбор одной или более текстовых аннотаций-кандидатов с оптимальной рейтинговой оценкой.

[0005] В соответствии с одним или более вариантами реализации настоящего изобретения пример постоянного машиночитаемого носителя данных может включать исполняемые команды, которые при выполнении их вычислительной системой приводят к следующим действиям вычислительной системы: получение текста на естественном языке; извлечение из текста на естественном языке множества информационных объектов, где каждый информационный объект связан с одним или более атрибутами; верификацию значений атрибутов множества информационных объектов; определение информационного объекта в множестве информационных объектов, такого, чтобы как минимум один атрибут определенного информационного объекта не был связан как минимум с одной текстовой аннотацией; и восстановление текстовой аннотации, связанной с атрибутом определенного информационного объекта, где текстовая аннотация представлена фрагментом текста на естественном языке, соответствующим значению атрибута. Технический результат от внедрения изобретения состоит в увеличении эффективности системы извлечения информации, заключающееся в повышении точности связывания извлеченных информационных объектов с исходным текстом.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0006] Настоящее изобретение иллюстрируется с помощью примеров, а не способом ограничения, и может быть лучше понято при рассмотрении приведенного ниже описания предпочтительных вариантов реализации в сочетании с чертежами, на которых:

[0007] На Фиг. 1 изображена блок-схема одного иллюстративного примера способа настройки параметров функции классификатора, используемой для оценки атрибутов, связанных с информационными объектами, в соответствии с одним или более вариантами реализации настоящего изобретения;

[0008] На Фиг. 2 схематически показан пример линейного классификатора, создающего разделительную гиперплоскость в гиперпространстве, которая определяется значениями F1 и F2, соответствующими признакам, используемым для извлечения атрибутов в соответствии с одним или более вариантами реализации настоящего изобретения;

[0009] На Фиг. 3А-3В схематически показаны примеры документов 300А и 300В на естественном языке с извлеченными признаками, связанными с некоторыми информационными объектами, в соответствии с одним или более вариантами реализации настоящего изобретения;

[00010] На Фиг. 4 изображена блок-схема одного иллюстративного примера способа восстановления текстовой аннотации, связанной с информационными объектами, в соответствии с одним или более вариантами реализации настоящего изобретения;

[00011] На Фиг. 5 схематически показана семантическая структура, полученная в результате анализа примера предложения в соответствии с одним или более вариантами реализации настоящего изобретения;

[00012] На Фиг. 6 схематически показаны информационные объекты и факты, извлеченные из примера предложения, приведенного на Фиг. 5, с помощью систем и способов, работающих в соответствии с одним или более вариантами реализации настоящего изобретения;

[00013] На Фиг. 7А-7С схематически показаны фрагменты семантической структуры, соответствующей этому примеру предложения;

[00014] На Фиг. 8А-8С схематически показаны продукционные правила, применяемые на подмножестве семантической структуры, представляющей пример предложения для извлечения информационных объектов и фактов в соответствии с одним или более вариантами реализации настоящего изобретения;

[00015] На Фиг. 9 приведена блок-схема одного иллюстративного примера способа 400 для выполнения семантико-синтаксического анализа предложения на естественном языке в соответствии с одним или более вариантами реализации настоящего изобретения;

[00016] На Фиг. 10 схематически показан пример лексико-морфологической структуры предложения в соответствии с одним или более вариантами реализации настоящего изобретения;

[00017] На Фиг. 11 схематически показаны языковые описания, представляющие модель естественного языка, в соответствии с одним или более вариантами реализации настоящего изобретения;

[00018] На Фиг. 12 схематически показаны примеры морфологических описаний в соответствии с одним или более вариантами реализации настоящего изобретения;

[00019] На Фиг. 13 схематически показаны примеры синтаксических описаний в соответствии с одним или более вариантами реализации настоящего изобретения;

[00020] На Фиг. 14 схематически показаны примеры семантических описаний в соответствии с одним или более вариантами реализации настоящего изобретения;

[00021] На Фиг. 15 схематически показаны примеры лексических описаний в соответствии с одним или более вариантами реализации настоящего изобретения;

[00022] На Фиг. 16 схематически показаны примеры структур данных, которые могут быть использованы в рамках одного или более способов, реализованных в соответствии с одним или более вариантами реализации настоящего изобретения;

[00023] На Фиг. 17 схематически показан пример графа обобщенных составляющих в соответствии с одним или более вариантами реализации настоящего изобретения;

[00024] На Фиг. 18 показан пример синтаксической структуры, соответствующей предложению, приведенному на Фиг. 17;

[00025] На Фиг. 19 показана семантическая структура, соответствующая синтаксической структуре, приведенной на Фиг. 18;

[00026] На Фиг. 20 показана схема примера вычислительной системы, реализующей методы настоящего изобретения.

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИ

[00027] В настоящем документе описываются способы и системы восстановления текстовых аннотаций, связанных с информационными объектами. Описанные в настоящем документе системы и способы могут быть использованы для обучения моделей классификаторов, которые используются для выполнения различных задач по извлечению информации (включая распознавание именованных сущностей, извлечение фактов и т.д.) в контексте различных приложений для обработки естественных языков, таких как машинный перевод, построение семантического индекса, семантический поиск (включая многоязычный семантический поиск), классификация документов, электронные исследования и др.

[00028] В настоящем документе термин «вычислительная система» означает устройство обработки данных, оснащенное универсальным процессором, памятью и по меньшей мере одним интерфейсом связи. Примерами вычислительных систем, которые могут использовать описанные в этом документе способы, являются, в частности, настольные компьютеры, ноутбуки, планшетные компьютеры и смартфоны.

[00029] Извлечение информации может включать анализ текста на естественном языке для распознавания информационных объектов (например, именованных сущностей), их атрибутов и их связей. Распознавание именованных сущностей (NER) представляет собой задачу по извлечению информации, в ходе выполнения которой производится определение токенов в тексте на естественном языке и классификация их по заранее определенным категориям, таким как имена людей, названия организаций, географические названия, представление времени, количества, денежные суммы, проценты и т.д. Эти категории могут быть представлены концептами заранее определенной или динамически выстраиваемой онтологии.

[00030] «Онтология» в настоящем документе означает модель, которая представляет объекты, относящиеся к определенной области знаний (предметной области), и отношения между данными объектами. Информационный объект может представлять собой материальный объект реального мира (например, человек или вещь) либо некое понятие, соотнесенное с одним или более объектами реального мира (например, число или слово). Онтология может включать определения некого множества классов, где каждый класс соответствует отдельному понятию, относящемуся к определенной области знаний. Каждое определение класса может включать определения одного или более отнесенных к данному классу объектов. Согласно общепринятой терминологии класс онтологии может также называться «концепт», а принадлежащий классу объект может означать экземпляр данного концепта. Объект может характеризоваться одним или более атрибутами. Атрибут может определять свойство информационного объекта или связь между данным информационным объектом и другим информационным объектом. Таким образом, определение класса онтологии может содержать одно или более определений атрибутов, описывающих типы атрибутов, которые могут быть связаны с объектами данного класса (например, тип связи между объектом данного класса и другими информационными объектами). В качестве иллюстративного примера класс «Person» (человек) может быть связан с одним или более информационными объектами, соответствующими определенным лицам. В другом иллюстративном примере информационный объект «John Smith» (Джон Смит) может иметь атрибут «Smith» (Смит) типа «surname» (фамилия).

[00031] Некоторые атрибуты могут быть необязательными, а другие атрибуты - необходимыми для всех информационных объектов данного класса. Информационный объект может иметь один или более атрибутов данного типа. Определенные атрибуты могут принимать только значения, выбранные из набора из одного или более предварительно определенных значений для всех информационных объектов данного класса.

[00032] После распознавания именованных сущностей может быть выполнено извлечение информации для установления кореференций и анафорических связей между токенами естественного текста. «Кореференция» в настоящем документе означает конструкцию естественного языка, содержащую два или более токенов естественного языка, которые относятся к одной сущности (например, одному и тому же лицу, вещи, месту или организации). Например, в предложении «После того как Джон получил диплом MIT, ему предложили работу в Microsoft» собственное имя «Джон» и местоимение «ему» относится к одному человеку. Из двух токенов кореференций тот токен, на который дается ссылка, может обобщенно именоваться антецедентом, а тот, который ссылается на него, - проформой или анафорой. Различные способы установления кореференций могут включать выполнение синтаксического и (или) семантического анализа как минимум части текста на естественном языке.

[00033] После извлечения информационных объектов и установления кореференций может производиться извлечение информации с целью определения отношений между извлеченными информационными объектами. Одно или более отношений между информационным объектом и другими информационными объектами могут задаваться одним или более свойствами информационного объекта, которые отражают один или более атрибутов. Отношение может быть установлено между двумя информационными объектами, между данным информационным объектом и группой информационных объектов или между одной группой информационных объектов и другой группой информационных объектов. Подобные отношения могут быть выражены фрагментами на естественном языке (текстовыми аннотациями), которые могут содержать множество слов из одного или более предложений.

[00034] Например, информационный объект класса «Person» (человек) может иметь, среди прочих, следующие атрибуты: имя, дата рождения, адрес проживания и информация о предшествующей трудовой деятельности. Каждый атрибут может быть представлен одной или более текстовыми строками, одним или более числовыми значениями и (или) одним или более значениями определенного типа данных (например, дата). Атрибут может быть представлен сложным атрибутом, ссылающимся на два или более информационных объектов. В иллюстративном примере атрибут «address» (адрес) может ссылаться на информационные объекты, соответствующие нумерованному дому, улице, городу и штату. В иллюстративном примере атрибут «employment history» (информация о предшествующей трудовой деятельности) может ссылаться на один или более информационных объектов, соответствующих одному или более работодателям и соответствующим должностям и времени работы.

[00035] Определенные отношения между информационными объектами могут также обобщенно называться «фактами». Примерами таких отношений могут быть работа персоны X в организации Y, расположение физического объекта X в географическом положении Y, приобретение организации X организацией Y и т.д.; факт может быть связан с одной или более категориями фактов, таких, что категория фактов указывает на тип связи между информационными объектами определенного класса. Например, факт, связанный с персоной, может относиться к рождению, его образованию, занятости, трудовой деятельности и т.д. В другом примере факт, ассоциативно связанный с коммерческой сделкой, может иметь отношение к типу сделки и к сторонам этой сделки, к обязательствам сторон, дате подписания договора, дате совершения сделки, расчетам по договору и т.д. Извлечение фактов предполагает идентификацию различных отношений между извлеченными информационными объектами.

[00036] На информационный объект может ссылаться один или более фрагментов текста на естественном языке, обобщенно называемых «токенами естественного языка», так что каждый токен естественного языка может содержать одно или более слов естественного языка из одного или более предложений. Фрагменты текста, или токены, ссылающиеся на информационный объект, в этом документе обобщенно называются «аннотациями объекта». Фрагменты текста, или токены, ссылающиеся на атрибут информационного объекта, в этом документе обобщенно называются «аннотациями атрибута». Аннотация может быть определена ее положением в тексте, включая позицию начала и позицию конца.

[00037] Аннотированные тексты на естественном языке (например, один или более текстов на естественном языке с аннотациями, определяющими типы информационных объектов) могут использоваться для определения значений параметров моделей машинного обучения (например, функций классификатора, отражающих степень ассоциации исходной семантико-синтаксической структуры с определенным классом информационных объектов, типом отношений или категорией фактов). Обученные модели машинного обучения могут использоваться для выполнения различных операций обработки естественного языка, таких как распознавание именованных сущностей, извлечение информационных объектов, извлечение фактов, машинный перевод, семантический поиск и др.

[00038] Однако некоторые аннотированные тексты на естественном языке могут сопровождаться только спецификациями типов и отношений различных информационных объектов, представленных в текстах, при этом нет возможности определить хотя бы некоторые из координат текстовых аннотаций фрагментов на естественном языке, соответствующих извлеченным информационным объектам. В иллюстративном примере по меньшей мере некоторые текстовые аннотации, связанные с текстом на естественном языке, могут быть утрачены в процессе верификации пользователем извлеченной информации, который может включать подтверждение или корректировку класса онтологии, связанного с информационным объектом, типом отношений, типом или значением атрибута. Коррекция пользователем любой части извлеченной информации может привести к несостоятельности или утрате текстовых аннотаций, которые ранее были связаны с неправильно определенным классом онтологии, типом отношений, типом или значением атрибута.

[00039] Системы и способы по настоящему изобретению позволяют восстанавливать текстовые аннотации, связанные с информационными объектами и (или) атрибутами информационных объектов. В иллюстративном примере вычислительная система, в которой реализованы способы восстановления текстовых аннотаций, может получать текст на естественном языке и соответствующий набор информационных объектов с соответствующими значениями атрибутов. Вычислительная система может перебирать атрибуты с отсутствующими аннотациями и для каждого атрибута определять одну или более аннотаций-кандидатов, таких, что каждая аннотация-кандидат может быть представлена фрагментом текста на естественном языке. В некоторых вариантах осуществления аннотация-кандидат может определяться путем выполнения нечеткого поиска значения атрибута в тексте на естественном языке. Вычислительная система может затем вычислять один или более критериев ранжирования определенных аннотаций-кандидатов и выбирать одну или более аннотаций-кандидатов, имеющих оптимальное (например, максимальное или минимальное) значение рейтинговой оценки. Для каждой выбранной аннотации значение атрибута может быть связано с позицией начала и позицией конца соответствующего фрагмента текста на естественном языке, как более подробно описано ниже в этом документе.

[00040] Различные аспекты упомянутых выше способов и систем подробно описаны ниже в этом документе с помощью примеров, не с целью ограничения.

[00041] На Фиг. 1 изображена блок-схема одного иллюстративного примера способа регулировки параметров функции классификатора, используемой для оценки атрибутов, связанных с информационными объектами, в соответствии с одним или более вариантами реализации настоящего изобретения. Способ 100 и (или) каждая из его отдельных функций, стандартных программ, подпрограмм или операций могут выполняться одним или более процессорами вычислительной системы (например, вычислительная система 1000 на Фиг. 20), реализующими этот способ. В некоторых вариантах реализации способ 100 может осуществляться в одном потоке обработки. При альтернативном подходе способ 100 может осуществляться с использованием двух или более потоков обработки, при этом в каждом потоке реализована одна или более отдельных функций, процедур, подпрограмм или действий этого способа. В одном из иллюстративных примеров потоки обработки, в которых реализован способ 100, могут быть синхронизированы {например, с использованием семафоров, критических секций и (или) других механизмов синхронизации потоков). При альтернативном подходе потоки обработки, в которых реализован способ 100, могут выполняться асинхронно по отношению друг к другу.

[00042] На шаге 110 блок-схемы вычислительное устройство, в котором реализован этот способ, может получить текст на естественном языке 101 (например, документ или совокупность документов). В иллюстративном примере вычислительное устройство может получить текст на естественном языке в виде электронного документа, который может быть получен путем сканирования или за счет применения иного способа изображения с бумажного документа с последующим выполнением оптического распознавания символов (OCR) для получения текста документа. В другом иллюстративном примере вычислительная система может получить текст на естественном языке в виде одного или более форматированных файлов, например, файлов системы электронной обработки текста, сообщений электронной почты, файлов цифровых данных и т.д.

[00043] На шаге 120 блок-схемы вычислительная система может выполнить одну или более операций извлечения информации из текста на естественном языке. Операции извлечения информации могут включать определение информационных объектов, представленных текстом на естественном языке, и отнесение их к одному или более определенным классам, определение связей одного или более типов между определенными информационными объектами, извлечение фактов одной или более категорий из определенных информационных объектов и (или) определение атрибутов, относящихся к определенным информационным объектам.

[00044] В некоторых вариантах осуществления операции извлечения информации могут выполняться путем анализа множества семантико-синтаксических структур, соответствующих тексту на естественном языке, которые можно получить путем семантико-синтаксического анализа текста на естественном языке. Семантико-синтаксический анализ может получать множество семантических структур, в котором каждая из семантических структур представляет соответствующее предложение на естественном языке, как более подробно описано выше в этом документе со ссылкой на Фиг. 5-15. Семантическая структура может быть представлена ациклическим графом, который включает множество узлов, соответствующих семантическим классам, и множество дуг, соответствующих семантическим отношениям, как более подробно описано ниже со ссылкой на Фиг. 9. Для упрощения любое подмножество семантической структуры в этом документе мы будем называть «структурой» (а не «подструктурой»), если только не рассматривается отношение типа родитель-потомок между двумя семантическими структурами.

[00045] В некоторых вариантах реализации вычислительная система реализует способ, который позволяет интерпретировать множество семантических структур, используя набор продукционных правил для извлечения множества объектов, представляющих идентифицированные информационные объекты. Извлеченные объекты могут быть представлены в виде RDF-графа (Resource Description Framework) 130. RDF (Resource Description Framework - среда описания ресурса) присваивает каждому информационному объекту уникальный идентификатор и сохраняет информацию о таком объекте в виде наборов из трех элементов (триплетов) SPO, где S означает «субъект» и содержит идентификатор объекта, Р означает «предикат» и определяет некоторое свойство этого объекта, а О означает «объект» и хранит в себе значение рассматриваемого свойства данного объекта. Это значение может быть либо примитивным типом данных (примеры: строка, число, булево (логическое) значение), либо идентификатором другого объекта. В одном из иллюстративных примеров триплет SPO может связывать информационный объект со значением атрибута.

[00046] Продукционные правила, используемые для интерпретации семантических структур, могут включать правила интерпретации и правила идентификации. Правило интерпретации может содержать левую часть, представленную набором логических выражений, определенных на одном или более шаблонах семантической структуры, и правую часть, представленную одним или более утверждениями относительно информационных объектов, представляющих сущности, на которые имеется ссылка в тексте на естественном языке.

[00047] Шаблон семантической структуры может содержать некоторые элементы семантической структуры (например, принадлежность к определенному лексическому или семантическому классу, связь с некоторой поверхностной или глубинной позицией, наличие определенной граммемы или семантемы и т.д.). Отношения между элементами семантических структур могут задаваться с помощью одного или более логических выражений (конъюнкция, дизъюнкция и отрицание) и (или) операций, характеризующих взаимное расположение узлов в семантико-синтаксическом дереве. В одном из иллюстративных примеров такая операция может проверять один из узлов на принадлежность к поддереву другого узла.

[00048] Идентификация соответствия шаблона семантической структуры, определенного левой частью продукционного правила, семантической структуре, представляющей по крайней мере часть предложения текста на естественном языке, может запускать правую часть продукционного правила. Правая часть продукционного правила может устанавливать ассоциативную связь между одним или более атрибутами (отражающими лексические, синтаксические и (или) семантические свойства слов из первоначального предложения) и информационными объектами, представленными узлами, и (или) определять значения одного или более атрибутов. В одном из иллюстративных примеров такая правая часть продукционного правила может содержать выражение, связывающее информационный объект с определенным значением атрибута.

[00049] Правило идентификации может использоваться для установления ассоциативной связи для пары информационных объектов, которые представляют одну и ту же сущность реального мира. Правило идентификации - это продукционное правило, левая часть которого содержит одно или более логических выражений, указывающих на узлы семантического дерева, соответствующие информационным объектам. Если указанная пара информационных объектов удовлетворяет условиям, заданным логическими выражениями, то происходит слияние информационных объектов в один информационный объект.

[00050] В некоторых вариантах реализации вычислительная система может дополнительно выполнять одну или более функций классификатора. Функция классификатора может генерировать значение, отражающее степень ассоциации исходной семантико-синтаксической структуры с определенным классом информационных объектов, типом отношений или значением атрибута. В одном из иллюстративных примеров функция классификатора может быть реализована на основе метода адаптивного улучшения (AdaBoost) с классификатором деревьев решений. Алгоритм дерева решений использует дерево решений в качестве прогнозирующей модели для установления соответствия наблюдаемых параметров элемента (например, лексических или грамматических признаков подмножества семантико-синтаксической структуры) с выводами об искомом значении элемента (например, значения атрибута, связанного с семантико-синтаксической структурой). Этот способ может использоваться с деревом классификации, в котором каждый внутренний узел помечен входящим признаком (например, лексическими или грамматическими признаками подмножества семантико-синтаксической структуры). Дуги, связанные с узлом, который помечен признаком, помечены возможными значениями входящего признака. Каждый лист дерева помечен идентификатором класса (например, значением или диапазоном значений определенного атрибута, связанного с информационным объектом, связанным с семантико-синтаксической структурой) или степенью ассоциации с классом.

[00051] Ввиду существенной неоднозначности конструкций различных естественных языков связывание значения атрибута с информационным объектом не всегда может быть точным; в этом случае оно может описываться степенью уверенности, которая может быть выражена в виде числового значения на заданной шкале (например, действительным числом в диапазоне от 0 до 1). В соответствии с одним или более вариантами реализации настоящего изобретения на шаге 140 вычислительная система, реализующая способ, может определять значение степени уверенности, связанное с определенными атрибутами. В одном из иллюстративных примеров вычислительная система может вычислять функцию уверенности, связанную с функцией классификатора и (или) продукционными правилами, которые были использованы для получения атрибута. Область определения функции для вычисления степени уверенности данного атрибута может быть представлена одним или более аргументами, отражающими различные аспекты процесса извлечения информации, представленного на шаге 120. Эти аргументы могут включать, например, идентификаторы функций классификатора и (или) продукционных правил, которые использовались для получения рассматриваемого атрибута и (или) родственных атрибутов, оценки надежности функций классификатора и (или) продукционных правил, которые использовались для получения рассматриваемого атрибута и (или) родственных атрибутов, расчетных значений одной или более независимых от языка семантических структур, полученных при семантико-синтаксическом анализе текста на естественном языке, некоторые признаки семантических классов, полученных при синтаксическом и семантическом анализе информационного объекта, который характеризуется рассматриваемым атрибутом, и (или) другие характеристики процесса извлечения информации. В некоторых вариантах реализации изобретения вычислительная система может дополнять объекты данных, соответствующие тексту на естественном языке (например, RDF-граф 130), соответствующими значениями степени уверенности с атрибутами объектов, в результате чего будет получен дополненный RDF-граф 150.

[00052] В отдельных вариантах реализации изобретения функция уверенности может быть представлена линейным классификатором, оценивающим расстояние от информационного объекта до разделительной гиперплоскости в гиперпространстве признаков, которое можно использовать для извлечения атрибутов. Фиг. 2 схематически иллюстрирует пример линейного классификатора, создающего разделяющую гиперплоскость, представленную плоскостью 220 в гиперпространстве, представленном двухмерным пространством 207, которое может быть определено значениями F1 и F2, которые используются для извлечения атрибутов. Таким образом, каждый объект может быть представлен точкой в двухмерном пространстве 207, такой, что координаты точки соответствуют значениям F1 и F2 соответственно. Например, объект, имеющий значения признаков F1=f1 и F2=f2, может быть представлен точкой 231 с координатами (f1, f2). В соответствии с одним или более вариантами реализации настоящего изобретения расстояние между определенным объектом и разделительной гиперплоскостью 220 в гиперпространстве 207, как показано на Фиг. 2, может отражать степень уверенности, связанную с атрибутом объекта, который был идентифицирован в ходе процесса извлечения информации, описанного на шаге 140.

[00053] Значения параметров линейного классификатора могут быть определены с помощью методов машинного обучения. В некоторых вариантах реализации изобретения набор данных для обучения, используемый в методах машинного обучения, может содержать один или более текстов на естественном языке, в которых для некоторых объектов указаны соответствующие значения атрибутов (например, в тексте размечены классы или концепты онтологии для отдельных слов). Вычислительная система может итеративно идентифицировать значения параметров линейного классификатора, которые оптимизируют выбранную целевую функцию (например, позволяют выбрать максимальное значение целевой функции, соответствующее числу текстов на естественном языке, которые можно правильно классифицировать, используя указанные значения параметров линейного классификатора).

[00054] На Фиг. 1 на шаге 160 блок-схемы определенные значения атрибутов могут быть верифицированы с помощью графического интерфейса пользователя (GUI), используемого для вывода информационных объектов с одним или более связанными с ними атрибутами и получения от пользователя подтверждения или изменений связи выбранного атрибута с указанным информационным объектом и (или) получения от пользователя подтверждения или изменения значения атрибута. В одном из иллюстративных примеров GUI может содержать один или более флажков для подтверждения связи выбранного атрибута с информационным объектом или для подтверждения выводимого значения атрибута. В другом иллюстративном примере GUI может содержать один или более кнопок выбора для подтверждения связи выбранного атрибута с информационным объектом или выбора одного из выводимых значений атрибута. В другом иллюстративном примере GUI может содержать раскрывающийся список для выбора одного из выводимых значений атрибута.

[00055] В некоторых вариантах реализации атрибуты, степень уверенности которых находится ниже определенного порогового значения, могут быть подсвечены, заключены в описывающие прямоугольники, визуально связаны с заранее определенными символами или значками («?») или визуально выделены иным образом. В некоторых реализациях изобретения необходимое пороговое значение уверенности может выбираться пользователем с помощью ползунка GUI. Кроме того, пороговое значение уверенности может автоматически устанавливаться вычислительной системой, реализующей способ, и может, например, последовательно увеличиваться один или более раз после получения указания пользователя о завершении процесса верификации для текущей степени уверенности. Поскольку основное количество ошибок предположительно обнаруживается при низких степенях уверенности, то по мере повышения порогового значения уверенности количество ошибок будет уменьшаться, и процесс верификации может быть завершен, когда отношение количества ошибок к количеству правильно определенных атрибутов будет ниже заранее или динамически установленного порогового значения.

[00056] В ответ на получение сообщений пользователя о завершении процесса верификации вычислительная система может создать верифицированный RDF-граф 170, соответствующий исходному тексту 101 на естественном языке.

[00057] Таким образом, процесс верификации может изменить классы онтологии, типы отношений, типы атрибутов или значения атрибутов, связанные с одним или более информационными объектами, что может привести к несостоятельности ассоциированных текстовых аннотаций, которые ранее были связаны с неправильно определенным классом онтологии, типом отношений, типом или значением атрибута. Кроме того, значение атрибута может иметь написание, отличающееся от написания ассоциированного фрагмента текста на естественном языке, что может быть вызвано, например, ошибками оптического распознавания символов (OCR), которые привели к отсутствию знаков пунктуации или различию в расположении заглавных букв в одном или более словах.

[00058] На Фиг. 3А-3В схематически показаны примеры документов 300А и 300В на естественном языке с извлеченными признаками, связанными с определенными информационными объектами. Каждый из этих документов является источником определенного факта, например, операции купли-продажи. Стороны операции, их адреса и другие идентификаторы, сумма сделки интерпретируются как атрибуты, связанные с информационным объектом, представляющим операцию покупки. Документы 300А и 300В могут пройти пользовательскую верификацию атрибутов и могут содержать различные неточности, вызванные ошибками OCR и (или) разницей в написании некоторых атрибутов, каждый из которых как минимум дважды упоминается в тексте на естественном языке.

[00059] В иллю

Восстановление текстовых аннотаций, связанных с информационными объектами

Патент 2665261