Использование верифицированных пользователем данных для обучения моделей уверенности
Иллюстрации
Показать всеИзобретение относится к вычислительным системам. Технический результат направлен на повышение точности, извлекаемой из текстов на естественном языке информации. Способ извлечения информации из текстов на естественном языке включает выполнение обрабатывающим устройством семантико-синтаксического анализа по меньшей мере одной части текста на естественном языке для получения множества семантических структур, интерпретацию с помощью набора продукционных правил, определение значения по меньшей мере одного атрибута, ассоциированного с по меньшей мере одним информационным объектом из множества информационных объектов, определение степени уверенности, ассоциированной со значением по меньшей мере одного атрибута, при определении того, что степень уверенности ниже порогового значения уверенности, подтверждение и/или изменение значения по меньшей мере одного атрибута, добавление к обучающей выборке данных по меньшей мере одной части текста на естественном языке, определение с помощью обучающей выборки данных по меньшей мере одного параметра указанной функции уверенности. 3 н. и 22 з.п. ф-лы, 16 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ
[0001] Настоящее изобретение относится к вычислительным системам, а в частности - к системам и способам использования верифицированных пользователем данных для дообучения моделей уверенности.
УРОВЕНЬ ТЕХНИКИ
[0002] Интерпретация неструктурированной или слабо структурированной информации, представленной в виде текста на естественном языке, может быть затруднена из-за неоднозначности, присущей конструкциям естественного языка. Эта неоднозначность может быть вызвана, например, многозначностью слов и фраз естественного языка и (или) определенными особенностями механизмов естественного языка, которые используются для установления связей между словами и (или) группами слов в предложениях на естественном языке (таких как падежи существительных, порядок слов и т.д.).
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
[0003] В соответствии с одним или более вариантами реализации настоящего изобретения пример реализации способа использования верифицированных пользователем данных для обучения моделей уверенности может включать: выполнение вычислительным устройством семантико-синтаксического анализа текста на естественном языке для создания множества семантических структур; интерпретацию множества семантических структур с целью извлечения множества информационных объектов, представляющих сущности, на которые ссылается текст на естественном языке, с помощью набора продукционных правил; определение значения атрибута информационного объекта из множества информационных объектов; определение степени уверенности, связанной со значением атрибута путем оценки функции уверенности, связанной с набором продукционных правил; при определении степени уверенности ниже порогового значения уверенности - подтверждение значения атрибута; добавление к обучающей выборке данных по меньшей мере части текста на естественном языке, ссылающейся на информационный объект и значение атрибута; и определение с помощью обучающей выборки данных по меньшей мере одного параметра функции уверенности.
[0004] В соответствии с одним или более вариантами реализации настоящего изобретения пример системы определения значений степени уверенности, связанной со значениями атрибутов информационных объектов, может включать: память и связанный с памятью процессор, настроенные на выполнение следующих действий: выполнение семантико-синтаксического анализа текста на естественном языке для создания множества семантических структур; интерпретацию множества семантических структур с целью извлечения множества информационных объектов, представляющих сущности, на которые ссылается текст на естественном языке, с помощью набора продукционных правил; определение значения атрибута информационного объекта из множества информационных объектов; определение степени уверенности, связанной со значением атрибута путем оценки функции уверенности, связанной с набором продукционных правил; при определении степени уверенности ниже порогового значения уверенности - подтверждение значения атрибута; добавление к обучающей выборке данных по меньшей мере части текста на естественном языке, ссылающейся на информационный объект и значение атрибута; и определение с помощью обучающей выборки данных по меньшей мере одного параметра функции уверенности.
[0005] В соответствии с одним или более вариантами реализации настоящего изобретения пример машиночитаемого постоянного носителя данных может содержать исполняемые команды, которые при выполнении вычислительной системой вызывают следующие действия вычислительной системы: выполнение семантико-синтаксического анализа текста на естественном языке для создания множества семантических структур; интерпретацию множества семантических структур с целью извлечения множества информационных объектов, представляющих сущности, на которые ссылается текст на естественном языке, с помощью набора продукционных правил; определение значения атрибута информационного объекта из множества информационных объектов; определение степени уверенности, связанной со значением атрибута путем оценки функции уверенности, связанной с набором продукционных правил; при определении степени уверенности ниже порогового значения уверенности - подтверждение значения атрибута; добавление к обучающей выборке данных по меньшей мере части текста на естественном языке, ссылающейся на информационный объект и значение атрибута; и определение с помощью обучающей выборки данных по меньшей мере одного параметра функции уверенности. Технический результат от внедрения изобретения состоит в повышении точности извлекаемой из текстов на естественном языке информации и получении возможности для пользователя системы извлечения информации контролировать и верифицировать достоверность извлекаемых данных.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0006] Настоящее изобретение иллюстрируется с помощью примеров, а не путем ограничения, его проще понять со ссылкой на приведенное ниже подробное описание при рассмотрении в связи с чертежами, на которых:
[0007] На Фиг. 1 приведена блок-схема одного иллюстративного примера способа использования верифицированных пользователем данных для обучения моделей уверенности в соответствии с одним или более вариантами реализации настоящего изобретения;
[0008] На Фиг. 2 схематически показана разделительная гиперплоскость в гиперпространстве механизмов, связанных с набором продукционных правил, в соответствии с одним или более вариантами реализации настоящего изобретения;
[0009] На Фиг. 3 схематично показан графический интерфейс пользователя (GUI), используемый для получения ввода пользователя для подтверждения или изменения значений атрибутов, в соответствии с одним или более вариантами реализации настоящего изобретения;
[00010] На Фиг. 4 приведена блок-схема одного иллюстративного примера способа верификации атрибутов информационных объектов, использующихся для обучения моделей уверенности в соответствии с одним или более вариантами реализации настоящего изобретения;
[00011] На Фиг. 5 приведена блок-схема иллюстративного примера способа выполнения семантико-синтаксического анализа предложения на естественном языке в соответствии с одним или более вариантами реализации настоящего изобретения.
[00012] На Фиг. 6 схематически иллюстрируется пример лексико-морфологической структуры предложения в соответствии с одним или более вариантами реализации настоящего изобретения;
[00013] На Фиг. 7 схематически показаны языковые описания, представляющие модель естественного языка в соответствии с одним или более вариантами реализации настоящего изобретения.
[00014] На Фиг. 8 схематически иллюстрируются примеры морфологических описаний в соответствии с одним или более вариантами реализации настоящего изобретения;
[00015] На Фиг. 9 схематически иллюстрируются примеры синтаксических описаний в соответствии с одним или более вариантами реализации настоящего изобретения;
[00016] На Фиг. 10 схематически иллюстрируются примеры семантических описаний в соответствии с одним или более вариантами реализации настоящего изобретения;
[00017] На Фиг. 11 схематически иллюстрируются примеры лексических описаний в соответствии с одним или более вариантами реализации настоящего изобретения;
[00018] На Фиг. 12 схематически иллюстрируются примеры структур данных, которые могут быть использованы в рамках одного или более способов, реализованных в соответствии с одним или более вариантами реализации настоящего изобретения;
[00019] На Фиг. 13 схематически иллюстрируется пример графа обобщенных составляющих в соответствии с одним или более вариантами реализации настоящего изобретения;
[00020] На Фиг. 14 показан пример синтаксической структуры, соответствующей предложению, приведенному на Фиг. 13;
[00021] На Фиг. 15 приведена семантическая структура, соответствующая синтаксической структуре, показанной на Фиг. 14;
[00022] На Фиг. 16 показана схема примера вычислительной системы, реализующей методы настоящего изобретения.
ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИ
[00023] Ниже описаны способы и системы для использования верифицированных пользователем данных для дообучения моделей уверенности в системах извлечения информации.
[00024] В настоящем документе термин «вычислительная система» означает устройство обработки данных, оснащенное универсальным процессором, памятью и по меньшей мере одним интерфейсом связи. Примерами вычислительных систем, которые могут использовать описанные в этом документе методы, являются, в частности, настольные компьютеры, ноутбуки, планшетные компьютеры и смартфоны.
[00025] Извлечение информации является одной из важных операций автоматизированной обработки текстов на естественном языке. Информация, извлекаемая из документов на естественном языке, может быть представлена в виде одного или более объектов данных, содержащих описания объектов, связи объектов и (или) утверждения, связанные с объектами. Распознавание именованных сущностей (NER) (также известное под названиями: идентификация сущностей, формирование сущностей и извлечение сущностей) представляет собой задачу по извлечению информации, в ходе выполнения которой производится выявление токенов в тексте на естественном языке и их классификация по заранее определенным категориям, таким как имена людей, названия организаций, географические названия, представление времени, количества, денежные суммы, проценты и т.д.
[00026] Информационный объект может представлять материальный реальный объект (например, человека или предмет) или определенные характеристики, связанные с одним или более реальными объектами (например, числовой атрибут или качество). Информационный объект может быть связан с концептом онтологии (также «класс онтологии» или просто «класс»), который может быть связан с определенным семантическим классом. Множество семантических классов может быть организовано в иерархию семантических классов, экземпляры которой представляют информационные объекты и их отношения (например, иерархические отношения предка и потомка).
[00027] Атрибут информационного объекта может отражать свойство или характеристику информационного объекта. В связи с вышесказанным атрибут информационного объекта может быть представлен перечислимым атрибутом или неперечислимым атрибутом. По меньшей мере некоторые из атрибутов информационного объекта могут быть необязательными, но у некоторых информационных атрибутов может существовать по меньшей мере один обязательный атрибут. Информационный объект может иметь несколько атрибутов одного типа, при этом некоторые атрибуты могут иметь только одно возможное значение атрибута для любых информационных объектов.
[00028] В иллюстративном примере отображаемое информационным объектом свойство или характеристика могут указывать на отношения между одним информационным объектом и одним или более другими информационными объектами. В различных иллюстративных примерах информационный объект может не иметь ни одного, иметь одно или несколько отношений с другими информационными объектами. Такие отношения могут быть установлены между двумя объектами, между одним объектом и группой из нескольких объектов и между одной группой из нескольких объектов и другой группой из нескольких объектов. Определенные последовательности связанных объектов могут быть линейного или цикличного типа.
[00029] В различных иллюстративных примерах атрибут информационного объекта может быть представлен перечислимым атрибутом или неперечислимым атрибутом. По меньшей мере некоторые из атрибутов информационного объекта могут быть необязательными, но у некоторых информационных атрибутов может существовать по меньшей мере один обязательный атрибут. Информационный объект может иметь несколько атрибутов одного типа, при этом некоторые атрибуты могут иметь только одно возможное значение атрибута для любых информационных объектов.
[00030] В иллюстративном примере информационный объект, связанный с онтологическим классом «человек», может иметь следующие атрибуты: имя, дата рождения, адрес и история трудоустройства. Атрибут имени может быть представлен строкой символов. Атрибут даты рождения может быть представлен строкой символов, одним или более числовыми значениями или специальным типом данных, используемым для представления дат. Атрибут адреса может быть представлен сложным атрибутом, указывающим на информационные объекты «улица», «город», «административный субъект» и «страна», а также номер дома на улице и, как вариант, номер квартиры по адресу проживания. Атрибут «история трудовой деятельности» может быть представлен одной или более записями о трудовой деятельности, каждая из которых ссылается на информационный объект «Работодатель» и указывает на даты трудоустройства и должность при трудоустройстве.
[00031] Некоторые отношения между информационными объектами могут называться «фактами». Примерами таких отношений могут быть работа лица X по найму в организационном подразделении Y, расположение объекта X в географической точке Y, приобретение организационной единицы X организационной единицей Y и т.д. Таким образом, факт может быть ассоциирован с одной или более категориями фактов. К примеру, факт, ассоциированный с неким лицом, может иметь отношение к дате его рождения, образованию, роду занятий, месту работы и т.д. В другом примере факт, связанный с коммерческой сделкой, может иметь отношение к типу сделки и к сторонам этой сделки, к обязательствам сторон, дате подписания договора, дате совершения сделки, расчетам по договору и т.д. Извлечение фактов предполагает выявление различных отношений между извлеченными информационными объектами.
[00032] Информационные объекты могут быть связаны с частями исходного текста на естественном языке, из которых были извлечены соответствующие объекты. Такие связи могут быть представлены, например, с помощью текстовых аннотаций, включающих предложения текста на естественном языке или их фрагменты, связанные с извлеченными информационными объектами. Аннотация может быть связана с конкретным информационным объектом или с определенными атрибутами информационного объекта.
[00033] Ввиду существующей неоднозначности конструкций некоторых естественных языков связывание атрибута с информационным объектом не всегда может быть точным; в этом случае оно может описываться степенью уверенности, которая может быть выражена в виде числового значения на заданной шкале (например, действительным числом в диапазоне от 0 до 1). В соответствии с одним или более вариантами реализации настоящего изобретения степень уверенности, связанная с определенным атрибутом, может быть определена путем вычисления функции уверенности, связанной с продукционными правилами, которые были использованы для получения атрибута. Область определения функции может быть представлена одним или более аргументами, отражающими различные аспекты процесса извлечения информации, включая идентификаторы продукционных правил, задействованных для получения рассматриваемого атрибута или родственных атрибутов, определенных признаков семантических классов, полученных при семантико-синтаксическом анализе исходного предложения, соответствующего информационному объекту, который характеризуется рассматриваемым атрибутом, и (или) другие характеристики процесса извлечения информации, как будет более подробно описано ниже в этом документе.
[00034] В определенных вариантах реализации извлечение информации может подразумевать применение набора продукционных правил к множеству независимых от языка семантических структур, представляющих предложения текста на естественном языке. Затем вычислительная система может определить степень уверенности, связанную с одним или более атрибутами информационных объектов путем вычисления функции уверенности, ассоциированной с набором продукционных правил.
[00035] Функция уверенности может быть представлена линейным классификатором, выдающим расстояние от информационного объекта до разделительной гиперплоскости в гиперпространстве признаков, связанных с набором продукционных правил. Значения параметров линейного классификатора могут быть определены с помощью методов машинного обучения. Обучающая выборка данных, используемая в методах машинного обучения, может содержать один или более текстов на естественном языке, в которых для некоторых объектов указаны соответствующие значения атрибутов (например, в тексте указаны семантические классы и/или онтологические классы отдельных слов). В определенных вариантах реализации обучающая выборка данных может дополнительно включать степени уверенности, связанные с соответствующими значениями атрибутов, при этом при определении значений параметров классификатора значению атрибута, имеющему более высокую степень уверенности, присваивается больший вес. В определенных вариантах реализации степени уверенности атрибутов в обучающей выборке данных могут быть подтверждены в ходе процесса верификации пользователем, как описано более подробно ниже в настоящем документе. Вычислительная система может с помощью обучающей выборки итеративно идентифицировать значения параметров линейного классификатора, которые оптимизируют выбранную целевую функцию (например, позволяют выбрать максимальное значение выбранной целевой функции, соответствующее числу текстов на естественном языке, которые можно правильно классифицировать, используя указанные значения параметров линейного классификатора).
[00036] Таким образом, описанные в настоящем документе системы и способы представляют усовершенствования функций универсальных или специализированных вычислительных устройств, достигаемые за счет использования верифицированной пользователем степени уверенности для информационных объектов в обучающих выборках данных, которые задействуются при идентификации значений функций классификатора, выдающих значения степени уверенности для информационных объектов и связанных с ними атрибутов. Различные аспекты упомянутых выше способов и систем подробно описаны ниже в этом документе с помощью примеров, а не способом ограничения.
[00037] На Фиг. 1 приведена блок-схема одного иллюстративного примера способа 100 для использования верифицированных пользователем данных для обучения моделей уверенности в соответствии с одним или более вариантами реализации настоящего изобретения. Способ 100 и/или каждая из его отдельных функций, стандартных программ, подпрограмм или операций могут выполняться одним или более процессоров вычислительной системы (например, вычислительная система 1000 на Фиг. 16), реализующей этот способ. В некоторых вариантах осуществления способ (100) может выполняться в одном потоке обработки. При альтернативном подходе способ 100 может осуществляться с использованием двух или более потоков обработки, при этом в каждом потоке реализована(о) одна (одно) или несколько отдельных функций, процедур, подпрограмм или действий этого способа. В одном из иллюстративных примеров потоки обработки, в которых реализован способ 100, могут быть синхронизированы (например, с использованием семафоров, критических секций и (или) других механизмов синхронизации потоков). При альтернативном подходе потоки обработки, в которых реализован способ 100, могут выполняться асинхронно по отношению друг к другу. Таким образом, несмотря на то, что Фиг. 1 и соответствующее описание содержат список операций для метода 100 в определенном порядке, в различных вариантах осуществления способа как минимум некоторые из описанных операций могут выполняться параллельно и (или) в случайно выбранном порядке.
[00038] На шаге 110 блок-схемы вычислительная система, реализующая способ 100, может выполнить семантико-синтаксический анализ исходного текста 120 на естественном языке, который может быть представлен, например, одним или более исходными документами. При семантико-синтаксическом анализе могут быть получены одна или более независимых от языка семантических структур 130, представляющих каждое предложение на естественном языке, как будет более подробно описано ниже в этом документе со ссылками на Фиг. 5-15. Для упрощения любое подмножество семантической структуры в этом документе мы будем называть «структурой» (а не «подструктурой»), если только не рассматривается отношение типа предок-потомок между двумя семантическими структурами.
[00039] На шаге 140 блок-схемы вычислительная система может проводить интерпретацию множества полученных семантических структур, используя набор продукционных правил для извлечения множества информационных объектов (к примеру, именованных сущностей) и их атрибутов. В определенных вариантах реализации извлеченные информационные объекты могут быть связаны с семантическими классами, представленными концептами заданной или динамически построенной онтологии.
[00040] Продукционные правила, используемые для интерпретации семантических структур, могут представлять собой правила интерпретации и правила идентификации. Правило интерпретации может содержать левую часть, представленную набором логических выражений, определенных на одном или более шаблонах семантической структуры, и правую часть, представленную одним или более утверждениями относительно информационных объектов, представляющих сущности, на которые имеется ссылка в тексте на естественном языке.
[00041] Шаблон семантической структуры может содержать некоторые элементы семантической структуры (например, принадлежность к определенному лексическому/семантическому классу, нахождение в некоторой поверхностной или глубинной позиции, наличие определенной граммемы или семантемы и т.д.). Отношения между элементами семантических структур могут задаваться с помощью одного или более логических выражений (конъюнкция, дизъюнкция и отрицание) и (или) операций, характеризующих взаимное расположение узлов на семантико-синтаксическом дереве. В одном из иллюстративных примеров такая операция может проверять один из узлов на принадлежность к поддереву другого узла.
[00042] Совпадение шаблона, определенного левой частью продукционного правила семантической структуры, с семантической структурой, представляющей по крайней мере часть предложения текста на естественном языке, может запускать правую часть продукционного правила. Правая часть продукционного правила может осуществлять связь одного или более атрибутов с представленными узлами информационными объектами. В одном из иллюстративных примеров правая часть правила интерпретации может представлять собой утверждение, устанавливающее ассоциативную связь между токеном из текста на естественном языке и категорией именованных сущностей.
[00043] Правило идентификации может использоваться для установления ассоциативной связи для пары информационных объектов, которые представляют одну и ту же сущность из реального мира. Правило идентификации - это продукционное правило, левая часть которого содержит одно или более логических выражений, указывающих на узлы семантического дерева, соответствующие информационным объектам. Если указанная пара информационных объектов удовлетворяет условиям, заданным логическими выражениями, то происходит слияние информационных объектов в один информационный объект.
[00044] В некоторых вариантах реализации изобретения вычислительная система после извлечения информационных объектов из фрагмента текста на естественном языке может разделять на составляющие кореференции и анафорические связи между токенами текста на естественном языке, которые были связаны ассоциативной связью с извлеченными информационными объектами. Термин «кореференция» в контексте настоящего документа означает конструкцию естественного языка, содержащую два или более токенов естественного языка, которые относятся к одной сущности (например, к одному и тому же лицу, предмету, месту или организации).
[00045] Несмотря на то что в иллюстративном примере на Фиг. 1 извлечение информационных объектов и их отношений производится путем интерпретации множества семантических структур при помощи набора продукционных правил, в различных альтернативных вариантах реализации изобретения могут использоваться функции классификатора, в которых могут, наряду с лексическими и морфологическими признаками, использоваться синтаксические и (или) семантические признаки, полученные при семантико-синтаксическом анализе текста на естественном языке. В некоторых вариантах реализации изобретения всевозможные лексические, грамматические и (или) семантические атрибуты токена естественного языка могут использоваться в составе одной или более функций классификатора. Каждая функция классификатора может определять для токена естественного языка степень ассоциативной связи с определенной категорией информационных объектов. В некоторых вариантах реализации изобретения способ извлечения информационных объектов может предусматривать использование комбинаций продукционных правил с моделями классификаторов.
[00046] В некоторых вариантах реализации изобретения вычислительная система может представлять извлеченные информационные объекты и их отношения в виде RDF-графа 150. RDF (Resource Definition Framework-среда описания ресурса) присваивает каждому информационному объекту уникальный идентификатор и сохраняет информацию о таком объекте в виде наборов из трех элементов (триплетов) SPO, где S означает «субъект» и содержит идентификатор объекта, Р означает «предикат» и определяет некоторое свойство этого объекта, а О означает «объект» и хранит в себе значение рассматриваемого свойства данного объекта. Это значение может быть либо примитивным типом данных (примеры - строка, число, булево (логическое) значение), либо идентификатором другого объекта. В одном из иллюстративных примеров триплет SPO может ассоциировать токен из текста на естественном языке с категорией именованных сущностей.
[00047] На Фиг. 1 в блоке 160 вычислительная система может определять степени уверенности, связанные с одним или более атрибутами информационных объектов. Степени уверенности могут быть выражены в виде числовых значений на заданной шкале (например, в виде действительных чисел в диапазоне от 0 до 1). В соответствии с одним или более вариантами реализации настоящего изобретения степень уверенности, связанная с определенным атрибутом, может быть определена путем вычисления функции уверенности, связанной с набором продукционных правил. Область определения функции может быть представлена одним или более аргументами, отражающими различные аспекты процесса извлечения информации, указанного в блоке 140.
[00048] В некоторых вариантах реализации изобретения компьютерная система может дополнять объекты данных, соответствующие тексту на естественном языке (например, объекты данных, представленные RDF-графом 150), соответствующими значениями степени уверенности с атрибутами объектов, в результате чего будет получен дополненный RDF-граф 165.
[00049] В одном из иллюстративных примеров степень уверенности, связанная с определенным атрибутом, может зависеть от надежности отдельных продукционных правил, которые используются для получения этого атрибута. В одном из иллюстративных примеров конкретное правило может использовать шаблон высокого уровня абстракции, что может привести к ложно-положительной идентификации совпадения семантических поддеревьев. Например, правило может объявлять все сущности, связанные с дочерними семантическими классами семантического класса «Человек», прямо связанными с семантическим классом-предком, что может привести к ложно-положительному связыванию названия сообщества, например, футбольной команды (что опосредованно, за счет связи с игроками команды, относящимися к классу «Человек») с классом «Человек». Поэтому степень уверенности, связанная с данным атрибутом, может быть снижена, если для получения атрибута было использовано определенное продукционное правило. В соответствии с одним или более вариантами реализации настоящего изобретения такие продукционные правила и их вклад в степень уверенности атрибута могут быть определены путем использования методов машинного обучения, как будет более подробно описано ниже в этом документе.
[00050] В другом иллюстративном примере на степень уверенности, связанную с данным атрибутом, может оказывать влияние многозначность определенных лексем, обнаруженных в тексте на естественном языке. Например, serve - это лексема, относящаяся к нескольким семантическим классам, и правильное снятие семантической неоднозначности для нее возможно не всегда. Неправильное отнесение лексемы к семантическому классу может привести к ложно-положительной идентификации совпадения семантических поддеревьев. Таким образом, степень уверенности, связанная с данным атрибутом, может быть уменьшена, если в тексте на естественном языке будут обнаружены определенные семантические классы, граммемы, семантемы и (или) глубинные или поверхностные позиции. В соответствии с одним или более вариантами реализации настоящего изобретения такие семантические классы и их вклад в степень уверенности атрибута могут быть определены путем использования методов машинного обучения, как будет более подробно описано ниже в этом документе.
[00051] В другом иллюстративном примере одно и то же продукционное правило может применяться к объектам определенных семантических классов, их предкам или потомкам (так же, как, например, при разрешении анафорических конструктов). Обычно применение продукционного правила к предку или потомку определенного семантического класса, а не к объекту, прямо ассоциируемому с этим семантическим классом, дает менее надежные результаты. В соответствии с одним или более вариантами реализации настоящего изобретения такие семантические классы и их вклад в степень уверенности атрибута могут быть определены путем использования методов машинного обучения, как будет более подробно описано ниже в этом документе.
[00052] В другом иллюстративном примере на степень уверенности, связанную с данным атрибутом, могут влиять значения рейтинга одной или более независимых от языка семантических структур, полученных в результате семантико-синтаксического анализа текста на естественном языке. В соответствии с одним или более вариантами реализации настоящего изобретения влияние низких значений рейтинга на степень уверенности атрибута может быть определено путем использования методов машинного обучения, как будет более подробно описано ниже в этом документе.
[00053] Как было указано выше, текст на естественном языке может содержать множество ссылок на один и тот же информационный объект, и эти ссылки могут использовать различные лексемы (например, ссылаясь на человека по его полному имени, имени и (или) должности внутри организации). К этим языковым конструкциям можно применить одно или более правил идентификации, чтобы объединить указанные информационные объекты. Степень уверенности, связанная с определенным атрибутом, может зависеть от надежности отдельных правил идентификации, которые используются для получения этого атрибута. Например, правила идентификации, которые связывают несколько атрибутов объединяемых объектов, могут давать более надежные результаты по сравнению с правилами идентификации, которые относятся к меньшему количеству атрибутов.
[00054] В другом иллюстративном примере степень уверенности, связанная с атрибутом определенного объекта, может увеличиться, если указать, что группа объектов, включающая рассматриваемый объект и один или более связанных с ним объектов, совместно использует некоторые атрибуты. Например, если слово Apple связано с одним или более объектами, относящимися к информационным технологиям, степень уверенности классификации этого слова как названия компании может быть увеличена.
[00055] Как было указано выше, степень уверенности, относящаяся к определенному атрибуту, может быть определена путем вычисления функции уверенности, связанной с набором продукционных правил. В отдельных вариантах реализации изобретения функция уверенности может быть представлена линейным классификатором, выдающим расстояние от информационного объекта до разделительной гиперплоскости в гиперпространстве признаков, связанных с набором продукционных правил, как схематически показано на Фиг. 2. В различных иллюстративных примерах признаки могут отражать не только указанные выше, но и другие аспекты процесса извлечения информации, указанного в блоке 140.
[00056] На Фиг. 2 схематически показан пример линейного классификатора, создающего разделительную гиперплоскость 220 в двухмерном гиперпространстве 207, которая может быть определена значениями F1 и F2, которые соответствуют признакам, связанным с набором продукционных правил. Таким образом, каждый объект может быть представлен точкой в двухмерном гиперпространстве 207, такой, что координаты точки соответствуют значениям F1 и F2 соответственно. Например, объект, имеющий значения признаков F1=f1 и F2=f2, может быть представлен точкой 201 с координатами (f1, f2).
[00057] Линейный классификатор может быть представлен функцией wT*х=b, где х - вектор, представляющий значения признаков объекта, w - вектор параметра, который вместе со значением b определяет границу решений. Таким образом, объект может ассоциироваться с определенным классом, если wT*х>b, а может не ассоциироваться с этим классом в противном случае. В иллюстративном примере на Фиг. 2 объекты 231 и 233 принадлежат к конкретному классу С, а объекты 211 и 213 не принадлежат к этому классу.
[00058] Значения параметров линейного классификатора (например, значения w и b) могут быть определены с помощью методов машинного обучения. Обучающая выборка данных, используемая в методах машинного обучения, может содержать один или более текстов на естественном языке, в которых для некоторых объектов указаны соответствующие значения атрибутов (например, в тексте указаны семантические классы отдельных слов). В определенных вариантах реализации обучающая выборка данных может дополнительно включать степени уверенности, связанные с соответствующими значениями атрибутов, при этом при определении значений параметров классификатора значению атрибута, имеющему более высокую степень уверенности, присваивается больший вес. В определенных вариантах реализации степени уверенности атрибутов в обучающей выборке данных могут быть подтверждены в ходе процесса верификации пользователем, как описано более подробно ниже в настоящем документе. Вычислительная система может с помощью обучающей выборки итеративно идентифицировать значения параметров линейного классификатора, которые оптимизируют выбранную целевую функцию (например, позволяют выбрать максимальное значение функции приспособленности, соответствующее числу текстов на естественном языке, которые можно правильно классифицировать, используя указанные значения параметров линейного классификатора).
[00059] В соответствии с одним или более вариантами реализации настоящего изобретения расстояние между определенным объектом и разделительной гиперплоскостью 220 в гиперпространстве 207 может указывать на степень уверенности, связанную с атрибутом объекта, который был идентифицирован в ходе процесса извлечения информации, описанного в блоке 140. В некоторых вариантах реализации изобретения степень уверенности может быть представлена значением сигмоидной функции от расстояния между объектом и разделительной гиперплоскостью.
[00060] Со ссылкой на Фиг. 1 в блоке 170 вычислительная система может верифицировать значения атрибутов через графический интерфейс пользователя, в котором отображаются информационные объекты в визуальной связи с соответствующими свойствами и текстовыми аннотациями. Графический интерфейс пользователя может быть реализован для получения вводимых пользователем данных, подтверждающих или изменяющих определенные значения атрибутов, связанных с извлеченными информационными объектами.
[00061] В иллюстративном примере на Фи