2646386 - Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора

Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора

Иллюстрации

Показать все

Изобретение относится к обработке текстов на естественном языке. Техническим результатом является повышение объема извлечения информации с учетом возможной неоднозначности предложений естественного языка и альтернативных вариантов семантико-синтаксического разбора. В способе извлечения информации из текстов на естественном языке выполняют семантико-синтаксический анализ части текста на естественном языке с целью получения множества семантико-синтаксических структур, включающего первую и вторую альтернативные семантико-синтаксические структуры. Объединяют множество структур с целью получения объединенной семантико-синтаксической структуры. Исключают дублирующие семантико-синтаксические подструктуры из объединенной структуры. Выявляют в пределах указанной части текста информационные объекты путем интерпретации объединенной структуры с целью установления ассоциативной связи токенов, образованных указанной частью текста, с некоторой категорией информационных объектов. При этом интерпретация объединенной структуры производится с учетом значения метрики качества, ассоциированной с частью первой альтернативной структуры. 3 н. и 13 з.п. ф-лы, 13 ил.

Реферат

ОБЛАСТЬ ИЗОБРЕТЕНИЯ

[0001] Настоящее изобретение в целом относится к обработке текстов на естественном языке, а в частности - к извлечению информации с учетом альтернативных вариантов семантико-синтаксического разбора.

ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ

[0002] Извлечение информации может предусматривать анализ текста на естественном языке с целью выявления информационных объектов, например, именованных сущностей и отношений между выявленными именованными сущностями и другими информационными объектами.

КРАТКОЕ ИЗЛОЖЕНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ

[0003] Согласно одному или более вариантам реализации настоящего изобретения предлагается способ извлечения информации с использованием альтернативных вариантов семантико-синтаксического разбора. Пример реализации способа может предусматривать: выполнение вычислительной системой семантико-синтаксического анализа по меньшей мере некоторой части текста на естественном языке с целью получения множества семантико-синтаксических структур, представляющих указанную часть текста, при этом множество семантико-синтаксических структур включает первую альтернативную семантико-синтаксическую структуру и вторую альтернативную семантико-синтаксическую структуру; объединение множества семантико-синтаксических структур с целью получения объединенной семантико-синтаксической структуры; выявление в пределах указанной части текста на естественном языке одного или более информационных объектов путем интерпретации объединенной семантико-синтаксической структуры для установления ассоциативной связи одного или более токенов принадлежащих указанной части текста, с некоторой категорией информационных объектов.

[0004] Согласно одному или нескольким вариантам реализации настоящего изобретения предлагается система извлечения информации с использованием альтернативных вариантов семантико-синтаксического разбора. Пример системы может представлять собой память и процессор, соединенный с памятью, при этом процессор рассчитан на выполнение следующих действий: семантико-синтаксический анализ по меньшей мере некоторой части текста на естественном языке с целью получения множества семантико-синтаксических структур, представляющих часть текста на естественном языке, при этом множество семантико-синтаксических структур включает первую альтернативную семантико-синтаксическую структуру и вторую альтернативную семантико-синтаксическую структуру; объединение множества семантико-синтаксических структур с целью получения объединенной семантико-синтаксической структуры; выявление в пределах указанной части текста на естественном языке одного или более информационных объектов путем интерпретации объединенной семантико-синтаксической структуры с целью установления ассоциативной связи одного или более токенов, образованных указанной частью текста на естественном языке, с некоторой категорией информационных объектов.

[0005] Согласно одному или нескольким вариантам реализации настоящего изобретения предлагается постоянный машиночитаемый носитель данных. Постоянный машиночитаемый носитель данных может предусматривать набор исполняемых команд, которые, при их исполнении на вычислительной системе, обеспечивают выполнение вычислительной системой следующих действий: семантико-синтаксический анализ по меньшей мере некоторой части текста на естественном языке с целью получения множества семантико-синтаксических структур, представляющих часть текста на естественном языке, при этом множество семантико-синтаксических структур включает первую альтернативную семантико-синтаксическую структуру и вторую альтернативную семантико-синтаксическую структуру; слияние множества семантико-синтаксических структур с целью получения объединенной семантико-синтаксической структуры; выявление в пределах указанной части текста на естественном языке одного или более информационных объектов путем интерпретации объединенной семантико-синтаксической структуры с целью установления ассоциативной связи одного или более токенов, образованных указанной частью текста на естественном языке, с некоторой категорией информационных объектов. Технический результат от внедрения изобретения состоит в возможности более полного извлечения информации с учетом возможной неоднозначности предложений естественного языка, при этом могут учитываться альтернативные варианты семантико-синтаксического разбора.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0006] Настоящее изобретение иллюстрируется на примерах, без каких бы то ни было ограничений; его сущность становится понятной при рассмотрении приведенного ниже подробного описания изобретения в сочетании с чертежами, при этом:

[0007] На Фиг. 1 изображена блок-схема примера реализации способа извлечения информации с использованием альтернативных вариантов семантико-синтаксического разбора в соответствии с одним или более вариантами реализации настоящего изобретения.

[0008] На Фиг. 2 приведена блок-схема одного описанного в иллюстративном примере способа выполнения семантико-синтаксического анализа предложения на естественном языке в соответствии с одним или более вариантами реализации настоящего изобретения.

[0009] На Фиг. 3 схематически показан пример лексико-морфологической структуры предложения в соответствии с одним или более вариантами реализации настоящего изобретения.

[00010] На Фиг. 4 схематически показаны языковые описания, представляющие модель естественного языка в соответствии с одним или более вариантами реализации настоящего изобретения.

[00011] На Фиг. 5 схематически показаны примеры морфологических описаний в соответствии с одним или более вариантами реализации настоящего изобретения.

[00012] На Фиг. 6 схематически показаны примеры синтаксических описаний в соответствии с одним или более вариантами реализации настоящего изобретения.

[00013] На Фиг. 7 схематически показаны примеры семантических описаний в соответствии с одним или более вариантами реализации настоящего изобретения.

[00014] На Фиг. 8 схематически показаны примеры лексических описаний в соответствии с одним или более вариантами реализации настоящего изобретения.

[00015] На Фиг. 9 схематически показаны примеры структур данных, которые могут использоваться на практике при воплощении одного или более способов в соответствии с одним или более вариантами реализации настоящего изобретения.

[00016] На Фиг. 10 схематически показан пример графа обобщенных составляющих в соответствии с одним или более вариантами реализации настоящего изобретения.

[00017] На Фиг. 11 дан пример синтаксической структуры, соответствующей предложению, приведенному в качестве примера на Фиг. 10.

[00018] На Фиг. 12 изображена одна из семантических структур, соответствующих синтаксической структуре, представленной на Фиг. 11.

[00019] На Фиг. 13 изображена схема описанной в примере вычислительной системы, в которой реализованы способы, изложенные в настоящем описании изобретения.

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИ

[00020] В настоящем документе описаны способы и системы извлечения информации с учетом альтернативных вариантов семантико-синтаксического анализа. Системы и способы, представленные в настоящем документе, могут найти применение в самых разных приложениях, где требуется обработка текстов на естественном языке, - в частности, это могут быть машинный перевод, семантическое индексирование, семантический поиск (в том числе многоязычный семантический поиск), классификация документов, поиск и представление электронных документов (e-discovery) и т.д.

[00021] Термин «вычислительная система» в контексте настоящего документа означает устройство обработки данных, оснащенное универсальным процессором, памятью и по меньшей мере одним интерфейсом связи. Примерами вычислительных систем, в которых могут использоваться способы, описанные в настоящем документе, являются, в частности, настольные компьютеры, ноутбуки, планшетные компьютеры и смартфоны.

[00022] Системы и способы, изложенные в настоящем описании изобретения, способствуют более полному извлечению информации с использованием альтернативных вариантов семантико-синтаксического разбора, как подробнее описано ниже в настоящем документе. В некоторых вариантах реализации изобретения способ реализации 100 вычислительной системы может обеспечивать выполнение семантико-синтаксического анализа исходного текста на естественном языке с целью создания множества семантических структур, представляющих собой предложения из текста на естественном языке.

[00023] Некоторые этапы семантико-синтаксического анализа могут порождать множественные альтернативные результаты - как промежуточные, так и финальные. К примеру, ввиду омонимии и (или) совпадения грамматических форм, соответствующих разным лексико-морфологическим значениям определенного слова, для данного слова в ходе лексико-морфологического анализа может быть установлено множество морфологических значений. Кроме того, в ходе грубого синтаксического анализа могут применяться множественные синтаксические модели, связанные с конкретным предложением, что может приводить ко множественным версиям итогового графа обобщенных составляющих. Таким образом, результатом точного синтаксического анализа может быть некоторое множество синтаксических деревьев, соответствующих заданному первоначальному предложению.

[00024] Известны методы, которые могут предусматривать использование функции метрики качества, с учетом совместимости лексических значений слов в исходном предложении, поверхностных отношений, глубинных отношений и т.д., с целью выбора

наилучшего из синтаксических деревьев, соответствующих исходному предложению. Вместе с тем системы и способы, изложенные в настоящем описании изобретения, расширяют функциональность универсальных или специализированных вычислительных устройств, повышая полноту извлечения информации за счет рассмотрения множественности синтаксических деревьев. Это достигается благодаря учету множества альтернативных семантико-синтаксических структур, соответствующих фрагментам исходного текста на естественном языке.

[00025] В некоторых вариантах реализации изобретения, с целью повышения эффективности всего процесса обработки данных, вычислительная система может производить объединение альтернативных семантико-синтаксических структур, полученных в ходе семантико-синтаксического анализа, в одну итоговую структуру. Далее вычислительная система может проводить интерпретацию множества полученных семантических структур, используя набор продукционных правил для извлечения информационных объектов (к примеру, именованных сущностей). Распознавание именованных сущностей (Named-entity recognition, или NER), также известное как идентификация сущностей, выявление сущностей и извлечение сущностей, представляет собой задачу извлечения информации, результатом которой служит выявление токенов в тексте на естественном языке и их классификация по заранее определенным категориям - таким, к примеру, как имена персон, названия организаций, адреса или географические координаты, представление времени, количества, денежные единицы, проценты и т.д. Категории именованных сущностей и (или) семантические классы, отвечающие иным информационным объектам, извлекаемым из текста на естественном языке, могут быть представлены классами онтологии - как предопределенной, так и динамически выстраиваемой.

[00026] Термин «онтология» в контексте настоящего документа означает модель, представляющую объекты, относящиеся к определенной области знаний (предметной области), а также отношения между такими объектами. Онтология может содержать определения множества классов (концептов). Определение класса может ссылаться на один или более экземпляров концепта, т.е. информационных объектов. Информационный объект может представлять собой объект реального мира (к примеру, персону или предмет) и (или) некоторые характеристики, связанные с одним или более объектами реального мира (к примеру, измеримый атрибут или некоторое качество).

[00027] Продукционные правила, используемые для интерпретации семантических структур, могут включать правила интерпретации и правила идентификации. Правило интерпретации может содержать левую часть, представленную набором логических выражений, определенных на одном или более шаблонах семантических структур, и правую часть, представленную одним или более утверждениями относительно информационных объектов, представляющих сущности, на которые имеется ссылка в тексте на естественном языке.

[00028] В результате наложения шаблона, определяемого левой частью продукционного правила, на семантическую структуру, представляющую по меньшей мере часть предложения в тексте на естественном языке, может быть приведена в действие правая часть продукционного правила. Правая часть продукционного правила может устанавливать ассоциативную связь между одним или более атрибутами (отражающими лексические, синтаксические и (или) семантические свойства слов из первоначального предложения) и информационными объектами, представленными узлами. В одном из иллюстративных примеров правая часть правила интерпретации может представлять собой утверждение, устанавливающее ассоциативную связь между токеном из текста на естественном языке и категорией именованных сущностей.

[00029] Правило идентификации может использоваться для установления ассоциативной связи для пары информационных объектов, которые представляют одну и ту же сущность из реального мира. Правило идентификации - это продукционное правило, левая часть которого содержит одно или более логических выражений, указывающих на узлы семантического дерева, соответствующие информационным объектам. Если указанная пара информационных объектов удовлетворяет условиям, заданным логическими выражениями, то происходит слияние информационных объектов в один информационный объект.

[00030] Поскольку альтернативные семантико-синтаксические структуры, соответствующие одному и тому же фрагменту (к примеру, одному и тому же предложению) текста на естественном языке, являются взаимоисключающими, такими же являются и информационные объекты, которые могут быть извлечены из таких семантико-синтаксических структур. Таким образом, в каждой группе найденных альтернативных объектов следует выбрать один информационный объект. В некоторых вариантах реализации изобретения вычислительная система может выбирать из группы найденных альтернативных объектов один информационный объект, извлеченный при помощи семантико-синтаксической структуры, характеризующейся оптимальным (к примеру, максимальным или минимальным) значением метрики качества среди множества семантико-синтаксических структур, как подробнее описано ниже в настоящем документе.

[00031] Далее вычислительная система может применить один или более методов извлечения фактов для выявления в тексте на естественном языке одного или более фактов, ассоциирующихся с определенными информационными объектами. Термин «факт» в контексте настоящего документа означает отношение между информационными объектами, на которые имеется ссылка в тексте на естественном языке. Примерами таких отношений могут быть работа лица X по найму в организационном подразделении Y, расположение объекта X в географической точке Y, приобретение организационной единицы X организационной единицей Y и т.д. Таким образом, факт может быть связан с одной или более категориями фактов и/или сущностей. К примеру, факт, связанный с неким лицом, может относиться к дате его рождения, образованию, роду занятий, месту работы и т.д. В другом примере факт, связанный с коммерческой сделкой, может относиться к типу сделки и к сторонам этой сделки, к обязательствам сторон, дате подписания договора, дате совершения сделки, расчетам по договору и т.д. Извлечение фактов предполагает выявление различных отношений между извлеченными информационными объектами.

[00032] В некоторых вариантах реализации изобретения извлечение фактов может предусматривать интерпретацию множества семантических структур с использованием набора продукционных правил, в том числе правил интерпретации и (или) правил идентификации, как подробнее описано ниже в настоящем документе. Поскольку объединяемые альтернативные семантико-синтаксические структуры, соответствующие одному и тому же фрагменту (к примеру, одному и тому же предложению) текста на естественном языке, являются взаимоисключающими, такими же являются и факты, которые могут быть извлечены из таких семантико-синтаксических структур. Таким образом, в каждой группе найденных альтернативных фактов следует выбрать один факт. В некоторых вариантах реализации изобретения вычислительная система может выбирать из группы найденных фактов один факт, извлеченный из семантико-синтаксической структуры, характеризующейся оптимальным (к примеру, максимальным или минимальным) значением метрики качества среди множества семантико-синтаксических структур, как подробнее описано ниже в настоящем документе.

[00033] Системы и способы, представленные в настоящем документе, могут быть реализованы аппаратно (например, с помощью универсальных и (или) специализированных устройств обработки и (или) иных устройств и соответствующих электронных схем), программно (например, с помощью команд, выполняемых устройством обработки) или сочетанием этих подходов. Различные варианты реализации упомянутых выше способов и систем подробно описаны ниже в этом документе на примерах, без каких бы то ни было ограничений.

[00034] На Фиг. 1 изображена блок-схема примера реализации способа извлечения информации с использованием альтернативных вариантов семантико-синтаксического разбора в соответствии с одним или более вариантами реализации настоящего изобретения. Способ 100 и (или) каждая из его отдельно взятых функций, процедур, подпрограмм и каждое из действий могут осуществляться с помощью одного или более процессоров вычислительной системы (к примеру, вычислительной системы 100 на Фиг. 1), реализующей этот способ. В некоторых вариантах реализации способ 100 может осуществляться в одном потоке обработки. При альтернативном подходе способ 100 может осуществляться с использованием двух или более потоков обработки, при этом в каждом потоке реализована(о) одна (одно) или несколько отдельных функций, процедур, подпрограмм или действий этого способа. В одном из иллюстративных примеров потоки обработки, в которых реализован способ 100, могут быть синхронизированы (например, с использованием семафоров, критических секций и (или) других механизмов синхронизации потоков). При альтернативном подходе потоки обработки, в которых реализован способ 100, могут выполняться асинхронно по отношению друг к другу. Таким образом, несмотря на то что Фиг. 1 и соответствующее описание содержат перечень действий для способа 100 в определенном порядке, в различных вариантах осуществления способа по меньшей мере некоторые из описанных операций могут выполняться параллельно и (или) в случайно выбранном порядке.

[00035] На шаге 110 блок-схемы вычислительная система, реализующая способ 100, может выполнить семантико-синтаксический анализ исходного текста 101 на естественном языке, который может быть представлен, к примеру, одним или более исходными документами. В результате семантико-синтаксического анализа может получаться множество семантических структур, представляющих предложения в тексте на естественном языке. Каждая семантическая структура может быть представлена ациклическим графом, который включает множество узлов, соответствующих семантическим классам, и множество ребер, соответствующих семантическим отношениям. Ради простоты любое подмножество семантической структуры в этом документе мы будем называть «структурой» (а не «подструктурой»), если только предметом рассмотрения не является отношение типа «родительский элемент - дочерний элемент» (предок-потомок) между двумя семантическими структурами.

[00036] Семантико-синтаксический анализ исходного текста на естественном языке может предусматривать выполнение для каждого предложения лексико-морфологического анализа, а затем грубого синтаксического анализа и обработка полученных синтаксических деревьев с целью получения семантико-синтаксической структуры, соответствующей предложению, как подробнее описано ниже в настоящем документе со ссылкой на Фиг. 2-12.

[00037] На нескольких этапах семантико-синтаксического анализа могут получаться множественные альтернативные результаты - как промежуточные, так и финальные. К примеру, ввиду омонимии и (или) совпадения грамматических форм, соответствующих разным лексико-морфологическим значениям определенного слова, для данного слова в ходе лексико-морфологического анализа может быть установлено множество морфологических значений. Кроме того, в ходе грубого синтаксического анализа к одному предложению может быть использовано множество синтаксических моделей, применимых к данному предложению, что может приводить ко множественным версиям итогового синтаксического дерева. Таким образом, результатом точного синтаксического анализа могут быть множество синтаксических деревьев, соответствующих заданному первоначальному предложению.

[00038] Хотя известны способы и приемы, использующие функции метрики качества, с учетом совместимости лексических значений слов в первоначальном предложении, поверхностных отношений, глубинных отношений и т.д., с целью выбора наилучшего из синтаксических деревьев, соответствующих исходному предложению, средства и способы, изложенные в настоящем описании изобретения, расширяют функциональность универсальных или специализированных вычислительных устройств возможностью достижения более полного извлечения информации за счет учета множественности синтаксических деревьев.

[00039] На шаге 120 блок-схемы вычислительная система может производить слияние альтернативных семантико-синтаксических структур, полученных в ходе семантико-синтаксического анализа, в одну объединенную структуру. Процедура слияния может предусматривать объединение в один граф узлов и ребер графов, представляющих альтернативные семантико-синтаксические структуры.

[00040] Каждой из семантико-синтаксических структур может соответствовать одно из значений метрики качества. Метрика качества может учитывать совместимость лексических значений слов в первоначальном предложении, поверхностных отношений, глубинных отношений и т.д. В некоторых вариантах реализации изобретения численные значения метрики качества используются для выбора информационного объекта из множества объектов-претендентов, извлеченных при помощи альтернативных семантико-синтаксических структур, как подробнее описано ниже в настоящем документе.

[00041] В некоторых вариантах реализации изобретения процедура слияния может предусматривать обнаружение дублирующих подструктур, цель которого - либо недопущение в дальнейшем присутствия дубликатов одной и той же подструктуры в полученной структуре, либо удаление таких дубликатов из полученной структуры.

[00042] На шаге 130 блок-схемы вычислительная система может проводить интерпретацию множества полученных семантических структур, используя набор продукционных правил для извлечения множества информационных объектов (к примеру, именованных сущностей). Категории именованных сущностей и (или) семантические классы, отвечающие иным информационным объектам, извлекаемым из текста на естественном языке, могут быть представлены концептами онтологии - как предопределенной, так и динамически выстраиваемой.

[00043] В некоторых вариантах реализации изобретения вычислительная система может применять множественные альтернативные наборы продукционных правил к одним и тем же семантико-синтаксическим структурам. Поскольку альтернативные наборы продукционных правил являются взаимоисключающими, такими же являются и информационные объекты, которые могут быть извлечены при наложении таких наборов продукционных правил. Таким образом, в каждой группе найденных альтернативных объектов следует выбрать один информационный объект. В некоторых вариантах реализации изобретения вычислительная система может выбирать из группы найденных альтернативных объектов один информационный объект, извлеченный при помощи набора правил, характеризующегося максимальным значением веса среди альтернативных наборов правил.

[00044] Продукционные правила, используемые для интерпретации семантических структур, могут представлять собой правила интерпретации и правила идентификации. Правило интерпретации может содержать левую часть, представленную набором логических выражений, определенных на одном или более шаблонах семантической структуры, и правую часть, представленную одним или более утверждениями относительно информационных объектов, представляющих сущности, на которые имеется ссылка в тексте на естественном языке.

[00045] Шаблон семантической структуры может содержать некоторые элементы семантической структуры (например, принадлежность к определенному лексическому/семантическому классу, нахождение в некоторой поверхностной или глубинной позиции, наличие определенной граммемы или семантемы и т.д.). Отношения между элементами семантических структур могут задаваться с помощью одного или более логических выражений (конъюнкция, дизъюнкция и отрицание) и (или) операций, характеризующих взаимное расположение узлов на семантико-синтаксическом дереве. В одном из иллюстративных примеров такая операция может проверять один из узлов на принадлежность к поддереву другого узла.

[00046] В результате наложения шаблона, определяемого левой частью продукционного правила, на семантическую структуру, представляющую по меньшей мере часть предложения в тексте на естественном языке, может быть приведена в действие правая часть продукционного правила. Правая часть продукционного правила может устанавливать ассоциативную связь между одним или более атрибутами (отражающими лексические, синтаксические и (или) семантические свойства слов из первоначального предложения) и информационными объектами, представленными узлами. В одном из иллюстративных примеров правая часть правила интерпретации может представлять собой утверждение, устанавливающее ассоциативную связь между токеном из текста на естественном языке и категорией именованных сущностей.

[00047] Правило идентификации может использоваться для установления ассоциативной связи для пары информационных объектов, которые представляют одну и ту же сущность из реального мира. Правило идентификации - это продукционное правило, левая часть которого содержит одно или более логических выражений, указывающих на узлы семантического дерева, соответствующие информационным объектам. Если указанная пара информационных объектов удовлетворяет условиям, заданным логическими выражениями, то происходит слияние информационных объектов в один информационный объект. В некоторых вариантах реализации изобретения вычислительная система может повышать на некоторую предопределенную или динамически определяемую величину значение метрики качества информационного объекта, для которого установлено, что он ссылается на ту же сущность из реального мира, что и другой информационный объект, характеризующийся более высоким начальным значением метрики качества, как подробнее описано ниже в настоящем документе.

[00048] Несмотря на то что в иллюстративном примере на Фиг. 1 извлечение информационных объектов производится путем интерпретации множества семантических структур при помощи набора продукционных правил, в различных альтернативных вариантах реализации изобретения могут использоваться функции классификатора, в которых могут, наряду с лексическими и морфологическими признаками, использовать синтаксические и (или) семантические признаки, полученные при семантико-синтаксическом анализе текста на естественном языке. В некоторых вариантах реализации изобретения всевозможные лексические, грамматические и (или) семантические атрибуты токена естественного языка могут использоваться в составе одной или более функций классификатора. Каждая функция классификатора может определять для токена естественного языка степень ассоциативной связи с определенной категорией информационных объектов.

[00049] В одном из иллюстративных примеров функция классификатора может обучаться на обучающей выборке из текстов на естественном языке, которые были размечены с помощью систем и способов согласно одному или более вариантам реализации настоящего изобретения. При построении функции классификатора в ней могут быть реализованы различные методы - от наивного байесовского классификатора до техники дифференциальной эволюции, метода опорных векторов, алгоритмов случайного леса, нейронных сетей, градиентного бустинга и т.д. Обучение классификатора может включать определение наиболее важных атрибутов текстов на естественном языке и (или) настройку значений одного или более параметров функции классификатора. После завершения стадии обучения функция классификатора может использоваться для обработки подтверждающего набора текстов на естественном языке (т.е. неразмеченных текстов). Качество классификации можно оценить, применяя классификатор к одному или более размеченным текстам на естественном языке из тестового набора. Обученная функция классификатора может использоваться для получения значения, отражающего степень ассоциативной связи определенной части текста на естественном языке с определенной категорией фактов, информационных объектов, других текстов на естественном языке и т.д.

[00050] В некоторых вариантах реализации изобретения способ извлечения информационных объектов может предусматривать использование продукционных правил в сочетании с моделями классификаторов.

[00051] Как отмечалось выше в тексте настоящего документа, продукционные правила и (или) функции классификатора применяются к объединенной семантико-синтаксической структуре, в состав которой могут входить альтернативные семантико-синтаксические подструктуры, полученные в ходе семантико-синтаксического анализа. В результате из одного и того же предложения (или одной и той же части предложения) в тексте на естественном языке могут быть извлечены множественные информационные объекты. Поскольку объединенные альтернативные семантико-синтаксические структуры, соответствующие одному и тому же фрагменту (к примеру, одному и тому же предложению) текста на естественном языке, являются взаимоисключающими, такими же являются и информационные объекты, которые могут быть извлечены из таких семантико-синтаксических структур. Таким образом, в каждой группе найденных альтернативных объектов следует выбрать один информационный объект. В некоторых вариантах реализации изобретения вычислительная система может выбирать из группы найденных альтернативных объектов один информационный объект, извлеченный из семантико-синтаксической структуры, характеризующейся оптимальным значением метрики качества среди альтернативных семантико-синтаксических структур. В одном из иллюстративных примеров функция метрики качества может учитывать совместимость лексических значений слов в первоначальном предложении, поверхностных отношений, глубинных отношений и (или) иных всевозможных параметров каждой семантико-синтаксической структуры.

[00052] В некоторых вариантах реализации изобретения вычислительная система после извлечения информационных объектов из фрагмента текста на естественном языке может разрешать кореференциальные и анафорические ссылки между токенами текста на естественном языке, ассоциированными с извлеченными информационными объектами. Термин «кореференция» в контексте настоящего документа означает конструкцию естественного языка, содержащую два или более токенов естественного языка, которые относятся к одной сущности (например, к одному и тому же лицу, предмету, месту, организации и т.д.).

[00053] После разрешения кореференций вычислительная система может присвоить альтернативным информационным объектам, извлеченным из одного и того же фрагмента текста на естественном языке, начальные значения рейтинга на основе значений метрики качества соответствующих семантико-синтаксических структур, использованных в ходе извлечения информации. После этого вычислительная система может повышать на некоторую предопределенную или динамически определяемую величину значение рейтинга информационного объекта, для которого установлено наличие кореференций на ту же сущность из реального мира, что и другой информационный объект, характеризующийся более высоким начальным значением рейтинга. После этого вычислительная система может выбрать информационный объект, связанный ассоциативной связью с оптимальным значением метрики качества среди альтернативных информационных объектов.

[00054] На шаге 140 блок-схемы вычислительная система может применить один или более методов извлечения фактов для выявления в тексте на естественном языке одного или более фактов, ассоциированных с определенными информационными объектами. Термин «факт» в контексте настоящего документа означает отношение между информационными объектами, на которые имеется ссылка в тексте на естественном языке. Примерами таких отношений могут быть работа лица X по найму в организационном подразделении Y, расположение объекта X в географической точке Y, приобретение организационной единицы X организационной единицей Y и т.д. Таким образом, факт может быть связан ассоциативной связью с одной или более категориями фактов. К примеру, факт, связанный с неким лицом, может иметь отношение к дате его рождения, образованию, роду занятий, месту работы и т.д. В другом примере факт, связанный с коммерческой сделкой, может иметь отношение к типу сделки и к сторонам этой сделки, к обязательствам сторон, дате подписания договора, дате совершения сделки, расчетам по договору и т.д. Извлечение фактов предполагает выявление различных отношений между извлеченными информационными объектами.

[00055] В некоторых вариантах реализации изобретения извлечение фактов может предусматривать интерпретацию множества семантических структур с использованием набора продукционных правил, в том числе правил интерпретации и (или) правил идентификации, как подробнее описано ниже в настоящем документе. В дополнение к этому или в качестве альтернативы извлечение фактов может предусматривать использование одной или более функций классификатора для обработки всевозможных лексических, грамматических и (или) семантических атрибутов предложения на естественном языке. Каждая функция классификатора может определять степень ассоциативной связи по меньшей мере части предложения на естественном языке с определенной категорией фактов.

[00056] Как отмечалось выше в тексте настоящего документа, продукционные правила и (или) функции классификатора применяются к объединенной семантико-синтаксической структуре, в состав которой могут входить альтернативные семантико-синтаксические подструктуры, полученные в ходе семантико-синтаксического анализа. В результате из одного и того же предложения (или одной и той же части предложения) в тексте на естественном языке могут быть извлечены альтернативные отношения между одними и теми же парами или группами информационных объектов. Поскольку объединенные альтернативные семантико-синтаксические структуры, соответствующие одному и тому же фрагменту (к примеру, одному и тому же предложению) текста на естественном языке, являются взаимоисключающими, такими же являются и факты, которые могут быть извлечены из таких семантико-синтаксических структур. Таким образом, в каждой группе найденных альтернативных фактов следует выбрать один факт. В некоторых вариантах реализации изобретения вычислительная система может выбирать из группы найденных альтернативных фактов один факт, извлеченный при помощи

Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора

Патент 2646386