2592396 - Способ и система для машинного извлечения и интерпретации текстовой информации

Способ и система для машинного извлечения и интерпретации текстовой информации

Иллюстрации

Показать все

Изобретение относится к извлечению и интерпретации информации из неструктурированных текстов на естественных языках, в частности, к машинному извлечению и интерпретации информации в текстовых документах. Технический результат - эффективный анализ документов для извлечения и интерпретации информации в текстовых документах. Машинный способ извлечения информации из текстового документа, включающий выполнение семантико-синтаксического анализа предложений документа для создания семантико-синтаксических структур предложений, применение продукционных правил к семантико-синтаксическим структурам, чтобы создать набор логических утверждений об информационных объектах, содержащихся в данном документе, при этом продукционные правила основаны на лингвистических признаках и лексико-морфологических свойствах семантико-синтаксических структур и онтологий предметной области предложений, и использование набора логических утверждений об информационных объектах, содержащихся в документе для построения согласованного с онтологией RDF-графа. 3 н. и 13 з.п. ф-лы, 16 ил.

Реферат

ОБЛАСТЬ ИЗОБРЕТЕНИЯ

[0001] Настоящее изобретение относится к извлечению и интерпретации информации из неструктурированных текстов на естественных языках. В частности, изобретение относится к области машинного извлечения и интерпретации информации в текстовых документах.

УРОВЕНЬ ТЕХНИКИ

[0002] Большие объемы неструктурированной информации/данных на естественных языках в электронном формате становятся все более доступными, особенно в Интернете. Эта неструктурированная информация на естественных языках включает в себя различные типы текстовой информации, например, тексты на естественном языке, числа и данные. Машинное извлечение и интерпретация этой информации вызывает сложности из-за неоднозначности, разнообразия объектов реального мира, их свойств и связей между этими объектами реального мира, а также из-за неоднозначности и разнообразия форм и выражений языка. Кроме того, часто также бывает востребована машинная интерпретация речи в аудио- и видеофайлах.

[0003] Учитывая существование омонимов и омографов в естественных языках, существующие программные продукты для компьютеров (то есть прикладные программы) для машинной интерпретации информации в текстовых документах часто некорректно отражают действительный смысл языковой части документов.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

[0004] Способ извлечения информации, относящийся к системе интеллектуального анализа данных, который является неотъемлемой частью универсальной технологии анализа текста, и его ключевой признак - возможность выполнять полный семантико-синтаксический анализ вводимого текста. Этот способ включает обработку текста и создание набора деревьев семантико-синтаксических зависимостей. Деревья семантико-синтаксических зависимостей создаются синтаксическим анализатором во время анализа текста. Одно семантико-синтаксическое дерево соответствует одному предложению исходного текста. Текстовое содержимое входного текстового документа представляется в виде деревьев семантико-синтаксических зависимостей, после чего обрабатывается и выводится в виде RDF-графов (схемы описания ресурсов) с использованием компьютерного языка OWL.

[0005] Таким образом, полученный исходный текстовый документ сначала анализируется с помощью синтаксического анализатора. Этот анализ порождает набор деревьев разбора на основе семантико-синтаксических зависимостей, при этом узлы и дуги каждого дерева, дополняются различной грамматической и семантической информацией. Лес деревьев разбора затем используется в качестве входных данных для продукционной системы правил извлечения информации. Применение правил извлечения информации приводит к формированию RDF-графа анализируемого текста, согласованного с онтологией предметной области.

[0006] Способность системы к анализу синтаксической и семантической структуры текста и способ в соответствии с настоящим изобретением позволяют извлекать из текста факты и сущности. Правила извлечения фактов, которые применяются к семантико-синтаксическим деревьям, как правило лаконичны, но очень эффективны, и с легкостью покрывают большинство выражений на естественных языках. Кроме того, предлагаемая система и способ демонстрируют слабую зависимость от конкретного языка. Поскольку деревья разбора содержат не зависящие от конкретного языка данные (такие, как семантические роли или универсальные, не зависящие от языка, семантические классы), многие правила извлечения являются универсальными и могут использоваться для анализа текста на различных языках.

[0007] Настоящая система и способ извлечения информации не ограничены извлечением на основе правил, поскольку синтаксический и семантический анализ, который предшествует извлечению, не базируется на наборах правил. Анализ, выполняемый синтаксическим анализатором по настоящему изобретению, можно считать основанным на моделях, он опирается на многоуровневую модель естественного языка, созданную лингвистами и прошедшую обучение на корпусе текстов. Таким образом, настоящий способ можно считать гибридным, он является основанным на моделях на первом (подготовительном) этапе и основанным на правилах на втором этапе.

[0008] Описываются способы машинной интерпретации информации в текстовых документах.

[0009] Логические утверждения по предложениям текстового документа формируются и проверяются с помощью лингвистических характеристик и лексико-морфологических свойств семантических/синтаксических структур и их деревьев. Данные, порожденные из логических утверждений, используются для повышения корректности и глубины интерпретации информации, и могут включаться в доступные для поиска онтологии по теме для дальнейшего использования.

[0010] Различные другие аспекты и способы осуществления изобретения подробнее описаны ниже. Предполагается, что отличительные признаки одного варианта осуществления изобретения могут включаться в другие варианты осуществления без дополнительных указаний.

[ООН] Сущность изобретения не предназначена для того, чтобы она толковалась как представляющая настоящее описание в полной мере и объеме. Все цели, особенности и преимущества настоящего изобретения будут очевидны из последующего подробного описания вариантов реализации в сочетании с прилагаемыми чертежами.

[0012] Элементы новизны, считающиеся характерными для описания, изложены в прилагаемой формуле изобретения.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0013] На Фиг. 1А приведена блок-схема, иллюстрирующая способ согласно настоящему изобретению;

[0014] На Фиг. 1В показана блок-схема, иллюстрирующая способ получения универсальных семантических структур из документов в соответствии с вариантом реализации настоящего изобретения;

[0015] На Фиг. 1С приведена блок-схема, иллюстрирующая применение продукционных правил к последовательности семантических структур;

[0016] Фиг. 2А является иллюстрацией лингвистических описаний в соответствии с одним вариантом реализации настоящего изобретения;

[0017] На Фиг. 2В приведен пример лексико-морфологической структуры предложения в соответствии с одним вариантом реализации настоящего изобретения;

[0018] На Фиг. 3 показан пример морфологических описаний в соответствии с одним вариантом реализации настоящего изобретения;

[0019] На Фиг. 4 приведен пример синтаксических описаний в соответствии с одним вариантом реализации настоящего изобретения;

[0020] На Фиг. 5 показан пример синтаксических описаний в соответствии с одним вариантом реализации настоящего изобретения;

[0021] На Фиг. 6 приведен пример лексических описаний согласно одному варианту реализации настоящего изобретения;

[0022] На Фиг. 7 показана блок-схема, иллюстрирующая последовательность структур данных в соответствии с одним вариантом реализации настоящего изобретения;

[0023] Фиг. 8 является иллюстрацией графа обобщенных составляющих предложения на английском языке в соответствии с одним вариантом реализации настоящего изобретения;

[0024] Фиг. 9 является иллюстрацией синтаксической структуры предложения, показанного на Фиг. 8, в соответствии с одним вариантом осуществления настоящего изобретения;

[0025] Фиг. 10 является иллюстрацией семантической структуры предложения, показанного на Фиг. 8, в соответствии с одним вариантом осуществления настоящего изобретения;

[0026] Фиг. 11 является схематической иллюстрацией типов утверждений в соответствии с вариантом осуществления настоящего изобретения;

[0027] Фиг. 12 представляет собой схематическое изображение последовательности операций способа извлечения информации в соответствии с одним вариантом реализации настоящего изобретения;

[0028] Фиг. 13 является иллюстрацией системы в соответствии с одним вариантом реализации настоящего изобретения.

[0029] Чтобы облегчить понимание, на чертежах для обозначения могут использоваться идентичные цифры для обозначения идентичных по существу элементов, встречающихся на разных чертежах. При необходимости к ним могут добавляться буквенно-цифровые индексы и/или суффиксы, чтобы различать такие элементы.

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИ ИЗОБРЕТЕНИЯ

[0030] Задачи, признаки и преимущества настоящего изобретения будут рассмотрены ниже со ссылкой на машинную (то есть программируемую) интерпретацию текстовой информации (то есть, информации, содержащейся в текстовых документах), доступной в электронном виде на одном из естественных языков (исходных языках). Было предусмотрено, что по меньшей мере части настоящего изобретения также могут использоваться для анализа документов других типов (например, документов, содержащих буквенно-цифровые данные, многоязычных документов и т.д.).

[0031] Выход (или желательный результат) механизма извлечения в соответствии с настоящим изобретением представляет собой RDF-граф. Цель RDF (Resource Definition Framework) заключается в назначении каждому отдельному информационному объекту уникального идентификатора и запись информации о нем в виде троек SPO. «S» обозначает субъект и содержит идентификатор соответствующего объекта, «Р» означает предикат и определяет некоторое свойство объекта, «О» обозначает объект и хранит значение этого свойства. Это значение может быть как примитивным типом данных (строкой, числом, булевым значением) или идентификатором другого объекта.

[0032] Все данные RDF согласуется с OWL-онтологией, которая является предопределенной и статической. Информация о ситуациях и события моделируется способом, который идеологически похож на способ, предложенный консорциумом W3C для моделирования N-арных отношений. Согласованность извлеченной информации с моделью предметной области является встроенной особенностью этой системы. Оно обеспечивается автоматически, во-первых, благодаря синтаксису правил извлечения и, во-вторых, с помощью процедур проверки, которые не допускают формирования онтологически некорректных данных.

[0033] Настоящая система и способ извлечения информации используют в качестве входных данных уже проанализированный синтаксическим парсером текст в виде совокупности синтактико-семантических деревьев. Совокупность синтаксико-семантических деревьев является результатом глубокого синтактико-семантического анализа исходного текста. Каждое такое [дерево] соответствует одному предложению текста. Синтактико-семантические деревья получают с помощью парсера, производящего анализ текста в соответствии со способом и системой, описанной в патенте США 8,078,450, который включен в настоящее описание посредством ссылки в полном объеме. Каждое дерево, соответствующее семантической структуре, имеет узлы, соответствующие словам исходного текста.

[0034] На Фиг. 1А показана последовательность этапов (100), выполняемых системой, в соответствии с которой на этапе (110) текстовый документ поступает в систему. На этапе (120) применяются средства семантического/синтаксического анализа для преобразования текстового документа в набор (130) независимых от естественного языка документа семантико-синтаксических структур и их деревьев, выборочно соответствующих предложениям документа. Затем на этапе (140) продукционные правила применяются к набору семантико-синтаксических деревьев для получения набора утверждений (150) об объектах. Информация об этих объектах содержится в исходном тексте. Созданный набор утверждений должен быть непротиворечивым, поэтому был разработан специальный алгоритм для формирования набора утверждений, при этом упомянутый набор утверждений был назван «мешком утверждений». «Мешок утверждений» показан (150) на Фиг. 1А. Затем сформированный «мешок утверждений» используется в качестве входа для построения RDF-графа на этапе (160). Результатом метода извлечения информации является построенный RDF-граф (170).

[0035] Фиг. 1В иллюстрирует часть предлагаемого способа, относящуюся к семантико-синтаксическому анализу (120). Этот анализ (120) выполняется парсером, он приводит к построению глубокой независимой от языка структуре, которая может быть применима в различных приложениях, например, в системах машинного перевода. Система извлечения информации также использует глубинную, независимую от языка структуру, что делает правила более обобщенными и универсальными. Тем не менее, синтаксис правил позволяет системе использовать поверхностные свойства синтаксического дерева.

[0036] Обратимся к Фиг. 1В, где на входе имеется исходный документ. Если исходный документ имеет формат изображения (например,.pdf или.tiff), то любой нетекстовый документ должен быть обработан с помощью метода оптического распознавания символов (OCR) или преобразован в текстовый документ с помощью другого метода конвертации.

[0037] На этапе (114) выполняется лексико-морфологический анализ каждого предложения исходного документа (112) для выявления морфологических значений слов в предложениях; каждое предложение делится на лексические элементы, после чего определяются их леммы (начальные или основные формы), а также соответствующие варианты грамматического значения. Обычно для каждого такого элемента выявляется множество вариантов, как следствие омонимии и совпадения словоформ с различными грамматическими значениями. Схематический пример результата этапа (114) для предложения «This boy is smart, he′ll succeed in life» (Этот мальчик умный, он добьется успеха в жизни) показан на Фиг. 2В.

[0038] Лексико-морфологический анализ исходного предложения производится для построения лексико-морфологической структуры исходного предложения. Затем производится синтаксический анализ - это двухступенчатый анализ, включающий грубый синтаксический анализ исходного предложения для построения графа обобщенных составляющих на этапе (115), который активизирует синтаксические модели одного или более потенциальных лексических значений конкретного слова и устанавливает все потенциальные поверхностные связи в предложении. Этот этап приводит к построению структуры данных, которая называется «графом обобщенных составляющих». После этапа (116), на котором происходит точный синтаксический анализ на графе обобщенных составляющих для построения по меньшей мере одной синтаксической структуры в виде дерева, выполняется этап (117) получения независящей от языка семантической структуры. Этот процесс подробно описан в заявке U.S. Patent Application Ser. №11/548214, поданной 10 октября 2006 г., на основании которой был выдан патент США 8,078,450, включенный в это описание посредством ссылки во всей полноте. В общем случае создается несколько таких структур, что вызвано в основном существованием различных вариантов для лексического выбора. Каждый вариант синтаксической структуры характеризуется собственным весом; структуры сортируются от более вероятных к менее вероятным.

[0039] Наконец, на этапе (117) происходит переход от выбранного наилучшего синтаксического дерева к независимой от языка семантической структуре (118), причем узлы структуры (118) являются семантическими классами, а связи отражают семантические отношения.

[0040] Ниже приведено описание набора упомянутых лингвистических описаний и подробностей отдельных этапов семантико-синтаксического анализа. На Фиг. 2А приведена схема, иллюстрирующая используемые языковые описания (210) в соответствии с одной из возможных реализаций изобретения. Языковые описания (210) включают морфологические описания (201), синтаксические описания (202), лексические описания (203) и семантические описания (204).

[0041] Фиг. 2А иллюстрирует языковые описания (210), в том числе морфологические описания (201), лексические описания (203), синтаксические описания (202) и семантические описания (204), а также отношения между ними. Среди них морфологические описания (201), лексические описания (203) и синтаксические описания (202) зависят от языка. Каждое из этих языковых описаний (210) может быть создано для каждого исходного языка, и все вместе они представляют собой модель исходного языка. Однако семантические описания (204) не зависят от языка, они используются для описания независимых от языка семантических признаков различных языков и для построения независимых от языка семантических структур.

[0042] Фиг. 3 иллюстрирует примеры морфологических описаний. Компоненты морфологических описаний (201) включают в том числе: описание словоизменения (310), грамматическую систему (320) (например, граммемы), описание словообразования (330) и т.д. Грамматическая система (320) представляет собой набор грамматических категорий, таких как, «Часть речи», «Падеж», «Род», «Число», «Лицо», «Возвратность», «Время», «Вид» и т.д. и их значения, в дальнейшем именуемые «граммемы», включая, например, имя прилагательное, имя существительное, глагол, и т.д.; именительный, винительный, родительный и т.д. падеж; женский, мужской, средний род и т.д. и т.п.

[0043] Описание словоизменения (310) показывает, как основная форма слова может меняться в зависимости от падежа, рода, числа, времени, и т.д., и в широком смысле оно включает в себя или описывает все возможные формы этого слова. Словообразование (330) описывает, какие новые слова могут быть созданы с участием этого слова (например, в немецком языке имеется множество составных слов). Граммемы - это единицы грамматических систем (320), граммемы могут использоваться для описания словоизменения (310) и словообразования (330).

[0044] При установлении синтаксических отношений для элементов исходного предложения используется составная модель. Составляющая может содержать группу соседних слов в предложении и вести себя как единое целое. Ядром составляющей является слово, она также может содержать дочерние составляющие на более низких уровнях. Дочерняя составляющая является зависимой составляющей и может быть прикреплена к другим составляющим (в качестве родительских составляющих) для построения синтаксических описаний исходного предложения.

[0045] Фиг. 4 иллюстрирует примеры синтаксических описаний. Компоненты синтаксических описаний (202) могут включать в том числе: поверхностные модели (410), описания поверхностных позиций (420), описания референциального и структурного контроля (456), описания управления и согласования (440), описание недревесного синтаксиса (450) и правила анализа (460). Синтаксические описания (202) используются для построения возможных синтаксических структур исходного предложения на данном исходном языке с учетом свободного линейного порядка слов, недревесных синтаксических явлений (например, согласование, эллипсис и т.д.), референциальных отношений и других соображений.

[0046] Поверхностные модели (410) представлены в виде совокупностей одной или более синтаксических форм («синтформ» (412)) для описания возможных синтаксических структур предложений, входящих в синтаксическое описание (202). Обычно лексическое значение языка связано с поверхностными (синтаксическими) моделями (410), которые представляют компоненты, возможные в том случае, когда лексическое значение играет роль «ядра» и включает набор поверхностных позиций дочерних элементов, описание линейного порядка, диатез и т.д.

[0047] Поверхностные модели (410) представлены синтформами (412). Каждая синтформа (412) может включать определенное лексическое значение, которое играет роль «ядра» и может дополнительно включать набор поверхностных позиций (415) своих дочерних составляющих, описание линейного порядка (416), диатезы (417), грамматические значения (414), описания управления и согласования (440), коммуникативные описания (480) в отношении ядра составляющей.

[0048] Описание линейного порядка (416) представлено в виде выражений линейного порядка, которые построены для выражения последовательности, и в которой различные поверхностные позиции (415) могут встречаться в предложении. Выражения линейного порядка могут включать имена переменных, имена поверхностных позиций, круглые скобки, граммемы, рейтинги и оператор «или» и т.д. Например, описание линейного порядка для простого предложения «Boys play football.» (Мальчики играют в футбол.) можно представить в виде «Подлежащее Ядро Прямое_Дополнение», где «Подлежащее» и «Прямое_Дополнение» являются именами поверхностных позиций (415), соответствующих порядку слов. Заполнители поверхностных позиций (415), указанные символами сущностей предложения, присутствуют в том же порядке для сущностей в выражениях линейного порядка.

[0049] Коммуникативные описания (480) описывают порядок слов в синтформе (412) с точки зрения коммуникативных актов, которые должны быть представлены в виде выражений коммуникативного порядка, похожих на выражения линейного порядка. Описание управления и согласования (440) содержит правила и ограничения на грамматические значения прикрепленных составляющих, которые используются во время синтаксического анализа.

[0050] Описания недревесного синтаксиса (450) связаны с обработкой различных языковых явлений, таких как эллипсис и согласование, они используются при трансформациях синтаксических структур, которые создаются на различных этапах анализа в различных вариантах реализации изобретения. Описания недревесного синтаксиса (450) среди прочего включают описание эллипсиса (452), описание сочинения (454), а также описание референциального и структурного контроля (456).

[0051] Правила анализа (460) как часть синтаксических описаний (202) могут включать в том числе: правила вычисления семантем (462) и правила нормализации (464). Несмотря на то, что правила анализа (460) используются на этапе семантического анализа, правила анализа (460) обычно описывают свойства конкретного языка, и они связаны с синтаксическими описаниями (202). Правила нормализации (464) обычно используются в качестве правил трансформации для описания трансформаций семантических структур, которые могут отличаться в разных языках.

[0052] На Фиг. 5 приведены примеры семантических описаний. Компоненты семантических описаний (204) не зависят от языка, они могут включать в том числе: семантическую иерархию (510), описания глубинных позиций (520), систему семантем (530) и прагматические описания (540).

[0053] Семантическая иерархия (510) состоит из семантических понятий (семантических сущностей) и именованных семантических классов, расположенных в иерархических взаимоотношениях типа "родитель-потомок". В общем случае дочерний семантический класс наследует большинство свойств своего прямого родителя и все родовые семантические классы. Например, семантический класс SUBSTANCE (вещество) является дочерним для семантического класса ENTITY (сущность) и родителем для семантических классов GAS (газ), LIQUID (жидкость), METAL (металл), WOOD MATERIAL (дерево) и т.д.

[0054] Каждый семантический класс в семантической иерархии (510) предоставляется с глубинной моделью (512). Глубинная модель (512) семантического класса представляет собой набор глубинных позиций (514), которые отражают семантические роли дочерних составляющих в различных предложениях с объектами семантического класса в качестве основной родительской составляющей, а также возможные семантические классы в качестве заполнителей глубинных позиций. Глубинные позиции (514) выражают семантические отношения, в том числе, например, «агент», «адресат», «инструмент», «количество» и т.д. Дочерний семантический класс наследует и уточняет глубинную модель (512) своего прямого родительского семантического класса.

[0055] Описания глубинных позиций (520) используются для описания общих свойств глубинных позиций (514), они отражают семантические роли дочерних составляющих в глубинных моделях (512). Описания глубинных позиций (520) также содержат грамматические и семантические ограничения заполнителей глубинных позиций (514). Свойства и ограничения глубинных позиций (514) и их возможных заполнителей очень похожи и зачастую бывают идентичны в разных языках. Таким образом, глубинные позиции (514) не зависят от языка.

[0056] Система семантем (530) представляет собой набор семантических категорий и семантем, которые представляют значения семантических категорий. В качестве примера семантическую категорию «DegreeOfComparison» (Степень сравнения) можно использовать для описания степени сравнения прилагательных, ее семантемами могут быть, например, «Positive» (Положительная), «ComparativeHigherDegree» (Сравнительная степень), «SuperlativeHighestDegree» (Превосходная степень) и др. Другой пример: семантическая категория «RelationToReferencePoint» (Отношение к некоторой исходной точке) может быть использована для описания порядка объектов или событий до (<<Previous>>) или после (<<Subsequent>>) точки отсчета. Это может быть порядок в пространстве или времени в широком смысле., В еще одном примере можно использовать семантическую категорию «EvaluationObjective» (Объективная оценка) для описания объективной оценки, такой как «Bad» (Плохой), «Good» (Хороший) и т.д.

[0057] Система семантем (530) включает независимые от языка семантические атрибуты, которые могут выражать не только семантические характеристики, но и стилистические, прагматические и коммуникативные характеристики. Некоторые семантемы можно использовать для выражения атомарного значения, которое находит регулярное грамматическое и (или) лексическое выражение в языке. По назначению и использованию систему семантем (530) можно разделить на различные виды, которые включают в том числе: грамматические семантемы (532), лексические семантемы (534) и классифицирующие грамматические (дифференцирующие) семантемы (536).

[0058] Грамматические семантемы (532) используются для описания грамматических свойств составляющих при преобразовании синтаксического дерева в семантическую структуру. Лексические семантемы (534) описывают конкретные свойства объектов (например, «быть плоским» или «являться жидкостью»), они используются в описаниях глубинных позиций (520) как ограничение заполнителей глубинных позиций (например, для глаголов «face (with)» (быть обращенным к) и «flood» (заливать), соответственно). Классифицирующие грамматические (дифференцирующие) семантемы (536) выражают дифференцирующие свойства объектов внутри одного семантического класса; например, в семантическом классе HAIRDRESSER (парикмахер) семантема <<RelatedToMen>> (Относится к мужчинам) присваивается лексическому значению «barber» (цирюльник), в отличие от других лексических значений, которые также относятся к этому классу, например, «hairdresser» (парикмахер), «hairstylist» (стилист по прическам) и т.д.

[0059] Следует отметить, что важная особенность системы и способа настоящего изобретения заключается в использовании в правилах извлечения информации из документа универсальных и независящих от языка особенностей, таких как семантические описания - семантические классы, семантемы и т.п.

[0060] Прагматические описания (540) позволяет системе назначить соответствующую тему, стиль или жанр для текстов и объектов семантической иерархии (510). Например, «Экономика», «Внешняя политика», «Юстиция», «Законодательство», «Торговля», «Финансы» и т.д. Прагматические свойства также могут выражаться при помощи семантемам. Например, прагматический контекст может приниматься во внимание при семантическом анализе.

[0061] Фиг. 6 иллюстрирует примеры лексических описаний. Лексические описания (203) представляют собой лексико-семантический словарь (604), включающий множество лексических значений (612) конкретного языка, каждое из которых имеет свое семантическое значение (610) и грамматическое значение (608). Для каждого лексического значения (612) имеется связь (602) с его независимым от языка семантическим предком, чтобы указать положение того или иного заданного лексического значения в семантической иерархии (510).

[0062] Каждое лексическое значение (612) связано со своей глубинной моделью (512), которая описывается независимыми от языка терминами, и с поверхностной моделью (410), в конкретном языке. Диатезы можно использовать в качестве «интерфейса» между поверхностными моделями (410) и глубинными моделями (512) для каждого лексического значения (612). Каждой поверхностной позиции (415) в каждой синтформе (412) поверхностных моделей (410) можно сопоставить одну или более диатез (417).

[0063] В то время как поверхностная модель (410) описывает синтаксические роли заполнителей поверхностных позиций, глубинная модель (512) обычно описывает их семантические роли. Описание глубинной позиции (520) выражает семантический тип возможного заполнителя, отражает реальные аспекты ситуаций, свойства или атрибуты объектов, обозначенных словами любого естественного языка. Каждое описание глубинной позиции (520) не зависит от языка, поскольку в различных языках используется одна и та же глубинная позиция для описания аналогичных семантических отношений или выражения подобных аспектов ситуаций, и, как правило, заполнители глубинных позиций (514) обладают одними и теми же семантическими свойствами даже в разных языках. Каждое лексическое значение (612) лексического описания языка наследует семантический класс от своего родителя и настраивает свою глубинную модель (512).

[0064] На Фиг. 2В показаны основные этапы процесса семантико-синтаксического анализа. Кроме того, на Фиг. 7 показана последовательность структур данных, формируемых в ходе такого анализа.

[0065] Предварительно на этапе (212) исходное предложение на исходном языке подвергается лексико-морфологическому анализу для построения лексико-морфологической структуры (722) исходного предложения. Лексико-морфологическая структура (722) представляет собой набор всех возможных пар «лексическое значение - грамматическое значение» для каждого лексического элемента (слова) в предложении. Пример такой структуры приведен на Фиг. 2В.

[0066] Затем проводится первый этап синтаксического анализа в лексико-морфологической структуре - грубый синтаксический анализ (115) исходного предложения для построения графа обобщенных составляющих (732). В процессе грубого синтаксического анализа (115) к каждому элементу лексико-морфологической структуры (722) применяются все возможные синтаксические модели для этого лексического значения, они проверяются для того, чтобы найти все потенциальные синтаксические связи в этом предложении, которые выражаются в графе обобщенных составляющих (732).

[0067] Граф обобщенных составляющих (732) представляет собой ациклический граф, узлами котором являются обобщенные (это означает, что они хранят все варианты) лексические значения слов в предложении, а ветви - это поверхностные (синтаксические) позиции, выражающие различные типы отношений между объединенными лексическими значениями. Все возможные поверхностные синтаксические модели активируются для каждого элемента лексико-морфологической структуры предложения в качестве потенциального ядра составляющих. Затем все возможные составляющие строятся и обобщаются в графе обобщенных составляющих (732). Соответственно, рассматриваются все возможные синтаксические модели и синтаксические структуры исходного предложения (212), и в результате на основе набора обобщенных составляющих строится граф обобщенных составляющих (732). Граф обобщенных составляющих (732) на уровне поверхностной модели отражает все потенциально возможные связи между словами исходного предложения (212). Поскольку количество вариаций синтаксического разбора в общем случае может оказаться большим, граф обобщенных составляющих (732) является избыточным, он имеет большое число вариантов как в отношении выбора лексического значения для вершины, так и в отношении выбора поверхностных позиций для дуг графа.

[0068] Граф обобщенных составляющих (732) изначально строится как дерево от листов к корневому узлу (снизу вверх). Составляющие строятся снизу вверх путем добавления дочерних составляющих к родительским составляющим, заполняя поверхностные позиции (415) родительских составляющих для того, чтобы охватить все начальные лексические единицы исходного предложения (212).

[0069] Корень дерева, являющийся основной вершиной графа (732), обычно представляет предикат. В ходе этого процесса дерево обычно становится графом, поскольку компоненты более низкого уровня (листья) могут включаться в различные составляющие более высокого уровня (корень). Составляющие, построенные для одних и тех же составляющих лексико-морфологической структуры, могут быть впоследствии обобщены для создания обобщенных составляющих. Составляющие обобщаются на основе лексических значений (612) или грамматических значений (414), например, для значений одних и тех же частей речи. На Фиг. 8 показан схематический пример графа обобщенной составляющей для упомянутого выше предложения «This boy is smart, he′ll succeed in life» (Этот мальчик умный, он добьется успеха в жизни).

[0070] Точный синтаксический анализ (116) выполняется для выделения синтаксического дерева (742) из графа обобщенных составляющих (732). Строится одно или более синтаксических деревьев, и для каждого из них вычисляется интегральная оценка на основе использования набора априорных и вычисляемых оценок, затем дерево с наилучшей оценкой выбирается для построения наилучшей синтаксической структуры (746) исходного предложения. Синтаксические деревья формируются в процессе выдвижения и проверки гипотез о возможной синтаксической структуре предложения, в этом процессе гипотезы о структуре частей предложения формируются в рамках гипотезы о структуре всего предложения.

[0071] Во время конвертации из выбранного дерева в синтаксическую структуру (746) устанавливаются недревесные связи. Если невозможно установить недревесные связи, то выбирается следующее синтаксическое дерево с наивысшим рангом и производится попытка использовать его для формирования недревесных связей. Результатом точного анализа является "лучшая" синтаксическая структура (746) анализируемого предложения.

[0072] На этапе (117) производится переход к независимой от языка семантической структуре (218), которая выражает смысл предложения на основе универсальных, не зависимых от языка понятий. Независимая от языка семантическая структура предложения представлена в виде ациклического графа (деревьев, дополненных недревесными связями), причем все слова на конкретном языке заменяются универсальными (независимыми от языка) семантическими сущностями, называемыми в этом документе «семантическими классами». Этот переход осуществляется с помощью семантических описаний (510) и правил анализа (460), которые формируют структуру в виде дерева или графа с верхним узлом, в котором узлы соответствуют семантическим классам, имеющим набор атрибутов (атрибуты выражают лексические, синтаксические и семантические свойства конкретных слов в исходном предложении), а дуги являются глубинными (семантическими) отношениями между словами (вершинами), которые они соединяют.

[0073] Построение языковой семантической структуры (117) завершается на этапе (118) построения семантической структуры. На Фиг. 9 показан пример синтаксической структуры исходного предложения на английском языке «This boy is smart, he′ll succeed in life» (Этот мальчик умный, он добьется успеха в жизни), а на Фиг. 10 показана соответствующая семантическая структура.

[0074] Аннотированный RDF-граф формируется на самом окончательном этапе процесса извлечения информации, в то время как во время процесса используется более сложная структура для хранения информации. Эту структуру можно описать как совокупность непротиворечивых утверждений об информационных объектах и их свойствах, это так называемый «мешок утверждений».

[0075] Упомянутый выше аннотированный RDF-граф также можно рассматривать как мешок утверждений, если каждая тройка SPO и каждая связь от объекта к сегменту текста считается утверждением об этом объекте. Однако, существует различие между структурой для хранения временной информации (внутренней структурой) и конечной продукцией в форме RDF-графа. Основное различие заключается в том, что утверждения из внутренней структуры могут использоваться для создания функциональных зависимостей, т.е. некоторые утверждения могут зависеть от наличия других свойств и/или зависимостей. Например, множество значений определенного свойства объекта может содержать набор значений какого-либо другого свойства другого объекта. Если набор значений второго объекта изменяется, то свойство первого объекта также изменяется. Такие утверждения (которые используют функциональные зависимости) далее называются «динамическими утверждениями». Еще одно отличие внутренней структуры заключается в том, что она может содержать некоторые дополнительные утверждения,

Способ и система для машинного извлечения и интерпретации текстовой информации

Патент 2592396