Извлечение информации из смысловых блоков документов с использованием микромоделей на базе онтологии

Иллюстрации

Показать все

Изобретение в целом относится к обработке текстов на естественном языке, а в частности - к извлечению информации из смысловых блоков документов с использованием микромоделей на базе онтологии. Техническим результатом является повышение скорости и качества извлечения информации за счет использования микромоделей онтологии для отдельных частей документа. В способе извлечения информации из документов, содержащих текст на естественном языке, идентифицируют в тексте смысловой блок, относящийся к заданной категории. Выполняют лексический анализ множества слов смыслового блока с целью построения множества лексических структур, содержащих информацию о лексических значениях слов и соответствующих семантических классах, представляющих смысловой блок. Идентифицируют микромодель для извлечения информации, относящейся к заданной категории, причем микромодель включает множество продукционных правил, связанных с онтологией. Применяют продукционные правила микромодели с целью извлечения информационных объектов, связанных с соответствующим семантическим классом, соответствующим концепту онтологии. 3 н. и 19 з.п. ф-лы, 13 ил.

Реферат

ОБЛАСТЬ ИЗОБРЕТЕНИЯ

[0001] Настоящее изобретение в целом относится к обработке текстов на естественном языке, а в частности - к извлечению информации из смысловых блоков документов с использованием микромоделей на базе онтологии.

УРОВЕНЬ ТЕХНИКИ

[0002] Извлечение информации может предусматривать анализ текста на естественном языке с целью выявления информационных объектов, - к примеру, именованных сущностей, - и отношений между выявленными именованными сущностями и другими информационными объектами.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

[0003] В соответствии с одним или более вариантами реализации настоящего изобретения, пример способа извлечения информации из смысловых блоков документов с использованием микромоделей на базе онтологии может включать: идентификацию в тексте на естественном языке смыслового блока, относящегося к заданной категории; выполнение лексического анализа множества слов смыслового блока текста на естественном языке с целью построения множества лексических структур, содержащих информацию о лексических значениях слов и соответствующих семантических классах, представляющих смысловой блок текста на естественном языке; идентификацию микромодели для извлечения информации, относящейся к заданной категории, при этом микромодель для извлечения информации включает множество продукционных правил, связанных с онтологией; а также применение продукционных правил идентифицированной микромодели с целью извлечения информационных объектов, каждый из которых связан с соответствующим семантическим классом, соответствующим концепту онтологии.

[0004] В соответствии с одним или более вариантами реализации настоящего изобретения, пример системы для извлечения информации из смысловых блоков документов с использованием микромоделей на базе онтологии может включать память и процессор, соединенный с памятью, настроенный на выполнение следующих операций: идентификацию в тексте на естественном языке смыслового блока, относящегося к заданной категории; выполнение лексического анализа множества слов смыслового блока текста на естественном языке с целью построения множества лексических структур, содержащих информацию о лексических значениях слов и соответствующих этим словам семантических классах, представляющих смысловой блок текста на естественном языке; идентификацию микромодели для извлечения информации, относящейся к заданной категории, при этом микромодель для извлечения информации включает множество продукционных правил, связанных с онтологией; а также применение продукционных правил идентифицированной микромодели с целью извлечения информационных объектов, каждый из которых связан с соответствующим семантическим классом, соответствующим концепту онтологии.

[0005] В соответствии с одним или более вариантами реализации настоящего изобретения, пример постоянного машиночитаемого носителя данных может включать исполняемые команды, обеспечивающие выполнение вычислительной системой следующих операций: идентификацию в тексте на естественном языке смыслового блока, относящегося к заданной категории; выполнение лексического анализа множества слов смыслового блока текста на естественном языке с целью создания множества лексических структур, содержащих информацию о лексических значениях слов и соответствующих этим словам семантических классах, представляющих смысловой блок текста на естественном языке; идентификацию микромодели для извлечения информации, относящейся к заданной категории, при этом микромодель для извлечения информации включает множество продукционных правил, связанных с онтологией; а также применение продукционных правил идентифицированной микромодели с целью извлечения информационных объектов, каждый из которых связан с соответствующим семантическим классом, соответствующим концепту онтологии.

[0006] Технический результат от внедрения изобретения состоит в повышении скорости и качества извлечения информации за счет использования микромоделей онтологии для отдельных частей документа.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0007] Настоящее изобретение иллюстрируется с помощью примеров, а не методом ограничения, его можно лучше понять при рассмотрении приведенного ниже подробного описания в сочетании с чертежами, на которых:

[0008] На Фиг. 1 изображена блок-схема взятого в качестве примера способа извлечения информации из смысловых блоков документа с использованием микромоделей на базе онтологии в соответствии с одним или более вариантами реализации настоящего изобретения;

[0009] На Фиг. 2 приведена блок-схема одного описанного в иллюстративном примере способа выполнения семантико-синтаксического анализа предложения на естественном языке в соответствии с одним или более вариантами реализации настоящего изобретения.

[00010] На Фиг. 3 схематически показан пример лексико-морфологической структуры предложения в соответствии с одним или более вариантами реализации настоящего изобретения.

[00011] На Фиг. 4 схематически показаны языковые описания, представляющие модель естественного языка в соответствии с одним или более вариантами реализации настоящего изобретения.

[00012] На Фиг. 5 схематически показаны примеры морфологических описаний в соответствии с одним или более вариантами реализации настоящего изобретения.

[00013] На Фиг. 6 схематически показаны примеры синтаксических описаний в соответствии с одним или более вариантами реализации настоящего изобретения.

[00014] На Фиг. 7 схематически показаны примеры семантических описаний в соответствии с одним или более вариантами реализации настоящего изобретения.

[00015] На Фиг. 8 схематически показаны примеры лексических описаний в соответствии с одним или более вариантами реализации настоящего изобретения.

[00016] На Фиг. 9 схематически показаны примеры структур данных, которые могут использоваться на практике при воплощении одного или более способов в соответствии с одним или более вариантами реализации настоящего изобретения.

[00017] На Фиг. 10 схематически показан пример графа обобщенных составляющих в соответствии с одним или более вариантами реализации настоящего изобретения.

[00018] На Фиг. 11 дан пример синтаксической структуры, соответствующей предложению, приведенному в качестве примера на Фиг. 10.

[00019] На Фиг. 12 изображена одна из семантических структур, соответствующих синтаксической структуре, представленной на Фиг. 11.

[00020] На Фиг. 13 изображена схема описанной в примере вычислительной системы, в которой реализованы способы, изложенные в настоящем описании изобретения.

ПОДРОБНОЕ ОПИСАНИЕ

[00021] В настоящем документе описываются способы и системы для извлечения информации из смысловых блоков документа с использованием микромоделей на базе онтологии. «Смысловыми блоками» в настоящем изобретении называются части документа, относящиеся к определенной теме и/или описывающие определенные вопросы или проблемы, и/или имеющие определенные семантические связи между информационными объектами таких частей документа. Описанные в настоящем документе системы и способы могут быть использованы в разнообразных приложениях обработки естественного языка, включая информационный поиск, извлечение информации, машинный перевод, семантическую индексацию, семантический поиск (включая многоязычный семантический поиск), классификацию или кластеризацию документов, фильтрацию текстов, электронные исследования и др.

[00022] Примеры извлечения информации включают извлечение сущностей и извлечение фактов. Распознавание именованных сущностей (NER) представляет собой задачу по извлечению информации, в ходе выполнения которой производится определение токенов в тексте на естественном языке и классификация их по заранее определенным категориям, таким как имена людей, названия организаций, географические названия, представление времени, количества, денежные суммы, проценты и т.д. «Извлечение фактов» представляет собой задачу извлечения информации, с помощью которой выявляются связи между извлеченными информационными объектами (сущностями). Примерами таких связей могут быть работа лица X в организации Y, расположение объекта А в географической точке В, приобретение организацией N организации М и т.д.

[00023] Информационный объект может представлять собой объект реального мира (к примеру, лицо или предмет) и/или определенную характеристику, связанную с одним или более объектами реального мира (к примеру, измеримый атрибут или качественную характеристику). Извлеченные именованные сущности, иные информационные объекты и их связи могут быть представлены концептами заданной или динамически выстраиваемой онтологии. В контексте настоящего изобретения «онтология» - это иерархическая модель, представляющая концепты (например, классы информационных объектов), относящиеся к определенной области знаний (теме) и связи между такими концептами и/или связанными информационными объектами. Онтология также может уточнять некоторые атрибуты, связанные с каждым концептом соответствующих информационных объектов.

[00024] В некоторых вариантах реализации при выполнении задач извлечения информации может применяться множество продукционных правил, связанных с определенной онтологией. Продукционные правила могут интерпретировать лексические и/или семантические структуры, представляющие текст на естественном языке, и давать в результате определения информационных объектов и их связей, что описано более подробно ниже в настоящем документе. Множество продукционных правил и связанная онтология в настоящем документе называются «модель извлечения информации на базе онтологии».

[00025] Эффективность процесса извлечения может быть повышена за счет применения моделей извлечения информации на базе онтологии, учитывающих классификацию и структуру документа. По результатам классификации документ может быть отнесен к одной или более категорий с учетом содержимого и/или структуры документа. Структура документа может определять части документа, их порядок, внутреннюю структуру и т.д. В иллюстративном примере все документы, относящиеся к категории «договоры», будут включать определения сторон по договору, даты вступления договора в силу, существенных условий, применимого законодательства и юрисдикции.

[00026] В соответствии с одним или более вариантами реализации настоящего изобретения, извлечению информации может способствовать применение моделей, специфичных для конкретной части документа, или микромоделей. Такая микромодель может включать в себя онтологию и множество продукционных правил, специально предназначенных для обработки определенного смыслового блока документа на естественном языке, что описано более подробно ниже в настоящем документе. Технический результат от внедрения изобретения состоит в повышении скорости и качества извлечения информации за счет использования микромоделей онтологии для отдельных частей документа.

[00027] Системы и способы, представленные в настоящем документе, могут быть реализованы аппаратно (например, с помощью универсальных и/или специализированных устройств обработки и/или иных устройств и соответствующих электронных схем), программно (например, с помощью команд, выполняемых устройством обработки) или сочетанием этих подходов. Различные варианты реализации упомянутых выше способов и систем подробно описаны ниже в этом документе на примерах, без каких бы то ни было ограничений.

[00028] На Фиг. 1 изображена блок-схема взятого в качестве примера способа извлечения информации из смысловых блоков документа с использованием микромоделей на базе онтологии в соответствии с одним или более вариантами реализации настоящего изобретения. Метод 100 и/или каждая из его отдельных функций, процедур, подпрограмм или операций может быть реализована с помощью одного или более процессоров вычислительной системы (например, вычислительной системы 100 на Фиг. 1), в которой реализован этот способ. В некоторых вариантах реализации способ 100 может осуществляться в одном потоке обработки. При альтернативном подходе способ 100 может осуществляться с использованием двух или более потоков обработки, при этом в каждом потоке реализована одна или несколько отдельных функций, процедур, подпрограмм или действий этого способа. В одном из иллюстративных примеров потоки обработки, в которых реализован способ 100, могут быть синхронизированы (например, с использованием семафоров, критических секций и/или других механизмов синхронизации потоков). При альтернативном подходе потоки обработки, в которых реализован способ 100, могут выполняться асинхронно по отношению друг к другу. Таким образом, несмотря на то, что Фиг. 1 и соответствующее описание содержат список операций для способа 100 в определенном порядке, в различных вариантах осуществления способа, как минимум, некоторые из описанных операций могут выполняться параллельно и/или в случайно выбранном порядке.

[00029] На шаге 110 вычислительная система, осуществляющая способ 100, может получать один или более исходных документов, содержащих текст на естественном языке 101. В различных иллюстративных примерах текст на естественном языке, подлежащий обработке способом 100, может извлекаться из одного или более электронных документов, которые могут создаваться путем сканирования (или другим способом получения изображений бумажных документов) и оптического распознавания символов (OCR), для формирования текстов на естественном языке. Текст на естественном языке также может извлекаться из других различных источников, включая сообщения, отправляемые по электронной почте, тексты из социальных сетей, файлы с цифровым содержимым, обработанные с использованием способов распознавания речи и т.д.

[00030] На шаге 120 вычислительная система может выявить один или более смысловых блоков в каждом из одного или более исходных документов на естественном языке. Смысловой блок может содержать одно или более семантически связанных слов и/или предложений на естественном языке, которые, как вариант, могут быть отделены от другого смыслового блока определенными элементами форматирования. Термин «смысловой» в настоящем документе используется для подчеркивания того факта, что используемое в настоящем изобретении понятие части документа не обязательно может опираться на физическую структуру документа, форматирование и т.д., и может основываться только на определенных семантических связях подчиненных информационных объектов. В различных иллюстративных примерах смысловой блок может быть представлен «шапкой» документа, сторонами договора, существенными условиями договора, применимым законодательством и юрисдикцией, обязательной статьей об арбитраже, датой вступления в силу и подписями сторон.

[00031] В иллюстративном примере один или более смысловых блоков документа могут быть идентифицированы за счет идентификации в документе одного или более заданных слов, пунктуаторов, предложений или групп предложений, особенностей форматирования (например, размер шрифта, верхний или нижний колонтитул документа, визуальный разделитель, разрыв страницы и т.д.), и/или их сочетания. В другом иллюстративном примере идентификацию одного или более смысловых блоков может выполнять пользователь через графический интерфейс пользователя (GUI). В другом иллюстративном примере вводимые пользователем через графический интерфейс пользователя данные могут быть применены для валидации автоматически выполняемой идентификации смысловых блоков исходного документа.

[00032] В некоторых вариантах реализации один или более смысловых блоков документа могут быть идентифицированы с помощью модели классификатора, основанной на оценке множества признаков каждого блока документа (например, частотность определенных слов,, пунктуаторов, предложений, особенностей форматирования и/или их сочетание). Такая модель классификатора может быть создана методами машинного обучения, которые могут подразумевать установление значений определенных параметров модели классификатора, исходя из существовавшего ранее или динамически создаваемого набора данных, сопоставляющего определенные признаки смысловых блоков документа с соответствующими категориями. Такие методы могут включать методы дифференциальной эволюции, генетические алгоритмы, наивный классификатор Байеса, методы случайного леса, нейросети и т.д.

[00033] На шаге 130 вычислительная система может идентифицировать микромодель извлечения информации на базе онтологии, соответствующую одному или более смысловым блоками исходного документа. Микромодель может включать в себя множество связанных с онтологией продукционных правил. Продукционные правила могут быть специально предназначены для обработки определенного смыслового блока документа на естественном языке с целью извлечения информационных объектов и их связей, и для связи каждого извлеченного информационного объекта с семантическими классами, соответствующими концепту онтологии. В иллюстративном примере две или более микромоделей для обработки различных смысловых блоков документов на естественном языке могут использовать одну онтологию. Как вариант, каждая микромодель может основываться на отдельной онтологии.

[00034] В некоторых реализациях продукционные правила могут работать на лексических структурах, представляющих слова анализируемого блока документа. Поэтому на шаге 140 вычислительная система может выполнить лексический анализ идентифицированных смысловых блоков исходного документа, который может включать выполнение для каждого предложения на естественном языке лексико-морфологического анализа, более подробно описанного ниже со ссылкой на Фиг. 3. В ходе лексико-морфологический анализа может создаваться множество лексических структур, таким образом, что каждая лексическая структура представляет слово, анализируемого блока документа. Каждая лексическая структура может идентифицировать лексическое значение и семантический класс, связанный со словом представленным данной лексической структуры.

[00035] В альтернативном методе реализации, продукционные правила могут работать на семантико-синтаксических структурах, представляющих анализируемый блок документа. Таким образом, с помощью вычислительной системы, на шаге 150, опционально (соответсвтенно отмечено пунктиром) может быть выполнен семантико-синтаксический анализ идентифицированного блока обрабатываемого документа. Семантико-синтаксический анализ может включать выполнение для каждого предложения на естественном языке лексико-морфологического анализа, а затем грубого синтаксического анализа и обработку полученных синтаксических деревьев с целью получения семантико-синтаксической структуры, соответствующей предложению, как подробнее описано ниже в настоящем документе со ссылкой на Фиг. 2-12. Каждая семантико-синтаксическая структура, полученная в результате семантико-синтаксического анализа, может быть представлена ациклическим графом, который включает множество узлов, соответствующих семантическим классам, и множество ребер, соответствующих семантическим отношениям.

[00036] На шаге 1560 вычислительная система может выполнить интерпретацию лексических и/или семантико-синтаксических структур с использованием множества продукционных правил и/или онтологии определенной микромодели. Продукционные правила могут включать правила интерпретации и правила идентификации. Правило интерпретации может содержать левую часть, представленную набором логических выражений, определенных на одном или более шаблонах лексической или семантической структуры, и правую часть, представленную одним или более утверждениями относительно информационных объектов, представляющих сущности, на которые имеется ссылка в тексте на естественном языке.

[00037] Шаблон лексической структуры может содержать несколько лексических элементов (например, наличие определенной графемы или семантемы и т.д.). Шаблон семантической структуры может содержать некоторые элементы семантической структуры (например, принадлежность к связанному с микромоделью концепту онтологии, нахождение в некоторой поверхностной или глубинной позиции, наличие определенной граммемы или семантемы и т.д.). Отношения между элементами лексических или семантических структур могут задаваться с помощью одного или более логических выражений (конъюнкция, дизъюнкция и отрицание) и/или операций, характеризующих взаимное расположение узлов в семантико-синтаксическом дереве. В одном из иллюстративных примеров такая операция может проверять один из узлов на принадлежность к поддереву другого узла.

[00038] В результате наложения шаблона, определяемого левой частью продукционного правила, на лексическую или семантическую структуру, представляющую, по меньшей мере, часть предложения в тексте на естественном языке, может быть приведена в действие правая часть продукционного правила. Правая часть продукционного правила может устанавливать ассоциативную связь между одним или более атрибутами (отражающими лексические, синтаксические и/или семантические свойства слов из первоначального предложения) и информационными объектами, представленными узлами. В одном из иллюстративных примеров правая часть правила интерпретации может содержать утверждение, связывающее токен из текста на естественном языке со связанным с микромоделью концептом онтологии.

[00039] Правило идентификации может использоваться для установления ассоциативной связи для пары информационных объектов, которые представляют одну и ту же сущность из реального мира. Левая часть правила идентификации включает одно или более логических выражений, ссылающихся на узлы семантического дерева, соответствующие информационным объектам. Если указанная пара информационных объектов удовлетворяет условиям, заданным логическими выражениями, то происходит слияние информационных объектов в один информационный объект.

[00040] Таким образом, интерпретация лексических или семантико-синтаксических структур с использованием множества продукционных правил может дать множество информационных объектов и их связей. В некоторых вариантах реализации изобретения вычислительная система может представлять информационные объекты и их отношения в виде графа RDF (Resource Definition Framework - среда определения ресурса). В среде RDF каждому информационному объекту присваивается уникальный идентификатор и информация о таком объекте сохраняется в виде наборов из трех элементов (триплетов) SPO, где S означает «субъект» и содержит идентификатор объекта, Р означает «предикат» и определяет некоторое свойство этого объекта, а О означает «объект» и хранит в себе значение рассматриваемого свойства данного объекта. Это значение может быть либо примитивным типом данных (примеры - строка, число, булево (логическое) значение), либо идентификатором другого объекта. В одном из иллюстративных примеров триплет SPO может задавать ассоциативную связь между токеном из текста на естественном языке и категорией именованных сущностей.

[00041] На шаге 170, который в некоторых вариантах реализации способа может быть опущен, (соответственно отмечено пунктиром), вычислительная система может отобразить извлеченные информационные объекты и их связи блоком текста на естественном языке, из которого были извлечены информационные объекты. Далее вычислительная система может принять вводимые пользователем данные с подтверждением или изменением извлеченных информационных объектов и/или их связей. В определенных вариантах реализации вводимые пользователем данные могут использоваться для обновления обучающей выборки данных, применяющейся для изменения параметров модели классификатора, используемых для классификации смысловых блоков документа; вводимые пользователем данные также могут использоваться для изменения связанной микромодели.

[00042] На шаге 180 блок-схемы вычислительная система может использовать извлеченные информационные объекты и факты для выполнения самых разных задач обработки текстов на естественном языке - к примеру, задач машинного перевода, семантического поиска, классификации документов, кластеризации, фильтрации текста и т.д. После выполнения описанных со ссылками на шаг 180 операций выполнение способа может завершиться.

[00043] На Фиг. 2 приведена блок-схема одного иллюстративного примера способа 200 проведения семантико-синтаксического анализа предложения на естественном языке 212, в соответствии с одним или более вариантами реализации настоящего изобретения. Способ 200 может быть применен к одной или более синтаксическим единицам (например, предложениям), включенным в определенный текстовый корпус, для формирования множества семантико-синтаксических деревьев, соответствующих синтаксическим единицам. В различных иллюстративных примерах предложения на естественном языке, подлежащие обработке способом 200, могут извлекаться из одного или нескольких электронных документов, которые могут создаваться путем сканирования (или другим способом получения изображений бумажных документов) и оптического распознавания символов (OCR), для формирования текстов, соотнесенных с данными документами. Предложения на естественном языке также могут извлекаться из других различных источников, включая сообщения, отправляемые по электронной почте, тексты из социальных сетей, файлы с цифровым содержимым, обработанные с использованием способов распознавания речи и т.д.

[00044] На шаге 214 вычислительная система, реализующая данный способ, может проводить лексико-морфологический анализ предложения 212 для установления морфологических значений слов, входящих в состав предложения. В настоящем документе «морфологическое значение» слова означает одну или более лемм (т.е. канонических или словарных форм), соответствующих слову, и соответствующий набор значений грамматических признаков, которые определяют грамматическое значение слова. В число таких грамматических признаков могут входить лексическая категория слова и один или более морфологических признаков (например, падеж, род, число, спряжение и т.д.). Ввиду омонимии и/или совпадающих грамматических форм, соответствующих разным лексико-морфологическим значениям определенного слова, для данного слова может быть установлено два или более морфологических значений. Более подробное описание иллюстративного примера проведения лексико-морфологического анализа предложения приведено ниже в настоящем документе со ссылкой на Фиг. 3.

[00045] На шаге 215 вычислительное устройство может проводить грубый синтаксический анализ предложения 212. Грубый синтаксический анализ может включать применение одной или нескольких синтаксических моделей, которые могут быть соотнесены с элементами предложения 212, с последующим установлением поверхностных (т.е. синтаксических) связей в рамках предложения 212 для получения графа обобщенных составляющих. В настоящем документе "составляющая" означает группу соседних слов исходного предложения, функционирующую как одна грамматическая сущность. Составляющая включает в себя ядро в виде одного или более слов и может также включать одну или несколько дочерних составляющих на более низких уровнях. Дочерняя составляющая является зависимой составляющей, которая может быть соотнесена с одной или несколькими родительскими составляющими.

[00046] На шаге 216 вычислительное устройство может проводить точный синтаксический анализ предложения 212 для формирования одного или более синтаксических деревьев предложения. Среди различных синтаксических деревьев на основе определенной функции оценки с учетом совместимости лексических значений слов исходного предложения, поверхностных отношений, глубинных отношений и т.д. может быть отобрано одно или несколько лучших синтаксических деревьев, соответствующих предложению 212.

[00047] На шаге 217 вычислительное устройство может обрабатывать синтаксические деревья для формирования семантической структуры 218, соответствующей предложению 212. Семантическая структура 218 может включать множество узлов, соответствующих семантическим классам и также может включать множество дуг, соответствующих семантическим отношениям (более подробное описание см. ниже в настоящем документе).

[00048] Фиг. 3 схематически иллюстрирует пример лексико-морфологической структуры предложения в соответствии с одним или более аспектами настоящего изобретения. Пример лексико-морфологической структуры 300 может включать множество пар "лексическое значение - грамматическое значение" для примера предложения. В качестве иллюстративного примера, "11" может быть соотнесено с лексическим значением "shall" 312 и "will" 314. Грамматическим значением, соотнесенным с лексическим значением 312, является <Verb, GTVerbModal, ZeroType, Present, Nonnegative, Composite II>. Грамматическим значением, соотнесенным с лексическим значением 314, является <Verb, GTVerbModal, ZeroType, Present, Nonnegative, Irregular, Composite II>.

[00049] Фиг. 4 схематически иллюстрирует используемые языковые описания 210, в том числе морфологические описания 201, лексические описания 203, синтаксические описания 202 и семантические описания 204, а также отношения между ними. Среди них морфологические описания 201, лексические описания 203 и синтаксические описания 202 зависят от языка. Набор языковых описаний 210 представляет собой модель определенного естественного языка.

[00050] В качестве иллюстративного примера определенное лексическое значение в лексических описаниях 203 может быть соотнесено с одной или несколькими поверхностными моделями синтаксических описаний 202, соответствующих данному лексическому значению. Определенная поверхностная модель синтаксических описаний 202 может быть соотнесена с глубинной моделью семантических описаний 204.

[00051] Фиг. 5 схематически иллюстрирует несколько примеров морфологических описаний. В число компонентов морфологических описаний 201 могут входить: описания словоизменения 310, грамматическая система 320, описания словообразования 330 и другие. Грамматическая система 320 включает набор грамматических категорий, таких как часть речи, падеж, род, число, лицо, возвратность, время, вид и их значения (так называемые "граммемы"), в том числе, например, прилагательное, существительное или глагол; именительный, винительный или родительный падеж; женский, мужской или средний род и т.д. Соответствующие граммемы могут использоваться для составления описания словоизменения 310 и описания словообразования 330.

[00052] Описание словоизменения 310 определяет формы данного слова в зависимости от его грамматических категорий (например, падеж, род, число, время и т.д.) и в широком смысле включает в себя или описывает различные возможные формы слова. Описание словообразования 330 определяет, какие новые слова могут быть образованы от данного слова (например, сложные слова).

[00053] В соответствии с одним из аспектов настоящего изобретения при установлении синтаксических отношений между элементами исходного предложения могут использоваться модели составляющих. Составляющая представляет собой группу соседних слов в предложении, ведущих себя как единое целое. Ядром составляющей является слово, она также может содержать дочерние составляющие более низких уровней. Дочерняя составляющая является зависимой составляющей и может быть прикреплена к другим составляющим (родительским) для построения синтаксических описаний 202 исходного предложения.

[00054] На Фиг. 6 приведены примеры синтаксических описаний. В число компонентов синтаксических описаний 202 могут входить, среди прочего, поверхностные модели 410, описания поверхностных позиций 420, описание референциального и структурного контроля 456, описание управления и согласования 440, описание недревесного синтаксиса 450 и правила анализа 460. Синтаксические описания 202 могут использоваться для построения возможных синтаксических структур исходного предложения на заданном естественном языке с учетом свободного линейного порядка слов, недревесных синтаксических явлений (например, согласование, эллипсис и т.д.), референциальных отношений и других факторов.

[00055] Поверхностные модели 410 могут быть представлены в виде совокупностей одной или нескольких синтаксических форм («синтформ» 412) для описания возможных синтаксических структур предложений, входящих в состав синтаксического описания 202. В целом, лексическое значение слова на естественном языке может быть связано с поверхностными (синтаксическими) моделями 410. Поверхностная модель может представлять собой составляющие, которые возможны, если лексическое значение выступает в роли "ядра". Поверхностная модель может включать набор поверхностных позиций дочерних элементов, описание линейного порядка и (или) диатезу. В настоящем документе "диатеза" означает определенное отношение между поверхностными и глубинными позициями и их семантическими ролями, выражаемыми посредством глубинных позиций. Например, диатеза может быть выражаться залогом глагола: если субъект является агентом действия, глагол в активном залоге, а когда субъект является направлением действия, это выражается пассивным залогом глагола.

[00056] В модели составляющих может использоваться множество поверхностных позиций 415 дочерних составляющих и описаний их линейного порядка 416 для описания грамматических значений 414 возможных заполнителей этих поверхностных позиций. Диатезы 417 представляют собой соответствия между поверхностными позициями 415 и глубинными позициями 514 (как показано на Фиг. 8). Коммуникативные описания 480 описывают коммуникативный порядок в предложении.

[00057] Описание линейного порядка (416) может быть представлено в виде выражений линейного порядка, отражающих последовательность, в которой различные поверхностные позиции (415) могут встречаться в предложении. В число выражений линейного порядка могут входить наименования переменных, имена поверхностных позиций, круглые скобки, граммемы, оператор «or» (или) и т.д. В качестве иллюстративного примера описание линейного порядка простого предложения "Boys play football" можно представить в виде "Subject Core Object_Direct" (Подлежащее - Ядро - Прямое дополнение), где Subject (Подлежащее), Core (Ядро) и Object_Direct (Прямое дополнение) представляют собой имена поверхностных позиций 415, соответствующих порядку слов.

[00058] Коммуникативные описания 480 могут описывать порядок слов в синтформе 412 с точки зрения коммуникативных актов, представленных в виде коммуникативных выражений порядка, которые похожи на выражения линейного порядка. Описания управления и согласования 440 может включать правила и ограничения на грамматические значения присоединяемых составляющих, которые используются во время синтаксического анализа.

[00059] Описания не древесного синтаксиса 450 могут создаваться для отражения различных языковых явлений, таких как эллипсис и согласование, они используются при трансформациях синтаксических структур, которые создаются на различных этапах анализа в различных вариантах реализации изобретения. Описания недревесного синтаксиса 450 могут, среди прочего, включать описание эллипсиса 452, описания согласования 454, а также описания референциального и структурного контроля 430.

[00060] Правила анализа 460 могут описывать свойства конкретного языка и использоваться в рамках семантического анализа. Правила анализа 460 могут включать правила вычисления семантем 462 и правила нормализации 464. Правила нормализации 464 могут использоваться для описания трансформаций семантических структур, которые могут отличаться в разных языках.

[00061] На Фиг. 7 приведен пример семантических описаний. Компоненты семантических описаний 204 не зависят от языка и могут, среди прочего, включать семантическую иерархию 510, описания глубинных позиций 520, систему семантем 530 и прагматические описания 540.

[00062] Ядро семантических описаний может быть представлено семантической иерархией 510, в которую могут входить семантические понятия (семантические сущности), также называемые семантическими классами. Последние могут быть упорядочены в иерархическую структуру, отражающую отношения "родитель-потомок". В целом, дочерний семантический класс может унасл