Система и метод семантического поиска

Иллюстрации

Показать все

Изобретение относится к технологиям поиска. Техническим результатом является повышение точности поиска информации за счет обеспечения возможности получения пользователем только релевантных результатов поиска за счет использования семантических запросов. В способе организации поиска в корпусах электронных текстов для компьютерной системы предварительно осуществляют семантико-синтаксический анализ корпуса текстов с определением и сохранением в памяти значений лингвистических параметров предложений, включая сопоставление слов предложения некоторого множества возможных лексических значений - каждое с соответствующей оценкой вероятности вхождения этого лексического значения в предложение, и построением семантических структур предложений, составляющих тексты корпуса текстов, и их последующим индексированием и сохранением индексов. Осуществляют поиск фрагментов в предварительно проиндексированных корпусах электронных текстов, удовлетворяющих запросу. Производят оценку релевантности результатов и ранжируют результаты поиска в соответствии со степенью релевантности. 2 н. и 38 з.п. ф-лы, 25 ил.

Реферат

ОБЛАСТЬ ИЗОБРЕТЕНИЯ

Настоящее изобретение относится к технологиям поиска, в частности, реализация данного изобретения имеет отношение к поиску доступного электронного контента, например, в интернете и других электронных ресурсах, таких как текстовые корпуса, словари, глоссарии, энциклопедии и т.д.

УРОВЕНЬ ТЕХНИКИ

Широко известны поисковые технологии, которые позволяют генерировать результат поиска, основываясь на ключевых словах, вводимых пользователем в составе поискового запроса.

Однако, из-за омонимии и омографии, имеющейся в естественных языках, результат поиска, основанный на поиске по ключевым словам, может включать значительное количество нерелевантной и малорелевантной информации. Например, если пользователь ищет тексты, содержащие слово "page" в смысле "паж" (придворная должность), он получит множество нерелевантной информации, где "page" относится к интернет-страницам, страницам газет, журналов, страницам устройств памяти и т.д. Это происходит потому, что эти значения гораздо более частотны, чем "page" в лексическом значении "паж". Аналогично в русском языке по ключевому слову "стекло" можно получить все тексты, содержащие глагол "течь" во всевозможных словоформах.

Существующие системы позволяют использовать простые языки запросов для поиска документов, которые содержат, или не содержат слова или слово, указанные пользователем. Однако пользователь не имеет возможности указать, должны ли эти слова находиться в одном предложении или нет. Также, пользователь не может формулировать свой запрос сразу для некоторого множества слов, принадлежащих некоторому классу или обладающих некоторыми свойствами или характеристиками. Как правило, эти системы не позволяют формулировать запрос в виде обычного вопроса на естественном языке. И наконец, существующие системы поиска не позволяют пользователям искать предложения с заданными синтаксическими и/или семантическими свойствами, например, иллюстрирующие заданное семантическое отношение (связь), не позволяют создавать запросы, основанные на грамматических значениях, семантических и/или семантических позициях (связях), синтаксических моделях, стилистических и/или семантических особенностях. Такие типы поиска могут быть особенно полезны лексикографам, филологам, лингвистам, студентам и преподавателям родного или иностранного языка, а также многим обычным пользователям. Данное изобретение является развитием решений, изложенных ранее в Патентных заявках США №13/173,649 и 13/173,369, поданных 30 июня 2011, а также №12/983,220, поданной 31 декабря 2010 и частично использует технологию анализа, также запатентованную в США (Патент №8,078,450).

Наиболее близким решением является решение по Патентной заявке США №12/601901, в которой описан способ организации поиска на множестве электронных документов для компьютерной системы, заключающийся в том, что комбинируют результат поиска по ключевым словам с результатами семантического поиска и предъявляют пользователю результат такого комбинированного поиска.

Однако известный способ имеет недостатки. Семантический поиск, как он описан в этой заявке не делает различий между "словом" и множеством его лексических значений, и сам имеет ограниченный характер - фактически в качестве семантической информации используются только метаданные - некоторые внешние метки, тэги, которыми, автоматически или вручную, снабжаются документы. Он не позволяет искать слова в выбранном значении. Используемое дополнительно хранилище триплетов (triplestore) хранит информацию только об отношениях между объектами в виде "троек" вида {субъект, отношение, объект}.

Технический результат от использования настоящего изобретения может состоять в следующем. В отличие от указанного прототипа, способ настоящего изобретения предполагает компьютерный поиск не просто слов, но слов в определенных лексических значениях, поскольку включает исчерпывающий семантико-синтаксический анализ корпуса текстов с извлечением всего спектра лексических, морфологических, синтаксических и семантических параметров предложений и построением их семантических структур. А последующее индексирование семантических структур обеспечивает возможность поиска не только "троек", но предложений любой заданной структуры, в том числе, возможность формулирования запроса на естественном языке.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Настоящее изобретение представляет собой способ организации информационного поиска в корпусах электронных текстов для компьютерной системы, заключающийся в том, что, по меньшей мере, один раз производят следующую последовательность действий: предварительно осуществляют семантико-синтаксический анализ корпуса текстов с определением значений лингвистических параметров предложений, их сохранением в памяти и построением семантических структур предложений, составляющих тексты корпуса текстов, и их последующим индексированием и сохранением индексов, затем, осуществляют поиск фрагментов в предварительно проиндексированных корпусах электронных текстов, удовлетворяющих запросу, производят оценку релевантности результатов, ранжируют результаты поиска в соответствии со степенью релевантности для показа их пользователю.

Указанный исчерпывающий семантико-синтаксический анализ корпуса текстов проводится с использованием широкого спектра языковых описаний, и для каждого предложения корпуса текстов включает: генерацию всех потенциальных связей между элементами предложения и их сохранение в памяти, построение графа обобщенных составляющих, генерацию из графа обобщенных составляющих, по крайней мере, одного синтаксического дерева, установление недревесных связей и построение на основе синтаксического дерева синтаксической структуры предложения и ее сохранение в памяти, генерацию универсальной семантической структуры предложения на основе его синтаксической структуры и ее сохранении в памяти. Указанный семантико-синтаксический анализ корпуса текстов также включает лексический выбор, который, в одной из реализаций, состоит в выборе наиболее вероятного лексического значения слова из множества возможных лексических значений этого слова с учетом априорных и вычисляемых интегральных оценок. В еще одной реализации, лексический выбор может состоять в приписывании слову некоторого множества возможных лексических значений, каждый с соответствующей оценкой вероятности вхождения этого лексического значения в предложение. Дополнительно, семантико-синтаксический анализ корпуса текстов включает определение и извлечение значений морфологических, лексических, синтаксических и семантических параметров элементов корпуса текстов и выбор лучшей синтаксической структуры предложения.

Также, дополнительно указанный семантико-синтаксический анализ корпуса текстов может сопровождаться атрибутированием элементов корпуса текстов понятиями модели предметной области (онтологии) и восстановлением референциальных связей между предложениями.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг.1 иллюстрирует обитую схему метода глубинного анализа корпуса текстов и построения индексов согласно одной из реализаций данного изобретения.

Фиг.1A содержит пример фрагмента текста с референциальными связями.

Фиг.2 иллюстрирует последовательность структур, строящихся в процессе анализа предложения согласно одной или нескольким реализациям изобретения.

Фиг.3 иллюстрирует пример синтаксического дерева, полученного в результате точного синтаксического анализа английского предложения "This boy is smart, he'll succeed in life".

Фиг.4 иллюстрирует схему семантической структуры, полученной в результате анализа предложения "This boy is smart, he'll succeed in life."

Фиг.5A-5D иллюстрируют фрагмент семантической иерархии, согласно одной или нескольким реализациям данного изобретения.

Фиг.6 представляет собой схему, иллюстрирующую языковые описания 610, согласно одной из возможных реализаций изобретения.

Фиг.7 представляет собой схему, иллюстрирующую морфологические описания, согласно одной из возможных реализаций изобретения.

Фиг.8 иллюстрирует синтаксические описания, согласно одной из возможных реализаций изобретения.

Фиг.9 иллюстрирует семантические описания, согласно одной из возможных реализаций изобретения.

Фиг.10 является схемой, иллюстрирующей лексические описания, согласно одной или нескольким реализациям данного изобретения.

Фиг.11 и Фиг.11B иллюстрирует пример пользовательского графического интерфейса поисковой системы, который позволяет пользователю формулировать запросы с выбором лексических значений.

Фиг.11C и Фиг.11D иллюстрируют результаты семантического запроса.

Фиг.12A иллюстрирует один из примеров семантического запроса.

Фиг.12B иллюстрирует еще один пример семантического запроса.

Фиг.12C иллюстрирует еще один пример семантического запроса.

Фиг.13 иллюстрирует пример семантического запроса с "лакуной".

Фиг.14 иллюстрирует примерную схему действий, осуществляемых при выполнении семантического запроса согласно одной из реализаций данного изобретения.

Фиг.14A иллюстрирует пример семантического запроса с выбором объектов онтологии.

Фиг.15 иллюстрирует пример схемы аппаратного обеспечения.

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

Реализация данного изобретения раскрывает методы индексирования и систему для индексирования текстов на естественном языке. Также, изложены методы и система семантического поиска.

В общих чертах, предлагаемый метод создания индекса включает выполнение исчерпывающего синтаксического и семантического анализа тексов на естественном языке для построения, по меньшей мере, одного индекса для каждого текста или текстового корпуса. При этом рассматриваются множества не просто слов, но множества лексических значений всех встречающихся в тексте (корпусе) слов, и вся лексическая, синтаксическая и семантическая информация о каждом предложении, получаемая в процессе синтаксического и семантического анализа, сохраняется и индексируется. Сохраняемая информация может включать также данные, получаемые на промежуточных этапах разбора, результаты лексического выбора, включая результаты, полученные в процессе разрешения неоднозначностей. Полученный таким образом индекс используется для организации семантического поиска как описано ниже.

Существующие системы используют простые языки запросов для поиска документов, которые содержат, или не содержат слова или слово, указанные пользователем. Однако пользователь не имеет возможности указать, в каком именно из своих значений должно быть найдено слово, должны ли указанные слова находиться в одном предложении или нет. Также, пользователь не может формулировать свой запрос сразу для некоторого множества слов, принадлежащего некоторому классу или обладающих некоторыми свойствами или характеристиками. Как правило, эти системы не позволяют формулировать запрос в виде обычного вопроса на естественном языке. И, наконец, существующие системы поиска не позволяют пользователям искать предложения с заданными синтаксическими и/или семантическими свойствами, например, иллюстрирующие заданное семантическое отношение (связь), не позволяют создавать запросы, основанные на грамматических значениях, семантических и/или семантических позициях (связях), синтаксических моделях, стилистических и/или семантических особенностях.

Проблемы существующих поисковых систем полностью или частично решаются методами, описанными ниже.

Осуществление изобретения позволяет пользователю искать и находить релевантную информацию, используя семантический запрос, который формулируется либо на специальном языке семантических запросов, а также, возможно, на естественном языке. Тот же самый анализатор используется для анализа запроса на естественном языке, для распознавания его синтаксической структуры и построения семантической структуры и, таким образом, и "понимания" системой смысла запроса. Поиск реализуется в соответствии с синтаксисом и семантической информацией, которая сохранена в ресурсе, допускающем такие типы поиска. Таким образом, пользователь может получить только релевантные результаты запроса.

Кроме того, поскольку поисковый запрос может быть сформулирован или транслирован в универсальных, независимых от языка, семантических терминах, поиск может осуществляться в корпусах, включающих документы на разных языках. Таким образом, пользователь может получать информацию, представленную в различных ресурсах независимо от языка, на котором сформулирован запрос на поиск. Результаты поиска могут быть предъявлены пользователю как на языке ресурса, в оригинальном виде, как это найдено в документе, так и могут быть переведены на язык запроса при помощи системы машинного перевода.

В Патенте США U.S. Patent 8,078,450 описан метод, включающий глубинный синтаксический и семантический анализ текстов на естественном языке, основанный на исчерпывающих лингвистических описаниях. Этот метод может быть использован на этапе анализа описываемого метода построения индексов. Метод использует широкий спектр лингвистических описаний, как универсальных семантических механизмов, так относящихся к конкретному языку, что позволяет отразить все реальные сложности языка без упрощения и искусственных ограничений, не опасаясь при этом комбинаторного взрыва, неуправляемого роста сложности. Сверх того, указанные способы анализа основаны на принципах целостного и целенаправленного распознавания, т.е. гипотезы о структуре части предложения верифицируются в рамках проверки гипотезы о структуре всего предложения. Это позволяет избежать анализа большого множества аномалий и вариантов.

Глубинный анализ включает лексико-морфологический, синтаксический и семантический анализ каждого предложения корпуса текстов, в результате которых строятся семантические структуры, независимые от языка (language-independent semantic structures), в которых каждому слову текста сопоставлен соответствующий семантический класс. Фиг.1 иллюстрирует общую схему метода глубинного анализа и построения индексов согласно одной из реализаций данного изобретения. Корпус текстов 105 подвергается исчерпывающему семантико-синтаксическому анализу 106 с использованием лингвистических описаний, как исходного языка, так и универсальных семантических описаний, что позволяет анализировать не только поверхностную синтаксическую структуру, но и глубинную, семантическую, выражающую смысл высказывания, содержащегося в каждом предложении, а также связи между предложениями или фрагментами текста. Лингвистические описания могут включать лексические описания 101, морфологические описания 102, синтаксические описания 103 и семантические описания 104. Анализ 106 включает синтаксический анализ, реализованный в виде двухэтапного алгоритма (грубого синтаксического анализа и точного синтаксического анализа), использующий лингвистические модели и информацию различных уровней для вычисления вероятностей и генерации наиболее вероятной («лучшей») синтаксической структуры. Фиг.2 иллюстрирует последовательность структур, строящихся в процессе анализа предложения согласно одной или нескольким реализациям изобретения.

Затем строится независимая от языка семантическая структура (language-independent semantic structure) 107, которая представляет смысл исходного предложения. Этот этап может включать также восстановление референциальных связей между предложениями. Примером референциальной связи является анафора - использование языковых конструкций, которые могут быть проинтерпретированы лишь с учетом другого, как правило, предшествующего, фрагмента текста. Фиг.1A иллюстрирует фрагмент текста с референциальными связями между предложениями. Эти связи на уровне соответствующих семантических структур устанавливаются на этапе 107. В частности, для последующего индексирования личные, указательные местоимения, а также другие объекты, между которыми устанавливаются референциальные связи, индексируются с учетом связи с их антецедентом. Т.е. для фрагмента текста, показанного на Фиг.1A, будет установлена идентичность объектов "David Cameron", "Prime Minister of the United Kingdom", "he", "his", "Prime Minister" в рамках данного фрагмента или всего текста. Восстановление референциальных связей выполняется на семантических структурах с помощью специальных правил.

Затем исходное предложение, синтаксическая структура исходного предложения и независимая от языка семантическая структура индексируются 108. Результатом является набор коллекций индексов 109. Индекс обычно может быть представлен в виде таблицы, где каждому значению текстовой характеристики (например, слову, выражению или фразе, отношению между элементами предложения, морфологическое, лексическое, синтаксическое или семантическое свойство, а также и синтаксические и семантические структуры) в документе сопоставлен список адресов их вхождений в этот документ. Согласно одной из реализаций данного изобретения, морфологические, синтаксические, лексические и семантические характеристики, а также структуры и фрагменты структур могут индексироваться так же, как индексируется слово в документе.

В одной из реализаций данного изобретения индексы могут включать все или, по крайней мере, одно значение морфологических, синтаксических, лексических и семантических характеристик (параметров). Эти значения или параметры генерируются во время двухэтапного семантического анализа, далее описанного более детально. Индексы могут использоваться во многих задачах обработки естественного языка, в частности, для организации семантического поиска. Согласно одной из реализаций данного изобретения, морфологические, синтаксические, лексические и семантические описания структурированы и сохраняются в базе данных. Это множество описаний может включать, по крайней мере, морфологическую модель языка, модели синтаксических конструкций языка, лексико-семантические модели. Согласно одной из реализаций данного изобретения, для анализа сложных языковых структур, распознавания смысла предложения и корректной передачи заключенной в нем информации используется интегральная модель для описания синтаксиса и семантики.

Фиг.2 иллюстрирует детальную схему метода анализа предложения согласно одной или нескольким реализациям изобретения. Ссылаясь на Фиг.1 и Фиг.2, лексико-морфологическая структура 222 определяется на этапе анализа 106 исходного предложения 105. Затем производится синтаксический анализ, реализованный в виде двухэтапного алгоритма (грубого синтаксического анализа и точного синтаксического анализа), использующий лингвистические модели и информацию различных уровней для вычисления вероятностей и генерации наиболее вероятной («лучшей») синтаксической структуры.

Грубый синтаксический анализ применяется к исходному предложению и включает, в частности, генерацию всех потенциально возможных лексических значений слов, образующих предложение или словосочетание, всех потенциально возможных отношений между ними, всех потенциально возможных составляющих. Применяются все вероятные поверхностные синтаксические модели для каждого элемента лексико-морфологической структуры, затем строятся и обобщаются все возможные составляющие так, чтобы были представлены все возможные варианты синтаксического разбора предложения. В результате формируется граф обобщенных составляющих 232 для последующего точного синтаксического анализа. Граф обобщенных составляющих 232 включает все потенциально возможные связи в предложении. За грубым синтаксическим анализом следует точный синтаксический анализ на графе обобщенных составляющих, в результате которого из него "извлекаются" одно или несколько синтаксических деревьев 242, представляющих структуру исходного предложения. Построение синтаксического дерева 242 включает лексический выбор для вершин графа и выбор отношений между вершинами графа. Множество априорных и статистических оценок может быть использовано при выборе лексических вариантов и при выборе отношений из графа. Априорные и статистические оценки могут также быть использованы как для оценивания частей графа, так и для оценивания всего дерева. В одной из реализаций одно или несколько синтаксических деревьев строятся или упорядочиваются по убыванию оценки. Таким образом, лучшее синтаксическое дерево может быть построено первым. В этот момент также проверяются и строятся недревесные связи. Если первое синтаксическое дерево оказывается неподходящим, например, из-за невозможности установить необходимые недревесные связи, в качестве лучше рассматривается второе синтаксическое дерево и т.д.

Поскольку упомянутый лексический выбор для вершин графа и выбор отношений между вершинами графа производится на основе априорных и статистических оценок, в одной из реализаций метода не только рассматриваются и оцениваются все варианты, но эти варианты также запоминаются и индексируются на этапе 108 с учетом их интегральных оценок. Т.е. в индексе 109 содержатся не только высоковероятные варианты разбора предложения, но и маловероятные с соответствующим весом, если такой разбор закончился успешно. Веса вариантов разбора используются впоследствии при вычислении оценки релевантности результата поиска.

Широкий спектр лексических, грамматических, синтаксических, прагматических, семантических характеристик извлекается на этом этапе анализа 106 и построения семантических структур 107. Например, система может извлекать и хранить лексическую информацию и информацию о принадлежности лексических единиц семантическим классам, информацию о грамматических формах и линейном порядке, о синтаксических отношениях и поверхностных позициях, использовании определенных форм, аспектов, тональностей, таких как, положительная и негативная тональность, глубинных позиций, недревесных связей, семантем и т.д.

Также, дополнительно, на этапе 107 может проводиться онтологический анализ с целью извлечения знаний о предметной области, извлечения онтообъектов и онтофактов. Извлечение онтообъектов и онтофактов и фиксация отношений между ними производится, например, с помощью специального вида правил, правил логического вывода и других средств. Эта информация фиксируется в онтологиях 110. Например, возвращаясь к примеру, представленному на Фиг.1A, в онтологии, сохраняется информация о том, что Дэвид Кэмерон является премьер-министром Великобритании, что его адрес - 10 Downing Street, что он выступал на Social Impact Investment Forum, который имел место быть 6 июня 2012 года в Лондоне.

Информация из онтологии привлекается в процессе построения индексов 108. Это позволяет затем, в процессе поиска, находить информацию об объекте, даже если в она выражена в корпусе текстов неявно. Например, информация из фрагмента, представленного на Фиг.1A, если она занесена в онтологию, позволяет дать ответ на вопрос, на какой улице находится резиденция премьер-министра Великобритании, или когда в Великобритании работало коалиционное правительство.

Фиг.3 иллюстрирует пример синтаксического дерева 300, полученного в результате точного синтаксического анализа английского предложения "This boy is smart, he'll succeed in life". Дерево содержит достаточно полную синтаксическую информацию, такую как лексические значения, части речи, синтаксические роли, грамматические значения, синтаксические отношения (позиции), синтаксические модели, типы недревесных связей и т.д. Например, местоимение «he» определяется относящимся к существительному «boy» как субъект анафорической связи 310. "Boy" определяется субъектом 320 глагола "be." "Не" - субъектом 330 глагола "succeed." Прилагательное "smart" оказывается относящимся к существительному "boy" с отношением "control - complement" 340.

Ссылаясь на Фиг.2, этот подход двухэтапного синтаксического анализа обеспечивает построение лучшей синтаксической структуры 246 исходного предложения, выбранной из одной или нескольких синтаксических структур. Фиг.3 иллюстрирует схему лучшей синтаксической структуры, полученной в результате синтаксического анализа предложения "This boy is smart, he'll succeed in life." Подход двухэтапного анализа следует принципу целостного и целенаправленного распознавания, то есть гипотезы о структуре части предложения проверяются с помощью доступных лингвистических описаний в рамках структуры всего предложения. При этом подходе отсутствует необходимость анализировать множество тупиковых вариантов разбора. В большинстве случаях такой подход позволяет существенно сократить количество вычислительных ресурсов, необходимых для анализа предложения.

Предложенные методы анализа обеспечивают достижение максимальной точности понимания смысла предложения. Фиг.4 иллюстрирует схему семантической структуры, полученной в результате анализа предложения "This boy is smart, he'll succeed in life." Эта структура содержит всю синтаксическую и семантическую информацию, такую как семантические классы, семантемы (которые не показаны на рисунке), семантические отношения (глубинные позиции), недревесные связи и т.д.

Независимая от языка семантическая структура предложения представляется в виде ациклического графа (дерева, дополненного недревесными связями), где каждое слово определенного языка заменено универсальными (независимыми от языка) семантическими сущностями, называемыми здесь семантическими классами. Семантический класс - одна из самых важных семантических характеристик, которая может быть извлечена и использована для решения задач семантического поиска, классификации, кластеризации и фильтрации документов, написанных на одном или нескольких языках. Кроме того, информацию в независимых от языка структурах могут быть использованы семантемы, отражающие не только семантическую, но и синтаксическую, грамматическую и пр. зависимую от языка информацию.

Семантические классы могут быть упорядочены в семантическую иерархию, где "дочерний" семантический класс и его "потомки" наследуют значительную часть свойств "родительского" и всех предшествующих семантических классов ("предков"). Например, семантический класс SUBSTANCE (вещество) является дочерним классом достаточно широкого класса ENTITY (сущность), и в то же время он является "родителем" для семантических классов GAS (газ), LIQUID (жидкость), METAL (металл), WOOD_MATERIAL (дерево как материал), и т.д. Каждый семантический класс в семантической иерархии снабжен глубинной (семантической) моделью. Глубинная модель представляет собой множество глубинных позиций (типов семантических отношений в предложениях). Глубинные позиции отражают семантические роли дочерних составляющих (структурных единиц предложения) в различных предложениях с объектами данного семантического класса в качестве ядра родительской составляющей и возможные семантические классы в качестве заполнителей позиций. Эти глубинные позиции выражают семантические отношения между составляющими, например, "agent" (агенс), "addressee" (адресат), "instrument" (инструмент), "яиапгку"(количество), и т.д. Дочерний класс наследует и подстраивает глубинную модель родительского класса.

Фиг.5A-5D иллюстрируют фрагмент семантической иерархии, согласно одной или нескольким реализациям данного изобретения. Семантическая иерархия устроена таким образом, что более общие понятия находятся на верхних уровнях иерархии. Например, в случае документов, типы которых проиллюстрированы Фиг.5B и Фиг.5C, семантические классы - PRTNTED_MATTER (печатное издание, 502), SCIENTIFIC_AND_LITERARY_WORK (научные труды и литература, 504), TEXT_AS_PART_OF_CREATIVE_WORK (творческие тексты, 505) и другие являются потомками класса TEXT_OBJECTS_AND_DOCUMENTS (текстовые объекты и документы, 501), а класс PRINTED_MATTER (печатное издание, 502), в свою очередь, является родительским для семантического класса EDITION_AS_TEXT (издание как текста, 503), содержащего классы PERIODICAL (периодические издания) и NONPERIODICAL (непериодические издания), где PERIODICAL (периодические издания) - родительский класс для классов ISSUE (выпуск), MAGAZINE (журнал), NEWSPAPER (газета) и т.д. Подход к делению на классы может отличаться. Данное изобретение в первую очередь основано на использовании понятий, не зависящих от языка.

Фиг.6 представляет собой схему, иллюстрирующую языковые описания 610, согласно одной из возможных реализаций изобретения. Языковые описания 610 включают морфологические описания 101, синтаксические описания 102, лексические описания, 103 и семантические описания 104. Языковые описания 610 объединены в общее понятие. Фиг.7 представляет собой схему, иллюстрирующую морфологические описания, согласно одной из возможных реализаций изобретения. Фиг.8 иллюстрирует синтаксические описания, согласно одной из возможных реализаций изобретения. Фиг.9 иллюстрирует семантические описания, согласно одной из возможных реализаций изобретения.

Ссылаясь на Фиг.6 и Фиг.9, являясь частью семантических описаний 104, семантическая иерархия 910 является характеристикой языковых описаний 610, которая объединяет независимые от языка семантические описания 104 и зависимые от языка лексические описания 103, как отмечено двойной стрелкой 623, и морфологические описания 101 и синтаксические описания 102, как отмечено двойной стрелкой 624. Семантическая иерархия может быть создана единовременно, а затем может быть заполнена для каждого определенного языка. Семантический класс в определенном языке включает лексические значения с соответствующими моделями. Семантические описания 104 не зависят от языка. Семантические описания 104 могут содержать описания глубинных составляющих и могут содержать семантическую иерархию, описания глубинных позиций, систему семантем и прагматических описаний.

Ссылаясь на Фиг.6, в одной из возможных реализаций изобретения морфологические описания 101, лексические описания 103, синтаксические описания 102 и семантические описания 104 связаны. Лексическое значение может иметь несколько поверхностных (синтаксических) моделей, обусловленных семантемами и прагматическими характеристиками. Синтаксические описания 102 и семантические описания 104 также связаны. Например, диатеза синтаксических описаний 102 может рассматриваться как "интерфейс" между зависимыми от языка поверхностными моделями и независимыми от языка глубинными моделями семантического описания 104.

Фиг.7 иллюстрирует пример морфологических описаний 101. Как показано, составляющие морфологических описаний 101 включают, но не ограничиваются описаниями словоизменения 710, грамматической системой (граммемами) 720, и описаниями словообразования 730. В одной из возможных реализаций изобретения грамматическая система 720 включает набор грамматических категорий, таких как «Часть речи», «Падеж», «Род», «Число», «Лицо», «Возвратность», «Время», «Вид» и их значения, здесь и далее называемые граммемами. Например, граммемы, означающие части речи, могут включать прилагательное, существительное, глагол и т.д.; граммемы падежа могут включать «Именительный», «Родительный», «Дательный» и т.д.; граммемы рода могут включать «Мужской», «Женский», «Средний» и т.д. Ссылаясь на Фиг.7, описания словоизменения 710 описывают, как начальная форма слова может изменяться в зависимости от падежа, рода, числа, времени и т.д. и включают в широком смысле все возможные формы данного слова. Описания словообразования 730 описывают, какие новые слова могут быть построены с использованием данного слова. Граммемы - единицы грамматической системы 720 и, как показывает ссылка 722 и ссылка 724, граммемы могут быть использованы для построения описаний словоизменения 710 и описаний словообразования 730.

Фиг.8 иллюстрирует синтаксические описания 102. Компоненты синтаксических описаний 102 могут содержать поверхностные модели 810, описания поверхностных позиций 820, описания референциального и структурного управления 856, описания управления и согласования 840, недревесные описания 850 и правила анализа 860. Синтаксические описания 302 используются для построения возможных синтаксических структур предложения для данного исходного языка, учитывая порядок слов, недревесные синтаксические явления (например, согласование, эллипсис и т.д.), референциальный контроль (управление) и другие явления.

Фиг.9 иллюстрирует семантические описания 104 согласно одной из возможных реализаций изобретения. В то время как поверхностные позиции 820 отражают синтаксические отношения и способы их реализации в конкретном языке, глубинные позиции 914 отражают семантические роли дочерних (зависимых) составляющих в глубинных моделях 912. Потому описания поверхностных позиций, и шире - поверхностные модели, могут быть специфичными для каждого конкретного языка. Описания глубинных моделей 920 содержат грамматические и семантические ограничения для заполнителей этих позиций. Свойства и ограничения глубинных позиций 914 и их заполнители в глубинных моделях 912 очень похожи и часто идентичны для различных языков.

Система семантем 930 представляет множество семантических категорий. Семантемы могут отражать лексические, грамматические свойства и атрибуты, а также дифференциальные свойства и стилистические, прагматические и коммуникативные характеристики. Для примера, семантическая категория "DegreeOfComparison" (степень сравнения) может быть использована для описания степеней сравнения, выраженных разными формами прилагательных, например, "easy", "easier" and "easiest". Так, семантическая категория "DegreeOfComparison" может включать семантемы, например "Positive", "ComparativeHigherDegree", "SuperlativeHighestDegree". В качестве другого примера, семантическая категория "RelationToReferencePoint" может быть использована для описания того, в каком линейном порядке - до или после объекта или события находится в предложении ссылка на него, и ее семантемами являются "Previous", "Subsequent". Еще один пример - семантическая категория "EvaluationObjective" может фиксировать наличие объективной оценки, такой как "Bad", "Good" и т.д. Лексические семантемы могут описывать специфические свойства объектов, например "быть плоским" ("being flat") или "быть жидким" ("being liquid") и используются в ограничениях на заполнители глубинных позиций. Классифицирующие дифференциальные семантемы используются для выражения дифференциальных свойств внутри одного семантического класса. Например, в английском языке "парикмахер" для мужчин переводится как "barber", и ему в семантическом классе "HAIRDRESSER" будет приписана семантема "RelatedToMen", в то время как в том же семантическом классе есть "hairdresser" и "hairstylist" и др.

Прагматические описания 940 служат для того, чтобы в процессе анализа текста фиксировать соответствующую тему, стиль или жанр текста, а также возможно приписать соответствующие характеристики объектам семантической иерархии. Например, "Economic Policy", "Foreign Policy", "Justice", "Legislation", "Trade", "Finance", etc.

Фиг.10 является схемой, иллюстрирующей лексические описания 103, согласно одной или нескольким реализациям данного изобретения. Лексические описания 103 включают лексико-семантический словарь 1004, который включает в себя набор лексических значений 1012, образующих вместе со своими семантическими классами семантическую иерархию, где каждое лексическое значение может включать, но не ограничивается своей глубинной моделью 912, поверхностной моделью 810, грамматическим значением 1008 и семантическим значением 1010. Лексическое значение может объединять различные дериваты (например, слова, выражения, фразы), выражающие смысл с помощью различных частей речи, различных форм слова, однокоренных слов и пр. В свою очередь, семантический класс объединяет лексические значения близких по смыслу слов и выражений на разных языках.

Любой параметр языкового описания 610 - лексические значения, семантические классы, граммемы, семантемы и многое другое извлекается во время исчерпывающего анализа текста, и любой параметр может быть проиндексирован (создан индекс характеристики). Индексация семантических классов востребована во многих задачах, связанных с анализом текстов на естественном языке, таких как семантический поиск, классификация, кластеризация, фильтрация текстов и многие другие. Индексация лексических значений (в отличие от индексации просто слов) позволяет искать не просто слова или словоформы, но лексические значения, т.е. слова в определенном смысловом значении. Синтаксические структуры и семантические структуры также могут индексироваться и