Исчерпывающая автоматическая обработка текстовой информации

Иллюстрации

Показать все

Изобретение относится к обработке естественного языка. Техническим результатом является повышение точности интерпретации информации и снижение вычислительной сложности при обработке за счет создания универсальной технологии построения приложений для обработки на основе накопленных в системе знаний о языке и мире. В способе создания программ обработки естественного языка строят семантическую иерархию независимых от языка семантических сущностей, их свойств, возможных атрибутов, их взаимоотношений. Создают универсальную модель, релевантную по отношению к произвольному языку, включающую модели семантических, морфологических, лексических и синтаксических описаний. Создают первую программу обработки произвольного естественного языка. Наполняют данными зависимых от языка моделей морфологических описаний, лексических описаний и синтаксических описаний сущности указанного семантического описания. Создают вторую программу для обработки естественного языка на основе семантической иерархии, первой универсальной программы и зависимых от языка морфологических описаний, лексических описаний и синтаксических описаний. Используют вторую программу для обработки естественного языка. 17 н. и 3 з.п. ф-лы, 18 ил.

Реферат

ОБЛАСТЬ ИЗОБРЕТЕНИЯ

[0001] Объем неструктурированной информации, представленной в электронном виде, растет очень быстро. В частности, большой объем неструктурированной информации легко доступен в сети Интернет. Эта информация может содержать текст и другие данные (например, числа, даты и пр.). Интерпретацию этой информации усложняют двусмысленности и неточности. Кроме того, существует необходимость извлечения и обработки речевой информации (аудиофайлов) и видеоинформации.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

[0002] Один из вариантов реализации относится к способу обработки естественного языка. Метод настоящего изобретения включает получение применимой к любому естественному языку семантической иерархии независимых от языка семантических описаний естественного языка. Метод также включает создание зависимых от конкретного естественного языка морфологических, лексических и синтаксических описаний для одного или нескольких целевых языков. Метод также включает построение первой программы обработки естественного языка на основе независимых от языка семантических описаний, зависящих от языка морфологических описаний, лексических и синтаксических описаний одного или нескольких целевых языков.

[0003] Другой вариант реализации относится к системе. Эта система включает в себя одно или несколько вычислительных средств. Эта система также включает в себя одно или несколько запоминающих устройств, в которых хранятся команды, которые при выполнении на одном или нескольких вычислительных устройствах приводят к тому, что эти вычислительные устройства выполняют следующие операции: получение семантической иерархии независимых от языка семантических описаний для естественного языка, применимой к любому естественному языку; создание морфологических описаний, лексических и синтаксических описаний для одного или нескольких целевых языков; а также построение первой программы обработки естественного языка на основе независимых от языка семантических описаний, зависимых от языка морфологических описаний, лексических и синтаксических описаний одного или нескольких целевых языков.

[0004] Еще один вариант реализации относится к машиночитаемому носителю данных, содержащему машинные команды, при выполнении которых вычислительным устройством это вычислительное устройство выполняет следующие операции: получение семантической иерархии независимых от языка семантических описаний для естественного языка, применимой к любому естественному языку; создание зависящих от языка морфологических описаний, лексических и синтаксических описаний на одном или нескольких целевых языках; а также построение первой программы обработки естественного языка на основе независимых от языка семантических описаний, зависимых от языка морфологических описаний, лексических и синтаксических описаний одного или нескольких целевых языков.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0005] Детали различных вариантов реализации изложены в прилагаемых чертежах и приведенном ниже описании. Другие особенности, аспекты и преимущества настоящего изобретения станут очевидными из описания, чертежей и формулы изобретения, в которых:

[0006] Фиг. 1 иллюстрирует среду, содержащую системы обработки данных, в которых используется универсальное представление текстовой информации в соответствии с одним или несколькими вариантами реализации изобретения;

[0007] Фиг. 2A представляет собой блок-схему способа получения универсального представления обрабатываемой информации из документов и из других источников в соответствии с одним или несколькими вариантами реализации изобретения;

[0008] Фиг. 2B представляет собой схему, иллюстрирующую необходимые языковые описания, согласно одной из возможных реализаций изобретения;

[0009] Фиг. 2C содержит пример лексико-морфологической структуры предложения в соответствии с одним или несколькими вариантами реализации;

[0010] Фиг. 3 содержит примеры морфологических описаний в соответствии с одним или несколькими вариантами осуществления;

[0011] Фиг. 4 содержит примеры синтаксических описаний в соответствии с одним или несколькими вариантами осуществления;

[0012] Фиг. 5 содержит примеры семантических описаний в соответствии с одним или несколькими вариантами осуществления;

[0013] Фиг. 6 содержит примеры лексических описаний в соответствии с одним или несколькими вариантами осуществления;

[0014] Фиг. 7A иллюстрирует этапы семантико-синтаксического анализа в соответствии с одним или несколькими вариантами осуществления;

[0015] Фиг. 7B иллюстрирует последовательность структур данных, которые строятся процессе анализа в соответствии с одним или несколькими вариантами осуществления;

[0016] На Фиг. 7C приведен схематичный пример графа обобщенных составляющих для ранее упомянутого предложения «This boy is smart, he'll succeed in life» (Этот мальчик умный, он добьется успеха в жизни) в соответствии с одним или несколькими вариантами осуществления;

[0017] На Фиг. 8A и 8B приведены синтаксические деревья для английского предложения «The girl in the sitting-room was playing the piano» (Девушка в гостиной играла на фортепьяно) в соответствии с одним или несколькими вариантами осуществления;

[0018] На Фиг. 9 приведена семантическая структура английского предложения «The girl in the sitting-room was playing the piano» (Девушка в гостиной играла на фортепьяно) в соответствии с одним или несколькими вариантами осуществления;

[0019] Фиг. 10 иллюстрирует лучшую синтаксическую структуру английского предложения «This boy is smart, he'll succeed in life» (Этот мальчик умный, он добьется успеха в жизни) в соответствии с одним или несколькими вариантами осуществления;

[0020] Фиг. 11 иллюстрирует семантическую структуру английского предложения «This boy is smart, he'll succeed in life» (Этот мальчик умный, он добьется успеха в жизни) в соответствии с одним или несколькими вариантами осуществления;

[0021] На Фиг. 12 приведена блок-схема процесса создания программы для естественного языка на основе универсального представления текстовой информации;

[0022] На Фиг. 13 указаны вычислительные средства для создания компьютерной системы согласно одной из возможных реализаций изобретения.

[0023] Одинаковые ссылочные номера и обозначения на различных чертежах обозначают одинаковые элементы.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

[0024] В приведенном ниже описании многие конкретные подробности приведены для большей ясности, чтобы обеспечить полное понимание концепций, лежащих в основе описанных вариантов осуществления. Однако специалистам в данной области техники будет очевидно, что описанные варианты осуществления могут быть реализованы без некоторых конкретных деталей или полностью без них. В других случаях структуры и устройства показаны только в виде блок-схем для того, чтобы не затруднять понимание описанных вариантов осуществления. Некоторые этапы процесса описаны без подробностей, чтобы не затруднять понимание основной концепции.

[0025] Согласно различным вариантам осуществления предоставляются системы и способы обработки неструктурированной информации. В частности, эти системы и способы обеспечивают автоматическую обработку текстовой информации на естественных языках. Используя эти методы, можно извлекать информацию из текстов на естественном языке, производить поиск информации в подборках документов и (или) осуществлять мониторинг информации.

[0026] Описанные системы и способы предоставляют в распоряжение универсальное ядро, которое не зависит от конкретного языка, и лексическое наполнение, которое включает лексику конкретного языка и языковые модели словообразования и словоизменения, а также синтаксические модели согласования и словоупотребления в этом языке. С другой стороны, это универсальное независимое от языка ядро содержит исчерпывающий набор знаний о мире и способов выражения этих знаний в естественных языках. Это знание может быть представлено в виде иерархического описания имеющихся в мире сущностей, их свойств, возможных атрибутов, их взаимоотношений и способов выражения таких знаний в конкретном языке. Семантическое описание такого типа является полезным для создания технологий автоматической обработки естественного языка (Natural Language Processing, далее - «NLP»), особенно приложений, которые способны «понимать смысл», выраженный на естественном языке; они необходимы для создания приложений и решения многочисленных задач по обработке естественного языка, таких как машинный перевод, семантическое индексирование и семантический поиск, включая многоязычный семантический поиск, извлечение фактов, анализ тональности, поиск похожих документов, классификация документов, обобщение, анализ больших объемов данных, электронное обнаружение, морфологический и лексический анализатор и другие приложения.

[0027] В частности, раскрываемые системы и способы дают возможность хранить и обрабатывать единицы текста (слова, предложения и тексты) в базе данных и производить такие же операции с лексическими и семантическими значениями слов, предложений, текстов и других единиц информации.

[0028] Большинство слов любого языка может иметь несколько значений и выражать несколько разных понятий. Кроме того, некоторые словарные формы в языке могут соответствовать нескольким грамматическим значениям и иметь несколько базовых форм (лемм). Например, слово «play» в английском языке может являться существительным или глаголом, при этом у него также имеются совпадения значений в разных грамматических формах (падежах, числе, роде, глагольных формах). Это явление называется грамматической омонимией.

[0029] Явление, в котором одно и то же слово имеет разные, иногда близкие значения, называется лексической омонимией. Эти значения могут быть как близкими по смыслу, так и совершенно различными. Например, для глагола «play» Oxford Dictionary дает, среди прочих, следующие значения: 1) engage in activity for enjoyment and recreation rather than a serious or practical purpose (принимать участие в деятельности, направленной на получение удовольствия и отдых, а не на серьезную или практическую цель), 2) take part in (a sport) (принимать участие, напр. в спортивной деятельности), 3) be cooperative (сотрудничать), 4) represent (a character) in a theatrical performance or a film (играть (роль) в театральной постановке или фильме), 5) perform on (a musical instrument) (играть (на музыкальном инструменте)), а также еще несколько значений.

[0030] Кроме того, имеет место семантическая омонимия, когда некоторое слово может иметь совершенно разные значения. Например, слово «bank» в английском языке имеет множество значений: от «the land alongside or sloping down to a river or lake» («участок земли, расположенной вдоль реки или озера или спускающийся к ним») до «а financial establishment» («финансовое учреждение») и «а stock of something available for use when required» («запас чего-либо, доступный в случае необходимости»).

[0031] Обычно человек безошибочно выбирает соответствующее лексическое значение в зависимости от контекста, но каждое из лексических значений имеет свои свойства, свою модель употребления, как-то, предлоги, объекты и ограничения на них и т.п., и на другой язык должно переводиться по-разному.

[0032] Под лексическим значением понимается одно из значений (смыслов) слова. Лексическое значение выражается средствами некоторого конкретного языка. В одном языке может иметься несколько слов для выражения одного и того же смысла Близкие лексические значения принадлежат одному лексическому классу. Примером таких пар являются синонимы. Синонимы могут иметь одинаковое лексическое значение, но различаться некоторыми грамматическими или даже семантическими атрибутами. Например, в русском языке слова «конь», «лошадь» и «жеребец» имеют одно лексическое значение, но отличаются грамматическим атрибутом (полом). При этом русское слово «скакун» близко к этим словам по лексическому значению, однако имеет несколько дифференцирующих отличий, которые выражаются в толковом словаре как «выносливая, резвая в беге лошадь чистокровной породы, как правило, для верховой езды». Такие отличия могут быть выражены формально при помощи семантических атрибутов - семантем.

[0033] Близкие лексические значения объединяются в семантические классы. Таким образом, русские слова «конь», «лошадь» и «жеребец» с лексическими значениями, принадлежащими одному и тому же лексическому классу, и слово «скакун», которое не принадлежит к этому лексическому классу, будут принадлежать к одному и тому же семантическому классу HORSE (ЛОШАДЬ), но каждое из них может иметь собственные грамматические и семантические атрибуты. Аналогично английские слова «horse» (лошадь), «foal» (жеребенок), «mare» (кобыла) и «stallion» (жеребец) включаются в один семантический класс HORSE (ЛОШАДЬ), при этом каждое слово имеет собственные грамматические и семантические атрибуты. Аналогичные примеры имеются для терминов на немецком, французском, китайском и других языках.

[0034] Любому лексическому значению в конкретном языке может быть сопоставлено универсальное, независимое от языка семантическое значение - семантический класс плюс множество дифференцирующих семантических и грамматических атрибутов, выраженных в универсальных терминах (семантемах). Другими словами, каждому слову текста можно сопоставить лексическое и семантическое значение. Слова в разных языках с одинаковым семантическим значением считаются семантически эквивалентными.

[0035] Мысль, смысл, сообщение, факт или высказывание на некоем языке можно выразить с помощью предложений. Каждое предложение представимо в виде последовательности лексических значений, связанных определенными отношениями, что выражается в языке как заполнение поверхностных (синтаксических) позиций, а на семантическом уровне - как заполнение глубинных (семантических) позиций. Например, в предложении «The girl eats the apple» (Девочка ест яблоко), слово «apple» (яблоко) заполняет позицию Object (дополнения) для глагола «eat» (есть), а слово «girl» (девочка) заполняет поверхностную позицию Subject (подлежащего). Номенклатура поверхностных позиций может быть достаточно широкой и различаться в разных языках. Эти различия вызваны различиями синтаксических моделей в разных языках. На семантическом уровне лексическое значение слова «girl» (девочка) заполняет глубинную позицию Agens (агенс), в то время как лексическое значение слова «apple» ("яблоко") заполняет глубинную позицию Object (дополнение).

[0036] Предложение «The apple is eaten by the girl» ("Яблоко поедается девочкой") выражает ту же мысль, но в нем глагол используется в пассивном залоге, а это значит, что теперь слово «girl» (девочка) заполняет позицию Object глагола «eat» (есть), а слово «apple» (яблоко) заполняет поверхностную позицию Subject. При этом на семантическом уровне лексическое значение слова «girl» по-прежнему заполняет глубинную позицию Agens, а слово «apple» заполняет глубинную позицию Object. Это подтверждается тем фактом, что оба предложения выражают одну и ту же мысль, хотя синтаксически построены по-разному. Другими словами, эти два предложения имеют одно семантическое значение.

[0037] В отличие от поверхностных позиций, для всех языков может использоваться общая номенклатура глубинных позиций. Таким образом, смысл любого предложения также может быть выражен формально с помощью универсальных терминов, с использованием семантических классов, семантем и глубинных позиций.

[0038] Предложение может содержать синтаксическую неоднозначность. Это может привести к нескольким разным вариантам синтаксического разбора. Например, предложение «Flying plain may be dangerous» может иметь по меньшей мере два значения: 1) «Полет на самолете может быть опасным (для пассажиров)» 2) «Летящий самолет может представлять опасность (например, для наблюдателя)». В первом случае подлежащее выражено словосочетанием, ядром которого является герундий «flying» (полет), управляющий дополнением «plain» (самолет). Во втором случае подлежащее представляет собой именную группу, ядром которой является слово «plain» (самолет) а от него зависит причастие настоящего времени «flying» (летящий). Часто лексическое значение слова может быть определено только с учетом контекста и определенного варианта синтаксического разбора.

[0039] Обычные системы машинного перевода и информационно-поисковые системы обеспечивают поиск слов, а не лексических значений. Система и метод настоящего изобретения позволяют оперировать лексическими значениями и независимыми от языка семантическими значениями. На Фиг. 2 показана последовательность действий, совершаемых этой системой на предварительном этапе технологии, который обеспечивает получение универсального представления обрабатываемой информации, получаемой из большого количества документов, данных, текстовых корпусов, изображений, а также от серверов электронной почты, из социальных сетей, распознанной речи, видео и других источников. Если документ является изображением, имеет формат pdf, формат tif или другой нетекстовый формат, то предварительно применяется OCR (оптическое распознавание символов) или другой способ преобразования документа в текстовый формат.

[0040] Каждое указанное действие выполняется с каждым предложением документа, текста или сообщением в корпусе (220). В этом документе используется слово «сообщение», которое может означать любое сообщение в социальных сетях, форумах, сообщение электронной почты, любые замечания, заголовки, подзаголовки и другие виды текстовой информации из видео, надписей и т.д. Если при этом обрабатываются изображения, файлы в формате PDF или другие файлы, которые требуют распознавания, то добавляется дополнительный этап предварительного преобразования в текстовый формат. На этих этапах могут использоваться любые известные коммерческие системы, например, программа FineReader. В случае обработки речевых или аудио файлов добавляется другой предварительный этап - распознавание речи. На всех этапах описанного метода, представленных на Фиг. 2A, активно используется широкий спектр лингвистических описаний. Необходимые лингвистические описания приведены на Фиг. 2B и по меньшей мере включают в себя морфологические описания (201), синтаксические описания (202), лексические описания (203) и семантические описания (204).

[0041] На этапе 230 идентифицируются морфологические значения слов предложения. Другими словами, предложение разбивается на лексические элементы, после чего определяются их потенциальные леммы (начальные или основные формы), а также соответствующие варианты грамматических значений. Обычно для каждого элемента идентифицируется множество вариантов вследствие омонимии и совпадения словоформ различных грамматических значений. Схематический пример результата этапа 230 для предложения «This boy is smart, he'll succeed in life» (Этот мальчик умный, он добьется успеха в жизни) приведен на Фиг. 2C.

[0042] На этапе 240 идентифицируются лексические значения элементов предложения. Большинство систем обработки естественного языка основаны на статистическом подходе и обычно в качестве наиболее вероятного выбирают либо самое частотное лексическое значение, либо наиболее подходящее по результатам предварительного обучения на корпусах с учетом контекста. Лексический выбор в методе настоящего изобретения осуществляется с учетом многих факторов - применимости синтаксических моделей каждого из возможных лексических значений в данном предложении, прагматических характеристик каждого лексического значения, прагматических характеристик контекста, тематики текста и корпуса в целом, априорных и статистических оценок как самих лексических значений, так и поверхностных и глубинных позиций.

[0043] В общем случае на этапе 240 лексическому выбору предшествует синтаксический анализ. Он включает в себя активацию синтаксических моделей одного или нескольких потенциальных лексических значений рассматриваемого слова и установление всех потенциальных поверхностных связей в предложении, что выражается в построении структуры данных, называемой графом обобщенных составляющих. Затем из графа обобщенных составляющих формируется по меньшей мере одна структура данных, которая представляет собой древесную синтаксическую структуру предложения. Также устанавливаются необходимые недревесные связи. Этот процесс описан в U.S. Patent Application. №11/548,214, поданной 10 октября 2006 г., теперь это US Patent 8,078,450, который включен в настоящий документ в полном объеме посредством ссылки. В общем случае формируется несколько таких структур, что связано, прежде всего, с наличием различных вариантов для лексического выбора. Каждый вариант синтаксической структуры имеет свою собственную оценку, структуры упорядочены от наиболее вероятной к менее вероятной.

[0044] В качестве варианта возможен условно-вероятностный лексический выбор, при котором могут рассматриваться разные гипотезы о лексических значениях, тогда каждой гипотезе будет присвоена некоторая вероятность, и эти несколько вариантов будут параллельно переданы на следующий этап.

[0045] На этапе 250 определяются семантические значения элементов предложения. Каждому лексическому значению сопоставляется его семантический класс, а также набор семантических и дифференциальных лексических и грамматических признаков. На основе каждой синтаксической структуры предложения строится структура данных, которая называется семантической структурой. В одном из вариантов реализации семантическая структура сначала строится для наилучшей гипотезы (имеющей более высокую интегральную оценку). Как правило, семантическая структура предложения является графовой структурой с выделенной вершиной. В узлах данной структуры находятся семантические значения, а ее ветви представляют собой глубинные семантические отношения.

[0046] В некоторых вариантах реализации для создания отдельных приложений (например, Морфологического и лексического анализатора) этап 260 может являться необязательным. На этом этапе, если имеется онтологическое описание (210), релевантное для данной тематики текста, то определяются представленные в тексте факты и сущности и связываются с соответствующим концептом онтологии. Побочным эффектом этого процесса может быть пополнение онтологий новыми фактами и сущностями.

[0047] На этапе 270 производится индексация лексических и семантических значений. Может использоваться любой тип индексации, в том числе прямой индекс или обратный индекс. Например, при построении обратного индекса каждый индексированный элемент будет связан со списком адресов его вхождений в текст. Аналогично индексируются также синтаксические и семантические структуры (смыслы). В качестве возможного варианта могут индексироваться онтологические объекты (например, факты, сущности и т.д.).

[0048] На всех этапах описываемого метода настоящего изобретения широко используется большой спектр лингвистических описаний. Ниже подробно описывается набор упомянутых лингвистических описаний и отдельные этапы метода настоящего изобретения. Фиг. 2B представляет собой схему, иллюстрирующую языковые описания (210) согласно одному из вариантов реализаций изобретения. Языковые описания (210) включают в себя морфологические описания (201), синтаксические описания (202), лексические описания (203) и семантические описания (204).

[0049] На Фиг. 2B приведены языковые описания (210), включающие морфологические описания (201), лексические описания (203), синтаксические описания (202) и семантические описания (204), а также отношения между ними. Среди них морфологические описания (201), лексические описания (203) и синтаксические описания (202) зависят от языка, т.е. создаются для каждого языка по определенным шаблонам. Каждое из этих языковых описаний (210) может быть создано для каждого исходного языка, и все вместе они представляют собой модель исходного языка. Однако семантические описания (204) не зависят от языка, они используются для описания независимых от языка семантических признаков различных языков и для построения независимых от языка семантических структур.

[0050] Как показано на Фиг. 2B, морфологические описания (201), лексические описания (203), синтаксические описания (202), а также семантические описания (204) связаны между собой. Лексические описания (204) и морфологические описания (201) связаны посредством связи (221), поскольку любое лексическое значение в лексическом описании (230) может иметь морфологическую модель, представленную в виде одного или нескольких грамматических значений для указанного лексического значения. Например, одно или несколько грамматических значений могут быть представлены различными наборами граммем в грамматической системе морфологических описаний (201).

[0051] Кроме того, как показано с помощью связи (222), любое лексическое значение в лексических описаниях (203) также может иметь одну или несколько поверхностных моделей, соответствующих синтаксическим описаниям (202) для данного лексического значения. Как показано связью (223), лексические описания (203) могут быть связаны с семантическими описаниями (204). Поэтому лексические описания (203) и семантические описания (204) можно объединить в «лексико-семантические описания», такие как лексико-семантический словарь.

[0052] Как показано посредством связи (224), синтаксические описания (202) и семантические описания (204) связаны между собой. Например, диатезы (417) синтаксических описаний 202 можно рассматривать как «интерфейс» между зависимыми от языка поверхностными моделями и независимыми от языка глубинными моделями (512) семантического описания (204).

[0053] На Фиг. 3 приведены примеры морфологических описаний. Компоненты морфологических описаний (201) включают в том числе: описания словоизменения (310), грамматическую систему (320) (в том числе, граммемы) и описания словообразования (330) и т.д. Грамматическая система (320) представляет собой набор грамматических категорий, таких как «часть речи», «падеж», «пол», «число», «лицо», «возвратность», «время», «вид» и т.д., а также их значений, в дальнейшем называемых «граммемами», в том числе, например, прилагательное, существительное, глагол и т.д.; именительный, винительный, родительный падеж и т.д.; женский, мужской, нейтральный род и т.д. и т.д.

[0054] Описание словоизменения (310) показывает, как основная форма слова может меняться в зависимости от падежа, пола, числа, времени, и т.д., и в широком смысле оно включает в себя или описывает все возможные формы этого слова. Словообразование (330) описывает, какие новые слова могут быть созданы с участием этого слова (например, в немецком языке имеется множество составных слов). Граммемы являются единицами грамматических систем (320) и, как показано с помощью связи (222) и связи (324) на Фиг. 3, граммемы могут использоваться для построения описания словоизменения (310) и описания словообразования (330).

[0055] Согласно одному из вариантов реализации, при установлении синтаксических отношений между элементами исходного предложения используются модели составляющих. Составляющая может содержать группу соседних слов в предложении, ведущих себя как единое целое. Ядром составляющей является слово, она также может содержать дочерние составляющие на более низких уровнях. Дочерняя составляющая является зависимой составляющей, она может быть прикреплена к другим составляющим (в качестве родительских составляющих) для построения синтаксических описаний (202) исходного предложения.

[0056] На Фиг. 4 приведены примеры синтаксических описаний. Компоненты синтаксических описаний (202) могут включать в том числе: поверхностные модели (410), описания поверхностных позиций (420), референциальные описания и описания структурного контроля (430), описания управления и согласования (440), описание недревесного синтаксиса (450) и правила анализа (460). Синтаксические описания 202 используются для построения возможных синтаксических структур исходного предложения на данном исходном языке с учетом свободного линейного порядка слов, недревесных синтаксических явлений (например, координации, эллипсиса и т.д.), референциальных отношений и других соображений.

[0057] Поверхностные модели (410) представлены в виде агрегатов одной или нескольких синтаксических форм («синтформ» (412)) для описания возможных синтаксических структур предложений, включенных в синтаксическое описание (202). В целом, любое лексическое значение в языке связано с поверхностными (синтаксическими) моделями (410), которые представляют составляющие, возможные в том случае, когда это лексическое значение играет роль «ядра» и включает набор поверхностных позиций дочерних элементов, описание линейного порядка, диатез и т.д.

[0058] Поверхностные модели (410) представлены синтаксическими формами (412). Каждая синтаксическая форма (412) может включать определенное лексическое значение, которое играет роль «ядра», она может дополнительно включать набор поверхностных позиций (415) своих дочерних составляющих, описание линейного порядка (416), диатезы (417), грамматические значения (414), описания управления и согласования (440), коммуникативные описания 480 и т.д., связанные с ядром составляющей.

[0059] Описания поверхностных позиций (420) в составе синтаксических описаний (202) используются для описания общих свойств поверхностных позиций (415), которые используются в поверхностных моделях (410) различных лексических значений на исходном языке. Поверхностные позиции (415) используются для того, чтобы выразить синтаксические отношения между составляющими предложения. Примеры поверхностных позиций (415) могут включать «subject» (подлежащее), «object_direct» (прямое дополнение), «object_indirect» (косвенное дополнение), «relative clause» (определительное придаточное предложение) и т.д.

[0060] В ходе синтаксического анализа модель составляющих использует множество поверхностных позиций (415) дочерних составляющих и описаний их линейного порядка (416), она описывает грамматические значения (414) возможных заполнителей этих поверхностных позиций (415). Диатезы (417) представляют соответствия между поверхностными позициями (415) и глубинными позициями (514) (как показано на Фиг. 5). Диатезы (417) представлены связью (224) между синтаксическими описаниями (202) и семантическими описаниями (204). Коммуникативные описания (480) описывают коммуникативный порядок в предложении.

[0061] Синтаксические формы (412) представляют собой набор поверхностных позиций (415), связанных с описаниями линейного порядка (416). Одна или несколько составляющих, которые можно построить для лексического значения словоформы исходного предложения, могут быть представлены поверхностными синтаксическими моделями, такими как поверхностные модели (410). Каждая составляющая рассматривается как реализация модели составляющих посредством выбора соответствующей синтаксической формы (412). Выбранные синтаксические формы (412) представляют собой наборы поверхностных позиций (415) с заданным линейным порядком. Каждая поверхностная позиция в синтаксической форме может иметь грамматические и семантические ограничения на свои заполнители.

[0062] Описание линейного порядка (416) представлено в виде выражений линейного порядка, построенных для того, чтобы выразить последовательность, в которой различные поверхностные позиции (415) могут встречаться в предложении. Выражения линейного порядка могут включать имена переменных, имена поверхностных позиций, круглые скобки, граммемы, оценки, оператор «or» (или) и т.д. Например, описание линейного порядка для простого предложения «Boys play football» (Мальчики играют в футбол.) можно представить в виде «Subject Core Object_Dlrect» (Подлежащее - Ядро - Прямое дополнение), где «Subject» (Подлежащее), «Core» (Ядро) и «Object_Direct» (Прямое дополнение) представляют собой имена поверхностных позиций (415), соответствующих порядку слов. Заполнители поверхностных позиций (415), указанные символами сущностей предложения, присутствуют в том же порядке для сущностей в выражениях линейного порядка.

[0063] Различные поверхностные позиции (415) могут находиться в синтаксической форме (412) в отношении строгого и (или) нестрогого порядка. Например, круглые скобки можно использовать для построения выражений линейного порядка, они описывают отношения строгого линейного порядка между различными поверхностными позициями (415). SurfaceSlot1 SurfaceSlot2 или (SurfaceSlot1 SurfaceSlot2) означает, что обе поверхностные позиции расположены в одном и том же выражении линейного порядка, но что допускается только один порядок этих поверхностных позиций относительно друг друга, при котором SurfaceSlot2 следует после SurfaceSlot1.

[0064] В другом примере для построения выражений линейного порядка и описания переменных отношений линейного порядка между различными поверхностными позициями (415) в синтаксической форме (412) могут использоваться квадратные скобки. При этом [SurfaceSlot1 SurfaceSlot2] показывает, что обе поверхностные позиции относятся к одной и той же переменной линейного порядка, а также что их порядок относительно друг друга не является существенным.

[0065] Выражения линейного порядка описания линейного порядка (416) могут содержать грамматические значения (414), выраженные граммемами, которым соответствуют дочерние составляющие. Кроме того, два выражения линейного порядка можно соединить оператором | («OR» (ИЛИ)). Например: (Subject Core Object) | [Subject Core Object]. (Подлежащее - Ядро - Дополнение) | [Подлежащее - Ядро - Дополнение].

[0066] Коммуникативные описания (480) описывают порядок слов в синтаксической форме (412) с точки зрения коммуникативных актов, представленных в виде коммуникативных выражений порядка, которые похожи на выражения линейного порядка. Описание управления и согласования (440) содержит правила и ограничения на грамматические значения прикрепленных составляющих, которые используются во время синтаксического анализа.

[0067] Недревесные синтаксические описания (450) связаны с обработкой различных языковых явлений, таких как эллипсис и согласование, они используются при трансформациях синтаксических структур, которые создаются на различных этапах анализа в различных вариантах реализации изобретения. Недревесные синтаксические описания (450) включают, в том числе, описание эллипсиса (452), описание координации (454), а также описание референциального и структурного контроля (430).

[0068] Правила анализа (460) как часть синтаксических описаний (202) могут включать в том числе: правила вычисления семантем (462) и правила нормализации (464). Несмотря на то, что правила анализа (460) используются на этапе семантического анализа, правила анализа (460) описывают свойства конкретного языка, причем они связаны с синтаксическими описаниями (202). Правила нормализации (464) используются в качестве правил трансформации для описания трансформаций семантических структур, которые могут отличаться в разных языках.

[0069] На Фиг. 5 приведен пример, иллюстрирующий семантические описания. Компоненты семантических описаний (204) не зависят от языка, они могут включать в том числе: семантическую иерархию (510), описания глубинных позиций (520), систему семантем (530) и прагматические описания (540).

[0070] Семантическая иерархия (510) состоит из семантических понятий (семантических сущностей), называемых семантическими классами, расположенных в иерархических взаимоотношениях "родитель-потомок". Дочерний семантический класс наследует большинство свойств своего прямого родителя и всех семантических классов - предков. Например, семантический класс SUBSTANCE (Вещество) является дочерним семантическим классом класса ENTITY (Сущность) и материнским семантическим классом для классов GAS (Газ), LIQUID (Жидкость), METAL (Металл), WOOD_MATERIAL (Древесина) и т.д.

[0071] Каждый семантический класс в семантической иерархии (510) сопровождается глубинной моделью (512). Глубинная модель (512) семантического класса представляет собой набор глубинных позиций (514), которые отражают семантические роли дочерних составляющих в различных предложениях с объектами семантического класса в качестве ядра родительской составляющей, а также возможные семантические классы в качестве заполнителей глубинных позиций. Глубинные позиции (514) выражают семантические отношения, в том числе, например, «агенс», «адресат», «инструмент», «количество» и т.д. Дочерний семантический класс наследует и уточняет глубинную модель (512) своего родительского семантического класса.

[0072] Описания глубинных позиций (520) используются для описания общих свойств глубинных позиций (514), они отражают семантические роли дочерних составляющих в глубинных моделях (512). Описания глубинных позиций (520) также содержат грамматические и семантические ограничения заполнител