Автоматическое построение семантического описания целевого языка

Иллюстрации

Показать все

Изобретение относится к способу, системе и машиночитаемому носителю данных для создания модели целевого языка на основании лингвистического описания исходного языка. Технический результат заключается в повышении полноты автоматически создаваемой модели целевого языка. В способе выполняют получение лингвистического описания, включающего семантическое и синтаксическое описания для исходного языка, первого текста на исходном языке и второго текста на целевом языке, сопоставление первого текста и второго текста так, чтобы текст на исходном языке соответствовал тексту на целевом языке, анализ первого текста для построения синтаксической и семантической структуры предложения текста на исходном языке, причем синтаксическая структура содержит лексический элемент исходного языка и семантическая структура содержит независимое от языка представление предложения текста на исходном языке, применение словаря перевода для создания гипотезы о лексическом элементе целевого языка, соответствующем лексическому элементу исходного языка, сопоставление на основе этой гипотезы лексического элемента целевого языка с соответствующим лексическим элементом исходного языка и создание семантико-синтаксической модели на основе результатов указанного сопоставления и различий между целевым языком и исходным языком. 3 н. и 17 з.п. ф-лы, 15 ил.

Реферат

ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ

[0001] В основе большинства систем для обработки текстов на естественном языке лежит применение статистических методов, причем минимальные описания языка создаются вручную. Данный подход является недорогим и быстрым, поскольку появление больших объемов корпусов текстов в последние годы и рост вычислительных мощностей позволяют быстро извлекать необходимую статистическую информацию из языка для машинного обучения. Данный подход также распространен, поскольку он оказывается достаточным для решения ряда обычных проблем. Однако данный подход не позволяет создать полную языковую модель, охватывающую все аспекты языка (т.е. морфологию, лексику, синтаксис и лексическую семантику).

[0002] Задача создания такой полной модели, которую можно использовать для решения самых разнообразных задач по обработке языка и созданию стабильных и надежных технологий, все еще требует значительной ручной работы квалифицированных лингвистов.

[0003] Примером семантического словаря тезаурусного типа является WordNet. Словарь WordNet состоит из четырех сетей, соответствующих основным частям речи:

существительные, глаголы, прилагательные и наречия. Базовыми словарными единицами в WordNet являются синонимические ряды («синсеты»), объединяющие слова со схожими концептуально-семантическими и лексическими значениями. Синсеты представляют собой вершины в сетях WordNet, и каждый синеет содержит определения и примеры употребления слов в контексте. Слова, имеющие несколько лексических значений, включаются в несколько синсетов и могут включаться в различные синтаксические и лексические классы.

КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

[0004] В настоящем описании представлены способ, система и машиночитаемый носитель для создания семантического описания (словарь тезаурусного типа) целевого языка на основе семантической иерархии для исходного языка и набора параллельных текстов, особенно, в тех случаях, когда исходный язык и целевой язык являются родственными.

[0005] Один вариант осуществления представляет собой способ, содержащий выравнивание параллельных текстов исходного языка и целевого языка таким образом, чтобы текст на исходном языке соответствовал тексту на целевом языке. Способ дополнительно содержит анализ текста на исходном языке с построением синтаксической структуры, содержащей лексический элемент, а также семантической структуры каждого предложения текста на исходном языке. Семантическая структура включает в себя независимое от языка представление предложения на исходном языке. Способ также включает в себя генерирование с помощью переводного словаря гипотезы о соответствии лексических элементов целевого языка лексическим элементам исходного языка. Способ также включает сопоставление, на основе гипотезы, лексического элемента целевого языка соответствующему лексическому элементу исходного языка. Способ дополнительно содержит связывание синтаксической модели лексического элемента целевого языка с синтаксической моделью лексического элемента исходного языка на основе результатов сравнения.

[0006] Другой вариант осуществления относится к системе, содержащей устройство для обработки. Устройство для обработки выполнено с возможностью выравнивания параллельных текстов исходного языка и целевого языка таким образом, чтобы текст на исходном языке соответствовал тексту на целевом языке. Устройство для обработки дополнительно выполнено с возможностью анализа текста на исходном языке с построением синтаксической структуры, включающей лексический элемент на исходном языке, и семантической структуры предложения на исходном языке, причем семантическая структура включает независимое от языка представление предложения на исходном языке. Устройство для обработки дополнительно выполнено с возможностью генерации, на основе переводного словаря, гипотезы о соответствии лексических элементов целевого языка лексическим элементам исходного языка. Далее, устройство для обработки дополнительно выполнено с возможностью осуществлять сопоставление, на основе гипотезы, лексического элемента целевого языка соответствующему лексическому элементу исходного языка. Устройство для обработки дополнительно выполнено с возможностью осуществлять связывание синтаксической модели лексического элемента целевого языка с синтаксической моделью лексического элемента исходного языка на основе результатов сравнения.

[0007] Другой вариант осуществления относится к машиночитаемому носителю информации, содержащему хранящиеся на нем инструкции, причем инструкции содержат инструкции относительно выравнивания параллельных текстов исходного языка и целевого языка таким образом, чтобы текст на исходном языке соответствовал тексту на целевом языке. Инструкции также содержат инструкции для анализа текста на исходном языке с построением синтаксической структуры и семантической структуры предложения на исходном языке, причем синтактическая структура включает лексический элемент на исходном языке, а семантическая структура включает независимое от языка представление предложения на исходном языке. Инструкции также содержат инструкции для генерации, на основе переводного словаря, гипотезы о соответствии лексических элементов целевого языка лексическим элементам исходного языка. Инструкции также содержат иструкции для сопоставления, на основе гипотезы, лексического элемента целевого языка соответствующему лексическому элементу исходного языка. Инструкции также содержат инструкции для связывания синтаксической модели лексического элемента целевого языка с синтаксической моделью лексического элемента исходного языка на основе результатов сравнения.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0008] Описанные выше и другие элементы настоящего описания будут в более полной мере понятны из следующего описания и прилагаемой формулы изобретения в сочетании с прилагаемыми рисунками. Описание будет обладать дополнительной специфичностью и подробным изложением при помощи прилагаемых рисунков с учетом того, что на данных рисунках представлено только несколько вариантов осуществления в соответствии с описанием и, следовательно, они не могут считаться ограничивающими объем настоящего изобретения.

[0009] Фиг. 1 является блок-схемой, иллюстрирующей способ настоящего изобретения для автоматического создания семантического описания целевого языка в соответствии с одним вариантом осуществления.

[0010] Фиг. 2 представляет схему, иллюстрирующую описания языка в соответствии с одним вариантом осуществления.

[0011] Фиг. 3 представляет схему, иллюстрирующую морфологические описания в соответствии с одним вариантом осуществления.

[0012] Фиг. 4 представляет схему, иллюстрирующую синтаксические описания в соответствии с одним вариантом осуществления.

[0013] Фиг. 5 представляет схему, иллюстрирующую семантические описания в соответствии с одним вариантом осуществления.

[0014] Фиг. 6 представляет схему, иллюстрирующую лексические описания в соответствии с одним вариантом осуществления.

[0015] Фиг. 7 представляет этапы способа анализа в соответствии с одним вариантом осуществления.

[0016] На Фиг. 7А показана последовательность структур данных, созданных в процессе анализа, в соответствии с одним вариантом осуществления.

[0017] На Фиг. 8 и 8А представлены два разных синтаксических дерева для английского предложения «The girl in the sitting-room was playing the piano».

[0018] На Фиг. 9 представлена семантическая структура английского предложения «The girl in the sitting-room was playing the piano».

[0019] На Фиг. 10 представлена семантическая структура русского предложения «Девушка в гостиной играла на фортепиано», которое соответствует английскому предложению «The girl in the sitting-room was playing the piano».

[0020] Фиг. 11 иллюстрирует результат этапа создания семантического описания целевого языка на основе анализа русского предложения «Девушка в гостиной играла на фортепиано» и его польского эквивалента «Dziewczyna w salonie gry na pianinie» в соответствии с одним вариантом осуществления.

[0021] Фиг. 12 иллюстрирует синтаксическую структуру русского предложения «Девушка в гостиной играла на фортепиано».

[0022] На Фиг. 13 приведен возможный пример вычислительного средства которое может быть использовано для реализации данного изобретения.

[0023] Следующее детальное описание содержит ссылки на прилагаемые рисунки. Как правило, на рисунках аналогичные компоненты обозначены аналогичными символами, если только контекст не предполагает иное. Предполагается, что примеры осуществления, описанные в подробном описании, рисунках и формуле изобретения, не являются ограничивающими. Можно использовать другие варианты осуществления и вносить другие изменения без отступления от сущности и объема объекта изобретения, представленного в данном описании. Следует понимать, что аспекты данного изобретения, по существу представленные в данном описании и проиллюстрированные рисунками, можно перераспределять, заменять, комбинировать и моделировать, создавая широкий спектр различных конфигураций, все из которых явным образом предусмотрены настоящим описанием и являются его частью.

ПОДРОБНОЕ ОПИСАНИЕ

[0024] Описанные в настоящем описании способы, машиночитаемые носители и системы предназначены для автоматизации значительных объемов работы лингвистов по созданию семантических и синтаксических описаний языка, добавляемых в систему. В частности, в соответствии с описанными методиками наиболее трудоемкую часть описания лексического синтаксиса можно автоматизировать.

[0025] При использовании хорошо описанного исходного языка, включающего в себя все необходимые лингвистические (например, синтаксические и семантические) описания, можно использовать набор выровненных параллельных текстов со словарем перевода для создания аналогичных описаний родственного языка (например, украинского языка на основе русского языка).

[0026] Необходимые лингвистические описания могут включать в себя лексические описания, морфологические описания, синтаксические описания и семантические описания. На Фиг. 1 представлена блок-схема этапов способа (100) автоматического создания семантического описания целевого языка в соответствии с одним из вариантов осуществления. При использовании альтернативных вариантов осуществления могут выполняться другие действия, их количество также может отличаться. Кроме того, использование блок-схемы не должно выступать в качестве ограничения порядка выполнения действий. Ниже представлен обзор способа (100).

[0027] На этапе (111) лингвистами на основе имеющихся описаний исходного языка (110) формально описываются некоторые систематические лексические и синтаксические отличия целевого языка от исходного языка. На этой основе может строиться базовый синтаксис и морфологическая модель.

[0028] На этапе (112) выравниваются параллельные тексты (108) на исходном языке и целевом языке. Для решения этой задачи может быть использован переводной словарь.

[0029] На этапе (113) предложения из параллельных текстов на исходном языке анализируются с применением технологии глубинного анализа. В этом процессе для построения синтаксических и семантических структур предложений на исходном языке могут быть использованы как независимые от языка описания, так и зависимые от языка описания исходного языка.

[0030] На этапе (114) могут выдвигаться гипотезы о соответствии лексических элементов в предложениях целевого языка и исходного языка с использованием переводного словаря.

[0031] На этапе (115) лексическим элементам целевого языка сопоставляются синтаксические модели соответствующих лексических элементов исходного языка с учетом описанных систематических преобразований и различий. Лексические элементы целевого языка можно заменять синтаксическими моделями соответствующих элементов исходного языка.

[0032] На этапе (116) гипотезы могут проверяться на аннотированных или иных параллельных текстах. Способ (100) и различные его этапы, включая описания языка и структурные элементы, необходимые для поддержки способа (100), будут более подробно описаны ниже.

[0033] На Фиг. 2 представлена схема, иллюстрирующая необходимые описания языка (210) и связи между описаниями в соответствии с одним вариантом осуществления изобретения. Описания языка (210) включают в себя морфологические описания (201), синтаксические описания (202), лексические описания (203) и семантические описания (204). Среди описаний языка (210) морфологические описания (201), лексические описания (203) и синтаксические описания (202) создаются для каждого конкретного языка. Каждое из этих описаний языка (210) может быть создано для каждого исходного языка, и, взятые вместе, они представляют собой модель исходного языка. Семантические описания (204) не зависят от языка и используются для описания независимых от языка семантических свойств различных языков, а также для создания независимых от языка семантических структур, представляющих независимые от языка значения предложений.

[0034] Морфологические описания (201), лексические описания (203), синтаксические описания (202), а также семантические описания (204) взаимосвязаны. Лексические описания (204) и морфологические описания (201) объединены связью (221), поскольку любому лексическому значению в лексическом описании (203) может соответствовать морфологическая модель, представленная одним или более грамматическим значением указанного лексического значения. Например, одно или несколько грамматических значений могут быть представлены различными наборами граммем в грамматической системе морфологических описаний (101).

[0035] Кроме того, как показано при помощи связи (222), любое данное лексическое значение в лексических описаниях (203) может также иметь одну или более поверхностных моделей в синтаксических описаниях (202) данного лексического значения. Связь 223 иллюстрирует, что лексические описания (203) также могут быть связаны с семантическими описаниями (204).Поэтому лексические описания (203) и семантические описания (204) могут рассматриваться вместе и в результате образуют «лексико-семантические описания», такие как лексико-семантический словарь.

[0036] Как показано при помощи связи 224, синтаксические описания (202) и семантические описания (204) также связаны. Например, диатезы (такие как 417 на Фиг. 4), которые могут являться частью синтаксических описаний (202), могут рассматриваться как «интерфейс» между поверхностными моделями в конкретном языке и независимыми от языка глубинными моделями (например, 512, как показано на Фиг. 5) семантического описания (204).

[0037] На Фиг. 3 представлена схема, иллюстрирующая морфологические описания в соответствии с одним вариантом осуществления изобретения. Компоненты морфологических описаний (201), среди прочих, включают в себя, описание словоизменения (310), грамматическую систему (320) (например, граммемы и грамматические категории) и описания словообразования (330). Грамматическая система (320) включает в себя набор грамматических категорий, таких как "Part of speech", "Case", "Gender", "Number", "Person", "Reflexivity", "Tense", "Aspect", и т.д., («часть речи», «падеж», «род», «число», «лицо», «возвратность», «время», «залог»)., а также их значения, именуемые «граммемами». Например, такие граммемы могут быть представлены как Adjective, Noun, Verb для обозначения прилагательного, существительного, глагола и т.д. В качестве другого примера, граммемы могут представлять Nominative, Accusative, Genitive (именительный падеж, винительный падеж, родительный падеж и т.д.) В качестве другого примера, такие граммемы могут представлять Feminine, Masculine, Neuter (женский род, мужской род, средний род) и т.д. Существуют также другие граммемы, и объем настоящего изобретения не ограничен определенными граммемами.

[0038] Описание словоизменения (310) показывает, как основная форма слова может меняться в зависимости от падежа, рода, числа, времени и т.п., а также может описывать все возможные формы слова. Словообразование (330) описывает, какие новые слова могут создаваться с применением основного слова (например, в немецком языке существует множество сложных слов - композитов). Граммемы являются единицами грамматической системы (320) и, как показано при помощи стрелки 222 и стрелки 324, граммемы могут использоваться для построения описания словоизменения (310), а также описания словообразования (330).

[0039] В соответствии с одним вариантом осуществления изобретения при установлении синтаксических отношений между элементами исходного предложения используется модель составляющей. Составляющая может включать смежную группу из одного или более слов в предложении, которые могут выступать как единое целое. Составляющая имеет некоторое слово, рассматриваемое как ядро этой составляющей, и может включать дочерние составляющие на низших уровнях. Дочерние составляющие также называют зависимыми составляющими, и они могут присоединяться к другим составляющим (т.е. родительскимсоставляющим) при построении синтаксического описания (202) исходного предложения.

[0040] На Фиг. 4 представлена схема, иллюстрирующая синтаксические описания в соответствии с одним вариантом осуществления изобретения. Компоненты синтаксических описаний (202) могут включать в себя, без ограничений, поверхностные модели (410), описания поверхностных позиций (420), описание недревесного синтаксиса (450) и правила анализа (460). Синтаксические описания (202) используются для создания потенциальных синтаксических структур исходного предложения на исходном языке с учетом свободного линейного порядка слов, недревесных синтаксических явлений (например, согласования, эллипсиса и т.д.), референциальных связей, а также других факторов.

[0041] Поверхностные модели (410) представлены в виде множества одной или более синтаксических форм (т.е. «синтформ» 412) для описания возможных синтаксических структур предложений, которые включены в синтаксические описания (202). В общем случае, всякое лексическое значение в языке связано с его поверхностными (синтаксическими) моделями (410), которые представляют собой составляющие в том случае, когда лексическое значение выступает в качестве «ядра», и включает в себя набор поверхностных позиций дочерних элементов, описание линейного порядка, диатезы и т.д.

[0042] Поверхностные модели (410) могут быть представлены синтформами (412). Каждая синтформа (412) может включать в себя определенное лексическое значение, которое функционирует как «ядро» составляющей, и может, среди прочих, дополнительно включать в себя набор поверхностных позиций (415) своих дочерних составляющих, описание линейного порядка (416), диатезы (417), грамматические значения (414), описания управления и сочинения (440), коммуникативные описания (480) по отношению к ядру составляющей.

[0043] Описания поверхностных позиций (420), как части синтаксических описаний (202), используются для описания общих свойств поверхностных позиций (415), которые используются в поверхностных моделях (410) различных лексических значений в исходном языке. Поверхностные позиции (415) могут использоваться для выражения синтаксических отношений между компонентами предложения. Примеры поверхностных позиций (415) могут, среди прочего, включать в себя, без ограничения: "Subject", "Object_Direcr", "Object_Indirect", "Relative Clause" (т.е. подлежащее, прямое_дополнение, косвенное_дополнение, относительное придаточное предложение).

[0044] При синтаксическом анализе модель составляющей использует множество поверхностных позиций (415) дочерних составляющих и описания их линейного порядка (416), а также описывает грамматические значения (414) возможных заполнителей этих поверхностных позиций (415). Диатезы (417) представляют собой соответствия между поверхностными позициями (415) и глубинными позициями (например, 514 на Фиг. 5). Диатезы (417) представлены связью (например, 224, как показано на Фиг. 2) между синтаксическими описаниями (например, 202, как показано на Фиг. 2) и семантическими описаниями (например, 204, как показано на Фиг. 2). Коммуникативные описания (480) описывают коммуникативный порядок в предложении.

[0045] Синтаксические формы (синтформы) (412) включают набор поверхностных позиций (415) с описанием их линейного порядка (416). Одна или более составляющих для лексического значения словоформы в исходном предложении могут быть представлены поверхностными синтаксическими моделями (410). Каждая составляющая может рассматриваться как одна из реализации модели составляющей путем выбора соответствующей синтформы (412). Выбранные синтаксические формы или синтформы (412) представляют собой наборы поверхностных позиций (415) с указанным линейным порядком. Каждая поверхностная позиция в синтформе может иметь грамматические и семантические ограничения относительно заполнителей этой позиции.

[0046] Описание линейного порядка (416) включает выражения линейного порядка, которые формируются для выражения последовательности, в которой различные поверхностные позиции (415) могут встречаться в предложении. Выражения линейного порядка могут включать названия переменных, названия поверхностных позиций, скобки, граммемы, оценки, а также оператор «или» и т.д. Например, описание линейного порядка простого предложения "Boys play football." может быть представлено в виде "Subject Core Object_Direct", где « Subject» и « Object_Direct» представляют собой названия поверхностных позиций (415), соответствующих порядку слов. Заполнители поверхностных позиций (415), указанные символами элементов предложения, могут присутствовать в том же порядке, как и в выражении линейного порядка.

[0047] Различные поверхностные позиции (415) могут располагаться в в синтформе (412) в строгом «и/или» порядке. Также, скобки могут быть использованы для построения выражений линейного порядка и описывать отношения строгого линейного порядка между различными поверхностными позициями (415). Например, "SurfaceSlot1 SurfaceSlot2" или "(SurfaceSlot1 SurfaceSlot2)" означает, что обе поверхностные позиции расположены в том же выражении линейного порядка, но возможен только определенный порядок следования этих поверхностных позиций относительно друг друга, при котором SurfaceSlot 2 должен следовать за SurfaceSlot 1.

[0048] Далее, квадратные скобки могут использоваться для построения выражений нестрогого линейного порядка различных поверхностных позиций (415) в синтформе (412). Например, [SurfaceSlot1 SurfaceSlot2] указывает, что обе поверхностных позиции принадлежат той же переменной линейного порядка, а их порядок относительно друг друга не имеет значения.

[0049] Выражения линейного порядка в описании линейного порядка (416) могут содержать грамматические значения (414), выраженные граммемами, которым соответствуют дочерние составляющие. Кроме того, два выражения линейного порядка могут быть объединены оператором | («ИЛИ»), Например: (Subject Core Object) | [Subject Core Object].

[0050] Коммуникативные описания (480) описывают порядок слов в синтформе (412) с точки зрения коммуникативных актов, которые необходимо представить в виде выражений коммуникативного порядка, которые аналогичны выражениям линейного порядка. Описание управления и сочинения (440) содержит правила и ограничения на грамматические значения подключаемых составляющих, учитываемые в процессе синтаксического анализа.

[0051] Описания недревесного синтаксиса (450) имеют отношение к обработке различных лингвистических явлений, таких как эллипсис и координация, и используются в преобразовании синтаксической структуры, которая создается на различных этапах анализа в соответствии с вариантами осуществления настоящего изобретения. Описания недревесного синтаксиса (450) могут включать в себя, без ограничений, описания эллипсиса (452), описания согласования (454) и описания референциального и структурного контроля (456).

[0052] Правила анализа (460) как часть синтаксических описаний (202) могут включать в себя правила вычисления семантем (462) и правила нормализации (464). Хотя правила анализа (460) используются во время семантического анализа, правила анализа (460), по существу, описывают свойства конкретного языка и связаны с синтаксическими описаниями (например, 202 на Фиг. 2). Правила нормализации (464) используются в виде правил преобразования для описания преобразований семантических структур, которые могут быть различными в разных языках.

[0053] На Фиг. 5 представлена схема, иллюстрирующая семантические описания в соответствии с одним вариантом осуществления настоящего изобретения. Компоненты семантических описаний (например, 204) не зависят от языка и могут включать в себя семантическую иерархию (510), описание глубинных позиций (520), систему семантем (530) и прагматические описания (540).

[0054] Семантическая иерархия (510) содержит смысловые понятия (семантических объектов) и именованные семантические классы, организованные в соответствии с иерархическими отношениями «родительский объект - дочерний объект», которые аналогичны дереву. В целом, дочерний семантический класс может унаследовать часть или все свойства своего непосредственного родителя, а также всех предшествующих семантических классов более высоких уровней. Например, семантический класс SUBSTANCE (вещество) является дочерним классом семантического класса ENTITY (сущность), и в то же время он является "родителем" для семантических классов GAS (газ), LIQUID (жидкость), METAL (металл), WOOD_MATERIAL (дерево как материал), и т.д.

[0055] Каждый семантический класс в семантической иерархии (510) снабжен глубинной моделью (512). Глубинная модель (512) семантического класса включает в себя множество глубинных позиций(514),которые отражают семантические роли дочерних составляющих в различных предложениях с объектами данного семантического класса в качестве ядра родительской составляющей и возможные семантические классы в качестве заполнителей глубинных позиций. Эти глубинные позиции (514) выражают семантические отношения, например, "agent" (агент), "addressee" (адресат), "instrument" (инструмент), "циап111у"(количество), и т.д. Дочерний класс может наследовать и подстраивать глубинную модель (512) своего прямого родительского семантического класса. Описания глубинных позиций (520) используются для описания общих свойств глубинных позиций (514) и отражают семантические роли дочерних составляющих в глубинных моделях (512).

[0056] Описания глубинных позиций (520) также содержит грамматические и семантические требования к заполнителям глубинных позиций (514). Свойства и ограничения глубинных позиций (514) и их возможных заполнителей, как правило, очень похожи и часто идентичны в различных языках. Таким образом, глубинные позиции (514) не зависят от конкретного языка.

[0057] Система семантем 530 представляет множество семантических категорий и семантем, которые отражают значения семантических категорий. Для примера, семантическая категория "DegreeOfComparison" (степень сравнения) может быть использована для описания степеней сравнения и может включать семантемы, например "Positive", "ComparativeHigherDegree", "SuperlativeHighestDegree", и т.д. В качестве другого примера, семантическая категория "RelationToReferencePoint" может быть использована для описания того, в каком линейном порядке (например, до или после объекта или события) находится в предложении ссылка на него, и ее семантемами являются "Previous" или "Subsequent". Порядок также можно описывать пространственно или с позиции прошедшего времени в широком смысле анализируемых слов. Еще один пример - семантическая категория "EvaluationObjective" может фиксировать наличие объективной оценки, такой как "Bad", "Good" и т.д.

[0058] Системы семантем (530) включают в себя независимые от языка семантические атрибуты, которые выражают не только семантические характеристики, но и стилистические, прагматические и коммуникативные характеристики. Некоторые семантемы можно использовать для выражения единичного значения, которое находит надлежащее грамматическое и/или лексическое выражение в языке. Систему семантем (530) можно разделить на несколько различных категорий в соответствии с их назначением и применением. Например, данные категории могут включать в себя грамматические семантемы (532), лексические семантемы (534) и классифицирующие грамматические (дифференцирующие) семантемы (536).

[0059] Грамматические семантемы (532) используются для описания грамматических свойств компонентов при преобразовании синтаксического дерева в семантическую структуру. Лексические семантемы (534) описывают конкретные свойства объектов (например, «плоский» или «жидкий» и т.п.предмет) и используются при описании углубленных слотов (520) в качестве ограничения для заполнителей углубленных слотов. Классифицирующие грамматические (дифференцирующие) семантемы (536) выражают дифференцирующие свойства объектов в пределах одного семантического класса. Например, "barber" («парикмахер для мужчин» в английском языке) в семантическом классе "HAIRDRESSER" ему будет приписана семантема "RelatedToMen", в то время как в том же семантическом классе есть "hairdresser" и "hairstylist" и др.

[0060] Прагматическое описание (540) позволяет назначить соответствующую тему, стиль или жанр для текстов и объектов семантической иерархии (510). Например, такие прагматические описания могут включать в себя «Экономическую политику», «Международную политику», «Правосудие», «Законодательство», «Торговлю», «Финансы» ("Economic Policy", "Foreign Policy", "Justice", "Legislation", "Trade", "Finance") и т.п. Прагматические описания также могут быть выражены семантемами. Кроме того, прагматический контекст также может быть принят во внимание в процессе семантического анализа.

[0061] На Фиг. 6 представлена схема, иллюстрирующая лексические описания в соответствии с одним вариантом осуществления. Лексические описания (203) могут включать в себя лексико-семантический словарь (604), который включает в себя множество лексических значений (612) на определенном языке для каждого компонента предложения. Для каждого лексического значения (612) имеется ссылка (602) на его независимого от языка семантического предка для указания местоположения данного лексического значения в семантической иерархии (510).

[0062] Каждое лексическое значение (612) связано с глубинной моделью (512), описанной независимыми от языка понятиями, а также с поверхностной моделью (410), которая специфична для конкретного языка. Диатезы (417) можно использовать для установления соответствия между поверхностными моделями (410) и глубинными моделями (512) для каждого лексического значения (612). Каждой поверхностной позиции (например, 415) в каждой синтформе (например, 412) поверхностных моделей (410) может быть приписана одна или более диатез (417).

[0063] Если поверхностная модель (410) описывает синтаксические роли заполнителей поверхностных позиций, то глубинная модель (512) по существу описывает семантические роли заполнителей поверхностных позиций. Описание глубинных позиций (520) выражает семантический тип потенциального заполнителя слота и отражает практические аспекты ситуаций, свойств или атрибутов объектов, определяемых словами любого естественного языка. Описания глубинных позиций (520) не зависят от языка, поскольку различные языки могут использовать одни и те же глубинные позиции для описания аналогичных семантических отношений или выражать аналогичные аспекты ситуаций. Заполнители глубинных позиций (514) также по существу обладают одинаковыми семантическими свойствами даже в разных языках. Каждое лексическое значение (612) в конкретном языке наследует семантический класс от своего предка и может подстроить и уточнить глубинную модель, наследуемую от своего предка (512).

[0064] Описание лексических значений и соответствующих им моделей является наиболее трудоемкой частью заполнения семантической иерархии для конкретного языка. Описанный вариант осуществления изобретения позволяет обеспечить частичную или полную автоматизацию данного процесса. В большинстве случаев возможен перенос лексических моделей из исходного языка на соответствующие лексические значения в целевом языке с минимальной коррекцией, если исходный и целевой языки в определенной степени схожи.

[0065] Кроме того, лексические значения (612) могут содержать собственные характеристики и также наследовать другие характеристики от независимого от языка родительского семантического класса. Данные характеристики лексических значений (612) включают в себя грамматические значения (608), которые можно описать как граммемы, а также семантическое значение (610), которое можно описать как семантемы.

[0066] Каждая поверхностная модель (410) лексического значения может включать в себя одну или более синтформ (412). Каждая синтформа поверхностной модели (410) может включать в себя одну или более поверхностных позиций (415) и иметь собственное описание линейного порядка (416) и одно или более грамматических значений (414), выраженных в виде набора грамматических характеристик (граммем), одно или более семантических ограничений для заполнителей поверхностных позиций, а также одну или более диатез (417). Семантические ограничения в отношении заполнителей поверхностных слотов включают в себя набор семантических классов, объекты которых могут заполнять поверхностный слот. Диатезы связывают (224) синтаксические описания (202) и семантические описания (204), и представляют собой соответствия между поверхностными позициями и глубинными позициями в глубинной модели (512).

[0067] С учетом представленного выше, на Фиг.1 подробно описан способ (100) автоматического создания универсального семантического описания целевого языка на основе семантической иерархии исходного языка и набора параллельных текстов.

[0068] На этапе (111) лингвисты формально описывают некоторые систематические лексические и синтаксические отличия целевого языка от исходного языка. Лингвисты также создают модель синтаксиса целевого языка и морфологическую модель целевого языка (например, словарь). Модели синтаксиса целевого языка и модель морфологии целевого языка могут представлять собой отдельные модели или же являться частями единой модели. Например, способ 100 можно применять к паре родственных языков с одинаковым алфавитом или в значительной мере схожими/пересекающимися алфавитами. Лексическое сходство может быть обусловлено похожими механизмами словообразования. Такие пары языков существуют и, как правило, принадлежат к одной языковой группе. Например, пары языков могут включать в себя: русский - украинский, русский - белорусский, латышский - литовский, русский - польский, русский - болгарский, украинский - белорусский, украинский - польский, украинский - словацкий и немецкий - датский и т.п.

[0069] Этап (111 может быть исключен из способа (100). Однако описания отличий, создаваемые в ходе этапа (111), могут повысить точность результатов применения способа (100). В одном варианте осуществления изобретения лингвист может описать морфологическую модель для целевого языка, включающую в себя парадигмы изменения формы слов, систему грамматических категорий и морфологический словарь. Морфологический словарь также можно составить разными способами. Например, для автоматического построения морфологического словаря на основе корпуса текста можно использовать информацию о способе, описанном в заявке на патент США №11/769,478 «Способ и система составления словаря естественного языка». В другом варианте осуществления изобретения морфологическое описание целевого языка сначала может отсутствовать, однако позднее будет создано в результате использования способа 100 и морфологического словаря исходного языка после установления соответствий между словами исходного языка и целевого языка. В данной ситуации при наличии достаточного объема текста на целевом языке можно воспользоваться возможностью дополнительной проверки гипотез о морфологической модели для каждого слова в корпусе текста в соответствии со способом, описанным в заявке на патент США №11/769,478.

[0070] Например, возможны следующие систематические различия между исходным языком и целевым языком: могут отличаться система падежей, система времен глаголов, а также категории рода или числа существительных или местоимений. Могут существовать и другие различия. Еще один пример: местоимение в одном языке может управляться одним падежом, а соответствующее местоимение в другом языке - другим падежом. Также могут различаться механизмы словообразования, как, например, при образовании сложных слов и т.п. Все данные различия могут быть описаны формально как правила трансформаций. Правила трансформации также можно описать программно (например, в ви