Разрешение семантической неоднозначности при помощи не зависящей от языка семантической структуры
Иллюстрации
Показать всеИзобретение относится к компьютерной технике, а именно к анализу текстов. Технический результат - эффективная обработка новых слов, отсутствующих в используемом реестре значений, добавление этих понятий в реестр значений и использование их во время дальнейшего анализа. Способ выявления семантического значения неизвестного слова в задачах автоматической обработки естественного языка, содержащий: получение вычислительным устройством неизвестного слова; определение процессором вычислительного устройства множества потенциальных семантических классов для назначения неизвестному слову; построение процессором с использованием корпусов текстов классификатора для неизвестного слова; классификацию неизвестного слова, основанную, по меньшей мере частично, на встроенном классификаторе, с помощью по меньшей мере одного семантического класса из множества потенциальных семантических классов; и добавление неизвестного слова в семантическую иерархию в качестве экземпляра по меньшей мере одного семантического класса. 3 н. и 18 з.п. ф-лы, 18 ил.
Реферат
ОБЛАСТЬ ИЗОБРЕТЕНИЯ
УРОВЕНЬ ТЕХНИКИ
[001] Во многих естественных языках есть омонимы, т.е. слова, имеющие несколько значений. Когда человек находит такое слово в тексте, он может безошибочно выбрать правильное значение в зависимости от контекста и интуиции. Совсем другая ситуация - когда текст анализируется с помощью компьютерной системы. Существующие системы для разрешения неоднозначности в тексте в основном базируются на лексических ресурсах, таких как словари. Для конкретного слова такие способы извлекают из лексического ресурса все возможные значения этого слова. После этого могут применяться различные способы определения того, какое из этих значений слова является релевантным. Большинство таких способов являются статистическими, т.е. основанными на анализе больших корпусов текста, в то время как некоторые другие основаны на использовании информации из словаря (например, учитывающих степень "пересечения" между толкованием в словаре и локальным контекстом, в котором используется слово). Для конкретного слова, для которого должна быть разрешена неоднозначность, такие способы, как правило, основаны на решении задачи классификации (т.е. возможные значения слова рассматриваются в качестве категорий, и слово должно быть отнесено к одной из них).
[002] Существующие способы решают проблему разрешения неоднозначности многозначных слов и омонимов, считая многозначными словами и омонимами те слова, которые появляются несколько раз в используемом реестре значений. Ни один из способов не работает со словами, которые вообще не появляются в используемом лексическом ресурсе. Реестры значений, используемые существующими способами, не позволяют вносить изменения и не отражают изменения, происходящие в языке. Есть только несколько способов, которые основаны на использовании значений из Википедии, но эти способы не вносят никаких изменений в реестр значений.
[003] В настоящее время мир быстро меняется, появляется много новых технологий и продуктов, при этом соответственно изменяется и язык. Появляются новые слова для обозначения новых понятий, а также появляются новые значения для некоторых существующих слов. Поэтому способы устранения неоднозначности текста - обеспечивать возможность эффективно обрабатывать новые слова, которые отсутствуют в используемом реестре значений, добавлять эти понятия в реестр значений и использовать их во время дальнейшего анализа.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
[004] Пример осуществления относится к способу. Способ включает в себя получение вычислительным устройством неизвестного слова. Способ дополнительно включает в себя определение процессором вычислительного устройства множества потенциальных семантических классов для назначения неизвестному слову. Способ дополнительно включает построение процессором с использованием корпусов текстов классификатора для неизвестного слова. Способ дополнительно включает классификацию неизвестного слова, основанную по меньшей мере частично на встроенном классификаторе, с помощью по меньшей мере одного семантического класса из множества потенциальных семантических классов. Способ дополнительно включает в себя добавление неизвестного слова в семантическую иерархию в качестве экземпляра по меньшей мере одного семантического класса.
[005] Другой пример осуществления относится к системе. Система включает в себя один или более процессоров данных. Система дополнительно включает в себя одно или более устройств хранения, хранящих инструкции, которые, будучи исполненными одним или более процессорами данных, воздействуют на один или более процессоров данных для выполнения операций, содержащих получение вычислительным устройством неизвестного слова. Операции дополнительно содержат определение процессором вычислительного устройства множества потенциальных семантических классов для назначения неизвестному слову. Операции дополнительно содержат построение процессором с использованием корпусов текстов классификатора для неизвестного слова. Операции дополнительно содержат классификацию неизвестного слова, основанную по меньшей мере частично на встроенном классификаторе, с помощью по меньшей мере одного семантического класса из множества потенциальных семантических классов. Операции дополнительно содержат добавление неизвестного слова в семантическую иерархию в качестве экземпляра по меньшей мере одного семантического класса.
[006] Еще один пример осуществления относится к машиночитаемому носителю данных, имеющему хранящиеся на нем машинные инструкции, причем процессор исполняет инструкции для выполнения операций, содержащих получение вычислительным устройством неизвестного слова. Операции дополнительно содержат определение процессором вычислительного устройства множества потенциальных семантических классов для назначения неизвестному слову. Операции дополнительно содержат построение процессором с использованием корпусов текстов классификатора для неизвестного слова. Операции дополнительно содержат классификацию неизвестного слова, основанную по меньшей мере частично на встроенном классификаторе, с помощью по меньшей мере одного семантического класса из множества потенциальных семантических классов. Операции дополнительно содержат добавление неизвестного слова в семантическую иерархию в качестве экземпляра по меньшей мере одного семантического класса.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[007] Описания одного или более вариантов реализации изложены в сопутствующих рисунках и представленном ниже описании. Другие отличительные признаки, аспекты и преимущества описания предмета изобретения станут очевидны из описания, рисунков и формулы изобретения, где:
[008] на Фиг. 1 представлена блок-схема способа разрешения семантической неоднозначности в соответствии с одним или более вариантами реализации;
[009] на Фиг. 2 представлена блок-схема способа исчерпывающего анализа в соответствии с одним или более вариантами реализации;
[010] на Фиг. 3 представлена блок-схема анализа предложения в соответствии с одним или более вариантами реализации;
[011] на Фиг. 4 представлен пример семантической структуры, полученной для примера предложения;
[012] на Фиг. 5A-5D представлены фрагменты или части семантической иерархии;
[013] на Фиг. 6 представлена диаграмма, демонстрирующая описания языка в соответствии с одним примером реализации;
[014] на Фиг. 7 представлена диаграмма, демонстрирующая морфологические описания в соответствии с одним или более вариантами реализации;
[015] на Фиг. 8 представлена диаграмма, демонстрирующая синтаксические описания в соответствии с одним или более вариантами реализации;
[016] на Фиг. 9 представлена диаграмма, демонстрирующая семантические описания в соответствии с одним или более примерами реализации;
[017] на Фиг. 10 представлена диаграмма, демонстрирующая лексические описания в соответствии с одним или более вариантами реализации;
[018] на Фиг. 11 представлена блок-схема способа разрешения семантической неоднозначности с использованием параллельных текстов в соответствии с одним или более вариантами реализации;
[019] на Фиг. 12A-B представлены семантические структуры совмещенных предложений в соответствии с одним или более вариантами реализации;
[020] на Фиг. 13 представлена блок-схема способа разрешения семантической неоднозначности с использованием методик классификации в соответствии с одним или более вариантами реализации; и
[021] на Фиг. 14 представлен пример аппаратного обеспечения для реализации компьютерной системы в соответствии с одним вариантом реализации.
[022] Аналогичные номера и обозначения на различных рисунках указывают на аналогичные элементы.
ПОДРОБНОЕ ОПИСАНИЕ
[023] В последующем описании для целей пояснения изложено множество конкретных деталей реализации, чтобы обеспечить глубокое понимание понятий, лежащих в основе описанных вариантов реализации изобретения. Однако для специалистов в данной области будет очевидно, что описанные варианты реализации могут быть реализованы на практике без некоторых или всех из этих конкретных особенностей. В других случаях структуры и устройства показаны только в виде блок-схемы во избежание затруднения понимания описанных вариантов реализации. Некоторые этапы процесса не описаны подробно во избежание затруднения понимания лежащего в основе понятия.
[024] В соответствии с различными вариантами реализации изобретения, описанными в настоящем документе, предложены способ и система для разрешения семантической неоднозначности в тексте, основанные на использовании реестра значений с иерархической структурой, или семантической иерархии, а также способ добавления понятий к семантической иерархии. Семантические классы (как часть лингвистических описаний) группируются в семантическую иерархию, в которой существуют связи «родительский объект - дочерний объект». Как правило, дочерний семантический класс наследует многие или большинство свойств своего непосредственного родительского класса и всех унаследованных семантических классов. Например, семантический класс SUBSTANCE является дочерним классом семантического класса ENTITY, но в то же время он является родительским классом для семантических классов GAS, LIQUID, METAL, WOOD_MATERIAL и т.д.
[025] Каждый семантический класс в семантической иерархии сопровождается глубинной моделью. Глубинная модель семантического класса представляет собой набор глубинных позиций. Глубинные позиции отражают семантические роли дочерних составляющих в различных предложениях с объектами данного семантического класса в качестве ядра и возможных семантических классов в качестве заполнителей глубинных позиций. Глубинные позиции выражают семантические отношения между составляющими, включающими, например, такие составляющие, как «агент», «адресат», «инструмент», «количество» и т.д. Дочерний семантический класс наследует и уточняет глубинную модель своего непосредственного родительского семантического класса.
[026] По меньшей мере, некоторые из вариантов реализации используют технологию исчерпывающего анализа текста, которая использует широкий спектр лингвистических описаний, представленных в патенте США №8,078,450. Анализ включает в себя лексико-морфологический, синтаксический и семантический анализ, в результате создаются независимые от языка семантические структуры, в которых каждое слово сопоставлено с соответствующим семантическим классом.
[027] На Фиг. 1 представлена блок-схема способа разрешения семантической неоднозначности в соответствии с одним или более вариантами реализации. Для данного текста и реестра значений 102 с иерархической структурой для каждого слова 101 в тексте в данном способе выполняются следующие шаги. Если слово появляется только один раз в реестре значений (105), способ проверяет (107), является ли такое вхождение экземпляром значения данного слова. Это может быть сделано с помощью одного из существующих статистических способов: если контекст слова аналогичен контексту слов в этом значении в корпусах, а также если контексты аналогичны, то слову в тексте назначается (109) соответствующее понятие из реестра. Если не найдено слово, которое является экземпляром этого объекта в реестре значений, в реестр значений вводится новое понятие (104) и слово, связанное с этим новым понятием. Родительский объект понятия, которое должно быть введено, может быть выявлен путем статистического анализа каждого уровня иерархии, начиная от корня и выбора наиболее вероятного узла на каждом этапе. Вероятность каждого узла, который должен быть связан со словом, основана на анализе корпусов текстов.
[028] Если слово встречается два или более раз в реестре значений, принимается решение (106), какое из значений, если они есть, является правильным для слова 101. Это может быть сделано путем применения любого существующего способа разрешения неоднозначности слова. Если оказывается, что одно из значений является правильным для слова, то это слово отождествляется с соответствующим понятием из реестра значений 108. В ином случае новое значение добавляется в реестр значений 104. Родительский объект значения, которое должно быть введено, может быть выявлен путем статистического анализа каждого уровня иерархии, начиная от корня и выбора наиболее вероятного узла на каждом этапе. Вероятность каждого узла основана на анализе корпусов текстов.
[029] Если слово совсем не появляется в реестре значений, соответствующее значение вставляется в реестр значений 104. Родительский объект значения, которое должно быть введено, может быть выявлен путем статистического анализа каждого уровня иерархии, начиная от корня и выбора наиболее вероятного узла на каждом этапе. Вероятность каждого узла основана на корпусах текстов. В другом варианте реализации способ может устранить неоднозначность только для одного слова или для нескольких слов в контексте, в то время как другие слова рассматриваются только в качестве контекста, и для них не требуется снимать неоднозначность.
[030] В одном варианте реализации могут использоваться способы исчерпывающего анализа. На Фиг. 2 представлена блок-схема способа исчерпывающего анализа в соответствии с одним или более вариантами реализации. Как показано на Фиг. 2, лингвистические описания могут включать в себя лексические описания 203, морфологические описания 201, синтаксические описания 202 и семантические описания 204. Каждый из этих компонентов лингвистических описаний показан либо как воздействующий, либо как используемый в качестве входных данных на этапах, показанных на блок-схеме 200. Способ включает в себя получение исходного предложения 205. Исходное предложение 205 анализируется (206), как показано более подробно на Фиг. 3. Затем формируется независимая от языка семантическая структура (Language-Independent Semantic Structure - LISS) (207). LISS представляет смысл исходного. Затем индексируются исходное предложение, синтаксическая структура и LISS (208). Результатом является набор полученных индексов 209.
[031] Индекс может содержать таблицу или может быть представлен в виде таблицы, в которой каждое значение элемента (например, слова, выражения или фразы) в документе сопровождается списком номеров или адресов его вхождения в этом документе. В некоторых вариантах реализации морфологические, синтаксические, лексические и семантические признаки могут быть проиндексированы таким же способом, как индексируется каждое слово в документе. В одном варианте реализации индексы могут быть получены для индексации всех или, по меньшей мере, одного значения морфологических, синтаксических, лексических и семантических признаков (параметров). Эти параметры или значения генерируются в процессе двухступенчатого семантического анализа, описанного ниже более подробно. Индекс можно использовать для упрощения таких операций обработки естественного языка, как устранение неоднозначности слов в документах.
[032] На Фиг. 3 представлена блок-схема анализа предложения в соответствии с одним или более вариантами реализации. Как показано на Фиг. 2 и Фиг. 3, при анализе (206) значения исходного предложения 205 определяется лексико-морфологическая структура 322. Затем выполняется синтаксический анализ, реализованный по алгоритму двухэтапного анализа (например, «грубого» синтаксического анализа и «точного» синтаксического анализа), с использованием лингвистических моделей и знаний на различных уровнях для вычисления оценок вероятности и создания наиболее вероятной синтаксической структуры, например, наилучшей синтаксической структуры.
[033] Таким образом, проводится грубый синтаксический анализ исходного предложения для создания графа 332 обобщенных составляющих, используемого для дальнейшего синтаксического анализа. Применяются все возможные поверхностные синтаксические модели для каждого элемента лексико-морфологической структуры, а также формируются и обобщаются все возможные составляющие для представления всех возможных вариантов синтаксического разбора предложения.
[034] После грубого синтаксического анализа выполняется точный синтаксический анализ на графе обобщенных составляющих для получения одного или более синтаксических деревьев 342, представляющих исходное предложение. В одном варианте реализации создание одного или более синтаксических деревьев 342 включает в себя выбор между лексическими значениями и выбор между отношениями из графов. Многие априорные и статистические оценки могут быть использованы в процессе выбора между лексическими вариантами, а также при выборе между отношениями из графа. Априорные и статистические оценки также могут быть использованы для оценки частей созданного дерева и всего дерева. В одном варианте реализации одно или более синтаксических деревьев могут быть созданы или упорядочены в порядке убывания оценки. Таким образом, в первую очередь может создаваться наилучшее синтаксическое дерево 346. В это время также может выполняться проверка и установление недревесных связей для каждого синтаксического дерева. Если не удается выбрать первое созданное синтаксическое дерево, например, из-за невозможности установления недревесных связей, в качестве лучшего может быть выбрано второе синтаксическое дерево и т.д.
[035] На этапах анализа могут извлекаться многие лексические, грамматические, синтаксические, прагматические и семантические характеристики. Например, система может извлекать и хранить лексическую информацию и информацию о лексических единицах, принадлежащих к семантическим классам, информацию о грамматических формах и линейном порядке, о синтаксических отношениях и поверхностных позициях, об использовании синтформ, аспектность, признаки тональности, такие как положительная или отрицательная тональность, глубинные позиции, недревесные связи, семантемы и т.д. Как показано на фиг. 3, такой двухэтапный подход к синтаксическому анализу обеспечивает, предтавление значения исходного предложения наилучшей синтаксической структурой 346, выбранной из одного или более синтаксических деревьев. Такой двухэтапный анализ следует принципу целостного и целенаправленного распознавания, т.е. гипотезы о структуре части предложения проверяются с помощью всех доступных лингвистических описаний в рамках гипотезы о структуре всего предложения. Такой подход позволяет избежать необходимости анализа множества заведомо бесперспективных вариантов разбора предложения. В некоторых ситуациях такой подход снижает объем вычислительных ресурсов, необходимым для обработки предложения.
[036] Способы анализа обеспечивают достижение максимальной точности при передаче или понимании смысла предложения. На Фиг. 4 представлен пример семантической структуры, полученной для предложения «This boy is smart, he′ll succeed in life.». Как показано на Фиг. 4, эта структура содержит всю синтаксическую и семантическую информацию, такую как семантические классы, семантемы, семантические отношения (глубинные позиции), недревовидные ссылки и т.д. Независимая от языка семантическая структура (LISS) 352 (сформированная в блоке 207 на Фиг. 2) предложения может быть представлена в виде ациклического графа (дерева, дополненного недревесными связями), в котором каждое слово конкретного языка замещено его универсальными (независимыми от языка) семантическими понятиями или семантическими объектами, называемыми в настоящем документе «семантическими классами». Семантический класс является семантическим признаком, который может быть извлечен и использован для задач классификации, кластеризации и фильтрации текстовых документов, написанных на одном или множестве языков. Другими признаками, используемыми для такой задачи, могут быть семантемы, так как они могут отражать не только семантические, но и синтаксические, грамматические и другие особенности конкретного языка в независимых от языка структурах.
[037] На Фиг. 4 представлен пример синтаксического дерева 400, полученного в результате точного синтаксического анализа предложения «This boy is smart, he′ll succeed in life». Это дерево содержит полную или по существу полную семантическую информацию, такую как лексические значения, части речи, синтаксические роли, грамматические значения, синтаксические отношения (позиции), синтаксические модели, типы недревовидных ссылок и т.д. Например, установлено, что «he» относится к «boy» как субъект анафорической модели 410. Установлено, что «boy» является субъектом 420 глагола «be», «he» - субъектом 430 «succeed», a «smart» относится к «парень» с помощью «управления-дополнения» 440.
[038] На Фиг. 5A-5D представлены фрагменты семантической иерархии в соответствии с одним вариантом реализации. Как показано, наиболее распространенные понятия находятся на верхних уровнях иерархии. Например, в отношении типов документов, как показано на Фиг. 5 В и 5С, семантические классы PRINTED_MATTER (502), SCINTIFIC_AND_LITERARY_WORK (504), TEXT_AS_PART OF_CREATIVE WORK (505) и другие являются дочерними классами семантического класса TEXT_OBJECTS_AND_DOCUMENTS (501), a PRINTED_MATTER (502) в свою очередь является родительским классом для семантического класса EDITION_AS_TEXT(503), который включает в себя классы PERIODICAL и NONPERIODICAL, причем PERIODICAL в свою очередь является родительским классом для ISSUE, MAGAZINE, NEWSPAPER и других классов. Для деления на классы можно использовать различные подходы. В некоторых вариантах реализации при определении классов в первую очередь учитывается семантика использования понятий, которая является неизменной для всех языков.
[039] Каждый семантический класс в семантической иерархии может сопровождаться глубинной моделью. Глубинная модель семантического класса представляет собой набор глубинных позиций. Глубинные позиции отражают семантические роли дочерних компонентов в различных предложениях с объектами семантического класса в качестве основы родительского компонента и возможных семантических классов в качестве заполнителей глубинных позиций. Глубинные позиции выражают семантические отношения между компонентами, включающими в себя, например, «агент», «адресат», «инструмент», «количество» и т.д. Дочерний семантический класс наследует и регулирует глубинную модель своего непосредственного родительского семантического класса.
[040] На Фиг. 6 представлена диаграмма описания языка 610 согласно одному примеру реализации. Как показано на Фиг. 6, описания языка 610 включают в себя морфологические описания 201, синтаксические описания 202, лексические описания 203 и семантические описания 204. Описания языка 610 объединены в одно общее понятие. На Фиг. 7 представлены морфологические описания 201, а на Фиг. 8 представлены синтаксические описания 202. На Фиг. 9 представлены семантические описания 204.
[041] Как показано на Фиг. 6 и Фиг. 9, семантическая иерархия 910, являясь частью семантических описаний 204, представляет собой элемент описаний языка 610, который соединяет независимые от языка семантические описания 204 и лексические описания конкретного языка 203, как показано двойной стрелкой 623, морфологические описания 201 и синтаксические описания 202, как показано двойной стрелкой 624. Семантическая иерархия может быть создана один раз, а затем ее можно заполнить данными для каждого конкретного языка. Семантический класс для конкретного языка включает в себя лексические значения с их моделями.
[042] Семантические описания 204 не зависят от языка. Семантические описания 204 могут обеспечить описания глубинных компонентов, а также могут содержать семантическую иерархию, описания глубинных позиций, систему семантем и прагматические описания.
[043] Как показано на Фиг. 6, морфологические описания 201, лексические описания 203, синтаксические описания 202, а также семантические описания 204 могут быть связаны. Лексическое значение может иметь одну или более поверхностных (синтаксических) моделей, которые могут сопровождаться семантемами и прагматическими характеристиками. Синтаксические описания 202 и семантические описания 204 также могут быть связаны. Например, диатезы синтаксического описания 202 можно рассматривать как «интерфейс» между поверхностными моделями конкретного языка и независимыми от языка глубинными моделями семантического описания 204.
[044] На Фиг. 7 представлен пример морфологических описаний 201. Как показано, компоненты морфологических описаний 201 включают в себя, без ограничений, описание словоизменения 710, грамматическую систему (например, граммемы) 720 и описание словообразования 730. В одном варианте реализации грамматическая система 720 включает в себя набор грамматических категорий, таких как «часть речи», «падеж», «род», «число», «одушевленность», «возвратность», «время», «аспект» и т.д., а также их значения, далее именуемые «граммемы». Например, граммемы частей речи могут включать в себя «прилагательное», «существительное», «глагол» и т.д.; граммемы падежей могут включать в себя «именительный», «винительный», «родительный» и т.д.; а граммемы категории рода могут включать в себя «женский», «мужской», «средний» и т.д.
[045] Как показано на Фиг. 7, описание словоизменения 710 может описывать, как может изменяться основная форма слова в соответствии с его падежом, родом, числом, временем и т.д., и включает в себя практически все возможные формы данного слова. Описание словообразования 730 может описывать, какие новые слова могут быть созданы с использованием данного слова. Граммемы являются единицами грамматических систем 720 и, как показано ссылкой 722 и ссылкой 724, граммемы могут использоваться для построения описания изменения формы слова 710, а также описания словообразования 730.
[046] На Фиг. 8 представлен пример синтаксических описаний 202. Компоненты синтаксических описаний 202 могут включать поверхностные модели 810, описания поверхностных позиций 820, описания референциального и структурного контроля 856, описания управления и согласования 840, описания недревесного синтаксиса 850 и правила анализа 860. Синтаксические описания 202 используются для создания возможных синтаксических структур предложения на данном исходном языке с учетом свободного линейного порядка слов, недревовидного синтаксического явления (например, согласования, эллипсиса и т.д.), референтных отношений, а также других факторов. Все эти компоненты используются в процессе синтаксического анализа, который может быть выполнен в соответствии с технологией исчерпывающего анализа языка, подробно описанной в патенте США №8,078,450.
[047] Поверхностные модели 810 представляют собой наборы из одной или более синтаксических форм («синтформ» 812) для описания возможных синтаксических структур предложений, как показано в синтаксическом описании 102. В общем случае, лексическое значение языка связано с его поверхностными (синтаксическими) моделями 810, которые представляют возможные составляющие с данным лексическом значением в качестве ядра и, помимо прочего, включают в себя набор поверхностных позиций дочерних элементов, описание линейного порядка, диатезы.
[048] Поверхностные модели 810 представлены синтформами 812. Каждая синтформа 812 может включать в себя определенное лексическое значение, которое функционирует в качестве ядра составляющей и может дополнительно включать в себя набор поверхностных позиций 815 своих дочерних компонентов, описание линейного порядка 816, диатезы 817, грамматические значения 814, описания управления и согласования 840, коммуникативные описания 880, в том числе в связи с ядром составляющей.
[049] Описания поверхностных позиций 820 как части синтаксических описаний 102 используются для задания общих свойств поверхностных позиций 815, которые используются в поверхностных моделях 810 различных лексических значений в исходном языке. Поверхностные позиции 815 используются для выражения синтаксических отношений между компонентами предложения. Примеры поверхностных позиций 815 могут включать в себя, помимо прочего, «субъект», «прямое_дополнение», «косвенное_дополнение», «определительное придаточное предложение».
[050] При синтаксическом анализе модель составляющих использует множество поверхностных позиций 815 дочерних компонентов и их описания линейного порядка 816, а также описывает грамматические значения 814 возможных заполнителей этих поверхностных позиций 815. Диатезы 817 представляют соответствия между поверхностными позициями 815 и глубинными позициями 514 (как показано на рисунке 5). Диатезы 817 представлены связью 624 между синтаксическими описаниями 202 и семантическими описаниями 204. Коммуникативные описания 880 описывают коммуникативный порядок в предложении.
[051] Синтаксические формы (синтформы) 812 представляют собой набор поверхностных позиций 815, связанных с описанием линейного порядка 816. Одна или более составляющих, возможных для лексического значения словоформы в исходном предложении, могут быть представлены поверхностными синтаксическими моделями, такими как поверхностные модели 810. Каждая составляющая рассматривается как реализация некоторой модели составляющей путем выбора соответствующей синтформы 812. Выбранные синтаксические формы (синтформы) 812 представляют собой наборы поверхностных позиций 815 с указанным линейным порядком. Каждая поверхностная позиция в синтформе может иметь грамматические и семантические ограничения для своих заполнителей.
[052] Описание линейного порядка 816 представлено в виде выражений линейного порядка, которые представляют последовательность, в которой различные поверхностные позиции 815 могут встречаться в предложении. Выражения линейного порядка могут включать имена переменных, имена поверхностных позиций, скобки, граммемы, оценки, а также оператор «или» и т.д. Например, описание линейного порядка простого предложения «Boys play football» может быть представлено в виде «Subject Core Object_Direct» (т.е. «Субъект Ядро Прямое_дополнение»), где « Subject, Object_Direct» представляют собой имена поверхностных позиций 815, соответствующих порядку слов. Заполнители поверхностных позиций 815, указанные символами элементов предложения, присутствуют в том же порядке для элементов выражений линейного порядка.
[053] Различные поверхностные позиции 815 могут находиться в отношении строгого и/или нестрогого порядка в синтформе 812. Например, скобки можно использовать для построения выражений линейного порядка и описывать отношения строгого линейного порядка между различными поверхностными позициями 815. SurfaceSlot1 SurfaceSlot2 или (SurfaceSlot1 SurfaceSlot2) означает, что обе поверхностных позиции расположены в том же выражении линейного порядка, но возможен только один порядок следования этих поверхностных позиций относительно друг друга, при котором SurfaceSlot2 следует за SurfaceSlot1.
[054] В другом примере можно использовать квадратные скобки для построения выражений линейного порядка и описания отношения нестрогого линейного порядка между различными поверхностными позициями 815 синтформ 812. Таким образом, [SurfaceSlot1 SurfaceSlot2] указывает, что обе поверхностных позиции принадлежат той же переменной линейного порядка, а их порядок относительно друг друга не имеет значения.
[055] Выражения линейного порядка в описании линейного порядка 816 могут содержать грамматические значения 814, выраженные граммемами, которым соответствуют дочерние компоненты. Кроме того, два выражения линейного порядка могут быть объединены оператором | (т.е. «ИЛИ»). Например: (Subject Core Object) | [Subject Core Object].
[056] Коммуникативные описания 880 описывают порядок слов в синтформе 812 с точки зрения коммуникативных актов, которые необходимо представить в виде выражений коммуникативного порядка, которые аналогичны выражениям линейного порядка. Описание подчиненности и согласования 840 содержит правила и ограничения грамматических значений окружающих компонентов, которые используются в процессе синтаксического анализа.
[057] Описания недревесного синтаксиса 850 связаны с обработкой различных лингвистических явлений, таких как эллипсис и координация, и используются в трансформациях синтаксических структур, которые создаются на различных этапах анализа в соответствии с вариантами реализации настоящего изобретения. Описания недревесного синтаксиса 850 включают в себя, помимо прочего, описание эллипсиса 852, описание координации 854, а также описания референциального и структурного контроля 830.
[058] Правила анализа 860 (как часть синтаксических описаний 202) могут включать в себя, без ограничений, правила вычисления семантем 862 и правила нормализации 864. Хотя правила анализа 860 используются на этапе семантического анализа 150, правила анализа 860, как правило, описывают свойства конкретного языка и связаны с синтаксическими описаниями 102. Правила нормализации 864 по существу используются в виде правил преобразования для описания трансформаций семантических структур, которые могут быть различными в разных языках.
[059] На Фиг. 9 представлен пример семантических описаний. Компоненты семантических описаний 204 не зависят от языка и могут включать в себя, без ограничений, семантическую иерархию 910, описание глубинных позиций 920, систему семантем 930 и прагматические описания 940.
[060] Семантическая иерархия 910 состоит из смысловых понятий (семантических объектов), называемых семантическими классами, организованных в соответствии с иерархическими отношениями «родительский объект - дочерний объект», которые аналогичны дереву. Как правило, дочерний семантический класс наследует большинство свойств своего непосредственного родителя и все унаследованные семантические классы. Например, семантический класс SUBSTANCE является дочерним классом семантического класса ENTITY и родителем семантических классов GAS, LIQUID, METAL, WOOD_MATERIAL и т.д.
[061] Каждый семантический класс в семантической иерархии 910 сопровождается глубинной моделью 912. Глубинная модель 912 семантического класса представляет собой набор глубинных позиций 914, которые отражают семантические роли дочерних составляющих в различных предложениях с объектами семантического класса в качестве ядра родительской составляющей и возможных семантических классов в качестве заполнителей глубинных позиций. Глубинные позиции 914 выражают семантические отношения, включающие, например, «агент», «адресат», «инструмент», «количество» и т.д. Дочерний семантический класс наследует и уточняет глубинную модель 912 своего непосредственного родительского семантического класса.
[062] Описание глубинных позиций 920 используется для описания общих свойств глубинных позиций 914 и отражает семантические роли дочерних составляющих в глубинных моделях 912. Описание глубинных позиций 920 также содержит грамматические и семантические ограничения для заполнителей глубинных позиций 914. Свойства и ограничения для глубинных позиций 914 и их возможных заполнителей очень похожи и часто идентичны для различных языков. Таким образом, глубинные позиции 914 являются независимыми от языка.
[063] Система семантем 930 представляет набор семантических категорий и семантем, которые представляют значения семантических категорий. Например, семантическая категория Degree Of Comparison может использоваться для описания степени сравнения, и ее семантемами, помимо прочего, могут быть, например, Positive (т.е. положительная степень,), Comparative Higher Degree (сравнительная степень,), Superlative Highest Degree (превосходная степень,). В качестве другого примера, семантическая категория Relation To Reference Point может использоваться для описания нахождения как до, так и после референта, а ее семантемы могут быть Previous и Subsequent, соответственно, при этом порядок может анализироваться в пространстве или времени в широком смысле этих слов. В качестве еще одного примера семантическая категория Evaluation Objective может использоваться для описания объективной оценки, например. Bad, Good и т.д.
[064] Система семантем 930 включает независимые от языка семантические атрибуты, которые выражают не только семантические характеристики, но и стилистические, прагматические и коммуникативные характеристики. Некоторые семантемы можно использовать для выражения единичного значения, которое находит регулярное грамматическое и/или лексическое выражение в языке. По своему назначению и использованию система семантем 930 может быть разделена на различные типы, включающие в себя, без ограничений, грамматические семантемы 932, лексические семантемы 934 и классифицир