2601166 - Разрешение анафоры на основе технологии глубинного анализа

Разрешение анафоры на основе технологии глубинного анализа

Иллюстрации

Показать все

Изобретение относится к системам и методам создания технологий, систем и продуктов для автоматической обработки текстовой информации и извлечения информации из текстов на естественных языках. Техническим результатом является повышение точности представления и извлечения информации в системах автоматической обработки текстов. В способе для создания синтактико-семантических структур предложений естественного языка в системах автоматической обработки текстов генерируют синтаксическое дерево для каждого предложения естественного языка, включающего множество синтаксических узлов и множество древесных синтаксических связей. Генерируют семантическую структуру, соответствующую синтаксическому дереву и включающую множество семантических узлов, соответствующих множеству синтаксических узлов, и множество древесных семантических связей, соответствующих множеству древесных синтаксических связей. Причем если синтаксическое дерево включает два различных синтаксических узла, соответствующих одной сущности, то соединяют семантические узлы, соответствующие этим синтаксическим узлам, недревесной связью. 3 н. и 15 з.п. ф-лы, 24 ил.

Реферат

ОБЛАСТЬ ИЗОБРЕТЕНИЯ

[0001] Изобретение относится к системам и методам создания технологий, систем и продуктов для автоматической обработки текстовой информации (=Natural Language Processing - NLP), извлечения информации из текстов на естественных языках. Важнейшими элементами таких технологий, включая методы и создаваемые на их основе приложения, являются системы анализа текстов на естественном языке, языковые описания, системы извлечения информации и онтологии как модели предметных областей. Благодаря интернету, становятся доступными большие объемы информации, представленной в электронном виде. Эта информация, как правило, неструктурированна, поэтому актуальной задачей является задача автоматического извлечения и структурирования доступной информации, включая все многообразие объектов, сущностей реального мира и связей между ними, формализация и отождествление сущностей и установление связей между ними для последующего использования при построении формальных моделей предметных областей в различных приложениях.

УРОВЕНЬ ТЕХНИКИ

[0002] Объем неструктурированной информации, представленной в электронном виде, в настоящее время неуклонно растет. Эта информация может содержать текст и другие данные (например, числа, даты и пр.). В частности, большой объем неструктурированной информации становится легко доступным благодаря сети Интернет. В то же время, не существует универсальных способов обработки и структурирования информации, извлечения фактов и знаний, позволяющих делать это эффективно и в приемлемое время без участия человека. Интерпретацию этой информации усложняют неоднозначность, свойственная естественному языку, и вариативность способов выражения. Отличительной особенностью любого естественного языка является возможность выразить одну и ту же мысль, описать один и тот же факт, событие множеством различных способов, требующих нетривиального подхода к синтаксическому анализу и наличия исчерпывающих языковых описаний. Поэтому остается актуальной задача построения таких языковых описаний и способов их использования, чтобы существовала возможность обработки всего многообразия языковых явлений, включая анафорические и кореферентные связи, сопоставление и отождествление одних и тех же сущностей, фактов, событий, действий и т.п.

[0003] Настоящее изобретение создает предпосылки для создания программной системы, решающей такие задачи, как извлечение информации из текстов на естественном языке, поиск информации в коллекциях документов, мониторинг информации и др. Настоящее изобретение представляет частичное продолжение технологий, описанных в ряде US Patent Applications. В частности, рассматриваемые семантические описания и методы анализа подробно изложены в US Patent Application 13/288,953, filed November 3, 2011, which is a continuation-in-part of U.S. patent application Ser. No. 11/548,214 that was filed on 10 Oct. 2006, now US Patent 8,078,450.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

[0004] Изобретение относится к способам и системам обработки естественного языка, с целью последующего использования в системах информационного поиска, в системах машинного перевода, для классификации текстов и других приложениях, связанных с информацией на естественном языке. Основной особенностью настоящего изобретения является то, что для извлечения информации используются результаты полного семантико-синтаксического анализа входного текста.

[0005] Способ настоящего изобретения включает использование применимой к любому естественному языку технологии глубинного анализа текста на основе универсальной семантической иерархии и конкретно-языковых описаний естественного языка. Метод включает следующие этапы. Имеющиеся тексты подвергаются полному синтаксическому и семантическому разбору. Строятся семантические структуры, содержащие семантические классы и глубинные отношения. На полученных семантических структурах устанавливаются недревесные связи, отражающие сложные языковые явления, такие как анафора, кореференция и др. Это, в частности, позволяет отождествлять объекты, представленные в тексте различным образом, и опционально извлекать дополнительную информацию об объектах поиска. Установление недревесных связей происходит в результате применения всех возможных для данного текста моделей, установления всех потенциально возможных недревесных связей с последующей фильтрацией и выбором наилучших вариантов.

[0006] В одной из реализаций, способ построения семантико-синтаксических структур предложений естественного языка в различных задачах обработки естественного языка включает: генерацию процессором, по меньшей мере, одного синтаксического дерева для каждого предложения, включающего множество синтаксических узлов и множество древесных синтаксических связей; генерацию процессором, по меньшей мере, одной семантической структуры, соответствующей по меньшей мере одному синтаксическому дереву, где по крайней мере одна семантическая структура включает множество семантических узлов, соответствующих множеству синтаксических узлов, и множество семантических связей соответствует множеству древесных связей; если по крайней мере одно синтаксическое дерево содержит по меньшей мере два различных синтаксических узла соответствующих одной и той же сущности, то установление связи между семантическими узлами, соответствующими этим синтаксическим узлам посредством по крайней мере одной недревесной связи; и выполнение последующей обработки текста процессором с использованием построенной семантической структуры.

[0007] Другой вариант реализации относится к системе. Такая система включает одно или несколько вычислительных средств, одно или несколько запоминающих устройств, в которых хранятся команды. В этом варианте реализации пример системы включает: модуль синтаксического анализа, сконфигурированный для того, чтобы генерировать по меньшей мере по одному синтаксическому дереву для каждого предложения, включающему множество синтаксических узлов и множество древесных синтаксических связей; модуль семантического анализа, сконфигурированный для того, чтобы: генерировать, по меньшей мере, одну семантическую структуру, соответствующую, по меньшей мере, одному синтаксическому дереву, где по крайней мере одна семантическая структура включает множество семантических узлов, соответствующих множеству синтаксических узлов и множество семантических связей соответствует множеству древесных связей; если, по крайней мере, одно синтаксическое дерево содержит, по меньшей мере, два различных синтаксических узла соответствующих одной и той же сущности, то установить связи между семантическими узлами, соответствующими этим синтаксическим узлам посредством, по крайней мере, одной недревесной связи; и модуль последующей обработки текста процессором с использованием построенной семантической структуры.

[0008] Еще один вариант реализации относится к машиночитаемому носителю данных, содержащему машинные команды, при выполнении которых вычислительным устройством это вычислительное устройство выполняет следующие операции: полный синтаксический и семантический разбор имеющихся корпусов текстов, построение семантических структур, содержащих семантические классы и глубинные отношения, для предложений из текстов, образующих эти корпуса.

[0009] В этом еще одном варианте реализации компьютерный программный продукт, записанный на машиночитаемый носитель, программный продукт, включающий выполняемые компьютером инструкции для генерации синтактико-семантических структур предложений естественного языка при автоматической обработке текстов, включает инструкции для генерирования посредством процессора по меньшей мере по одному синтаксическому дереву для каждого предложения, включающему множество синтаксических узлов и множество древесных синтаксических связей; инструкции для выполнения семантического анализа, чтобы сгенерировать, по меньшей мере, одну семантическую структуру, соответствующую по меньшей мере одному синтаксическому дереву, где по крайней мере одна семантическая структура включает множество семантических узлов, соответствующих множеству синтаксических узлов, и множество семантических связей соответствует множеству древесных; если, по крайней мере, одно синтаксическое дерево содержит по меньшей мере два различных синтаксических узла соответствующих одной и той же сущности, то установить связи между семантическими узлами, соответствующими этим синтаксическим узлам посредством по крайней мере одной недревесной связи; и модуль последующей обработки текста процессором с использованием построенной семантической структуры.

[0010] В некоторых вариантах, связывание семантических узлов, по меньшей мере, одной недревесной связью включает генерацию множества возможных вариантов недревесных связей между синтаксическими узлами; вычисление оценки для каждой потенциально возможной недревесной связи и выбор недревесных связей с наивысшей оценкой. В некоторых вариантах, вычисление оценки для каждой потенциально возможной связи использует метрику схожести для объектов семантической иерархии, соответствующих семантическим узлам семантических структур. В некоторых вариантах, по меньшей мере два синтаксических узла принадлежат по меньшей мере двум разным синтаксическим деревьям. В некоторых случаях, по меньшей мере, два синтаксических узла включают узел-контроллер и узел-местоимение, управляемый контроллером, при этом установление того, что узел-контроллер и узел-местоимение соответствуют одной сущности, включает применение правил разрешения анафорических связей.

[0011] Технический результат от внедрения изобретения состоит в повышении точности представления и извлечения информации в системах автоматической обработки текстов, представленных предложениями на естественном языке, что достигается за счет построения более точного формального представления предложения на естественном языке, учитывающего анафорические и кореферентные связи, сопоставления и отождествления одних и тех же сущностей, фактов, событий, действий и т.д.

[0012] Вышеприведенное упрощенное описание примеров реализации предназначено только для понимания основных идей настоящего изобретения. Это краткое описание не является полноценным обзором всех предусмотренных аспектов и не предназначено для того, чтобы ни определить ключевые или критические элементы всех аспектов, ни определить охват каких-либо или всех аспектов настоящего раскрытия. Его единственная цель состоит в том, чтобы представить один или более аспектов в упрощенной форме как вступление к более подробному описанию последующего раскрытия. В дополнение к выше упомянутому, один или более аспектов настоящего раскрытия включают особенности, описанные и особенно подчеркнутые в формуле изобретения.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0013] Детали различных вариантов реализации изложены в прилагаемых чертежах и приведенном ниже описании. Другие особенности, аспекты и преимущества настоящего изобретения станут очевидными из описания, чертежей и формулы изобретения, в которых:

[0014] Фиг. 1 иллюстрирует способ настоящего изобретения;

[0015] Фиг. 2 представляет собой блок-схему способа получения множества синтаксических деревьев из документов и из других источников в соответствии с одним или несколькими вариантами реализации изобретения;

[0016] Фиг. 2А содержит пример лексико-морфологической структуры предложения в соответствии с одним или несколькими вариантами реализации;

[0017] Фиг. 2В представляет собой схему, иллюстрирующую используемые языковые описания, согласно одной из возможных реализаций изобретения;

[0018] Фиг. 3 содержит схему, иллюстрирующую морфологические описания в соответствии с одним или несколькими вариантами осуществления;

[0019] Фиг. 4 содержит схему, иллюстрирующую синтаксические описания в соответствии с одним или несколькими вариантами осуществления;

[0020] Фиг. 5 содержит схему, иллюстрирующую семантические описания в соответствии с одним или несколькими вариантами осуществления;

[0021] Фиг. 6 содержит схему, иллюстрирующую лексические описания в соответствии с одним или несколькими вариантами осуществления;

[0022] Фиг. 7 иллюстрирует последовательность структур данных, которые строятся в процессе анализа в соответствии с одним или несколькими вариантами осуществления;

[0023] На Фиг. 8 приведен схематичный пример графа обобщенных составляющих для ранее упомянутого предложения «This boy is smart, he′ll succeed in life» (Этот мальчик умный, он добьется успеха в жизни) в соответствии с одним или несколькими вариантами осуществления;

[0024] Фиг. 9 содержит пример синтаксической структуры английского предложения «This boy is smart, he′ll succeed in life» (Этот мальчик умный, он добьется успеха в жизни) в соответствии с одним или несколькими вариантами осуществления;

[0025] Фиг. 10 иллюстрирует семантическую структуру английского предложения «This boy is smart, he′ll succeed in life» (Этот мальчик умный, он добьется успеха в жизни) в соответствии с одним или несколькими вариантами осуществления;

[0026] На Фиг. 11 иллюстрирует синтаксическое дерево предложения без недревесных связей согласно одной из возможных реализаций изобретения.

[0027] Фиг. 11А иллюстрирует синтаксическую структуру предложения с установленными недревесными связями согласно одной из возможных реализаций изобретения.

[0028] На Фиг. 12 иллюстрирует синтаксическое дерево предложения без недревесных связей согласно одной из возможных реализаций изобретения.

[0029] Фиг. 12А иллюстрирует синтаксическую структуру предложения с установленными недревесными связями согласно одной из возможных реализаций изобретения.

[0030] Фиг. 12В иллюстрирует синтаксическую структуру предложения с установленными недревесными связями согласно одной из возможных реализаций изобретения.

[0031] Фиг. 13 иллюстрирует пример установления недревесных связей на множестве предложений.

[0032] Фиг. 13А иллюстрирует фрагмент семантической иерархии.

[0033] Фиг. 13В иллюстрирует другой фрагмент семантической иерархии.

[0034] Фиг. 13С иллюстрирует еще один фрагмент семантической иерархии.

[0035] На Фиг. 14 указаны вычислительные средства для создания компьютерной системы согласно одной из возможных реализаций изобретения.

[0036] Нижеследующее детальное описание изобретения содержит ссылки на соответствующие чертежи. Одни и те же обозначения на чертежах указывают на одни и те же компоненты, если не указано иное. Примеры реализации, представленные данным описанием, иллюстрациями и формулой изобретения, не являются единственно возможными. Примеры реализации могут быть использованы или модифицированы иными способами, не описанными ниже, без уменьшения их охвата или их сущности. Различные варианты реализации, представленные в спецификации и проиллюстрированные с помощью чертежей, могут быть расположены, заменены и сгруппированы в широком наборе различных конфигураций, которые подробно рассмотрены в настоящей спецификации.

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

[0037] Примеры реализации описаны здесь в контексте системы и метода для разрешения анафоры, основанных на лингвистических технологиях. Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Сущность, приведенная в описании, является ничем иным, как конкретными деталями, приведенными для помощи специалисту в области техники в исчерпывающем понимании изобретения, и настоящее изобретение определяется только в объеме приложенной формулы.

[0038] Описанные способ и система основаны на универсальном подходе к анализу текста, который включает технологию, использующую описания языка в универсальных, не зависящих от конкретного языка терминах (ядро), и лексическое наполнение, которое включает лексику конкретного языка и языковые модели словообразования и словоизменения, а также синтаксические модели словоупотребления и согласования в этом языке.

[0039] Это универсальное независимое от конкретного языка ядро, называемое семантической иерархией, содержит исчерпывающий набор знаний о мире и способов выражения этих знаний в естественных языках. Это знание может быть представлено в виде иерархического описания имеющихся в мире сущностей, их свойств, возможных атрибутов, их взаимоотношений и способов выражения таких знаний в конкретном языке. Семантическое описание такого типа является полезным для создания технологий автоматической обработки естественного языка, особенно приложений, которые способны «понимать смысл», выраженный на естественном языке; они необходимы для создания приложений и решения многочисленных задач по обработке естественного языка, таких как машинный перевод, семантическое индексирование и семантический поиск, включая многоязычный семантический поиск, извлечение фактов, анализ тональности, поиск похожих документов, классификация документов, обобщение, анализ больших объемов данных, электронное обнаружение, морфологический и лексический анализатор и другие приложения.

[0040] В частности, раскрываемые системы и способы дают возможность создавать системы обработки естественного языка, извлекать информацию из текстов, хранить и обрабатывать единицы текста (слова, предложения и тексты) и производить такие же операции с лексическими и семантическими значениями слов, предложений, текстов и других единиц информации.

[0041] Настоящее изобретение представляет собой способ и систему обработки языковых явлений, порождающих недревесные связи в предложениях. Предложения подвергаются глубинному семантико-синтаксическому анализу. Строится по крайней мере по одному семантико-синтаксическому дереву на одно предложение входного текста. В процессе анализа в этих деревьях могут появляться недревесные связи, которые возникают, если в соответствующем предложении есть такие языковые явления, как эллипсис, анафора, кореференция и др. Получающиеся структуры называются семантическими структурами или семантико-синтаксическими деревьями. Эти структуры порождаются парсером, выполняющим анализ текста в соответствии со способом, описанным в Патенте США №8,078,450. Каждое дерево, лежащее в основе семантической структуры, проективно, узлы соответствуют словам входного текста, но допускаются и нулевые узлы (не имеющие поверхностного выражения). Узлам сопоставлены универсальные сущности - узлы семантической иерархии, называемые семантическими классами, дуги размечены глубинными позициями.

[0042] Поясним проблему установления недревесных связей на примерах. Рассмотрим предложение "Мальчик дал девочке свое яблоко". В этом предложении существует очевидная связь между словами "мальчик" и "свое", указывающая на то, что мальчик дал именно свое яблоко, а не любое другое, например, лежащее на тарелке или сорванное с дерева. Эта связь может и должна быть установлена, однако для этого требуются некоторые нетривиальные действия. Для этого в синтаксической модели должно содержаться соответствующее описание и в анализируемом предложении должна быть идентифицирована семантическая роль (Possessor - владелец), которую играет слово, в данном случае притяжательное местоимение, в предложении. Однако, такого рода недревесные связи бывают разных типов и определение семантической роли и, соответственно, выбор глубинной позиции не всегда является однозначным. В предложении "Мальчик знает своего врага", лексема "свой " выполняет другую семантическую роль - Object. Если возможны разные варианты установления недревесных связей, разные варианты выбора семантических ролей, то рассматриваются все возможные случаи, каждый вариант оценивается и выбирается наиболее релевантный.

[0043] Рассматриваются следующие типы анафорических связей.

[0044] Местоименная (pronominal) анафора

[0045] Местоименной анафорой называется явление, выражаемое в тексте местоимениям: он, она, оно, они, я, мы, ты, вы, себя, свой, друг друга, таковой и некоторые другие.

[0046] Относительная анафора

[0047] Другой тип анафоры, который подлежит анализу и разрешению, встречается в предложениях, содержащих именную группу и относительное местоимение, например, "Мальчик, который пришел ".

[0048] Кореференция - это попытка ассоциировать два или более различных имени (названия) или именных группы, которые отсылают к одной и той же сущности. Задача усложняется, если именные группы не имеют текстового пересечения, как например, Обама и Президент США (относительно простым случаем является Обама и Барак Обама). Эта задача кореллирует с проблемой распознавания именованных сущностей и извлечением фактов из текстов.

[0049] Фиг. 1 иллюстрирует последовательность действий, совершаемых системой в соответствии с методом настоящего изобретения. На вход системы 100 подается текст 110, в общем случае, текстовый корпус, каждое предложение которого на предварительном этапе в результате синтаксического анализа 120 преобразуется в синтаксическое дерево. Этот этап является довольно сложным в реализации, поэтому требует отдельных пояснений, которые будут сделаны при описании Фиг. 2. На следующем этапе 130 в синтаксических деревьях генерируются недревесные связи. Недревесные связи генерируются на основе моделей недревесного синтаксиса, эти модель являются частью синтаксических описаний языка, которые будут подробно проиллюстрированы при описании Фиг. 4. Обычно вариантов установления этих связей может быть достаточно много, поэтому на этапе 140 все сгенерированные варианты оцениваются и ранжируются (150), затем из множества исключающих друг друга вариантов выбираются варианты с наилучшей оценкой и на этапе 160 происходит оценка и ранжирование (160) синтаксических структур с выбранными недревесными связями, после чего осуществляется переход (170) к семантической структуре 180. Дополнительно, в завершение процесса на этапе 170 может происходить извлечение сущностей и их отождествление. Ниже перечисленные этапы процесса описываются в деталях.

[0050] На Фиг. 2 показана блок-схема синтаксического анализа, целью которого является построение синтаксических деревьев (120), которые в дальнейшем могут преобразовываться в универсальное представление обрабатываемой информации в виде множества семантических деревьев. Под обрабатываемой информацией понимаются тексты документов, данных, текстовых корпусов, изображений, а также получаемые от серверов электронной почты, из социальных сетей, распознанной речи, видео и других источников. Если документ является изображением, имеет формат pdf, формат tif или другой нетекстовый формат, то предварительно применяется OCR (оптическое распознавание символов) или другой способ преобразования документа в текстовый формат. На этих этапах могут использоваться любые известные коммерческие системы, например, программа FineReader. В случае обработки речевых или аудио файлов добавляется другой предварительный этап - распознавание речи.

[0051] На этапе 214, для каждого предложения 212 текста, выполняется лексико-морфологический анализ, т.е. идентифицируются морфологические значения слов предложения. Другими словами, предложение разбивается на лексические элементы, после чего определяются их потенциальные леммы (начальные или основные формы), а также соответствующие варианты грамматических значений. Обычно для каждого элемента идентифицируется множество вариантов вследствие омонимии и совпадения словоформ различных грамматических значений. Схематический пример результата этапа 214 для предложения «This boy is smart, he′ll succeed in life» (Этот мальчик умный, он добьется успеха в жизни) приведен на Фиг. 2А.

[0052] Затем на лексико-морфологической структуре проводится синтаксический анализ. Синтаксический анализ - двухэтапный. Он включает грубый синтаксический анализ 215, включающий активацию синтаксических моделей одного или нескольких потенциальных лексических значений рассматриваемого слова и установление всех потенциальных поверхностных связей в предложении, что выражается в построении структуры данных, называемой графом обобщенных составляющих. Затем из графа обобщенных составляющих на этапе точного синтаксического анализа 216 формируется по меньшей мере одна структура данных - синтаксическое дерево, которое представляет собой синтаксическую структуру предложения. Этот процесс подробно описан в U.S. Patent Application Ser. №11/548,214, поданной 10 октября 2006 г., теперь это US Patent 8,078,450, который включен в настоящий документ посредством ссылки. В общем случае формируется несколько таких структур, что связано, прежде всего, с наличием различных вариантов для лексического выбора. Каждый вариант синтаксической структуры имеет свою собственную оценку, структуры упорядочены от наиболее вероятной к менее вероятной.

[0053] На всех этапах описываемого метода настоящего изобретения широко используется большой спектр лингвистических описаний. Ниже подробно описывается набор упомянутых лингвистических описаний и отдельные этапы метода настоящего изобретения. Фиг. 2В представляет собой схему, иллюстрирующую языковые описания (210) согласно одному из вариантов реализаций изобретения.

[0054] Языковые описания (210) включают морфологические описания (201), синтаксические описания (202), лексические описания (203) и семантические описания (204). Среди них морфологические описания (201), лексические описания (203) и синтаксические описания (202) создаются для каждого конкретного языка по определенным шаблонам. Семантические описания (204)универсальны, они используются для описания независимых от языка семантических признаков различных языков и для построения независимых от языка семантических структур. Языковые описания (210) связаны между собой и, рассматриваемые во взаимосвязи, они представляют собой модель исходного языка.

[0055] Так, всякое лексическое значение в лексических описаниях (203) также может иметь одну или несколько поверхностных моделей в синтаксических описаниях (202) для данного лексического значения. Всякой поверхностной модели в синтаксических описаниях (202) соответствует некоторая глубинная модель в семантических описаниях (204).

[0056] На Фиг. 3 приведены примеры морфологических описаний. Компоненты морфологических описаний (201) включают: описания словоизменения (310), грамматическую систему (320) и описания словообразования (330) и т.д. Грамматическая система (320) представляет собой набор грамматических категорий, таких, например, как «часть речи», «падеж», «пол», «число», «лицо», «возвратность», «время», «вид» и т.д., а каждая категория - набор значений, в дальнейшем называемых «граммемами», в том числе, например, прилагательное, существительное, глагол и т.д.; именительный, винительный, родительный падеж и т.д.; женский, мужской, нейтральный род и т.д. и т.д.

[0057] Описание словоизменения (310) показывает, как основная форма слова может меняться в зависимости от падежа, пола, числа, времени, и т.п., и в широком смысле оно включает в себя или описывает все возможные формы этого слова. Словообразование (330) определяет, какие новые слова могут быть созданы с участием этого слова (сложных слов, композитов). Граммемы могут использоваться для построения описания словоизменения (310) и описания словообразования (330).

[0058] При установлении синтаксических отношений между элементами исходного предложения используются модели составляющих. Составляющая представляет собой группу соседних слов в предложении, ведущих себя как единое целое. Ядром составляющей является слово, составляющая также может включать дочерние составляющие на более низких уровнях. Дочерняя составляющая является зависимой составляющей, она может быть прикреплена к другой составляющей (родительской) для построения синтаксической структуры.

[0059] На Фиг. 4 показаны синтаксические описания. Синтаксические описания (202) могут включать в том числе: поверхностные модели (410), описания поверхностных позиций (420), референциальные описания и описания структурного контроля (430), описания управления и согласования (440), описание недревесного синтаксиса (450) и правила анализа (460). Синтаксические описания 202 используются для построения возможных синтаксических структур исходного предложения на данном исходном языке с учетом свободного линейного порядка слов, недревесных синтаксических явлений (например, координации, эллипсиса и т.д.), референциальных отношений и других соображений.

[0060] Поверхностные модели (410) представлены в виде совокупностей из одной или нескольких синтаксических форм («синтформ» 412) для описания возможных синтаксических структур предложений, включенных в синтаксические описания (202). В целом, любое лексическое значение в языке связано с поверхностными (синтаксическими) моделями (410), которые представляют составляющие, возможные в том случае, когда это лексическое значение играет роль «ядра», а всякая поверхностная модель включает набор поверхностных позиций дочерних элементов, описание линейного порядка, диатез и т.д.

[0061] В модели составляющих используется множество поверхностных позиций (415) дочерних составляющих и описаний их линейного порядка (416), она описывает грамматические значения (414) возможных заполнителей этих поверхностных позиций (415). Диатезы (417) представляют соответствия между поверхностными позициями (415) и глубинными позициями (514) (как показано на Фиг. 5). Коммуникативные описания (480) описывают коммуникативный порядок в предложении.

[0062] Описание линейного порядка (416) задается в виде выражений линейного порядка для того, чтобы выразить последовательность, в которой различные поверхностные позиции (415) могут встречаться в предложении. Выражения линейного порядка могут включать имена переменных, имена поверхностных позиций, круглые скобки, граммемы, оценки, оператор «or» (или) и т.д. Например, описание линейного порядка для простого предложения «Boys play football» (Мальчики играют в футбол.) можно представить в виде «Subject Core Object Direct» (Подлежащее - Ядро - Прямое дополнение), где «Subject» (Подлежащее), «Core» (Ядро) и «Object Direct» (Прямое дополнение) представляют собой имена поверхностных позиций (415), соответствующих порядку слов.

[0063] Коммуникативные описания (480) описывают порядок слов в синтаксической форме (412) с точки зрения коммуникативных актов, представленных в виде коммуникативных выражений порядка, которые похожи на выражения линейного порядка. Описание управления и согласования (440) содержит правила и ограничения на грамматические значения прикрепленных составляющих, которые используются во время синтаксического анализа.

[0064] Недревесные синтаксические описания (450) создаются для обработки различных языковых явлений, таких как эллипсис и согласование, они используются при трансформациях синтаксических структур, которые создаются на различных этапах анализа в различных вариантах реализации изобретения. Недревесные синтаксические описания (450) включают, в том числе, описание эллипсиса (452), описание сочинения (454), а также описание референциального и структурного контроля (430).

[0065] Правила анализа (460) используются на этапе семантического анализа и описывают свойства конкретного языка. Правила анализа (460) могут включать в том числе: правила вычисления семантем (462) и правила нормализации (464). Правила нормализации (464) используются в качестве правил трансформации для описания трансформаций семантических структур, которые могут отличаться в разных языках.

[0066] На Фиг. 5 приведена схема, иллюстрирующая пример семантических описаний. Компоненты семантических описаний (204) не зависят от языка, и включают в том числе: семантическую иерархию (510), описания глубинных позиций (520), систему семантем (530) и прагматические описания (540).

[0067] Ядром семантических описаний является семантическая иерархия (510), которая состоит из семантических понятий (семантических сущностей), называемых семантическими классами, расположенных в иерархической структуре в отношениях "родитель-потомок". Дочерний семантический класс наследует большинство свойств своего прямого родителя и всех семантических классов - предков. Например, семантический класс SUBSTANCE (Вещество) является дочерним семантическим классом класса ENTITY (Сущность) и материнским семантическим классом для классов GAS (Газ), LIQUID (Жидкость), METAL (Металл), WOOD_MATERIAL (Древесина) и т.д.

[0068] Каждый семантический класс в семантической иерархии (510) сопровождается глубинной моделью (512). Глубинная модель (512) семантического класса представляет собой набор глубинных позиций (514), которые отражают семантические роли дочерних составляющих в различных предложениях с объектами семантического класса в качестве ядра родительской составляющей, а также возможные семантические классы в качестве заполнителей глубинных позиций. Глубинные позиции (514) выражают семантические отношения, в том числе, например, «агенс», «адресат», «инструмент», «количество» и т.д. Дочерний семантический класс наследует и уточняет глубинную модель (512) своего родительского семантического класса.

[0069] Описания глубинных позиций (520) используются для описания общих свойств глубинных позиций (514), они отражают семантические роли дочерних составляющих в глубинных моделях (512). Описания глубинных позиций (520) также содержат грамматические и семантические ограничения заполнителей глубинных позиций (514). Свойства и ограничения глубинных позиций (514) и их возможных заполнителей очень похожи, часто они идентичны в разных языках. Таким образом, глубинные позиции (514) являются не зависимыми от языка.

[0070] Система семантем (530) представляет собой набор семантических категорий и семантем, которые представляют значения семантических категорий. В качестве примера семантическую категорию «DegreeOfComparison» (Степень сравнения) можно использовать для описания степени сравнения прилагательных, ее семантемами могут быть, например, «Positive» (Положительная), «ComparativeHigherDegree» (Сравнительная степень), «SuperlativeHighestDegree» (Превосходная степень) и др. В качестве другого примера семантическую категорию «RelationToReferencePoint» (Отношение к точке сравнения) можно использовать для описания порядка до референциальной точки или после нее; ее семантемами могут быть «Previous» (Предыдущая), «Subsequent» (Последующая), соответственно, причем этот порядок может быть пространственным или временным в широком смысле этих анализируемых слов. В еще одном примере можно использовать семантическую категорию «EvaluationObjective» (Оценка) для описания объективной оценки, такой как «Bad» (Плохой), «Good» (Хороший) и т.д.

[0071] Система семантем (530) включает независимые от языка семантические атрибуты, которые выражают не только семантические характеристики, но и стилистические, прагматические и коммуникативные характеристики. Некоторые семантемы можно использовать для выражения атомарного значения, которое находит регулярное грамматическое и (или) лексическое выражение в языке. По назначению и использованию систему семантем (530) можно разделить на различные виды, которые включают, в том числе: грамматические семантемы (532), лексические семантемы (534) и классифицирующие грамматические (дифференцирующие) семантемы (536).

[0072] Грамматические семантемы (532) используются для описания грамматических свойств составляющих при преобразовании синтаксического дерева в семантическую структуру. Лексические семантемы (534) описывают конкретные свойства объектов (например, "being flat" (быть плоским) или "being liquid" (являться жидкостью)), они используются в описаниях глубинных позиций (520) как ограничение заполнителей глубинных позиций (например, для глаголов «face (with)» (облицовывать) и «flood» (заливать), соответственно). Классифицирующие грамматические (дифференцирующие) семантемы (536) выражают дифференциальные свойства объектов внутри одного семантического класса; например, в семантическом классе HAIRDRESSER (Парикмахер) семантема «RelatedToMen» (Относится к мужчинам) присваивается лексическому значению «barber», в отличие от других лексических значений, которые также относятся к этому классу, например, «hairdresser», «hairstylist» и т.д.

[0073] Именно использование универсальных, независимы

Разрешение анафоры на основе технологии глубинного анализа

Патент 2601166