Создание онтологий на основе анализа текстов на естественном языке
Иллюстрации
Показать всеИзобретение в целом относится к вычислительным системам, а точнее к системам и способам обработки естественного языка. Техническим результатом является повышение точности и уменьшение времени сравнения текстовых фрагментов за счет обеспечения автоматического сопоставления семантических значений предложений и их частей независимо от способа их синтаксического выражения. В способе создания и пополнения онтологий на основе анализа текстов на естественном языке выполняют семантико-синтаксический анализ текста на естественном языке на основе языковых описаний, представляющих модель языка, для получения множества семантических структур, соотнесенных с текстовым корпусом, где семантические структуры представлены графами. Сравнивают семантические структуры путем определения того, что соответствующие внутренние контексты первой семантической структуры и второй семантической структуры являются подобными по выбранному критерию подобия. 3 н. и 17 з.п. ф-лы, 18 ил.
Реферат
ОБЛАСТЬ ТЕХНИКИ
[0001] Настоящее изобретение в целом относится к вычислительным системам, а точнее - к системам и способам обработки естественного языка.
УРОВЕНЬ ТЕХНИКИ
[0002] Интерпретацию неструктурированной информации, представленной текстами на естественном языке, может затруднять многозначность, которая является неотъемлемой чертой естественных языков. Решению задачи интерпретации текстов на естественном языке может способствовать поиск семантически похожих языковых конструкций, их сравнение и определение степени подобия.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
[0003] В соответствии с одним или более аспектами настоящего изобретения пример способа может включать: получение множества семантических структур, соотнесенных с текстовым корпусом; идентификацию, с помощью устройства обработки, первой семантической структуры и второй семантической структуры, где первая семантическая структура включает первую подструктуру и вторую подструктуру, а вторая семантическая структура включает третью подструктуру и четвертую подструктуру, и где первая подструктура подобна третьей подструктуре по первому критерию подобия; и в случае определения того, что вторая подструктура подобна четвертой подструктуре по второму критерию подобия - соотнесение объектов, представленных второй подструктурой и четвертой подструктурой, с определенным концептом онтологии, соотнесенной с текстовым корпусом.
[0004] В соответствии с одним или более аспектами настоящего изобретения пример системы может включать: память и процессор, соединенный с памятью, причем этот процессор настроен на: получение множества семантических структур, соотнесенных с текстовым корпусом; установление первой семантической структуры и второй семантической структуры, где первая семантическая структура включает первую подструктуру и вторую подструктуру, а вторая семантическая структура включает третью подструктуру и четвертую подструктуру и где первая подструктура подобна третьей подструктуре по первому критерию подобия; и в случае определения того, что вторая подструктура подобна четвертой подструктуре по второму критерию подобия, - соотнесение объектов, представленных второй подструктурой и четвертой подструктурой, с определенным концептом онтологии, соотнесенной с текстовым корпусом.
[0005] В соответствии с одним или более аспектами настоящего изобретения пример постоянного машиночитаемого носителя данных может включать исполняемые команды, которые при исполнении их вычислительным устройством приводят к выполнению вычислительным устройством операций, включающих в себя: получение множества семантических структур, соотнесенных с текстовым корпусом; установление первой семантической структуры и второй семантической структуры, где первая семантическая структура включает первую подструктуру и вторую подструктуру, а вторая семантическая структура включает третью подструктуру и четвертую подструктуру и где первая подструктура подобна третьей подструктуре по первому критерию подобия; и в случае определения того, что вторая подструктура подобна четвертой подструктуре по второму критерию подобия, - соотнесение объектов, представленных второй подструктурой и четвертой подструктурой, с определенным концептом онтологии, соотнесенной с текстовым корпусом.
Технический результат от внедрения изобретения состоит в предоставлении конечному пользователю возможности, используя технологию глубинного семантического анализа на основе исчерпывающих языковых описаний, создавать и пополнять онтологии посредством автоматического сопоставления семантических значений предложений и их частей независимо от способа их синтаксического выражения.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0006] Настоящее изобретение иллюстрируется с помощью примеров, а не путем ограничений. Для более полного его понимания приведенное ниже описание предпочтительных вариантов реализации следует рассматривать в сочетании с чертежами, на которых:
[0007] На Фиг. 1 приведена блок-схема одного иллюстративного примера способа создания онтологий на основе анализа текстов на естественном языке в соответствии с одним или более аспектами настоящего изобретения;
[0008] На Фиг. 2 приведена блок-схема одного иллюстративного примера способа (200) проведения семантико-синтаксического анализа предложения на естественном языке (212) в соответствии с одним или более аспектами настоящего изобретения;
[0009] На Фиг. 3 схематически иллюстрируется пример лексико-морфологической структуры предложения в соответствии с одним или более аспектами настоящего изобретения;
[00010] Фиг. 4 схематически иллюстрирует языковые описания, представляющие модель естественного языка в соответствии с одним или более аспектами настоящего изобретения;
[00011] На Фиг. 5 схематически показаны примеры морфологических описаний в соответствии с одним или более аспектами настоящего изобретения;
[00012] На Фиг. 6 схематически показаны примеры синтаксических описаний в соответствии с одним или более аспектами настоящего изобретения;
[00013] На Фиг. 7 схематически показаны примеры семантических описаний в соответствии с одним или более аспектами настоящего изобретения;
[00014] На Фиг. 8 схематически показаны примеры лексических описаний в соответствии с одним или более аспектами настоящего изобретения;
[00015] На Фиг. 9 схематически показаны примеры структур данных, которые могут быть использованы в рамках одного или более способов, реализованных в соответствии с одним или более аспектами настоящего изобретения;
[00016] Фиг. 10 схематически иллюстрирует пример графа обобщенных составляющих в соответствии с одним или более аспектами настоящего изобретения;
[00017] На Фиг. 11 приводится пример синтаксической структуры, соответствующей предложению, приведенному на Фиг. 10;
[00018] На Фиг. 12 приводится семантическая структура, соответствующая синтаксической структуре на Фиг. 11;
[00019] На Фиг. 13 схематически иллюстрируется класс онтологии в соответствии с одним или более аспектами настоящего изобретения;
[00020] На Фиг. 14 схематически иллюстрируется пара семантических структур, определенных способом создания онтологий на основе анализа текстов на естественном языке, в соответствии с одним или более аспектами настоящего изобретения;
[00021] На Фиг. 15-17 приведены примеры семантических структур, соответствующих примеру предложения, проанализированного способом создания онтологий на основе анализа текстов на естественном языке, в соответствии с одним или более аспектами настоящего изобретения; а также
[00022] На Фиг. 18 изображена схема примера вычислительного устройства, осуществляющего методы настоящего изобретения.
ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИ
[00023] В настоящем документе описываются способы и системы создания онтологий на основе анализа текстов на естественном языке.
[00024] "Онтология" означает модель, которая представляет собой объекты, относящиеся к определенной области знаний (предметной области), и отношения между данными объектами. Онтология может включать определения некого множества классов, где каждый класс соответствует концепту предметной области. Каждое определение класса может включать определения одного или более отнесенных к данному классу объектов. Согласно общепринятой терминологии класс онтологии может также означать концепт, а принадлежащий классу объект может означать экземпляр данного концепта.
[00025] В качестве иллюстративного примера класс "Person" (Человек) может быть соотнесен с одним или более объектами, соответствующими определенным лицам. Определение каждого класса может далее включать одно или несколько определений отношений одного или более отнесенных к данному классу объектов. Определение каждого класса может далее включать одно или несколько ограничений, устанавливающих определенные свойства объектов класса. В определенных вариантах осуществления класс может являться предком или потомком другого класса.
[00026] Определение объекта может представлять собой материальный объект реального мира (как, например, человек или вещь) либо некое понятие, соотнесенное с одним или более объектами реального мира (как, например, число или слово). В определенных вариантах осуществления объект может быть соотнесен с двумя или более классами. Онтология может являться предком или (и) потомком другой онтологии, в случае чего концепты и свойства онтологии-предка также относятся к онтологии-потомку.
[00027] В настоящем раскрытии изобретения описываются системы и способы установления с помощью вычислительного устройства альтернативных семантических структур, представляющих похожие или совпадающие объекты, факты, черты и явления, и соотнесения установленных семантических структур с соответствующими классами и объектами онтологии, соотнесенной с анализируемым полем текста на естественном языке.
[00028] В настоящем документе термин "вычислительное устройство" означает устройство обработки данных, оснащенное универсальным процессором, памятью и по меньшей мере одним интерфейсом связи. Примерами вычислительных устройств, которые могут использовать описанные в этом документе способы, являются, помимо прочего, настольные компьютеры, портативные компьютеры, планшетные компьютеры и смартфоны.
[00029] В соответствии с одним или более аспектами настоящего изобретения вычислительное устройство, осуществляющее данный способ, может проводить синтаксический и семантический анализ множества текстов на естественном языке, принадлежащих некоторому текстовому корпусу, формируя множество независимых от языка семантических структур.
[00030] Затем в рамках множества семантических структур вычислительное устройство может установить первую семантическую структуру и вторую семантическую структуру, причем первая семантическая структура включает первую подструктуру, подобную по определенному критерию подобия второй подструктуре, входящей во вторую семантическую структуру. Критерий подобия может предполагать по крайней мере частичную эквивалентность двух подструктур. Таким образом, в различных иллюстративных примерах данные две схожие подструктуры могут считаться эквивалентными. В качестве иллюстративного примера каждая из подобных подструктур может состоять из двух частей (именуемых "левый контекст" и "правый контекст" с целью указания на то, что они окружают соответствующие оставшиеся подструктуры первой семантической структуры и второй семантической структуры).
[00031] В случае идентификации двух семантических структур, включающих подобные подструктуры, вычислительное устройство может выдвинуть гипотезу о подобии соответствующих внутренних контекстов первой семантической структуры и второй семантической структуры (где каждый внутренний контекст окружен соответствующими левым и правым контекстами). Затем гипотеза может быть подвергнута проверке, например, путем поиска и идентификации в рамках одного и того же текстового корпуса двух семантических структур, отличающихся от первой семантической структуры и второй семантической структуры и включающих подструктуры, семантическое подобие которых подвергается проверке (т.е. третья подструктура и четвертая подструктура, представляющие соответствующие внутренние контексты), при том что оставшиеся части только что установленных семантических структур являются подобными (например, в точки зрения того же критерия подобия, который был применен для установления схожести первой подструктуры и второй подструктуры). При подтверждении гипотезы вычислительное устройство может определить объекты, представленные соответствующими внутренними контекстами двух семантических структур (т.е. третья подструктура и четвертая подструктура) как экземпляры определенного концепта онтологии, соотнесенной с определенной областью знаний.
[00032] Различные аспекты упомянутых выше способов и систем подробно описаны ниже в этом документе с помощью примеров, а не способом ограничения.
[00033] На Фиг. 1 приведена блок-схема одного иллюстративного примера способа (100) создания онтологий на основе анализа текстов на естественном языке в соответствии с одним или более аспектами настоящего изобретения. Способ (100) и (или) каждая из его отдельных функций, стандартных программ, подпрограмм или операций может выполняться с помощью одного или более процессоров вычислительного устройства (например, вычислительного устройства (100) на Фиг. 1), реализующего данный способ. В некоторых вариантах осуществления способ (100) может выполняться в одном потоке обработки. При альтернативном подходе способ (100) может быть реализован с помощью двух или более потоков обработки, при этом каждый поток выполняет одну или несколько отдельных функций, стандартных программ, подпрограмм или операций данного способа. В качестве иллюстративного примера потоки обработки, реализующие способ (100), могут быть синхронизованы (например, с использованием семафоров, критических секций и (или) других механизмов синхронизации потоков). При альтернативном подходе потоки обработки, реализующие способ (100), могут выполняться асинхронно по отношению друг к другу.
[00034] В блоке (120) вычислительное устройство, реализующее данный способ, может проводить семантико-синтаксический анализ исходного корпуса текстов (110) для получения множества независимых от языка семантических структур (более подробное описание см. ниже в настоящем документе).
[00035] В блоке (130) вычислительное устройство может создавать индекс множества семантических структур (более подробное описание см. ниже в настоящем документе). Данный индекс может использоваться для установления определенных элементов в составе семантических структур и тем самым способствовать идентификации семантических структур, определенным образом связанных друг с другом (например, структуры, схожие по определенному критерию подобия).
[00036] В блоке (140) вычислительное устройство может устанавливать две семантические структуры, где первая семантическая структура включает первую подструктуру, которая с точки зрения определенного критерия схожести является сходной со второй подструктурой, входящей в состав второй установленной семантической структуры. Критерий подобия может предполагать по меньшей мере частичную эквивалентность двух подструктур (более подробное описание см. ниже в настоящем документе).
[00037] В качестве иллюстративного примера каждая из установленных подобных подструктур может состоять из двух частей (именуемых "левый контекст" и "правый контекст" с целью указания на то, что они окружают соответствующие оставшиеся подструктуры первой семантической структуры и второй семантической структуры).
[00038] В блоке (150) вычислительное устройство может определить, что соответствующие внутренние контексты первой семантической структуры и второй семантической структуры (где каждый внутренний контекст окружен соответствующими левым и правым контекстами) являются подобными по определенному критерию подобия.
[00039] В блоке 160 вычислительное устройство может отмечать слова или словосочетания, соответствующие внутренним контекстам двух семантических структур, как семантически подобные или эквивалентные.
[00040] В блоке (170) вычислительное устройство может определять объекты, представленные соответствующими внутренними контекстами двух семантических структур (например, третья подструктура и четвертая подструктура) как экземпляры определенного концепта онтологии, соотнесенной с текстовым корпусом (более подробное описание см. ниже в настоящем документе), после чего способ может вернуться к выполнению блока (140).
[00041] На Фиг. 2 приведена блок-схема одного иллюстративного примера способа (200) проведения семантико-синтаксического анализа предложения на естественном языке (212) в соответствии с одним или более аспектами настоящего изобретения. Способ (200) может быть применен к одной или более синтаксическим единицам (например, предложениям), включенным в определенный текстовый корпус, для формирования множества семантико-синтаксических деревьев, соответствующих синтаксическим единицам. В различных иллюстративных примерах предложения на естественном языке, подлежащие обработке способом (200), могут извлекаться из одного или более электронных документов, которые могут создаваться путем сканирования (или другим способом получения изображений бумажных документов) и оптического распознавания символов (OCR), для формирования текстов, соотнесенных с данными документами. Предложения на естественном языке также могут извлекаться из других различных источников, включая сообщения, отправляемые по электронной почте, тексты из социальных сетей, файлы с цифровым содержимым, обработанные с использованием способов распознавания речи и т.д.
[00042] В блоке (214) вычислительное устройство, реализующее данный способ, может проводить лексико-морфологический анализ предложения (212) для установления морфологических значений слов, входящих в состав предложения. В настоящем документе "морфологическое значение" слова означает одну или несколько лемм (т.е. канонических или словарных форм), соответствующих слову, и соответствующий набор значений грамматических признаков, которые определяют грамматическое значение слова. В число таких грамматических признаков могут входить лексическая категория (часть речи) слова и один или более морфологических и/или грамматических признаков (например, падеж, род, число, спряжение и т.д.). Ввиду омонимии и (или) совпадающих грамматических форм, соответствующих разным лексико-морфологическим значениям определенного слова, для данного слова может быть установлено два или более морфологических значений. Более подробное описание иллюстративного примера проведения лексико-морфологического анализа предложения приведено ниже в настоящем документе со ссылкой на Фиг. 3.
[00043] В блоке (215) вычислительное устройство может проводить грубый синтаксический анализ предложения (212). Грубый синтаксический анализ может включать применение одной или нескольких синтаксических моделей, которые могут быть соотнесены с элементами предложения (212), с последующим установлением поверхностных (т.е. синтаксических) связей в рамках предложения (212) для получения графа обобщенных составляющих. В настоящем документе "составляющая" означает группу соседних слов исходного предложения, функционирующую как одна грамматическая сущность. Составляющая включает в себя ядро в виде одного или более слов и может также включать одну или несколько дочерних составляющих на более низких уровнях. Дочерняя составляющая является зависимой составляющей, которая может быть соотнесена с одной или несколькими родительскими составляющими.
[00044] В блоке (216) вычислительное устройство может проводить точный синтаксический анализ предложения (212) для формирования одного или более синтаксических деревьев предложения. Причиной многообразия возможных синтаксических деревьев, соответствующих какому-либо данному исходному предложению, может быть омонимия и (или) совпадающие грамматические формы, соответствующие разным лексико-морфологическим значениям одного или более слов в составе исходного предложения. Среди различных синтаксических деревьев на основе определенной функции оценки с учетом совместимости лексических значений слов исходного предложения, поверхностных отношений, глубинных отношений и т.д. может быть отобрано одно или несколько лучших синтаксических деревьев, соответствующих предложению (212).
[00045] В блоке (217) вычислительное устройство может обрабатывать синтаксические деревья для формирования семантической структуры (218), соответствующей предложению (212). Семантическая структура (218) может включать множество узлов, соответствующих семантическим классам и также может включать множество дуг, соответствующих семантическим отношениям (более подробное описание см. ниже в настоящем документе).
[00046] На Фиг. 3 схематически иллюстрируется пример лексико-морфологической структуры предложения в соответствии с одним или более аспектами настоящего изобретения. Пример лексико-морфологической структуры (300) может включать множество пар "лексическое значение - грамматическое значение" для примера предложения (320). В качестве иллюстративного примера, "ll" может быть соотнесено с лексическим значением "shall" (312) и "will" (314). Грамматическим значением, соотнесенным с лексическим значением (312), является <Verb, GTVerbModal, ZeroType, Present, Nonnegative, Composite II>. Грамматическим значением, соотнесенным с лексическим значением (314), является <Verb, GTVerbModal, ZeroType, Present, Nonnegative, Irregular, Composite II>.
[00047] Фиг. 4 схематически иллюстрирует используемые языковые описания (410), в том числе морфологические описания (101), лексические описания (103), синтаксические описания (102) и семантические описания (104), а также отношения между ними. Среди них морфологические описания (101), лексические описания (103) и синтаксические описания (102) зависят от языка. Набор языковых описаний (210) представляет собой модель определенного естественного языка.
[00048] В качестве иллюстративного примера определенное лексическое значение в лексических описаниях (203) может быть соотнесено с одной или несколькими поверхностными моделями синтаксических описаний (202), соответствующих данному лексическому значению. Определенная поверхностная модель синтаксических описаний (202) может быть соотнесена с глубинной моделью семантических описаний (204).
[00049] На Фиг. 5 схематически иллюстрируются несколько примеров морфологических описаний. В число компонентов морфологических описаний (201) могут входить: описания словоизменения (310), грамматическая система (320), описания словообразования (330) и другие. Грамматическая система (320) включает набор грамматических категорий, таких как часть речи, падеж, род, число, лицо, возвратность, время, вид и их значения (так называемые "граммемы"), в том числе, например, прилагательное, существительное или глагол; именительный, винительный или родительный падеж; женский, мужской или средний род и т.д. Соответствующие граммемы могут использоваться для составления описания словоизменения (310) и описания словообразования (330).
[00050] Описание словоизменения (310) определяет формы данного слова в зависимости от его грамматических категорий (например, падеж, род, число, время и т.д.) и в широком смысле включает в себя или описывает различные возможные формы слова. Описание словообразования 330 определяет, какие новые слова могут быть образованы от данного слова (например, сложные слова).
[00051] В соответствии с одним из аспектов настоящего изобретения при установлении синтаксических отношений между элементами исходного предложения могут использоваться модели составляющих. Составляющая представляет собой группу соседних слов в предложении, ведущих себя как единое целое. Ядром составляющей является слово, она также может содержать дочерние составляющие более низких уровней. Дочерняя составляющая является зависимой составляющей и может быть прикреплена к другим составляющим (родительским) для построения синтаксических описаний (102) исходного предложения.
[00052] На Фиг. 6 приведены примеры синтаксических описаний. В число компонентов синтаксических описаний (202) могут входить, среди прочего, поверхностные модели (410), описания поверхностных позиций (420), описание референциального и структурного контроля (456), описание управления и согласования (440), описание недревесного синтаксиса (450) и правила анализа (460). Синтаксические описания (102) могут использоваться для построения возможных синтаксических структур исходного предложения на заданном естественном языке с учетом свободного линейного порядка слов, недревесных синтаксических явлений (например, согласование, эллипсис и т.д.), референциальных отношений и других факторов.
[00053] Поверхностные модели 410 могут быть представлены в виде совокупностей одной или нескольких синтаксических форм («синтформ» (412)) для описания возможных синтаксических структур предложений, входящих в состав синтаксического описания (102). В целом, лексическое значение слова на естественном языке может быть связано с поверхностными (синтаксическими) моделями (410). Поверхностная модель может представлять собой составляющие, которые возможны, если лексическое значение выступает в роли "ядра". Поверхностная модель может включать набор поверхностных позиций дочерних элементов, описание линейного порядка и (или) диатезу. В настоящем документе "диатеза" означает определенное отношение между поверхностными и глубинными позициями и их семантическими ролями, выражаемыми посредством глубинных позиций.
[00054] В модели составляющих может использоваться множество поверхностных позиций (415) дочерних составляющих и описаний их линейного порядка (416) для описания грамматических значений (414) возможных заполнителей этих поверхностных позиций. Диатезы (417) представляют собой соответствия между поверхностными позициями (415) и глубинными позициями (514) (как показано на Фиг. 7). Коммуникативные описания (480) описывают коммуникативный порядок в предложении.
[00055] Описание линейного порядка (416) может быть представлено в виде выражений линейного порядка, отражающих последовательность, в которой различные поверхностные позиции (415) могут встречаться в предложении. В число выражений линейного порядка могут входить наименования переменных, имена поверхностных позиций, круглые скобки, граммемы, оператор «or» (или) и т.д. В качестве иллюстративного примера описание линейного порядка простого предложения "Boys play football" можно представить в виде "Subject Core Object_Direct" (Подлежащее - Ядро - Прямое дополнение), где Subject (Подлежащее), Core (Ядро) и Object_Direct (Прямое дополнение) представляют собой имена поверхностных позиций (415), соответствующих порядку слов.
[00056] Коммуникативные описания (480) могут описывать порядок слов в синтформе (412) с точки зрения коммуникативных актов, представленных в виде коммуникативных выражений порядка, которые похожи на выражения линейного порядка. Описание управления и согласования (440) может включать правила и ограничения на грамматические значения присоединяемых составляющих, которые используются во время синтаксического анализа.
[00057] Описания недревесного синтаксиса (450) могут создаваться для отражения различных языковых явлений, таких как эллипсис и согласование, они используются при трансформациях синтаксических структур, которые создаются на различных этапах анализа в различных вариантах реализации изобретения. Описания не древесного синтаксиса (450) могут, среди прочего, включать описание эллипсиса (452), описание согласования (454), а также описание референциального и структурного контроля (430).
[00058] Правила анализа (460) могут описывать свойства конкретного языка и использоваться в рамках семантического анализа (150). Правила анализа (460) могут включать правила вычисления семантем (462) и правила нормализации (464). Правила нормализации (464) могут использоваться для описания трансформаций семантических структур, которые могут отличаться в разных языках.
[00059] На Фиг. 7 приведен пример семантических описаний. Компоненты семантических описаний (104) не зависят от языка и могут, среди прочего, включать семантическую иерархию (510), описания глубинных позиций (520), систему семантем (530) и прагматические описания (540).
[00060] Ядро семантических описаний может быть представлено семантической иерархией (510), в которую могут входить семантические понятия (семантические сущности), также называемые семантическими классами. Последние могут быть упорядочены в иерархическую структуру, отражающую отношения "родитель-потомок". В целом, дочерний семантический класс может унаследовать одно или более свойств своего прямого родителя и других семантических классов-предков. В качестве иллюстративного примера семантический класс SUBSTANCE (Вещество) является дочерним семантическим классом класса ENTITY (Сущность) и родительским семантическим классом для классов GAS, (Газ), LIQUID (Жидкость), METAL (Металл), WOOD_MATERIAL (Древесина) и т.д.
[00061] Каждый семантический класс в семантической иерархии (510) может сопровождаться глубинной моделью (512). Глубинная модель (512) семантического класса может включать множество глубинных позиций (514), которые могут отражать семантические роли дочерних составляющих в различных предложениях с объектами данного семантического класса в качестве ядра родительской составляющей. Глубинная модель (512) также может включать возможные семантические классы, выступающие в роли заполнителей глубинных позиций. Глубинные позиции (514) могут выражать семантические отношения, в том числе, например, "agent" (агент), "addressee" (адресат), "instrument" (инструмент), "quantity" (количество) и т.д. Дочерний семантический класс может наследовать и уточнять глубинную модель своего непосредственного родительского семантического класса.
[00062] Описания глубинных позиций (520) отражают семантические роли дочерних составляющих в глубинных моделях (512) и могут использоваться для описания общих свойств глубинных позиций (514). Описания глубинных позиций (520) также могут содержать грамматические и семантические ограничения в отношении заполнителей глубинных позиций (514). Свойства и ограничения, связанные с глубинными позициями (514) и их возможными заполнителями в различных языках, могут быть в значительной степени подобными и зачастую идентичными. Таким образом, глубинные позиции (514) не зависят от языка.
[00063] Набор семантем (530) может представлять собой множество семантических категорий и семантем, которые представляют значения семантических категорий. В качестве иллюстративного примера семантическая категория "DegreeOfComparison" (Степень сравнения) может использоваться для описания степени сравнения прилагательных и включать следующие семантемы: "Positive" (Положительная), "ComparativeHigherDegree" (Сравнительная степень сравнения), "SuperlativeHighestDegree" (Превосходная степень сравнения) и другие. В качестве еще одного иллюстративного примера семантическая категория "RelationToReferencePoint" (Отношение к точке) может использоваться для описания порядка (пространственного или временного в широком смысле анализируемых слов), как, например, до или после точки или события, и включать семантемы "Previous" (Предыдущий) и "Subsequent" (Последующий). В качестве еще одного иллюстративного примера семантическая категория "EvaluationObjective" (Оценка) может использоваться для описания объективной оценки, как, например, "Bad" (Плохой), "Good" (Хороший) и т.д.
[00064] Система семантем (530) может включать независимые от языка семантические атрибуты, которые могут выражать не только семантические характеристики, но и стилистические, прагматические и коммуникативные характеристики. Некоторые семантемы могут использоваться для выражения атомарного значения, которое находит регулярное грамматическое и (или) лексическое выражение в естественном языке. По своему целевому назначению и использованию системы семантем могут разделяться на категории, например, грамматические семантемы (532), лексические семантемы (534) и классифицирующие грамматические (дифференцирующие) семантемы (536).
[00065] Грамматические семантемы (532) могут использоваться для описания грамматических свойств составляющих при преобразовании синтаксического дерева в семантическую структуру. Лексические семантемы (534) могут описывать конкретные свойства объектов (например, "being flat" (быть плоским) или "being liquid" (являться жидкостью)) и использоваться в описаниях глубинных позиций (520) как ограничение заполнителей глубинных позиций (например, для глаголов "face (with)" (облицовывать) и "flood" (заливать), соответственно). Классифицирующие грамматические (дифференцирующие) семантемы (536) могут выражать дифференциальные свойства объектов внутри одного семантического класса. В качестве иллюстративного примера в семантическом классе HAIRDRESSER (ПАРИКМАХЕР) семантема «RelatedToMen» (Относится к мужчинам) присваивается лексическому значению "barber" в отличие от других лексических значений, которые также относятся к этому классу, например, «hairdresser», «hairstylist» и т.д. Используя данные независимые от языка семантические свойства, которые могут быть выражены в виде элементов семантического описания, в том числе семантических классов, глубинных позиций и семантем, можно извлекать семантическую информацию в соответствии с одним или более аспектами настоящего изобретения.
[00066] Прагматические описания (540) позволяют назначать определенную тему, стиль или жанр с текстам и объектам семантической иерархии (510) (например, «Экономическая политика», «Внешняя политика», «Юриспруденция», «Законодательство», «Торговля», «Финансы» и т.д.). Прагматические свойства также могут выражаться семантемами. В качестве иллюстративного примера прагматический контекст может приниматься во внимание при семантическом анализе.
[00067] На Фиг. 8 приведен пример лексических описаний. Лексические описания (203) представляют собой множество лексических значений (612) конкретного естественного языка. Для каждого лексического значения (612) имеется связь (602) с его независимым от языка семантическим родителем для того, чтобы указать положение какого-либо заданного лексического значения в семантической иерархии (510).
[00068] Лексическое значение (612) в лексико-семантической иерархии (510) может быть соотнесено с поверхностной моделью (410), которая в свою очередь через одну или несколько диатез (417) может быть соотнесена с соответствующей глубинной моделью (512). Лексическое значение (612) может наследовать семантический класс своего родителя и уточнять свою глубинную модель (512).
[00069] Поверхностная модель (410) лексического значения может включать одну или несколько синтаксических форм (412). Синтформа (412) поверхностной модели (410) может включать одну или несколько поверхностных позиций (415), в том числе соответствующие описания их линейного порядка (416), одно или несколько грамматических значений (414), выраженных в виде набора грамматических категорий (граммем), одно или несколько семантических ограничений, соотнесенных с заполнителями поверхностных позиций, и одну или несколько диатез (417). Семантические ограничения, соотнесенные с определенным заполнителем поверхностной позиции, могут быть представлены в виде одного или более семантических классов, объекты которых могут заполнить эту поверхностную позицию.
[00070] На Фиг. 9 схематически иллюстрируются примеры структур данных, которые могут быть использованы в рамках одного или более методов настоящего изобретения. Снова ссылаясь на Фиг. 2, в блоке (214) вычислительное устройство, реализующее данный способ, может проводить лексико-морфологический анализ предложения (212) для построения лексико-морфологической структуры (722) согласно Фиг. 9. Лексико-морфологическая структура (722) может включать множество соответствий лексического и грамматического значений для каждой лексической единицы (например, слова) исходного предложения. На Фиг. 3 схематически иллюстрируется пример лексико-морфологической структуры.
[00071] В блоке 215 вычислительное устройство может проводить грубый синтаксический анализ исходного предложения (212) для построения графа обобщенных составляющих (732) согласно Фиг. 9. Грубый синтаксический анализ предполагает применение одной или нескольких возможных синтаксических моделей возможных лексических значений к каждому элементу множества элементов лексико-морфологической структуры (722), с тем чтобы установить множество потенциальных синтаксических отношений в составе исходного предложения (212), представленных графом обобщенных составляющих (732).
[00072] Граф обобщенных составляющих (732) может быть представлен ациклическим графом, включающим множество узлов, соответствующих обобщенным составляющим исходного предложения (212) и включающим множество дуг, соответствующих поверхностным (синтаксическим) позициям, которые могут выражать различные типы отношений между обобщенными лексическими значениями. В рамках данного способа может применяться множество потенциально применимых синтаксических моделей для каждого элемента множества элементов лексико-морфологических структур исходного предложения (212) для формирования набора составляющих