2488877 - Идентификация семантических взаимоотношений в косвенной речи

Идентификация семантических взаимоотношений в косвенной речи

Изобретение относится, в общем, к компьютерно-реализованным онлайновым поискам и, в частности, к идентификации семантических взаимоотношений в косвенной речи. Техническим результатом является обеспечение быстрого определения наиболее релевантных результатов. Для достижения технического результата реализован способ построения семантических взаимоотношений между элементами, извлеченными из содержимого документа, чтобы сформировать семантическое представление содержимого. Семантические представления могут содержать элементы, идентифицированные или проанализированные в текстовой части содержания, элементы которого могут ассоциироваться с другими элементами, которые совместно используют семантические взаимоотношения, такие как отношения агента, местоположения или темы. Взаимоотношения могут также строиться посредством ассоциации одного элемента, который находится в связи или около другого элемента, позволяя, таким образом, быстрое и эффективное сравнение ассоциаций, найденных в семантическом представлении, с ассоциациями, полученными из запросов. Семантические взаимоотношения могут определяться, основываясь на семантической информации, такой как потенциальные значения и грамматические функции каждого элемента в пределах текстовой части содержания. 4 н. и 17 з.п. ф-лы, 11 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Настоящее изобретение относится, в общем, к компьютерно-реализованным онлайновым поискам и, в частности, к идентификации семантических взаимоотношений в косвенной речи.

ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ

Онлайновые механизмы поиска стали в большой мере важным инструментом для ведения исследований или перемещения среди документов, доступных через Интернет. Часто онлайновые механизмы поиска выполняют процесс определения совпадения для обнаружения возможных документов или текста внутри таких документов, для чего используется запрос, даваемый пользователем. Первоначально процесс определения совпадения, предлагаемый обычными онлайновыми механизмами поиска, такими как те, которые поддерживают Google или Yahoo, позволяет пользователю указать в запросе одно или более ключевых слов, чтобы описать информацию, которую он или она ищет. Затем традиционный онлайновый механизм поиска переходит к нахождению всех документов, которые содержат точные совпадения с ключевыми словами, хотя эти документы обычно не обеспечивают релевантные или значимые результаты в ответ на запрос.

Существующие традиционные онлайновые механизмы поиска ограничены тем, что в просмотренных при поиске документах они не распознают слова, соответствующие ключевым словам в запросе, выходящие за рамки точного совпадения, получаемого в процессе определения совпадения. Кроме того, традиционные онлайновые механизмы поиска ограничены, поскольку пользователь ограничен ключевыми словами в запросе, для которых должно быть найдено совпадение, и, таким образом, пользователю не дается возможности точно выразить желаемую информацию, если она неизвестна. Соответственно, реализация механизма поиска на естественном языке, чтобы распознать семантические взаимоотношения между ключевыми словами запроса и словами в просмотренных при поиске документах, могла бы однозначно повысить точность результатов поиска.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Настоящий раздел "Сущность изобретения" предоставлен для введения выборки концепций в упрощенной форме, которые дополнительно описаны ниже в разделе "Подробное описание". Раздел "Сущность изобретения" не предназначен идентифицировать ключевые признаки или существенные признаки заявленного объекта изобретения, а также не предназначен для использования в качестве помощи при определении объема заявленного объекта изобретения.

Варианты осуществления настоящего изобретения относятся к способам, осуществляемым на компьютерной основе, и считываемым компьютером носителям для построения ассоциаций между различными словами, найденными в содержимом документов, извлеченных из Web-сети или некоторого другого репозитория, а также терминами, содержащимися в запросе поиска. Содержимое, которое может быть семантически представлено, может быть косвенной речью и другими сообщениями об отношении, так чтобы семантическое представление содержимого могло быть сравнено с принятыми запросами на естественном языке для предоставления пользователю значимых и высоко релевантных результатов. Семантические взаимоотношения, такие как взаимоотношения "о чем" ("about"), могут идентифицироваться между определенными элементами или поисковыми терминами, чтобы позволить формирование конкретных словесных ассоциаций. Когда семантические взаимоотношения сформированы, может быть создано семантическое представление для содержимого документа и может быть создано высказывание для запроса поиска, каждое из которых позволяет быстрое сравнение высказывания с одним или более семантическими взаимоотношениями для определения наиболее релевантных результатов поиска.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Ниже подробно описаны варианты осуществления настоящего изобретения со ссылкой на прилагаемые чертежи, на которых:

Фиг.1 - блок-схема примера компьютерной среды, пригодной для использования при реализации вариантов осуществления настоящего изобретения;

Фиг.2 - схема примера системной архитектуры, пригодной для использования при реализации вариантов осуществления настоящего изобретения;

Фиг.3 - схема семантического представления, созданного из текстовой части внутри документа, соответствующая варианту осуществления настоящего изобретения;

Фиг.4 - схема семантического представления, созданного из текстовой части внутри документа, соответствующая варианту осуществления настоящего изобретения;

Фиг.5 - схема семантического представления, созданного из текстовой части внутри документа, соответствующая варианту осуществления настоящего изобретения;

Фиг.6 - схема семантического представления, созданного из текстовой части внутри документа, соответствующая варианту осуществления настоящего изобретения;

Фиг.7 - схема высказывания, созданного из запроса поиска в соответствии с вариантом осуществления настоящего изобретения;

Фиг.8 - схема семантического представления, созданного из текстовой части внутри документа, причем текстовая часть содержит два высказывания, соответствующая варианту осуществления настоящего изобретения;

Фиг.9 - блок-схема последовательности выполнения операций способа построения семантических взаимоотношений между элементами, извлеченными из содержимого документа, соответствующая варианту осуществления настоящего изобретения;

Фиг.10 - блок-схема последовательности выполнения операций способа создания, в ответ на получение запроса, ассоциаций между различными терминами, извлеченными из запроса для создания высказывания, соответствующая варианту осуществления настоящего изобретения; и

Фиг.11 - блок-схема последовательности выполнения операций способа построения семантических взаимоотношений между элементами, извлеченными из содержимого документа, соответствующая варианту осуществления настоящего изобретения.

ПОДРОБНОЕ ОПИСАНИЕ

Объект настоящего изобретения описывается здесь конкретно, чтобы выполнить установленные законом требования. Однако само по себе описание не предназначено ограничивать объем настоящего патента. Скорее изобретатели подразумевали, что заявленный объект изобретения мог бы быть также осуществлен другими способами, содержать другие этапы или комбинации этапов, подобных тем, которые описаны в настоящем документе, в сочетании с другими существующими или будущими технологиями. Кроме того, хотя термины "этап" и/или "блок" могут использоваться здесь, чтобы означать различные элементы используемых способов, термины не должны интерпретироваться как подразумевающие какой-либо конкретный порядок различных этапов, раскрытых здесь, если и кроме тех случаев, когда порядок следования индивидуальных этапов описан в явном виде.

Соответственно, в одном аспекте обеспечивается способ, осуществляемый на компьютерной основе, для разработки семантических взаимоотношений между элементами, выделенными из содержимого документа, для создания семантического представления содержимого для индексирования. Первоначально способ содержит идентификацию текстовой части документа, которая должна индексироваться, и определение семантической информации для множества элементов, идентифицированных в текстовой части. Семантическая информация может содержать одно или более значений идентифицированных элементов или грамматические и/или семантические взаимоотношения между идентифицированными элементами. По меньшей мере, один из идентифицированных элементов может быть идентифицирован как действие по сообщению информации, соответствующей косвенной речи или сообщению об отношении. Способ дополнительно содержит ассоциирование идентифицированных элементов так, что каждая ассоциация идентифицированных элементов представляет определенные семантические взаимоотношения, основываясь на определенной семантической информации идентифицированных элементов. Дополнительно, способ содержит создание семантического представления, содержащего ассоциации идентифицированных элементов.

В другом аспекте обеспечивается способ, осуществляемый на компьютерной основе, в котором в ответ на получение запроса на естественном языке, создаются ассоциации между различными терминами, выделенными из запроса, чтобы создать высказывание. Высказывание может использоваться для опроса семантических представлений содержимого из документов, хранящихся в семантическом индексе, чтобы обеспечить релевантные результаты поиска. Способ также содержит определение ассоциированной семантической информации для одного или более поисковых терминов, найденных в пределах запроса. Первое действие по сообщению информации может быть определено в пределах запроса и семантические взаимоотношения могут быть сформированы между первым действием по сообщению информации и, по меньшей мере, одним из поисковых терминов, основываясь на определенной семантической информации для этого поискового термина. Созданная ассоциация между первым действием по сообщению информации и поисковым термином образуется посредством реляционного элемента, описывающего семантические взаимоотношения. Наконец, высказывание, содержащее сформированные ассоциации, может быть создано и может дополнительно сравниваться с семантическими представлениями, чтобы определить высоко релевантные результаты поиска.

Еще в одном аспекте обеспечиваются один или более считываемых компьютером носителей, на которых содержатся команды, исполняемые компьютером для выполнения способа построения семантических взаимоотношений между элементами, выделенными из содержимого документа, чтобы создать семантическое представление содержимого, которое должно индексироваться. Первоначально, способ содержит идентификацию, по меньшей мере, части документа или текстовой части, которые должны быть индексированы. Текстовая часть может затем быть проанализирована, чтобы идентифицировать элементы, которые должны быть семантически представлены. Потенциальные значения и грамматические или семантические взаимоотношения между идентифицированными элементами определяются в дополнение к определению одного или более уровней ассоциации в пределах текстовой части. Способ также содержит идентификацию действия по сообщению информации в пределах текстовой части для каждого одного или более определенных уровней ассоциации, так что первое действие по сообщению информации может ассоциироваться с первым набором идентифицированных элементов. Первое действие по сообщению информации может быть связано с первым уровнем ассоциации. Точно также, второе действие по сообщению информации может быть связано со вторым набором идентифицированных элементов, причем второе действие по сообщению информации ассоциируется со вторым уровнем ассоциации. Дополнительно может создаваться содержащее ассоциации семантическое представление, используя реляционный элемент, описывающий ассоциации между первым набором идентифицированных элементов и первым действием по сообщению информации и между вторым набором идентифицированных элементов и вторым действием по сообщению информации.

Кратко описанный обзор вариантов осуществления настоящего изобретения и некоторые из его признаков являются примером рабочей среды, пригодной для осуществления настоящего изобретения, описанного ниже.

Со ссылкой на чертежи, в целом, и, прежде всего, в частности, на фиг.1, показан пример рабочей среды для реализации вариантов осуществления настоящего изобретения, которая, в целом, определяется как компьютерное устройство 100. Компьютерное устройство 100 является всего лишь одним примером подходящей компьютерной среды и не предназначено предлагать какое-либо ограничение относительно объема использования или функциональных возможностей изобретения. Компьютерное устройство 100 никак не должно интерпретироваться как обладающее какой-либо зависимостью или создающее какое-либо требование, относящееся к любому из показанных компонент или их комбинации.

Изобретение может быть описано в общем контексте машинного кода или машинно-используемых команд, содержащих исполняемые компьютером команды, такие как программные компоненты, выполняемые компьютером или другим устройством, таким как карманный компьютер или другое карманное устройство. В целом, программные компоненты, содержащие подпрограммы, программы, объекты, компоненты, структуры данных и т.п., относятся к коду, который выполняет конкретные задачи или реализует конкретные абстрактные типы данных. Варианты осуществления настоящего изобретения могут быть осуществлены с помощью множества системных конфигураций, в том числе, карманные устройства, бытовая электроника, универсальные компьютеры, специальные компьютерные устройства и т.д. Варианты осуществления изобретения могут также быть реализованы в распределенных компьютерных средах, где задачи выполняются дистанционно обрабатывающими устройствами, которые связаны через сеть связи.

Продолжая обращаться к фиг.1, компьютерное устройство 100 содержит шину 110, которая прямо или косвенно соединяет следующие устройства: запоминающее устройство 112, один или более процессоров 114, один или более компонентов 116 представления, порты 118 ввода-вывода (I/O), компоненты 120 I/O и пример источника 122 электропитания. Шина 110 может быть представлена одной или более шинами (такими как адресная шина, шина данных или их комбинация). Хотя различные блоки на фиг.1 для ясности очерчены линиями, в действительности, очерчивание различных компонентов не столь конкретно и, если быть более точными, линии должны быть серыми и нечеткими. Например, можно рассматривать компонент представления, такой как устройство отображения, как компонент ввода-вывода. Кроме того, процессоры имеют запоминающее устройство. Изобретатели признают, что таков характер техники и снова повторяют, что схема на фиг.1 является просто примером компьютерного устройства, которое может использоваться в связи с одним или более вариантами осуществления настоящего изобретения. Между такими категориями как "рабочая станция", "сервер", "ноутбук", "карманное устройство" и т.д. различия не делается, поскольку все они считаются попадающими в рамки фиг.1 как ссылка на "компьютер" или "компьютерное устройство".

Компьютерное устройство 100 обычно содержит множество считываемых компьютером носителей. Для примера, но не для ограничения, считываемые компьютером носители могут содержать оперативное запоминающее устройство (RAM); постоянное запоминающее устройство (ROM); электрически стираемое программируемое постоянное запоминающее устройство (EEPROM); флэш-память или запоминающие устройства, выполненные по другим технологиям; CD-ROM, цифровые универсальные диски (DVD) или другие оптические или голографические носители; магнитные кассеты, магнитные ленты, запоминающие устройства на магнитных дисках или другие магнитные запоминающие устройства; или любой другой носитель, который может использоваться для кодирования желаемой информации и к которому может получать доступ компьютерное устройство 100.

Запоминающее устройство 112 содержит компьютерный носитель данных в форме энергозависимого и/или энергонезависимого запоминающего устройства. Запоминающее устройство может быть съемным, несъемным или их комбинацией. Примеры аппаратурных устройств содержат твердотельные запоминающие устройства, жесткие диски, оптические дисководы и т.д. Компьютерное устройство 100 содержит один или более процессоров, которые считывают данные от различных объектов, таких как запоминающее устройство 112 или компоненты 120 I/O. Компонент(-ы) 116 представления представляют индикацию данных пользователю или другому устройству. Примеры компоненты представления содержат устройство дисплея, громкоговоритель, печатающий компонент, вибрирующий компонент и т.д. Порты 118 I/O позволяют компьютерному устройству 100 логически соединяться с другими устройствами, в том числе, с компонентами 120 I/O, некоторые из которых могут быть встроенными. Примеры компонент содержат микрофон, джойстик, игровую клавиатуру, спутниковую антенну, сканер, принтер, беспроводное устройство и т.д.

Обратимся теперь к фиг.2, на которой показан пример схемы системной архитектуры 200, пригодной для использования при реализации вариантов осуществления настоящего изобретения в соответствии с вариантом осуществления настоящего изобретения. Специалисты в данной области техники должны понимать и оценить, что пример системной архитектуры 200, показанный на фиг.2, является просто примером одной из пригодных компьютерных сред и не предназначен предлагать какое-либо ограничение в отношении объема использования или функциональных возможностей настоящего изобретения. Пример системной архитектуры 200 никак не должен интерпретироваться как обладающий какой-либо зависимостью или выдвигающим требования, относящиеся к какому-либо одиночному компоненту или комбинации компонент, показанных здесь.

Как показано на чертеже, системная архитектура 200 может содержать распределенную компьютерную среду, где устройство 215 клиента оперативно соединяется с механизмом 290 естественного языка, который, в свою очередь, оперативно соединяется с хранилищем 220 данных. В вариантах осуществления настоящего изобретения, которые реализуются в распределенных компьютерных средах, оперативная связь относится к соединению устройства 215 клиента и хранилища 220 данных с механизмом 290 естественного языка и другим онлайновым компонентам через соответствующие соединения. Эти соединения могут быть проводными или беспроводными. Примеры конкретных вариантов осуществления с проводными средствами в пределах объема настоящего изобретения содержат USB-соединения и кабельные соединения через сеть (не показаны) или шину или другой канал, который связывает компоненты в пределах единого механизма. Примеры конкретных беспроводных вариантов осуществления в пределах объема настоящего изобретения содержат беспроводную сеть ближнего действия и радиочастотную технологию.

Следует понять и оценить, что значение выражения "беспроводная сеть ближнего действия" не означает ограничения и должно интерпретироваться широко, чтобы содержать, по меньшей мере, следующие технологии: закрытые беспроводные периферийные устройства (NWP); беспроводные радиоинтерференционные сети ближнего диапазона (например, беспроводная персональная сеть (wPAN), беспроводная локальная сеть (wLAN), беспроводная глобальная сеть (wWAN), технология Bluetooth™, и т.п.); беспроводная одноранговая связь (например, ультраширокополосная радиосвязь); и любой протокол, который поддерживает беспроводную передачу данных между устройствами. Дополнительно, люди, знакомые с областью техники, к которой относится изобретение, должны понимать, что беспроводная сеть ближнего диапазона может быть осуществлена различными способами передачи данных (например, спутниковая передача, сеть передачи данных и т.д.). Поэтому подчеркивается, что варианты осуществления связи между устройством 215 клиента, хранилищем 220 данных и механизмом 290 естественного языка, например, не ограничиваются описанными примерами, но охватывают большое разнообразие способов связи. В другом варианте осуществления компьютерное устройство может внутренне обладать функциональными возможностями компонента 250 семантической интерпретации, тем самым облегчая зависимость от проводной или беспроводной связи.

Примерная системная архитектура 200 содержит устройство 215 клиента, в частности, для поддержки работы устройства 275 представления. В примере варианта осуществления, где устройство 215 клиента является, например, мобильным устройством, устройство представления (например, дисплей с сенсорным экраном) может быть расположено на устройстве 215 клиента. Кроме того, устройство 215 клиента может принимать форму различных типов компьютерных устройств. Только для примера, устройство 215 клиента может быть персональным вычислительным устройством (например, компьютерным устройством 100, показанным на фиг.1), карманным устройством (например, персональным цифровым помощником), мобильным устройством (например, ноутбуком, сотовым телефоном, медиапроигрывателем), электронным устройством потребителя, различными серверами и т.п. Дополнительно, компьютерное устройство может содержать два или более электронных устройства, выполненных с возможностью совместного использования ими информации.

В вариантах осуществления, как обсуждалось выше, устройство 215 клиента содержит или оперативно подключается к устройству 275 представления, выполненному с возможностью представления дисплея 295 интерфейса пользователя (UI) на устройстве 275 представления. Устройство 275 представления может быть выполнено с возможностью представления в виде любого устройства дисплея, которое способно представлять информацию пользователю, такого как монитор, панель электронного дисплея, сенсорный экран, жидкокристаллический дисплей (LCD), плазменный экран, один или более светоизлучающих диодов (LED), лампы накаливания, лазер, электролюминесцентный источник освещения, химический источник света, гибкий световод и/или источник флуоресцентного света или любой другой тип дисплея или может содержать отражающую поверхность, на которую проектируется визуальная информация. Хотя выше были описаны несколько различных конфигураций устройства 275 представления, специалисты в данной области техники должны понимать, что в качестве устройства 275 представления могут использоваться различные типы устройств представления, которые представляют информацию, и что варианты осуществления настоящего изобретения не ограничиваются теми устройствами 275 представления, которым показаны и описаны.

В одном примере варианта осуществления дисплей 295 UI, представляющий устройство 275 представления, выполнен с возможностью представления Web-страницы (не показана), которая связана с механизмом 290 естественного языка и/или создателем содержимого. В вариантах осуществления Web-страница может показывать область входа в поиск, которая принимает запрос, и результаты поиска, которые обнаруживаются посредством поиска семантического индекса с помощью запроса. Запрос может быть предоставлен пользователем вручную в область входа в поиск или может быть создан автоматически программным обеспечением. Кроме того, как более подробно обсуждается ниже, запрос может содержать одно или более ключевых слов, которые, когда предоставлены, принуждают механизм 290 естественного языка идентифицировать соответствующие результаты поиска, которые наиболее соответствуют ключевым словам в запросе.

Механизм 290 естественного языка, показанный на фиг.2, может принимать форму различных типов компьютерных устройств, таких как, например, компьютерное устройство 100, описанное выше со ссылкой на фиг.1. Только для примера и не для создания ограничения, механизм 290 естественного языка может быть персональным компьютером, настольным компьютером, ноутбуком, электронным устройством потребителя, карманным устройством (например, персональный цифровой секретарь), различными удаленными серверами (например, сетевой канал обслуживания сервера), оборудованием обработки и т.п. Следует отметить, однако, что изобретение не ограничивается реализацией на таких компьютерных устройствах, а может быть реализовано на любом из множества различных типов компьютерных устройств в пределах объема вариантов осуществления настоящего изобретения.

Дополнительно, в одном случае, механизм 290 естественного языка выполнен с возможностью работы в качестве механизма поиска, предназначенного для поиска информации в Интернете и/или в хранилище 220 данных и для получения результатов поиска из информации в рамках объема поиска в ответ на предоставление запроса через устройство 215 клиента. В одном варианте осуществления механизм поиска содержит один или более сетевых поисковых агентов, которые исследуют имеющиеся в наличии данные (например, группы новостей, базы данных, открытые каталоги, хранилище 220 данных и т.п.), доступные через Интернет, и создают семантический индекс 260, содержащий адреса вместе с сущностью Web-страниц или других документов, хранящихся в представительном формате. В другом варианте осуществления механизм поиска способен действовать так, чтобы облегчить идентификацию и извлечение результатов поиска (например, листинг, таблица, ранжированный порядок Web-адресов и т.п.) из семантического индекса, которые релевантны поисковым терминам в пределах поданного запроса. К поисковому механизму могут обращаться интернет-пользователи через приложение Web-браузера, расположенное на устройстве 215 клиента. Соответственно, пользователи могут проводить интернет-поиск, вводя поисковые термины в область ввода для поиска (например, показ на дисплее 295 UI, созданный приложением Web-браузера, связанным с механизмом поиска). В другой конфигурации, поиск может проводиться посредством ввода запроса в один или более системных индексов, чтобы извлечь содержимое из местного хранилища банка информации, такого как жесткий диск пользователя.

Хранилище 220 данных обычно выполняется с возможностью хранения информации, связанной с онлайновыми позициями и/или материалами, которые обладают ассоциированным с ним пригодным для поиска содержимым (например, документы, которые содержат Web-сайт Wikipedia). В различных вариантах осуществления такая информация может содержать, в частности, документы, содержимое Web-страниц/сайта, электронные материалы, доступные через Интернет, местную сеть интранет или запоминающее устройство или жесткий диск компьютера пользователя и другие типичные ресурсы, доступные для механизма поиска. Кроме того, хранилище 220 данных может быть выполнено с возможностью поиска для соответствующего доступа к хранящейся информации. В отдельном случае, разрешение соответствующего доступа содержит выбор или фильтрацию подмножества документов в хранилище данных согласно предоставленным критериям.

Например, хранилище 220 данных может быть доступно для поиска одного или более документов, выбранных для обработки механизмом 290 естественного языка. В вариантах осуществления механизму 290 естественного языка разрешается свободно просматривать хранилище данных для документов, которые были недавно добавлены или исправлены, чтобы обновлять семантический индекс. Процесс просмотра может выполняться непрерывно, с заранее определенными интервалами, или после индикации, что произошло изменение в одном или более документах, собранных в хранилище 220 данных. Специалисты в данной области техники должны понимать, что информация, хранящаяся в хранилище 220 данных, может иметь перестраиваемую конфигурацию и содержать любую информацию в пределах объема онлайнового поиска. Содержание и объем такой информации никоим образом не предназначены ограничивать объем вариантов осуществления настоящего изобретения. Дополнительно, хотя на чертеже оно показано как единый, независимый компонент, хранилище 220 данных может на деле быть множеством баз данных, например, группой баз данных, части которой могут постоянно находиться на устройстве 215 клиента, механизме 290 естественного языка, другом внешнем компьютерном устройстве (не показано) и/или любой их комбинации.

В целом, механизм 290 естественного языка обеспечивает инструмент оказания помощи пользователям, стремящимся искать и находить информацию в онлайновом режиме. В вариантах осуществления этот инструмент работает посредством применения технологии обработки текстов на естественном языке для вычисления значения прохождений в наборах документов, таких как документы, извлеченные из хранилища 220 данных. Эти значения хранятся в семантическом индексе 260, на который делается ссылка при выполнении поиска. Первоначально, когда пользователь вводит запрос в область входа в поиск, конвейер 205 поиска запроса анализирует запрос пользователя (например, строка символов, законченные слова, фразы, буквенно-цифровые выражения, символы или вопросы) и переводит запрос в структурное представление, использующее семантические взаимоотношения. Это представление, упомянутое в дальнейшем как "высказывание", может использоваться для опроса информации, хранящейся в семантическом индексе 260, чтобы прийти к соответствующим результатам поиска.

В отдельном случае, информация, хранящаяся в семантическом индексе 260, содержит представления, извлеченные из документов, хранящихся в хранилище 220 данных, или любых других материалов, попадающих в объем онлайнового поиска. Это представление, упоминаемое в дальнейшем как "семантическое представление", связано с интуитивным значением содержимого, выделенного из общего текста, и может быть сохранено в семантическом индексе 260. В вариантах осуществления семантическое представление получается из семантической структуры, используя упорядоченную последовательность терминов-перезаписываемых правил или любую другую эвристику, известную в соответствующей области. В вариантах осуществления "семантическая структура" создается на промежуточном этапе конвейера анализа в соответствии с документом, анализирующим компонент, который преобразует содержимое документа в семантическую структуру, частично используя лексические семантические правила грамматики.

Архитектура семантического индекса 260 позволяет быстрое сравнение хранящихся семантических представлений с полученными высказываниями, чтобы найти семантические представления, которые совпадают с суждениями, и извлечь документы, отображенные в семантических представлениях, которые релевантны поданному запросу. Соответственно, механизм 290 естественного языка может определить значение требований запроса пользователя из запроса, поданного в интерфейс поиска (например, область ввода для поиска, определенная на дисплее 295 UI), и затем пересмотреть большое количество информации, чтобы найти соответствующие результаты поиска, которые удовлетворят эти нужды.

В вариантах осуществления описанный выше процесс может быть осуществлен различными функциональными элементами, которые выполняют один или более этапов для получения релевантных результатов поиска. Эти функциональные элементы содержат компонент 235, анализирующий запрос, компонент 240, анализирующий документ, компонент 245 семантической интерпретации, компонент 250 семантической интерпретации, компонент 255 спецификации грамматики, семантический индекс 260, компонент 265 определения совпадения, и компонент 270 ранжирования. Эти функциональные компоненты 235, 240, 245, 250, 255, 260, 265 и 270, в целом, обращены к индивидуальным модульным подпрограммам программного обеспечения и их сопутствующим аппаратным средствам, которые динамически связаны и готовы для использования с другими компонентами или устройствами.

Первоначально, хранилище 220 данных, компонент 240 анализа документов и компонент 250 семантической интерпретации содержат конвейер 210 индексации. Во время работы конвейер 210 индексации служит для извлечения семантических представлений из содержимого в пределах документов 230, допущенных в хранилище 220, и создания семантического индекса 260 после сбора семантических представлений. Как обсуждалось выше, после объединения для формирования семантического индекса 260, семантические представления могут сохранять отображение в документах 230 и/или местоположение содержимого внутри документов 230, из которых они были получены. Другими словами, семантический индекс 260 кодирует семантические представления (получаемые из семантических структур, созданных в компоненте 240 анализа документа), созданные и переданные компонентом 250 семантической интерпретации. Однако в других вариантах осуществления компонент 240 анализа документов и компонент 250 семантической интерпретации могут быть выполнены как единый элемент, который не делит обработку текстов на естественном языке на два этапа (то есть, на синтаксический анализ LFG и семантическую интерпретацию), а вместо этого создает семантические представления на едином этапе, не имея отдельного этапа, на котором создаются семантические структуры.

В целом, компонент 240 анализа документов выполнен с возможностью сбора данных, которые доступны механизму 290 естественного языка. В отдельном случае, сбор данных содержит просмотр хранилища 220 данных, чтобы просканировать содержимое документов 230 или другую информацию, хранящуюся там. Поскольку информация внутри хранилища 220 данных может постоянно обновляться, процесс сбора данных может выполняться с регулярными интервалами, непрерывно или по уведомлению, что в одном или более документах 230 сделано обновление.

После сбора содержимого из документов 230 и других доступных источников, компонент 240 анализа документов выполняет различные процедуры, чтобы подготовить содержимое для его семантического анализа. Эти процедуры могут содержать извлечение текста, распознавание объекта и синтаксический анализ. Процедура извлечения текста, по существу, содержит извлечение таблиц, изображений, шаблонов и текстовых разделов данных из содержимого документов 230 и преобразование их из исходного онлайнового формата в формат, пригодный для использования (например, язык гипертекстовой разметки (HTML)), в то же время сохраняя связи с документами 230, из которых они извлечены, чтобы облегчить отображение. Пригодный для использования формат содержимого может затем быть разделен на предложения. В одном случае, разбивка содержимого на предложения содержит ассемблирование строки символов в качестве ввода, применение набора правил, чтобы тестировать строку символов на наличие определенных свойств, и деление содержимого на предложения, основываясь на конкретных свойствах. Только для примера, конкретные свойства тестируемого содержимого могут содержать пунктуацию и преобразование букв в прописные, чтобы определить начало и конец высказывания. Когда последовательность предложений установлена, каждое индивидуальное предложение исследуется, чтобы обнаружить в нем слова и потенциально распознать каждое слово как объект (например, "Гинденбург"), событие (например, "Вторая мировая война"), время (например, "Сентябрь"), глагол или любую другую категорию слова, которая может быть использована для способствования различению между словами или для понимания значения соответствующего высказывания.

Процедура распознавания объекта помогает распознать, какие слова являются названиями, поскольку они обеспечивают конкретные ответы на ключевые слова, связанные с вопросом, из запроса (например, кто, где, когда). В вариантах осуществления распознавание слов содержит идентифицирующие слова, такие как названия, и аннотирование слова с тэгом, чтобы облегчить извлечение при опросе семантического индекса 260. В отдельном случае, идентификация таких слов, как названия, содержит поиск слов в заранее определенном списке названий, чтобы определить, имеется ли совпадение. Если совпадения не существует, то для предположения, является ли слово названием, может использоваться статистическая информация. Например, статистическая информация может помочь при распознавании вариации сложного названия, такого как "USS Enterprise" (военный корабль США "Энтерпрайз"), которое может иметь несколько общих вариацией при проверке правописания.

Процедура синтаксического анализа, когда она осуществляется, обеспечивает возможность проникновения в сущность структуры предложений, идентифицированных выше. В отдельном случае, эта способность проникновения в сущность обеспечивается применением правил, содержащихся в структуре компонента 255 спецификации грамматики. При применении эти правила или грамматика ускоряют анализ предложений для выделения представления взаимоотношений среди слов в предложениях. Как обсуждалось выше, эти представления упоминаются как семантические структуры и позволяют компоненту 250 семантической интерпретации фиксировать критическую информацию о грамматической структуре предложения (например, глагол, подлежащее, дополнение, и т.п.).

Компонент 250 семантической интерпретации обычно выполняется с возможностью диагностики роли каждого слова в семантической структуре

Идентификация семантических взаимоотношений в косвенной речи

Патент 2488877