Функции ранжирования, использующие смещенное расстояние, измеряемое количеством последовательных переходов, до документа в сети

Патент 2421802

Авторы

Правообладатели

МАЙКРОСОФТ КОРПОРЕЙШН (US)

Классы МПК

G06F17/30 - информационный поиск; структуры баз данных для этой цели

Функции ранжирования, использующие смещенное расстояние, измеряемое количеством последовательных переходов, до документа в сети

Иллюстрации

Показать все

Изобретение относится к устройствам и способам определения показателя релевантности документов для документов в сети. Технический результат заключается в обеспечении достоверности результатов поиска. Сохраняют информацию документа в запоминающем устройстве, информация документа идентифицирует множество документов в сети, причем множество документов включает в себя авторитетные документы и неавторитетные документы. Сохраняют информацию связи в запоминающем устройстве, причем информация связи идентифицирует связи между множеством документов. Вычисляют значения расстояния, измеряемого количеством последовательных переходов для каждого из неавторитетных документов к авторитетным документам. Вычисляют смещенное значение расстояния, измеряемого количеством последовательных переходов, для каждого из неавторитетных документов в сети к авторитетным документам. Исполняют поисковый запрос для формирования списка множества документов, который включает в себя, по меньшей мере, одно условие поиска. Осуществляют ранжирование списка множества документов, который включает в себя, по меньшей мере, одно условие поиска с использованием функции ранжирования, которая содержит один или более независимых от запроса компонентов. Выводят ранжированные результаты поиска в соответствии с ранжированием. 3 н. и 11 з.п. ф-лы, 8 ил.

Реферат

Уровень техники

Известны функции ранжирования, которые ранжируют документы согласно их релевантности для данного поискового запроса. В данной области техники прилагаются усилия к тому, чтобы разработать функции ранжирования, которые предоставляют лучшие результаты поиска для данного поискового запроса в сравнении с результатами поиска, формируемыми посредством поисковых механизмов с использованием известных функций ранжирования.

Сущность изобретения

В данном документе описываются помимо других вещей различные технологии для определения показателя релевантности документов для данного документа в сети. Показатель релевантности документа формируется посредством функции ранжирования, которая содержит один или более независимых от запроса компонентов, при этом, по меньшей мере, один независимый от запроса компонент включает в себя параметр смещенного расстояния, измеряемого количеством последовательных переходов, который учитывает значения смещенного расстояния, измеряемого количеством последовательных переходов, для нескольких документов в сети. Функции ранжирования могут быть использованы посредством поискового механизма для того, чтобы ранжировать несколько документов по порядку (в типичном варианте в порядке убывания) на основе показателей релевантности для нескольких документов.

Данный раздел "Сущность изобретения" предусмотрен для того, чтобы в общем представить читателю в упрощенной форме одну или более выбираемых идей, которые дополнительно описываются ниже в разделе "Подробное описание изобретения". Этот раздел "Сущность изобретения" не предназначен для того, чтобы идентифицировать ключевые и/или обязательные признаки заявляемой сущности изобретения.

Краткое описание чертежей

Фиг. 1 представляет примерную логическую блок-схему последовательности операций, иллюстрирующую примерные этапы способа создания ранжированных результатов поиска в ответ на поисковый запрос, введенный пользователем.

Фиг. 2 - это блок-схема некоторых основных компонентов примерного операционного окружения для реализации способов и процессов, раскрытых в данном документе.

Фиг. 3 иллюстрирует примерный веб-граф, идентифицирующий документы в сетевом пространстве, ссылки между документами, авторитетные узлы, имеющие присвоенное значение смещенного расстояния, измеряемого количеством последовательных переходов, и неавторитетные узлы, имеющие вычисленное значение смещенного расстояния, измеряемого количеством последовательных переходов.

Фиг. 4A-4B представляют логическую блок-схему последовательности операций, иллюстрирующую примерные этапы способа присвоения и формирования значений смещенного расстояния, измеряемого количеством последовательных переходов, для узлов на веб-графе.

Фиг. 5A-5B представляют логическую блок-схему последовательности операций, иллюстрирующую примерные этапы способа формирования значений смещенного расстояния, измеряемого количеством последовательных переходов, для неавторитетных узлов на веб-графе.

Фиг. 6 представляет логическую блок-схему последовательности операций, иллюстрирующую примерные этапы способа ранжирования результатов поиска, сформированных с помощью функции ранжирования, содержащей параметр значения смещенного расстояния, измеряемого количеством последовательных переходов.

Подробное описание изобретения

Чтобы способствовать пониманию принципов способов и процессов, раскрываемых в данном документе, далее приводится описание конкретных вариантов осуществления и для того, чтобы описать конкретные варианты осуществления, используется специальный язык. Тем не менее, следует понимать, что ограничение на область применения раскрытых способов и процессов не налагается посредством использования специального языка. Изменения, дополнительные модификации и аналогичные дополнительные варианты применения поясненных раскрытых способов и устройств предполагаются, как должно быть обычно очевидным специалистам в данной области техники, к которым относятся раскрытые способы и процессы.

Раскрываются способы определения показателя релевантности документов для документов в сети. Каждый показатель релевантности документов вычисляется с помощью функции ранжирования, которая содержит один или более зависимых от запроса компонентов (к примеру, функциональный компонент, который зависит от специфики данного поискового запроса или условия поискового запроса), а также один или более независимых от запроса компонентов (к примеру, функциональный компонент, который не зависит от данного поискового запроса или условия поискового запроса). Показатели релевантности документов, определенные посредством функции ранжирования, могут быть использованы для того, чтобы ранжировать документы внутри сетевого пространства (к примеру, пространства корпоративной сети интранет) согласно показателю релевантности каждого документа. Примерный процесс поиска, в котором могут быть использованы раскрытые способы, показан как примерный процесс 10 на фиг. 1.

Фиг. 1 иллюстрирует примерный процесс 10 поиска, который начинается с этапа 80 процесса, на котором пользователь вводит поисковый запрос. От этапа 80 примерный процесс 10 поиска переходит к этапу 200, на котором поисковый механизм находит все документы в сетевом пространстве по одному или более условиям поискового запроса. От этапа 200 примерный процесс 10 поиска переходит к этапу 300, на котором функция ранжирования поискового механизма сортирует документы в сетевом пространстве на основе показателя релевантности каждого документа, при этом показатель релевантности документа основан на одном или более зависимых от запроса компонентов и одном или более независимых от запроса компонентов. От этапа 300 примерный процесс 10 поиска переходит к этапу 400, на котором отсортированные результаты поиска представляются пользователю, в типичном варианте в порядке убывания релевантности, идентифицируя документы в сетевом пространстве, которые наиболее релевантны к поисковому запросу.

Как подробнее описано ниже, в некоторых примерных способах определения показателя релевантности документов, по меньшей мере, один независимый компонент функции ранжирования, используемой для того, чтобы определять показатель релевантности документов, учитывает "смещенное расстояние, измеряемое количеством последовательных переходов (кликов)" каждого документа в сетевом пространстве. Смещенному расстоянию, измеряемому количеством последовательных переходов, для определенных документов, упоминаемых в данном описании как "авторитетные документы" в сети или "авторитетные узлы" на веб-графе, может быть присвоено начальное значение расстояния, измеряемого количеством последовательных переходов, чтобы идентифицировать эти документы как имеющие различную степень значимости относительно друг друга и, возможно, более высокую степень значимости относительно остальных документов в сети. Остальные документы, упоминаемые в данном документе как "неавторитетные документы" в сети или "неавторитетные узлы" на веб-графе, имеют значение смещенного расстояния, измеряемого количеством последовательных переходов, которое вычисляется на основе их позиции относительно ближайшего авторитетного документа в сетевом пространстве (или ближайшего авторитетного узла на веб-графе), приводящие в результате к смещению значений расстояния, измеряемого количеством последовательных переходов, относительно авторитетных узлов.

В одном примерном варианте осуществления значение смещенного расстояния, измеряемого количеством последовательных переходов, может быть присвоено m авторитетным документам в сети, содержащей всего N документов, при этом m больше или равно 2 и меньше N. В этом примерном варианте осуществления системный администратор вручную выбирает либо программный код в поисковой системе автоматически идентифицирует m авторитетных документов в данном сетевом пространстве, которые имеют определенную степень значимости в сетевом пространстве. Например, один из m авторитетных документов может быть домашней страницей веб-узла или другой страницей, ссылающейся непосредственно на домашнюю страницу веб-узла.

В другом примерном варианте осуществления, по меньшей мере, два значения смещенного расстояния, измеряемого количеством последовательных переходов, присвоенные m авторитетным документам, отличаются друг от друга. В этом варианте осуществления различные числовые значения могут быть присвоены двум или более m авторитетным документам, чтобы дополнительно количественно задать значимость одного авторитетного документа для другого авторитетного документа. Например, значимость данного авторитетного документа может быть указана посредством небольшого значения смещенного расстояния, измеряемого количеством последовательных переходов. В этом примере авторитетные документы, имеющие значение смещенного расстояния, измеряемого количеством последовательных переходов, равным 0, рассматриваются как более значимые, чем авторитетные документы, имеющие значение смещенного расстояния, измеряемого количеством последовательных переходов, больше 0.

Раскрытые способы определения показателя релевантности документов дополнительно могут использовать функцию ранжирования, которая содержит, по меньшей мере, один независимый от запроса компонент, который включает в себя параметр значения ребра, который учитывает значения ребер, присвоенные каждому ребру сети, при этом каждое ребро соединяет один документ с другим документом в рамках структуры гиперссылок сети (или один узел с другим узлом на веб-графе). Присвоение значений ребер одному или более ребрам, соединяющим документы друг с другом в сети, предоставляет дополнительный способ влияния на показатель релевантности документов в сети. Например, в примере, раскрытом выше, в котором низкое значение смещенного расстояния, измеряемого количеством последовательных переходов, указывает значимость данного документа, увеличение значения ребра между двумя документами, такими как первый документ и второй документ, связанный с первым документом, дополнительно снижает значимость второго документа (т.е. связанного документа) относительно первого документа. В отличие от этого посредством присвоения низкого значения ребра ребру между первым документом и вторым документом значимость второго документа становится больше относительно первого документа.

В примерном варианте осуществления двум или более ребрам, связывающим документы в сетевом пространстве, могут быть присвоены значения ребер, которые отличаются друг от друга. В этом примерном варианте осуществления различные числовые значения могут быть присвоены двум или более ребрам, чтобы дополнительно количественно задать значимость одного документа для другого в сетевом пространстве. В других примерных вариантах осуществления всем ребрам, связывающим документы в сетевом пространстве, присваивается одно значение ребра, при этом присвоенное значение ребра равно 1 или какому-либо другому положительному числу. В еще одном другом варианте осуществления значения ребер равны друг другу и равны или превышают наибольшее значение смещенного расстояния, измеряемого количеством последовательных переходов, первоначально присвоенное одному или более авторитетным документам.

В еще одном дополнительном примерном варианте осуществления раскрытые способы определения показателя релевантности документов используют функцию ранжирования, которая содержит, по меньшей мере, один независимый от запроса компонент, который включает в себя и вышеописанный параметр смещенного расстояния, измеряемого количеством последовательных переходов, и вышеописанный параметр значения ребра.

Показатель релевантности документов может быть использован для того, чтобы ранжировать документы в сетевом пространстве. Например, способ ранжирования документов в сети может содержать этапы определения показателя релевантности документов для каждого документа в сети с помощью вышеописанного способа; и ранжирования документов в требуемом порядке (в типичном варианте в порядке убывания) на основе показателей релевантности для каждого документа.

Показатель релевантности документов также может быть использован для того, чтобы ранжировать результаты поиска для поискового запроса. Например, способ ранжирования результатов поиска для поискового запроса может содержать этапы определения показателя релевантности документов для каждого документа в результатах поиска для поискового запроса с помощью вышеописанного способа; и ранжирования документов в требуемом порядке (в типичном варианте в порядке убывания) на основе показателей релевантности для каждого документа.

Прикладные программы, использующие способы, раскрытые в данном документе, могут быть загружены и приведены в исполнение для множества вычислительных систем, содержащих множество аппаратных компонентов. Примерная вычислительная система и примерное операционное окружение для применения на практике способов, раскрытых в данном документе, описаны ниже.

Примерное операционное окружение

Фиг. 2 иллюстрирует пример подходящего окружения 100 вычислительной системы, в котором способы, раскрытые в данном документе, могут быть реализованы. Окружение 100 вычислительной системы является только одним примером подходящего вычислительного окружения и не имеет намерением мотивировать какое-либо ограничение в качестве границ использования или функциональности способов, раскрытых в данном документе. Также вычислительное окружение 100 не должно быть интерпретировано в качестве имеющего какую бы то ни было зависимость или требование, относящееся к любому одному или сочетанию из компонентов, проиллюстрированных в примерном операционном окружении 100.

Способы, раскрытые в данном документе, являются работоспособными с многочисленными другими конфигурациям или средами вычислительных систем общего применения или специального назначения. Примеры хорошо известных вычислительных систем, сред и/или конфигураций, которые могут быть пригодными для использования со способами, раскрытыми в данном документе, включают в себя, но не в качестве ограничения, персональные компьютеры, серверные компьютеры, «карманные» или «дорожные» устройства, многопроцессорные системы, основанные на микропроцессорах системы, компьютерные приставки к телевизору, программируемую бытовую электронную аппаратуру, сетевые ПК (персональные компьютеры, PC), миникомпьютеры, универсальные вычислительные машины, распределенные вычислительные среды, которые включают в себя любые из вышеприведенных систем или устройств, и тому подобное.

Способы и процессы, раскрытые в данном документе, могут быть описаны в общем контексте машинно-исполняемых инструкций, к примеру, программных модулей, являющихся исполняемыми компьютером. Программные модули, в общем, включают в себя процедуры, программы, объекты, компоненты, структуры данных и т.д., которые выполняют отдельные задачи или реализуют отдельные абстрактные типы данных. Способы и процессы, раскрытые в данном документе, могут быть также осуществлены на практике в распределенной вычислительной среде, где задачи выполняются удаленными обрабатывающими устройствами, которые связаны через сеть передачи данных. В распределенном вычислительном окружении программные модули могут быть расположены в носителе хранения и локального, и удаленного компьютера, включающего в себя запоминающие устройства памяти.

Относительно фиг. 2 примерная система для реализации способов и процессов, раскрытых в данном документе, включает в себя вычислительное устройство общего назначения в виде компьютера 110. Компоненты компьютера 110 могут включать в себя, но не только, процессор 120, системную память 130 и системную шину 121, которая соединяет различные компоненты системы, включая, но не ограничивая, системную память 130 с процессором 120. Системная шина 121 может быть любой из некоторых типов шинных структур, включающих в себя шину памяти или контроллер памяти, периферийную шину и локальную шину, использующую любую из многообразия шинных архитектур. В качестве примера, но не ограничения, такие архитектуры включают в себя шину стандартной архитектуры для промышленного применения (ISA), шину микроканальной архитектуры (MCA), шину расширенной ISA (EISA), шину стандарта (VESA) локальной видеошины для ПК и шину соединения периферийных компонентов (PCI), также известную как мезонинная шина.

Компьютер 110 в типичном варианте включает в себя многообразие машиночитаемых носителей. Машиночитаемыми носителями могут быть любые имеющиеся в распоряжении носители, доступ к которым может быть осуществлен компьютером 110 и которые могут быть как энергозависимыми или энергонезависимыми, так и съемными или несъемными. В качестве примера, но не ограничения, машиночитаемые носители могут содержать компьютерные запоминающие носители и среду передачи данных. Носитель хранения компьютера включает в себя энергозависимый и энергонезависимый, сменный и стационарный носитель, реализованный по любому способу или технологии хранения такой информации, как машиночитаемые команды, структуры данных, программные модули и другие данные. Компьютерные запоминающие носители включают в себя, но не в качестве ограничения, ОЗУ (оперативное запоминающее устройство, RAM), ПЗУ (постоянное запоминающее устройство, ROM), ЭСППЗУ (электрически стираемое и программируемое ПЗУ, EEPROM), флэш-память или другую технологию памяти, CD-ROM (ПЗУ на компакт-диске), цифровой универсальный диск (DVD) или другое оптическое дисковое запоминающее устройство, магнитные кассеты, магнитную ленту, магнитный дисковый накопитель или другие магнитные запоминающие устройства или любой другой носитель, который может быть использован, чтобы хранить желаемую информацию, и к которому может быть осуществлен доступ компьютером 110. Среда передачи данных обычно воплощает машиночитаемые инструкции, структуры данных, программные модули или другие данные в модулированном информационном сигнале, таком как несущая, или другом транспортном механизме и включает в себя любую среду доставки информации. Термин "модулированный информационный сигнал" означает сигнал, который обладает одной или несколькими характеристиками, заданными или измененными таким способом, как кодирование информации в сигнале. В качестве примера, но не ограничения, среда передачи данных включает в себя проводную среду, такую как проводная сеть, или непосредственное проводное соединение, и беспроводную среду, такую как акустическая, RF, инфракрасная и другие беспроводные среды. Сочетания любого из вышеперечисленного также следует включить в число машиночитаемого носителя как используемого в настоящем документе.

Системная память 130 включает в себя компьютерную среду хранения в виде энергозависимого и/или энергонезависимого запоминающего устройства, такого как постоянное запоминающее устройство 131 (ПЗУ) и оперативное запоминающее устройство 132 (ОЗУ). Базовая система 133 ввода/вывода (BIOS), содержащая в себе базовые процедуры, которые помогают передавать информацию между элементами в пределах компьютера 110, к примеру, во время запуска, типично сохранена в ПЗУ 131. ОЗУ 132 типично содержит в себе данные и/или программные модули, которые непосредственно доступны и/или являются собственно выполняемыми процессором 120. В качестве примера, но не ограничения, фиг. 2 иллюстрирует операционную систему 134, прикладные программы 135, другие программные модули 136 и программные данные 137.

Компьютер 110 может также включать в себя другие съемные/несъемные энергозависимые/энергонезависимые компьютерные запоминающие носители. Исключительно в качестве примера, фиг. 2 иллюстрирует накопитель 140 на жестком диске, который выполняет считывание с или запись на несъемные энергонезависимые носители, магнитный дисковод 151, который выполняет считывание с или запись на съемный энергонезависимый магнитный диск 152, а также оптический дисковод 155, который выполняет считывание с или запись на съемный энергонезависимый оптический диск 156, такой как CD-ROM или другие оптические носители. Другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные запоминающие носители, которые могут быть использованы в примерной рабочей среде, включают в себя, но не в качестве ограничения, кассеты магнитной ленты, карты флэш-памяти, цифровые многофункциональные диски, цифровую видеоленту, твердотельное ОЗУ, твердотельное ПЗУ и тому подобное. Накопитель 141 на жестком диске типично подключен к системной шине 121 через интерфейс несъемной памяти, такой как интерфейс 140, а привод 151 магнитного диска и привод 155 оптического диска типично подключены к системной шине 121 посредством интерфейса съемной памяти, такого как интерфейс 150.

Накопители и ассоциативно связанный с ним носитель хранения вычислительной машины, обсужденные выше и проиллюстрированные на фиг. 2, предоставляют хранение машиночитаемых инструкций, структур данных, программных модулей и других данных для вычислительной машины 110. На фиг. 2, например, накопитель 141 на жестких дисках проиллюстрирован в качестве сохраняющего операционную систему 144, прикладные программы 145, другие программные модули 146 и программные данные 147. Заметим, что эти компоненты могут либо быть такими же как или отличными от операционной системы 134, прикладных программ 135, других программных модулей 136 и программных данных 137. Операционная система 144, прикладные программы 145, другие программные модули 146 и программные данные 147 даны в настоящем документе с разными номерами, чтобы проиллюстрировать, что, как минимум, они являются различными другими копиями.

Пользователь может вводить команды и информацию в компьютер 110 через устройства ввода, такие как клавиатура 162 и указательное устройство 161, обычно упоминаемое как мышь, шаровой манипулятор (трекбол) или сенсорная панель. Другие устройства ввода (не показаны) могут включать в себя микрофон, джойстик, игровую панель, спутниковую антенну, сканер или тому подобное. Эти и другие устройства ввода часто подключены к процессору 120 через пользовательский интерфейс 160 ввода, который соединен с системной шиной 121, но могут не быть подключены посредством других интерфейсов и шинных структур, таких как параллельный порт, игровой порт или универсальная последовательная шина (USB). Монитор 191 или другой тип устройства отображения также подключен к системной шине 121 посредством такого интерфейса, как видеоинтерфейс 190. Помимо монитора 191 компьютер 110 может также включать в себя другие периферийные устройства вывода, например динамики 197 и принтер 196, которые могут быть подключены средствами периферийного интерфейса 195 вывода.

Компьютер 110 может работать в сетевом окружении, использующем логические соединения с одним или более удаленными компьютерами, такими как удаленный компьютер 180. Удаленный компьютер 180 может быть персональным компьютером, сервером, маршрутизатором, сетевым персональным ПК, одноранговым устройством или другим общим узлом сети, и он типично включает в себя многие или все элементы, описанные выше относительно компьютера 110, хотя на фиг. 2 проиллюстрировано только запоминающее устройство 181 хранения. Логические соединения, показанные на фиг. 2, включают в себя локальную вычислительную сеть (LAN) 171 и глобальную сеть (WAN) 173, но могут также включать в себя другие сети. Такие сетевые среды являются обычными в офисах, корпоративных компьютерных сетях, сетях интранет (локальных сетях, основанных на технологиях Интернет) и Интернете.

Когда используется в сетевом окружении LAN, компьютер 110 подключен к LAN 171 через сетевой интерфейс или адаптер 170. Когда используется в сетевом окружении WAN, компьютер 110 типично включает в себя модем 172 или другое средство для установления связи по WAN 173, такой как Интернет. Модем 172, который может быть внутренним или внешним, может быть подключен к системной шине 121 через интерфейс 160 пользовательского ввода или с использованием другого подходящего устройства. В сетевом окружении программные модули, изображенные относительно компьютера 110, или их части могут быть сохранены в удаленном запоминающем устройстве памяти. В качестве примера, а не ограничения, фиг. 2 иллюстрирует удаленные прикладные программы 185 как находящиеся на запоминающем устройстве 181 хранения. Должно быть очевидно, что показанные сетевые соединения являются примерными и может быть использовано другое средство установления линии связи между вычислительными машинами.

Способы и процессы, раскрытые в данном документе, могут быть реализованы с помощью одной или нескольких прикладных программ, включающих в себя, но не ограниченных, приложение поиска и ранжирования результатов, которые могут быть одним из числа прикладных программ, указанных как прикладные программы 135, прикладные программы 145 и удаленные прикладные программы 185 в примерной системе 100.

Как упомянуто выше, специалисты в данной области техники поймут, что раскрытые способы формирования показателя релевантности документа для данного документа могут быть реализованы в других конфигурациях вычислительных систем, включающих в себя портативные устройства, многопроцессорные системы, основанную на микропроцессорах или программируемую бытовую электронную аппаратуру, сетевые персональные компьютеры, мини-ЭВМ, мейнфреймы и т.п. Раскрытые способы формирования показателя релевантности документа для данного документа могут быть также осуществлены на практике в распределенной вычислительной среде, где задачи выполняются удаленными обрабатывающими устройствами, которые связаны через сеть передачи данных. В распределенном вычислительном окружении программные модули могут быть размещены на локальных и удаленных устройствах хранения данных.

Реализация примерных вариантов осуществления

Как описано выше, предусмотрены способы определения показателя релевантности документов для документа в сети. Раскрытые способы позволяют ранжировать документ в сети с помощью (i) функции ранжирования, которая учитывает значение смещенного расстояния, измеряемого количеством последовательных переходов, каждого документа в сети, (ii) функции ранжирования, которая учитывает одно или более значений ребер, присвоенных ребрам (или связям) между документами в сети, или (iii) и (i), и (ii).

Раскрытые способы определения показателя релевантности документа в сети могут содержать ряд этапов. В одном примерном варианте осуществления способ определения показателя релевантности документа в сети содержит этапы сохранения информации документа и связи для документов в сети; формирования представления сети из информации документа и связей, при этом представление сети включает в себя узлы, которые представляют документы, и ребра, которые представляют связи; присвоения значения смещенного расстояния, измеряемого количеством последовательных переходов, (CD _A), по меньшей мере, двум узлам в сети, при этом узлы, которым присвоено значение смещенного расстояния, измеряемого количеством последовательных переходов, являются авторитетными узлами; вычисление смещенного расстояния, измеряемого количеством последовательных переходов, для каждого из неавторитетных узлов в представлении сети, при этом смещенное расстояние, измеряемое количеством последовательных переходов, для данного неавторитетного узла измеряется от данного неавторитетного узла до авторитетного узла, ближайшего к данному неавторитетному узлу, причем этап вычисления приводит к вычисленному значению смещенного расстояния, измеряемого количеством последовательных переходов, (CD _C) для каждого неавторитетного документа, и использования значения смещенного расстояния, измеряемого количеством последовательных переходов, (т.е. CD _Aили CD _C) для каждого документа, чтобы определить показатель релевантности данного документа в сети.

Этап сохранения информации документов и ссылок для документов в сети может быть выполнен посредством программного кода индексации, как правило, используемого в вычислительных системах. Программный код индексации формирует представление сети из информации документов и связей, при этом представление сети включает в себя узлы, которые представляют документы, и ребра, которые представляют связи. Это представление сети, в общем, упоминается как "веб-граф". Один примерный способ формирования веб-графа содержит использование данных, собираемых посредством процесса, при котором информация связей и текста привязки собирается и приписывается конкретным целевым документам привязки. Этот процесс и понятие текста привязки более полно описаны в Патентной заявке (США) серийный номер 10/955462, озаглавленной "SYSTEM AND METHOD FOR INCORPORATING ANCHOR TEXT INTO RANKING SEARCH RESULTS", поданной 30 августа 2004 года, предмет которой полностью содержится в данной заявке по ссылке.

Фиг. 3 иллюстрирует примерный веб-граф, идентифицирующий документы в сетевом пространстве и связи между документами. Как показано на фиг. 3, примерный веб-граф 30 содержит узлы 31, которые представляют каждый документ в данном сетевом пространстве (к примеру, в корпоративной сети интранет), и ребра 32, которые представляют связи между документами в данном сетевом пространстве. Следует понимать, что примерный веб-граф 30 является сильно упрощенным представлением данного сетевого пространства. В типичном варианте данное сетевое пространство может содержать сотни, тысячи или миллионы документов и сотни, тысячи или миллионы связей, соединяющих документы друг с другом. Дополнительно, хотя примерный веб-граф 30 иллюстрирует до восьми связей, соединенных с данным узлом (к примеру, центральным узлом 33), следует понимать, что при фактических сетевых настройках данный узел может иметь сотни ссылок, соединяющих узел (к примеру, документ) с сотнями других документов в сети (к примеру, домашняя страница сети может быть связана со всеми страницами в сети).

Помимо этого примерный веб-граф 30 иллюстрирует небольшое количество циклов (к примеру, первый узел, связанный со вторым узлом, который может связываться с дополнительными узлами, при этом второй узел или один из дополнительных узлов связывается обратно с первым узлом). Один такой цикл представлен посредством узлов 41 и 42 на фиг. 3. Другие циклы могут быть представлены, если любой из конечных узлов 40 связан обратно с любым другим узлом, показанным на фиг. 3, таким как центральный узел 33. Вне зависимости от простоты или сложности данного веб-графа раскрытые способы формирования показателя релевантности документов могут быть использованы в любом веб-графе, в том числе и в содержащем циклы.

После того как веб-граф сформирован, одна или более методик могут быть использованы для того, чтобы повлиять на относительную значимость одного или более документов в сетевом пространстве, представленных посредством узлов веб-графа. Как описано выше и ниже, эти методики включают в себя, но не только, (i) указание двух или более узлов как авторитетных узлов; (ii) присвоение каждому из авторитетных узлов значения смещенного расстояния, измеряемого количеством последовательных переходов, (CD _A), (iii) необязательно, присвоение двух или более значений смещенного расстояния, измеряемого количеством последовательных переходов, (CD _A), которые отличаются друг от друга; (iv) присвоение значения ребра каждому ребру веб-графа; (v) необязательно, присвоение минимального значения ребра каждому ребру веб-графа, при этом минимальное значение ребра больше максимальных или наибольших присвоенных значений смещенного расстояния, измеряемого количеством последовательных переходов, (CD _Amax); (vi) необязательно, присвоение одного или более значений ребер, которые отличаются друг от друга; (vii) вычисление значения смещенного расстояния, измеряемого количеством последовательных переходов, (CD _C) для каждого неавторитетного узла; и (viii) необязательно, понижение в оценке значений смещенного расстояния, измеряемого количеством последовательных переходов, (CD _Aили CD _C) при необходимости, если тестовые запросы с помощью значений смещенного расстояния, измеряемого количеством последовательных переходов, формируют нерелевантные результаты поиска. Некоторые из вышеописанных примерных методик оказания влияния на значение смещенного расстояния, измеряемого количеством последовательных переходов, одного или более документов в сети, представленных посредством примерного веб-графа 30, показаны на фиг. 3.

В примерном веб-графе узлы 31, имеющие квадратную форму, используются для того, чтобы идентифицировать авторитетные узлы в сети, при этом узлы 31, имеющие круглую форму, используются для того, чтобы идентифицировать неавторитетные узлы. Следует понимать, что любое число узлов в данном веб-графе может быть указано в качестве авторитетных узлов в зависимости от числа факторов, включающих в себя, но не только, общее число документов в сетевом пространстве, и число значимых документов, которые находятся в сетевом пространстве. В примерном веб-графе 30, 9 из 104 узлов указаны как авторитетные узлы (т.е. представляют 9 из 104 документов как имеющие особую значимость).

Дополнительно, хотя не показано на примерном веб-графе 30, каждое ребро 32 между каждой парой узлов 31 имеет весовой коэффициент ребра, ассоциативно связанный с ним. В типичном варианте, каждое ребро 32 имеет весовой коэффициент ребра по умолчанию, равный 1; тем не менее, как описано выше, каждому ребру 32 может быть присвоен весовой коэффициент ребра, отличный от 1. Дополнительно, в некоторых вариантах осуществления два или более различных весовых коэффициента ребер могут быть присвоены ребрам в одном веб-графе. На фиг. 3 буквы p, q, r, s и t, показанные в примерном веб-графе 30, используются для того, чтобы указывать значения некоторых ребер 32. Как описано выше, значения p, q, r, s и t ребер могут иметь значение 1, значение, отличное от 1, и/или значения, которые отличаются друг от друга, чтобы дополнительно влиять на значения смещенного расстояния, измеряемого количеством последовательных переходов, узлов 31 в примерном веб-графе 30. В типичном варианте, значения ребер для p, q, r, s и t, а также для других ребер в примерном веб-графе 30 являются одинаковым числом и в типичном варианте равны или больше 1. В некоторых вариантах осуществления значения ребер для p, q, r, s и t, а также для других ребер в примерном веб-графе 30 являются одинаковым числом и в типичном варианте равны или больше наибольшего значения смещенного расстояния, измеряемого количеством последовательных переходов, присвоенного авторитетному узлу.

Одна или более методик, используемых для того, чтобы модифицировать веб-граф, чтобы влиять на значения смещенного расстояния, измеряемого количеством последовательных переходов, для документов в сети, могут быть инициированы вручную или выполнены системным администратором. Системный администратор может просматривать данный веб-граф и редактировать веб-граф, как требуется для того, чтобы повысить и/или уменьшить относительную значимость одного или более документов в сетевом пространстве, как описано выше. Программный код, например программный код в вычислительной системе, допускающей осуществление поискового запроса, может автоматически формировать смещение на веб-графе с помощью одной или более вышеописанных методик (к примеру, вычисления на основе значения смещенного расстояния, измеряемого количеством последовательных переходов, (CD _C) для каждого неавторитетного узла).

Фиг. 4A-4B представляют логическую блок-схему последовательности операций, иллюстрирующую примерные этапы примерного способа присвоения и формирования значений смещенного расстояния, измеряемого количеством последовательных переходов, для узлов на веб-графе, после которого выполняется необязательная процедура понижения в оценке системным адми