Функции ранжирования, использующие статистические данные используемости документа

Патент 2419861

Авторы

Правообладатели

МАЙКРОСОФТ КОРПОРЕЙШН (US)

Классы МПК

G06F17/30 - информационный поиск; структуры баз данных для этой цели

Функции ранжирования, использующие статистические данные используемости документа

Иллюстрации

Показать все

Изобретение относится к способу ранжирования результатов поиска. Техническим результатом является повышение достоверности результатов поиска. Раскрыты способы предоставления оценки релевантности документа для документа в сети. Также раскрыт машиночитаемый носитель информации, на котором сохранены исполняемые компьютером инструкции для выполнения способа предоставления оценки релевантности для документа в сети. Помимо этого раскрыты вычислительные способы, содержащие, по меньшей мере, один модуль приложения, который содержит прикладной код для выполнения способов предоставления оценки релевантности для документа в сети. 4 н. и 10 з.п. ф-лы, 4 ил.

Реферат

Область техники, к которой относится изобретение

Функции ранжирования, которые ранжируют документы в соответствии с их релевантностью к заданному поисковому запросу, известны. Продолжаются исследования в данной области техники по совершенствованию функций ранжирования, которые обеспечивают лучшие результаты поиска для заданного поискового запроса по сравнению с результатами поиска, сформированными поисковыми машинами, использующими известные функции ранжирования.

Сущность изобретения

Здесь описаны помимо всего прочего разнообразные технологии определения показателя релевантности документа для заданного документа в сети. Показатель релевантности документа формируется посредством функции ранжирования, которая содержит один или более независимых от запроса компонентов, при этом, по меньшей мере, один независимый от запроса компонент включает в себя параметр используемости, которым учитываются данные фактической используемости документа, содержащиеся и сохраняемые на web-сервере, для одного или более документов в сети. Функции ранжирования могут быть использованы поисковой машиной для ранжирования многочисленных документов по порядку (в типичном случае, в убывающем порядке), исходя из показателей релевантности этих многочисленных документов.

Данное краткое изложение сущности изобретения предоставлено, главным образом, для того, чтобы в упрощенной форме ознакомить читателя с одним или более предпочтительными концепциями, описанными ниже в разделе “Подробное описание”. Это изложение сущности изобретения не предназначено для того, чтобы определять ключевые и/или необходимые признаки заявленного изобретения.

Перечень чертежей

Фиг.1 - иллюстративная логическая блок-схема, показывающая иллюстративные этапы в способе формирования ранжированных результатов поиска в ответ на введенный пользователем поисковый запрос.

Фиг.2 - блок-схема некоторых основных компонентов иллюстративного рабочего окружения для реализации раскрытых здесь способов и процессов.

Фиг.3 - логическая блок-схема, показывающая иллюстративные этапы в иллюстративном способе определения показателя релевантности документа для документов в сети.

Фиг.4 - логическая блок-схема, показывающая иллюстративные этапы в способе ранжирования результатов поиска, сформированных используя функцию ранжирования, содержащую параметр используемости.

Подробное описание изобретения

Чтобы ускорить понимание принципов способов и процессов, раскрытых в этом документе, следуют описания конкретных вариантов осуществления настоящего изобретения, и используется конкретный язык, чтобы описать конкретные варианты осуществления настоящего изобретения. Несмотря на это, должно быть понятно, что использование конкретной терминологии не означает ограничение объема раскрытых способов и процессов. Предусматривается, что изменения, дальнейшие модификации, а также дальнейшие применения принципов раскрытых способов и рассмотренных процессов очевидны обычным специалистам в данной области техники, к которой имеют отношение раскрытые способы и процессы.

Раскрываются способы определения показателя релевантности документа для документов в сети. Каждый показатель релевантности документа вычисляется, используя функцию ранжирования, которая желательно содержит один или более независимых от запроса компонентов (например, компонент функции, который не зависит от данного поискового запроса или терма поискового запроса), один или более зависимых от запроса компонентов (например, компонент функции, который зависит от специфики, поискового запроса или терма поискового запроса), или их комбинацию. Определенные посредством функции ранжирования показатели релевантности документа могут быть использованы, чтобы ранжировать документы в пределах сетевого пространства (например, корпоративного пространства intranet) согласно каждому показателю релевантности документа. Иллюстративный процесс поиска, в котором могут быть использованы раскрытые способы, показан на Фиг.1 в виде иллюстративного процесса 10.

На Фиг.1 изображен иллюстративный процесс 10 поиска, который начинается с процесса на этапе 80, на котором пользователь вводит поисковый запрос. От этапа 80 иллюстративный процесс 10 поиска переходит к этапу 200, на котором поисковая машина осуществляет поиск всех документов в пределах сетевого пространства для одного или более термов поискового запроса. От этапа 200 иллюстративный процесс 10 поиска переходит к этапу 300, на котором функция ранжирования поисковой машины ранжирует документы в пределах сетевого пространства, исходя из показателя релевантности каждого документа, причем показатель релевантности документа основан на одном или более независимых от запроса компонентах, одном или более зависимых от запроса компонентах или их комбинации. От этапа 300 иллюстративный процесс 10 поиска переходит к этапу 400, на котором ранжированные результаты поиска представляются пользователю, в типичном случае в порядке убывания, идентифицируя документы в пределах сетевого пространства, которые наиболее релевантны поисковому запросу.

Как более подробно рассматривается ниже, в некоторых иллюстративных способах определения показателя релевантности документа, по меньшей мере, один независимый от запроса компонент функции ранжирования, используемый для определения показателя релевантности документа, принимает во внимание "данные используемости документа" или "статистические данные используемости документа", связанные с фактической используемостью одного или более документов в пределах сетевого пространства одним или более пользователями. Данные используемости документа и/или статистические данные формируются и сохраняются посредством прикладного кода на web-сервере, который является отдельным от заданной поисковой машины. Например, данные используемости документа могут обслуживаться web-сайтом так, чтобы каждый раз, когда пользователь запрашивает URL, сервер обновлял счетчик используемости. Счетчик используемости может обслуживать связанные с документом данные, полученные в течение заданного интервала времени, такого как прошлая неделя, прошлый месяц, прошлый год, либо время существования заданного документа или набора документов. Прикладной код может использоваться, чтобы получить с web-сайта данные используемости посредством (i) конкретного интерфейса прикладного программирования (API), (ii) запроса web-услуги или (iii) запроса web-страницы администрирования, которая возвращает данные используемости для каждого URL на web-сайте.

Для того чтобы формировать и обслуживать данные используемости в пределах сетевого пространства, а также хранить данные используемости в локальной или удаленной системе хранения, могут использоваться конкретные web-сайты. Подходящие для формирования, обслуживания и хранения данных используемости документов web-сайты в пределах сетевого пространства включают в себя, но не ограничены ими, сайты символов WINDOWS^® SHAREPOINT^®.

Кроме того, раскрытые способы определения показателя релевантности документа могут использовать функцию ранжирования, которая содержит один или более дополнительных независимых от запроса компонентов. Подходящие дополнительные независимые от запроса компоненты включают в себя, но не в ограничительном смысле, независимый от запроса компонент, который принимает во внимание дистанцию в кликах (количество щелчков, например, мышью («кликов») от документа до страницы верхнего уровня) для каждого документа в пределах сетевого пространства, как описано в Американской Патентной Заявке № 10/955,983, озаглавленной “SYSTEM AND METHOD FOR RANKING SEARCH RESULTS USING CLICK DISTANCE” ("СИСТЕМА И СПОСОБ РАНЖИРОВАНИЯ РЕЗУЛЬТАТОВ ПОИСКА, ИСПОЛЬЗУЯ ДИСТАНЦИЮ В КЛИКАХ"), поданной 30 августа 2004 года, независимый от запроса компонент, который принимает во внимание смещенную дистанцию в кликах каждого документа в пределах сетевого пространства, как описано в Американской Патентной Заявке № 11/206,286, озаглавленной “RANKING FUNCTIONS USING A BLASED CLICK DISTANCE OF A DOCUMENT ON A NETWORK” ("ФУНКЦИИ РАНЖИРОВАНИЯ, ИСПОЛЬЗУЮЩИЕ СМЕЩЕННУЮ ДИСТАНЦИЮ В КЛИКАХ ДОКУМЕНТА В СЕТИ"), поданной 15 августа 2005 года, и независимый от запроса компонент, который принимает во внимание URL каждого документа в пределах сетевого пространства, как описано в Американской Патентной Заявке № 10/955,983, озаглавленной “SYSTEM AND METHOD FOR RANKING SEARCH RESULTS USING CLICK DISTANCE” ("СИСТЕМА И СПОСОБ РАНЖИРОВАНИЯ РЕЗУЛЬТАТОВ ПОИСКА, ИСПОЛЬЗУЯ ДИСТАНЦИЮ В КЛИКАХ"), поданной 30 августа 2004 года. Раскрытие вышеупомянутых Американских патентных заявок, права по которым переуступлены правообладателю по настоящей заявке, включено в настоящую патентную заявку посредством ссылки.

Кроме того, в дальнейшем иллюстративном варианте осуществления настоящего изобретения раскрытые способы определения показателя релевантности документа используют функцию ранжирования, которая содержит, по меньшей мере, один независимый от запроса компонент, который включает в себя и вышеописанный параметр используемости документа, и один или более из вышеописанных дополнительных независимых от запроса компонентов.

Показатель релевантности документа может быть использован для ранжирования документов в пределах сетевого пространства. Например, способ ранжирования документов в сети может содержать этапы, на которых: определяют показатель релевантности документа каждого документа в сети, используя вышеописанный способ; и ранжируют документы в желаемом порядке (в типичном случае, в порядке убывания), основываясь на показателях релевантности документа каждого документа.

Также, показатель релевантности документа может использоваться, чтобы ранжировать результаты поиска по поисковому запросу. Например, способ ранжирования результатов поиска по поисковому запросу может содержать этапы, на которых: определяют показатель релевантности документа для каждого документа в результатах поиска поискового запроса, используя вышеописанный способ, и ранжируют документы в желаемом порядке (в типичном случае, в порядке убывания), основываясь на показателях релевантности документа каждого документа.

Прикладные программы, использующие способы, раскрытые здесь, могут загружаться и исполняться на разнообразии компьютерных систем, содержащих множество аппаратных компонентов. Иллюстративная компьютерная система и иллюстративная рабочая среда для осуществления на практике раскрытых здесь способов, описаны ниже.

Иллюстративная рабочая среда

Фиг.2 - иллюстрация примера подходящего окружения 100 вычислительной системы, в котором могут быть реализованы раскрытые здесь способы. Окружение 100 вычислительной системы является только одним примером подходящего вычислительного окружения и не предполагает какого-либо ограничения в отношении объема использования или функциональных возможностей раскрытых здесь способов. Также вычислительное окружение 100 не должно быть интерпретировано как подразумевающее какую-либо зависимость или требования, относящиеся к какому-либо компоненту или комбинации компонентов, проиллюстрированных в иллюстративном рабочем окружении 100.

Раскрытые здесь способы могут быть реализованы с многочисленными другими окружениями или конфигурациями вычислительных систем общего или специального назначения. Примеры известных вычислительных систем, окружений и/или конфигураций, которые могут быть применимы для использования с раскрытыми здесь способами, включают в себя, но не в ограничительном смысле, персональные компьютеры, компьютеры-серверы, карманные или портативные устройства, многопроцессорные системы, основанные на микропроцессоре системы, телевизионные приставки, программируемую бытовую электронику, сетевые персональные компьютеры (PC), миникомпьютеры, универсальные компьютеры, среды распределенных вычислений, которые включают в себя любые из вышеупомянутых систем или устройств, и т.п.

Раскрытые здесь способы и процессы могут быть описаны в общем контексте исполняемых компьютером инструкций, таких как исполняемые компьютером программные модули. Обычно, программные модули включают в себя процедуры, программы, объекты, компоненты, структуры данных и т.д., которые выполняют конкретные задачи или реализуют конкретные абстрактные типы данных. Раскрытые здесь способы и процессы также могут быть реализованы в средах распределенных вычислений, где задачи выполняются посредством удаленных устройств обработки, которые связаны посредством коммуникационной сети. В среде распределенных вычислений программные модули могут располагаться и на локальных, и на удаленных компьютерных носителях данных, включая запоминающие устройства памяти.

Согласно Фиг.2 иллюстративная система для реализации раскрытых здесь способов и процессов включает в себя универсальное вычислительное устройство в виде компьютера 110. Компоненты компьютера 110 могут включать в себя, но не в ограничительном смысле, блок 120 обработки, системную память 130 и системную шину 121, которая соединяет различные системные компоненты, включая, но не в ограничительном смысле, системную память 130, с блоком 120 обработки. Системная шина 121 может быть любой из нескольких типов шинных структур, включая шину памяти или контроллер памяти, периферийную шину и локальную шину, использующих любую из множества шинных архитектур. В качестве примера, а не ограничения, такие архитектуры включают в себя шину Архитектуры промышленного стандарта (ISA), шину Микроканальной архитектуры (MCA), шину Улучшенной ISA (EISA), локальную шину Видео Ассоциации Стандартов Электроники (VESA) и локальную шину межсоединения Периферийных Устройств (PCI), так же известную, как шина Расширения.

В типичном случае компьютер 110 включает в себя множество машиночитаемых носителей. Машиночитаемые носители могут быть любыми доступными носителями информации, к которым можно обратиться посредством компьютера 110, и включают в себя как энергозависимые, так и энергонезависимые носители, как съемные, так и несъемные носители информации. В качестве примера, а не ограничения, машиночитаемые носители информации могут включать в себя компьютерные носители данных и коммуникационные среды. Компьютерные носители информации включают в себя энергозависимые и энергонезависимые носители информации, съемные и несъемные носители информации, реализованные любым способом или технологией хранения информации, такой как машиночитаемые инструкции, структуры данных, программные модули или другие данные. Компьютерные носители информации включают в себя, но не в ограничительном смысле, оперативную память (RAM), постоянную память (ROM), электронно-перепрограммируемую постоянную память (EEPROM), флэш-память или память другой технологии, компакт-диск, универсальный цифровой диск (DVD) или другой накопитель на оптических дисках, магнитные кассеты, магнитную ленту, накопитель на магнитных дисках или другие магнитные запоминающие устройства, либо любой другой носитель информации, который может использоваться для хранения желаемой информации и к которому можно обратиться посредством компьютера 110. В типичном случае коммуникационные среды воплощают машиночитаемые инструкции, структуры данных, программные модули или другие данные в модулированном информационном сигнале, таком как несущая волна или другой транспортный механизм, и включают в себя любые среды доставки информации. Термин "модулированный информационный сигнал", означает сигнал, одна или более характеристик которого устанавливаются или изменяются таким образом, чтобы кодировать информацию в этом сигнале. В качестве примера, а не ограничения, коммуникационные среды включают в себя проводные среды, такие как проводная сеть или прямое проводное соединенное, и беспроводные среды, такие как звуковые, радиочастотные, инфракрасные и другие беспроводные среды. Понятием «машиночитаемый носитель» как оно здесь используется, также охватываются комбинации любых из вышеупомянутых сред и носителей.

Системная память 130 включает в себя компьютерные носители информации в виде энергозависимой и/или энергонезависимой памяти, такой как постоянная память 131 (ROM) и оперативная память 132 (RAM). Базовая система 133 ввода-вывода (BIOS), содержащая базовые процедуры, которые помогают передавать информацию между элементами в пределах компьютера 110, например во время запуска, в типичном случае хранится в ROM 131. В типичном случае оперативная память 132 содержит данные и/или программные модули, которые непосредственно доступны и/или в настоящее время обрабатываются блоком 120 обработки. В качестве примера, а не ограничения Фиг.2 иллюстрирует операционную систему 134, прикладные программы 135, другие программные модули 136 и данные 137 программ.

Компьютер 110 также может включать в себя другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные носители информации. Исключительно в качестве примера Фиг.2 иллюстрирует накопитель 140 на жестких дисках, который считывает или записывает на несъемные энергонезависимые магнитные носители, магнитный дисковод 151, который считывает или записывает на съемный энергонезависимый магнитный диск 152, и оптический дисковод 155, который считывает или записывает на съемный, энергонезависимый оптический диск 156, такой как CD-ROM или другие оптические носители информации. Другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные носители информации, которые могут использоваться в иллюстративном рабочем окружении, включают в себя, но не в ограничительном смысле, кассеты с магнитной лентой, карты флэш-памяти, универсальные цифровые диски, цифровую видеоленту, твердотельную RAM, твердотельную ROM и т.п. В типичном случае накопитель 141 на жестких дисках подключается к системной шине 121 посредством интерфейса несъемной памяти, такого как интерфейс 140, а магнитный дисковод 151 и оптический дисковод 155 в типичном случае подключаются к системной шине 121 посредством интерфейса съемной памяти, такого как интерфейс 150.

Накопители и дисководы, ассоциированные с ними компьютерные носители информации, рассмотренные выше и проиллюстрированные на Фиг.2, обеспечивают для компьютера 110 хранение машиночитаемых команд, структур данных, программных модулей и других данных. Например, на Фиг.2 накопитель 141 на жестких дисках иллюстрирован в качестве хранилища операционной системы 144, прикладных программ 145, других программных модулей 146 и данных 147 программ. Отметим, что эти компоненты могут быть либо такими же, либо отличающимися от операционной системы 134, прикладных программ 135, других программных модулей 136 и данных 137 программ. Операционной системе 144, прикладным программам 145, другим программным модулям 146 и данным 147 программ здесь присвоены другие ссылочные номера, чтобы проиллюстрировать, что они, как минимум, являются другими копиями.

Пользователь может ввести команды и информацию в компьютер 110 посредством устройств ввода, таких как клавиатура 162 и указательное устройство 161, обычно упоминаемое как мышь, шаровой манипулятор или сенсорная панель. Другие устройства ввода (не показаны) могут включать в себя микрофон, джойстик, игровую клавиатуру, спутниковую антенну, сканер и т.п. Эти и другие устройства ввода данных часто подключаются к блоку 120 обработки посредством интерфейса 160 пользовательского ввода, который соединен с системной шиной 121, но могут быть подключены посредством других интерфейсных и шинных структур, таких как параллельный порт, игровой порт или универсальная последовательная шина (USB). Монитор 191 или другой тип устройства отображения также подключен к системной шине 121 посредством интерфейса, такого как видеоинтерфейс 190. Кроме монитора 191, компьютер 110 также может включать в себя другие периферийные устройства вывода, такие как громкоговорители 197 и принтер 196, которые могут быть подключены посредством интерфейса 195 периферийного вывода.

Компьютер 110 может работать в сетевом окружении, используя логические соединения с одним или более удаленными компьютерами, такими как удаленный компьютер 180. Удаленный компьютер 180 может быть персональным компьютером, сервером, маршрутизатором, сетевым PC, одноранговым устройством или другим общим узлом сети и в типичном случае включает в себя многие или все из элементов, описанных выше в отношении компьютера 110, хотя на Фиг.2 проиллюстрировано только запоминающее устройство 181 памяти. Изображенные на Фиг.2 логические соединения включают в себя локальную сеть 171 (LAN) и глобальную сеть 173 (WAN), но также могут включать в себя другие сети. Такие сетевые окружения являются обычными в офисах, компьютерных сетях масштаба предприятия, сетях Интранет и Интернет.

При использовании в сетевом окружении LAN, компьютер 110 подключается к LAN 171 посредством сетевого интерфейса или адаптера 170. При использовании в сетевом окружении WAN в типичном случае компьютер 110 включает в себя модем 172 или другие средства для установления связи по WAN 173, такой как Интернет. Модем 172, который может быть внутренним или внешним, может быть подключен к системной шине 121 посредством интерфейса 160 пользовательского ввода или другого подходящего механизма. В сетевом окружении программные модули, изображенные соответствующими компьютеру 110, или их части могут быть сохранены в удаленном запоминающем устройстве памяти. В качестве примера, а не ограничения, на Фиг.2 проиллюстрированы удаленные прикладные программы 185, находящиеся в устройстве 181 памяти. Должно быть понятно, что показанные сетевые соединения являются иллюстративными и могут быть использованы другие средства установления линии связи между компьютерами.

Раскрытые здесь способы и процессы могут быть реализованы, используя одну или более прикладных программ, включающих в себя, но не в ограничительном смысле, программное приложение серверной системы (например, программное приложение WINDOWS SERVER SYSTEM™), приложение ранжирования поиска и приложение для формирования, обслуживания и сохранения данных используемости документов в пределах сетевого пространства (например, приложение сервисов и WINDOWS^® SHAREPOINT^®), любое из которых может быть одной из многочисленных прикладных программ, обозначенных в иллюстративной системе 100, как прикладные программы 135, прикладные программы 145 и удаленные прикладные программы 185.

Как упомянуто выше, специалисты в данной области техники поймут, что раскрытые способы формирования показателя релевантности документа для заданного документа могут быть реализованы в других конфигурациях компьютерных систем, включая карманные устройства, многопроцессорные системы, основанную на микропроцессоре или программируемую бытовую электронику, сетевые персональные компьютеры, миникомпьютеры, универсальные компьютеры и т.п. Раскрытые способы формирования показателя релевантности документа для заданного документа также могут быть осуществлены на практике в средах распределенных вычислений, где задачи выполняются посредством удаленных устройств обработки, которые связаны посредством коммуникационной сети. В среде распределенных вычислений программные модули могут быть расположены и в локальных, и в удаленных запоминающих устройствах памяти.

Описание предпочтительных вариантов осуществления

Как рассмотрено выше, предоставлены способы определения показателя релевантности документа для документа в сети. Раскрытые способы могут ранжировать документ в сети, используя функцию ранжирования, которая принимает в расчет значение используемости документа каждого документа в сети.

Раскрытые способы определения показателя релевантности документа для документа в сети могут содержать некоторое количество этапов. В одном иллюстративном варианте осуществления настоящего изобретения способ определения показателя релевантности документа для документа в сети содержит этапы, на которых назначают фактическое значение (U _A ) используемости одному или более документам в сети, содержащей N документов, при этом фактическое значение (U _A ) используемости основано на обслуживаемых и хранящихся на сервере данных фактической используемости; если меньше чем N документам назначено фактическое значение (U _A ) используемости, документам, которые не имеют ассоциированных с ними данных фактической используемости, назначают используемое по умолчанию значение (U _D ) используемости; и используют значение используемости каждого документа (то есть U _Aили U _D ), чтобы определить показатель релевантности документа заданного документа в сети.

Используемый здесь термин "данные фактической используемости" представляет собой один или более типов данных, ассоциированных с "используемостью" документа одним или более пользователями. Типы данных фактической используемости для данного документа или набора документов могут включать в себя, но не в ограничительном смысле, количество просмотров документа всеми пользователями в пределах заданного промежутка времени, среднее количество просмотров документа в расчете на пользователя в пределах заданного промежутка времени, полное время использования конкретного документа в пределах заданного промежутка времени, среднее время использования конкретного документа в пределах заданного промежутка времени и т.д. Упомянутый заданный промежуток времени может быть, например, прошлой неделей, прошлым месяцем, прошлым годом, временем существования документа либо любым другим желаемым периодом времени.

Этапы, на которых формируют, обслуживают и сохраняют данные используемости документа или статистические данные для документов в пределах сетевого пространства, могут быть выполнены посредством прикладного кода, обычно находящегося в вычислительных системах. Данные используемости документа формируются, обслуживаются и сохраняются независимо от заданного поискового запроса или поисковой машины и в типичном случае формируются, обслуживаются и сохраняются посредством прикладного кода на сервере, который обслуживает документ (или страницу) и делает документ (или страницу) доступным для пользователя. Прикладные программы, подходящие для формирования, обслуживания и сохранения данных используемости документа или статистических данных, включают в себя, но не в ограничительном смысле, сервисы WINDOWS^® SHAREPOINT^® и другие подобные прикладные программы.

К данным используемости документа, хранящимся и обслуживаемым на этих сайтах сервисов, так же как и на других web-сайтах, выполняющих подобную функцию, можно осуществить доступ, используя прикладной код, как рассмотрено выше. Например, к данным используемости документа можно обратиться с заданного web-сайта (например, сайта сервисов WINDOWS^®SHAREPOINT^®) посредством (i) специального интерфейса прикладного программирования (API), (ii) запроса web-сервиса или (iii) посредством запроса web-страницы администрирования, которая возвращает данные используемости каждого URL на web-сайте.

Раскрытые способы определения показателя релевантности документа для документа в сети могут содержать некоторое количество дополнительных этапов, включая, но не в ограничительном смысле, этапы, на которых осуществляют мониторинг одного или более документов в пределах сетевого пространства в отношении фактической используемости документа; сохраняют данные фактической используемости документа одного или более документов в локальном или удаленном файле хранения данных; вычисляют фактическое значение (U _A ) используемости для документа на основании данных фактической используемости для документа или папки, содержащей документ; сохраняют фактические значения (U _A ) используемости для одного или более документов в локальном или удаленном файле хранения данных; запрашивают сохраненные данные используемости документа или фактические значения (U _A ) используемости из локального или удаленного файла хранения данных (например, запрос таких данных поисковой машиной после конкретного поискового запроса пользователя); извлекают данные фактической используемости документа или фактическое значение (U _A ) используемости для одного или более документов из локального или удаленного файла хранения данных; и в необязательном порядке объединяют значение используемости документа (то есть фактическое или используемое по умолчанию) с одним или более дополнительными свойствами документа для определения показателя релевантности документа для документа.

Фиг.3 представляет собой логическую блок-схему, показывающую иллюстративные этапы в иллюстративном способе предоставления фактических или используемых по умолчанию значений используемости для документов в сети, за которыми следует необязательная процедура понижения/повышения администратором системы. Как показано на Фиг.3, иллюстративный способ 401 начинается на этапе 402 и переходит к этапу 403. На этапе 403 первый документ в сети обрабатывается поисковым агентом для определения данных фактической используемости.

Этап обработки документа поисковым агентом для определения данных фактической используемости (этап 403) может быть выполнен, используя приложение поискового агента, выполненное с возможностью определять, имеет ли первый документ какие-нибудь ассоциированные с ним данные фактической используемости, и если первый документ имеет ассоциированные с ним данные фактической используемости, то извлекают эти данные фактической используемости. Приложения поискового агента, подходящие для использования в раскрытых способах предоставления фактических или используемых по умолчанию значений используемости документов в сети, включают в себя, но не в ограничительном смысле, приложения поискового агента, описанные в Американских Патентах № 6,463,455 и № 6,631,369, все содержимое которых полностью включено в настоящий документ посредством ссылки.

Как рассматривалось выше, данные фактической используемости могут быть получены из одного или более файлов, которые хранят данные фактической используемости одного или более документов в сети. Данные фактической используемости могут быть сохранены вместе с документом, как компонент документа или могут храниться в файле хранения данных, отдельном от фактического документа. Подходящие удаленные системы хранения включают в себя, но не в ограничительном смысле, серверы WINDOWS^®SHAREPOINT^® (WSS) коммерчески доступные продукты от Корпорации Microsoft (Редмонд, Вашингтон), а также любую другую подобную удаленную систему хранения. Например, удаленная система WSS хранения генерирует данные фактической используемости, включая, например, количество запросов к каждому документу в данной сети всеми пользователями, и вырабатывает статистику по количеству кликов по каждому документу в течение прошлой недели, прошлого месяца, прошлого года или всего времени существования документа либо любого другого промежутка времени. Кроме того, как отмечено выше, должно быть понятно, что раскрытые здесь способы не ограничены удаленной системой WSS хранения, и в раскрытых способах может использоваться удаленная система WSS хранения или любая другая подобная система данных документов.

Когда документ обработан поисковым агентом, иллюстративный способ 401 переходит к этапу 404 принятия решения. На этапе 404 принятия решения посредством прикладного кода определяют, имеет ли документ ассоциированные с ним данные фактической используемости. Если принято решение, что документ имеет ассоциированные с ним данные фактической используемости, иллюстративный способ 401 переходит к этапу 405, на котором документу назначается значение (U _A ) используемости, основанное на фактической используемости. Фактическое значение (U _A ) используемости может быть определено, используя один или более компонентов ассоциированных с документом данных фактической используемости. Например, в некоторых вариантах осуществления настоящего изобретения фактическое значение (U _A ) используемости может быть связано только с количеством пользователей, просмотревших документ. В других вариантах осуществления настоящего изобретения присвоенное документу фактическое значение (U _A ) используемости может быть связано с количеством просмотров документа всеми пользователями в пределах заданного промежутка времени, средним количеством просмотров документа в расчете на пользователя в пределах заданного промежутка времени, полным временем использования конкретного документа в пределах заданного промежутка времени, средним временем использования конкретного документа в пределах заданного промежутка времени либо комбинацией любых из вышеупомянутых критериев, причем упомянутый заданный промежуток времени включает в себя прошлую неделю, прошлый месяц, прошлый год, время существования документа или любой другой желаемый промежуток времени.

В некоторых случаях ассоциированные с заданным документом данные фактической используемости предполагают, что документ не использовался или не просматривался в течение заданного периода времени. В таком случае документу можно было бы назначить значение (U _A ) используемости, равное нулю, которое указывает отсутствие используемости в течение этого периода времени, однако в типичном случае значениям (U _A ) используемости, основанным на фактическом использовании или отсутствии фактического использования, присваивают число, отличное от нуля.

Кроме того, в некоторых случаях данные фактической используемости могут быть ассоциированы с набором документов в отличие от отдельных документов. Например, папка может содержать набор документов, и ассоциированный сервер может проследить только данные используемости, связанные с доступом (то есть использованием) к папке, а не отдельными документами в папке. В этом варианте осуществления настоящего изобретения, если есть ассоциированные с папкой данные фактической используемости, значение (U _A ) используемости может быть предоставлено для каждого документа в папке, исходя из данных фактической используемости папки. В типичном случае каждое значение (U _А ) используемости будет одинаковым для каждого документа в папке, однако, если это желательно, разным документам в папке могут быть назначены разные значения (U _A ) используемости.

С этапа 405 иллюстративный способ 401 переходит к описанному ниже этапу 406 принятия решения.

Возвращаясь к этапу 404 принятия решения, если принято решение, что документ не имеет ассоциированных с ним данных фактической используемости, иллюстративный способ 401 переходит к этапу 407, на котором документу назначается используемое по умолчанию значение (U _D ) используемости. Например, заданное по умолчанию значение (U _D ) используемости может быть назначено документу, который является частью web-сайта, который не поддерживает данные используемости документа. Назначенное документу используемое по умолчанию значение (U _D ) используемости может использоваться, чтобы придать начальную значимость документу относительно документов, имеющих данные фактической используемости. Например, если более высокое значение используемости для заданного документа указывает относительную значимость этого документа в пределах сети, назначение документу более низкого используемого по умолчанию значения (U _D ) используемости понижает значимость этого документа относительно других документов в сети.

В одном иллюстративном варианте осуществления настоящего изобретения, в котором более высокое значение используемости данного документа указывает относительную значимость этого документа в пределах сети, используемое по умолчанию значение (U _D ) используемости может быть назначено документу относительно фактических значений (U _А ) используемости, назначенных другим документам в сети. Например, чтобы понизить относительную значимость документа, документу может быть наз