Система и способ для клиент-обоснованного поиска веб-агентом

Патент 2383920

Авторы

Правообладатели

МАЙКРОСОФТ КОРПОРЕЙШН (US)

Классы МПК

G06F9/44 - устройства для выполнения специальных программ

Система и способ для клиент-обоснованного поиска веб-агентом

Иллюстрации

Показать все

Изобретение относится к анализу данных, более конкретно к системам и способам для получения информации от работающей в сети системы с использованием распределенного поискового агента по «всемирной паутине». Техническим результатом является обеспечение клиентов сервера быстрыми и точными данными поиска веб-агентом. В одном из вариантов изобретения система анализа данных включает в себя первый компонент, связанный с сервером системы анализа данных, который способствует выработке первого набора данных, относящихся к информации веб-страницы, полученной по системе связи, второй компонент, который управляет вторым набором данных, относящихся к информации веб-страницы от, по меньшей мере, одного распределенного ресурса, который взаимодействует с системой связи, причем второй набор данных использован для уточнения первого набора данных, причем уточнение первого набора данных включает в себя добавление неизвестной информации к первому набору данных при получении новой информации от распределенного ресурса посредством второго набора данных или обновление существующей информации в первом наборе данных, если имели место изменения в содержимом информации веб-страницы, как указано вторым набором данных. 8 н. и 97 з.п. ф-лы, 14 ил.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение относится в основном к анализу данных, более конкретно к системам и способам для получения информации от работающей в сети системы с использованием распределенного поискового агента по «всемирной паутине» (поискового веб-агента).

Уровень техники

Эволюция компьютерных и сетевых технологий от дорогостоящих низкопроизводительных систем обработки данных до недорогих высокопроизводительных коммуникационных, проблемно-прикладных и развлекательных систем привела к появлению рентабельных и экономящих время средств, предназначенных для снижения бремени выполнения ежедневных задач, таких как переписка, оплата счетов, осуществление покупок, планирование бюджета и сбор информации. Например, компьютерная система, соединенная с Интернет посредством проводной или беспроводной технологии, может обеспечить пользователя непосредственно на его рабочем месте каналом практически мгновенного доступа к информационному богатству репозитория (хранилища объектов баз данных) веб-сайтов и серверов, расположенных по всему миру.

Обычно доступ к информации, предоставляемой через веб-сайты и серверы, обеспечивается посредством веб-браузера (программы просмотра Веб), выполняемой на веб-клиенте (например, компьютере). Например, пользователь Веб может использовать веб-браузер и получить доступ к веб-сайту, вводя Унифицированный Указатель Ресурса (УУР, URL) (например, веб-адрес и/или Интернет-адрес) в адресную строку веб-браузера и нажимая клавишу ввода на клавиатуре или «щелкнув» мышью по кнопке «перейти» («go»). УУР обычно включает в себя четыре фрагмента информации, которая упрощает доступ: протокол (язык компьютеров для взаимодействия друг с другом), который указывает набор правил и стандартов для обмена информацией, местоположение веб-сайта, название организации, которая поддерживает работу веб-сайта, и суффикс (например, com, org, net, gov и edu), который идентифицирует вид организации.

В некоторых ситуациях пользователь априорно знает имя сайта или сервера и/или УУР сайта или сервера, к которому пользователь хочет обратиться. В таких ситуациях пользователь может обратиться к сайту так, как было описано выше, посредством ввода УУР в адресную строку и выполняя соединение с сайтом. Однако в большинстве ситуаций пользователь не знает УУР или имя сайта. Вместо этого пользователь применяет средство поиска (поисковый механизм) для упрощения обнаружения сайта на основании ключевых слов, представленных пользователем. Как правило, поисковый механизм состоит из исполняемых приложений или программ, которые выполняют поиск по ключевым словам в содержимом веб-сайтов и серверов и выдают список ссылок на веб-сайты или серверы, где были найдены ключевые слова. По существу, поисковый механизм включает в себя поисковый веб-агент, или «краулер» (crawler) (называемый также «паук», «червяк» или «робот»), который отыскивает столько документов, сколько возможно, а также связанные с ними УУР. Эта информация затем сохраняется таким образом, чтобы индексатор мог управлять найденными данными. Индексатор считывает документы и создает указатель назначенных приоритетов на основе ключевых слов, содержащихся в каждом документе, и других атрибутов документа. Соответствующий поисковый механизм, как правило, использует свой собственный алгоритм для создания индексов так, чтобы могли быть выданы значащие результаты по запросу.

Таким образом, поисковый веб-агент весьма важен для работы поисковых механизмов. Для того чтобы обеспечивать текущие и актуальные результаты поиска, поисковый агент должен постоянно проводить поиск в Веб для нахождения новых веб-страниц, обновления информации старых веб-страниц и для исключения удаленных, то есть прекративших существование страниц. Количество веб-страниц, отыскиваемых в Интернет, является астрономически большим. Поэтому требуется, чтобы поисковый агент был чрезвычайно быстрым в работе. Поскольку многие поисковые веб-агенты собирают свои данные посредством последовательного опроса, или поллинга, серверов, которые представляют веб-страницы, поисковый агент также должен быть настолько малозаметным, насколько это возможно при доступе к конкретному серверу. Иначе поисковый агент может очень быстро задействовать все ресурсы сервера и привести к отключению сервера. Как правило, поисковый агент идентифицирует себя серверу и запрашивает разрешение перед доступом к веб-страницам. На этом этапе сервер может отказать в доступе некорректно работающему поисковому агенту, который захватывает все ресурсы сервера. Сервер, оказывающий услуги по размещению веб-страниц, как правило, выигрывает от применения поисковых механизмов, поскольку они позволяют пользователям более легко отыскивать их веб-страницы. Поэтому для более полного применения пользователями содержимого серверов большинство серверов приветствуют использование поисковых агентов постольку, поскольку эти агенты не приводят к утечке всех ресурсов серверов.

Одной из оборотных сторон идентификации себя серверу поисковым агентом является возможность сервера в дальнейшем имитировать соединение (выполнять «спуфинг») по отношению к поисковому агенту. Обычно серверы имеют защищенные области, которые они не хотят открывать для обычного Интернета. Когда поисковый агент идентифицирует себя, ему сообщают, к каким областям он не может получить доступ. Если поисковый агент желает поддерживать рабочее взаимодействие с этим конкретным сервером, он должен подчиняться запросам сервера. Однако если сервер желает имитировать соединение или скрыть свое реальное содержимое, он может направить поискового агента в область страниц, которая имитирует правильные УУР, но содержит «альтернативное» содержимое. Таким образом, сервер, который обычно предоставляет информацию только о кошках, может установить свой УУР на информацию о собаках в области, к которой имеет доступ только поисковый агент. Это делается для того, чтобы когда пользователь осуществлял поиск по «собаки», поисковый механизм показывал бы веб-страницы сервера о кошках. Обычно имитацию соединения применяют, когда содержимое сервера предполагается предосудительным со стороны общества, но сервер желает распространять свое содержимое, выходящее за рамки нормальных «ключевых слов». Таким образом, предосудительный материал может быть выдан в списке поискового механизма при использовании общепринятых слов, таких как цветы, собаки, кошки, погода и т.д. Имитация соединения снижает точность, а также и репутацию поисковых механизмов, использующих данные поискового веб-агента, полученные от имитированного соединения.

Раскрытие изобретения

Далее представлено упрощенное раскрытие сущности изобретения для того, чтобы представить базовое понимание некоторых аспектов изобретения. Это раскрытие сущности не является развернутым обзором изобретения. Оно не направлено на определение ключевых/существенных признаков настоящего изобретения или на ограничение объема изобретения. Его единственной целью является представление в упрощенной форме некоторых концепций изобретения в качестве вступительной части более детального описания, которое представлено далее.

Настоящее изобретение относится в основном к анализу данных, более конкретно к системам и способам для получения информации от работающих в сети систем с использованием распределенного поискового веб-агента. Распределенная природа клиентов сервера предполагает обеспечение быстрыми и точными данными поиска веб-агентом. Собранную поисковым веб-агентом сервера информацию сравнивают с данными, полученными клиентами сервера для обновления данных поискового агента. В одном примере настоящего изобретения сравнительные данные получают посредством использования информации, распространенной через страницу результатов поискового механизма. В другом примере настоящего изобретения проверку данных осуществляют посредством клиентских словарей, исходящих от сервера, которые обобщают данные поискового веб-агента. В другом варианте осуществления настоящего изобретения функцию «слабого индикатора» из набора функций слабого индикатора случайным образом посылают клиенту. Этих функций слабого индикатора значительно меньше, чем всех УУР в общем списке, найденных поисковым веб-агентом сервера, чем существенно снижаются объемы обмена данными между сервером и клиентом. Это приводит к упрощению взаимодействия сервер-клиент при сохранении оптимальной точности данных поискового веб-агента.

Настоящее изобретение также упрощает анализ данных посредством обеспечения средств, противостоящих имитации соединения веб-агента, для увеличения точности данных. Сервер, на котором применено настоящее изобретение, может противостоять имитации соединения посредством сравнения данных его поискового веб-агента с данными, представленными клиентом. Это позволяет серверу устранять данные имитации соединения, обеспечивая более высокое качество результатов поискового механизма. Такая возможность облегчает отфильтровывание нежелательного материала, который обычно не выдается в ходе безопасного поиска, обеспечивая тем самым более положительную практику использования поискового механизма клиентами.

Во исполнение вышеупомянутого и соответствующих аспектов приведены некоторые иллюстративные варианты осуществления изобретения, раскрытые в настоящем описании со ссылкой на нижеследующие чертежи. Эти варианты осуществления, однако, отражают лишь немногие из возможных путей применения принципов настоящего изобретения, причем настоящее изобретение следует считать включающим в себя все такие варианты осуществления и их эквиваленты. Другие преимущества и новые признаки настоящего изобретения очевидны из нижеследующего подробного описания, приводимого со ссылкой на соответствующие чертежи.

Краткое описание чертежей

Фиг.1 - структурная схема системы анализа данных в соответствии с вариантом осуществления настоящего изобретения.

Фиг.2 - следующая структурная схема системы анализа данных в соответствии с вариантом осуществления настоящего изобретения.

Фиг.3 - еще одна структурная схема системы анализа данных в соответствии с вариантом осуществления настоящего изобретения.

Фиг.4 - еще одна структурная схема системы анализа данных в соответствии с вариантом осуществления настоящего изобретения.

Фиг.5 - иллюстрация системы анализа данных, использующей страницу результатов поиска, в соответствии с вариантом осуществления настоящего изобретения.

Фиг.6 - структурная схема процесса имитации соединения, который включает в себя систему поискового веб-агента, в соответствии с вариантом осуществления настоящего изобретения.

Фиг.7 - структурная схема процесса контримитации соединения, который включает в себя систему поискового веб-агента, в соответствии с вариантом осуществления настоящего изобретения.

Фиг.8 - блок-схема способа клиент-основанного поиска веб-агентом в соответствии с вариантом осуществления настоящего изобретения.

Фиг.9 - следующая блок-схема способа клиент-основанного поиска веб-агентом в соответствии с вариантом осуществления настоящего изобретения.

Фиг.10 - еще одна блок-схема способа клиент-основанного поиска веб-агентом в соответствии с вариантом осуществления настоящего изобретения.

Фиг.11 - еще одна блок-схема способа клиент-основанного поиска веб-агентом в соответствии с вариантом осуществления настоящего изобретения.

Фиг.12 - блок-схема способа выработки правильного набора функций слабого индикатора для клиент-основанного поиска веб-агентом в соответствии с вариантом осуществления настоящего изобретения.

Фиг.13 - иллюстрация примера операционной среды, в которой может быть осуществлено настоящее изобретение.

Фиг.14 - иллюстрация другого примера операционной среды, в которой может быть осуществлено настоящее изобретение.

Осуществление изобретения

Настоящее изобретение раскрыто со ссылкой на чертежи, на которых подобные ссылочные позиции использованы для обозначения подобных элементов. В нижеследующем описании для целей полноты раскрытия приведены многочисленные специальные подробности, чтобы обеспечить полное понимание настоящего изобретения. Очевидным является, однако, что настоящее изобретение может быть осуществлено без этих специальных подробностей. В других примерах на структурных схемах блоками показаны хорошо известные структуры и устройства для того, чтобы не усложнять описание настоящего изобретения.

Используемый в настоящей заявке термин «компонент» предназначен для обозначения элемента, относящегося к компьютеру либо аппаратному обеспечению, совокупности аппаратного и программного обеспечения, программному обеспечению или программному обеспечению в процессе исполнения. Например, компонент может быть, но не ограничиваясь этим, процессом, выполняемым процессором, самим процессором, объектом, исполняемым файлом, потоком операций, программой и/или компьютером. В целях иллюстрации как выполняемое на сервере приложение, так и сервер может быть компьютерным компонентом. Один или более компонентов могут постоянно присутствовать в процессе и/или потоке операций, причем компонент может быть локализован на одном компьютере и/или распределен между двумя или более компьютерами. «Поток» является объектом внутри процесса, который ядро операционной системы планирует для исполнения. Как известно из уровня техники, каждый поток имеет соответствующий «контекст», который представляет собой временные данные, связанные с исполнением потока. Содержание потока включает в себя содержимое системных регистров и виртуальный адрес, принадлежащий процессу потока. Таким образом, фактические данные, включающие в себя контекст потока, изменяются по мере его исполнения.

Настоящее изобретение обеспечивает усовершенствованные системы и способы сохранения индекса веб-документов. Это также может быть использовано для поиска и сохранения данных для других типов информации. Традиционные веб-агенты имеют определенные недостатки, которые устраняются настоящим изобретением. Каждый клиент (т.е. компьютер любого пользователя, имеющего доступ в Веб) хранит локальную информацию, таким образом, он может узнать, изменялась ли веб-страница с момента ее последнего посещения клиентом. Если она изменялась, клиент может передать эту информацию поисковому механизму. Подобным образом сервер может использовать информацию относительно веб-страниц, посещенных клиентами, для обнаружения страниц, неизвестных серверу в настоящее время. Эффективное обнаружение документов и сохранение текущих знаний об этих документах является чрезвычайно важной задачей поиска, как в интранет, так и в Интернет. Настоящее изобретение может также быть использовано применительно к поискам в интранет, где поиск страниц агентом и поддержание информации страниц актуальной являются чрезвычайно востребованными задачами.

Важным компонентом поискового механизма (для Интернет, интранет или других) является поисковый агент по данным или документам. Поисковый агент по документам выполняет две главных задачи: обнаруживает неизвестные документы для индексирования посредством поискового механизма и пытается поддерживать обновленные знания о каждом известном документе. Обе эти задачи сложные и (наряду с качеством ранжирования страниц) являются наиболее важными и явными дифференциаторами качества поисковых механизмов. Поисковый агент по документам обычно основан на серверной модели. Поисковый механизм выполняет топологический поиск агентом в Веб. Начиная с начального набора известных веб-страниц поисковый веб-агент следует по связям от этих страниц и может таким образом обнаружить все веб-страницы, которые соединены посредством пути (набор ссылок УУР) из начального набора. Для поддержания знаний поискового механизма о подборке документов обновленными поиск агентом необходимо часто повторять. Поскольку поисковый агент повторно посещает веб-страницы, каждый раз при своем поиске он может узнать, как часто страница (или подграфа) меняется, и исходя из прошлой частоты изменения выполнять повторный поиск некоторых страниц более часто по сравнению с другими страницами.

Существует ряд недостатков принципа сервер-основанного поиска агентом. Во-первых, поисковый агент может обнаруживать только те страницы, к которым можно перейти по последующим связям, начинающимся от одного из начальных документов. Недавние изучения показали, что огромный процент веб-страниц в настоящее время не индексирован посредством какого-либо поискового механизма. Во-вторых, поисковый механизм может узнать об изменениях в документе (т.е. изменении содержания или о том, что страница больше не существует), только когда поисковому агенту доведется вновь посетить страницу.

Настоящее изобретение предлагает системы и способы для эффективного обнаружения документов (т.е. данных) и поддержания обновленных знаний об известных документах таким образом, что вышеупомянутые недостатки устраняются. Это достигается посредством распределенного клиент-основанного поиска агентом. Каждый клиент (т.е. машина любого пользователя, который работает в Веб) сохраняет локальную информацию, так что можно узнать, изменилась ли страница со времени последнего посещения ее клиентом. Если она изменилась, клиент может затем сообщить эту информацию поисковому механизму. Таким образом, сервер может использовать информацию о веб-страницах, посещенных клиентами, для обнаружения страниц, неизвестных в настоящий момент серверу.

На фиг.1 представлена структурная схема системы 100 анализа данных в соответствии с вариантом осуществления настоящего изобретения. На примере настоящего изобретения система 100 анализа данных состоит из клиентов 102-106, обозначенных от 1 до «N», где N представляет собой любое число от 1 до бесконечности; системы 108 связи, поискового сервера 110 и серверов 112 веб-страниц. Клиенты 102-106 составляют группу «распределенных ресурсов» для информации веб-страниц для поискового сервера 110. Они в основном функционируют для обеспечения новых УУР, изменений веб-страниц и тому подобного поисковому серверу 110 через систему 108 связи. Система 108 связи включает в себя Интернет, и/или интранет, или тому подобное. Она обеспечивает доступ с целью связи между поисковым сервером 110 и клиентами 102-106. Она также обеспечивает связь между клиентами 102-106 и другими серверами 112 веб-страниц и/или поисковым сервером 110 и другими серверами для сбора информации веб-страниц. По сути, выполняемые функции поискового веб-агента распределены между поисковым сервером 110 и клиентами 102-106 в отличие от функционирования агента только на поисковом сервере. Поисковый сервер 110 использует клиентов 102-106 для получения информации серверов 112 веб-страниц для облегчения отбора собственной информации. Посредством распределения этих выполняемых функций настоящее изобретение обеспечивает более актуальный, достоверный и защищенный от имитации соединения набор данных, данные которого может использовать поисковый механизм.

На фиг.2 представлена другая структурная схема системы 200 анализа данных в соответствии с вариантом осуществления настоящего изобретения. Система 200 анализа данных включает в себя клиент 202 и сервер 204 со средствами связи, обеспечивающими взаимодействие между ними. В ходе обычной работы на сервере 204 размещен поисковый веб-агент, который выполняет поиск в сети связи, такой как Интернет, для других серверов, на которых размещены веб-страницы. Поисковый веб-агент формирует источник информации об этих веб-страницах для использования с механизмом поиска веб-страниц. Сервер 204 затем посылает представление этой информации веб-страниц клиенту 202. Это обеспечивает клиента 202 возможностью независимо проверять информацию веб-страниц при выполнении доступа к серверу, на котором размещена конкретная веб-страница. Клиент 202 может также обнаруживать веб-страницы, которые неизвестны серверу 204. Это позволяет клиенту 202 составлять изменения/статусы и/или новую информацию об известных и неизвестных веб-страницах. Эта информация затем передается серверу 204. Сервер 204 использует информацию для уточнения своих первоначальных данных поиска веб-страниц агентом. Имея распределенные ресурсы, сервер 204 расширяет возможности своего поискового агента без обременения своих собственных прямых ресурсов (т.е. использование процессора, пространства хранения и т.д.). Дополнительно, поскольку веб-агент обычно идентифицирует себя каждому серверу, к которому он обращается за доступом, он рискует быть перенаправленным к ложным данным на таком сервере. Серверы могут также ограничивать количество доступов и время, которое затребует веб-агент у ресурсов сервера. На клиента, осуществляющего доступ к серверу, обычно не накладывается этих ограничений, и его не перенаправляют к ложным данным. Таким образом, данные веб-страницы клиента могут быть использованы для исправления ложных данных, собранных веб-агентом. Этот аспект данного изобретения более подробно раскрыт ниже.

На фиг.3 представлена еще одна структурная схема системы 300 анализа данных в соответствии с вариантом осуществления настоящего изобретения. Система 300 анализа данных включает в себя клиентский компонент 302 системы и серверный компонент 304 системы с системой 306 связи (СС), задействованной между ними. В этом примере настоящего изобретения клиентский компонент 302 системы включает в себя интерфейсный компонент 308 СС, компонент 310 управления клиентом, компонент 312 хранения данных, компонент 308 графического пользовательского интерфейса (ГПИ) СС, обеспечивающий пользователя интерфейсом, который является характерным для конкретного типа применяемой системы связи. Одним из примеров такого интерфейса является веб-браузер, используемый для работы в графическом режиме с информацией, по меньшей мере, «всемирной паутины» (World Wide Web). Веб-браузер может также использоваться для «серфинга» по интранет, такого как веб-страницы, предоставляемые на конкретном предприятии. В других примерах настоящего изобретения с подобной информацией можно работать, используя текстовый интерфейс вместо графического интерфейса пользователя. Обычно именно компонент 308 позволяет пользователю выполнять поисковые запросы поисковым механизмом, находящимся на удаленном сервере, соединенном с системой 306 связи. Таким образом, компонент 308 ГПИ СС передает и/или получает информацию от системы 306 связи. Компонент 310 управления клиентом обеспечивает управление клиентом в части облегчения поиска веб-агентом. Компонент 310 управления клиентом получает и/или передает данные, относящиеся к информации, такой как веб-страницы и тому подобное. Этот компонент 310 выполняет обработку алгоритмов, отслеживает изменения данных и состояния (статуса) и/или управляет локальным хранением данных в системе 300 анализа данных. Этот компонент 310 может также анализировать информацию от компонента 308 ГПИ СС с информацией, получаемой от поискового веб-агента, для определения различий и тому подобного. Компонент 310 управления клиентом позволяет клиенту выступать в качестве «распределенного ресурса» для поискового веб-агента и тому подобного. Этот компонент 310 может также иметь доступ к сохраненным данным и обеспечивать информацию компоненту 308 ГПИ СС. В одном примере настоящего изобретения компонент 308 ГПИ СС передает и/или получает вложенные данные поискового агента. Таким образом, компонент 310 управления клиентом устанавливает взаимодействие компонентом 308 ГПИ СС для получения и/или передачи вложенных данных, относящихся к поисковому агенту. Подобно этот компонент 310 может также направлять и/или получать директивы от сервера таким же образом. В другом примере настоящего изобретения компонент 310 управления клиентом может вести себя подобно серверу и обеспечивать управление другими клиентами как соединенными равноправными узлами локальной вычислительной сети. Для специалиста в данной области техники очевидным является, что выполнение функций компонента 310 управления клиентом и компонента ГПИ СС можно объединить в единый компонент. Возможно также использовать клиент в качестве распределенного ресурса без компонента 308 ГПИ СС. Один пример такого варианта настоящего изобретения может включать в себя, но не ограничиваясь только этим, выполнение одним клиентом приведения в действие и/или управления другим клиентом. Компонент 312 хранения данных используют для хранения, например, данных поискового агента от сервера, данных поискового агента от клиента, изменений веб-страниц, новых данных веб-страниц, параметров управления клиентом и тому подобного. Этот компонент 312 может взаимодействовать с напрямую компонентом 310 управления клиентом и/или компонентом 308 ГПИ СС в зависимости от конкретного примера осуществления настоящего изобретения. Компонент 312 хранения данных может быть также устройством хранения данных, таким как накопитель на жестком диске, постоянное запоминающее устройство, оперативное запоминающее устройство, сменный носитель информации, CD-ROM и тому подобное. В еще одном примере настоящего изобретения к информации, сохраненной в компоненте 312 хранения данных, может быть напрямую выполнен доступ сервером без взаимодействия с компонентом 308 ГПИ СС или компонентом 310 управления клиентом. В ряде случаев это позволяет обеспечить более быстрый поиск данных.

В одном примере настоящего изобретения система 306 связи представляет собой интернет в смысле «Интернет» как глобальной сети компьютерных ресурсов. Эта система 306 может также быть интранет системой в виде глобальной сети (ГЛС) и/или локальной сети (ЛОС) и тому подобной. Система 306 связи может также использовать более традиционные средства связи, такие как, например, телефонные системы, радиосистемы, световые сигнальные (оптические) системы, звуковые системы и тому подобные. Для специалистов в данной области техники очевидным является, что иные глобальные и локальные сетевые структуры могут быть также использованы в настоящем изобретении в качестве системы 306 связи.

Серверный компонент 304 системы включает в себя компонент 314 поискового механизма, компонент 316 управления распределенными ресурсами, компонент 318 поискового агента, компонент 320 хранения данных и, необязательно, компонент 322 размещения данных СС. В другом примере настоящего изобретения компонент 318 поискового агента использует систему 306 связи для доступа к серверам и/или прокси-серверам (брандмауэрам) для получения информации, относящейся к веб-страницам, такой как содержание веб-страницы, возраст, размер, УУР, вложенные связи и тому подобное. Эта информация затем сохраняется в компоненте 320 хранения данных. Компонент 320 хранения данных может быть устройством хранения данных в виде накопителя на жестком диске, постоянного запоминающего устройства, оперативного запоминающего устройства, сменного носителя информации, CD-ROM и тому подобным. Компонент 314 поискового механизма обеспечивает возможность поиска всех веб-страниц, обнаруженных поисковым веб-агентом 318 и сохраненных в компоненте 320 хранения данных. Этот компонент 314 получает поисковый запрос от пользователя и обращается к информации в компоненте 320 хранения данных для составления перечня связей и данных веб-страниц, для направления их пользователю. Таким образом, в обычной системе поисковый компонент 314 может полагаться только на информацию, полученную компонентом 318 поискового агента. Однако в примерах настоящего изобретения контроллер 316 распределенных ресурсов облегчает сбор информации, сохраненной в компоненте 320 хранения данных, позволяя ей быть более ясной, отвечающей современным требованиям и более емкой. Компонент 316 управления распределенными ресурсами обеспечивает управление всеми распределенными ресурсами, такими как, например, клиенты сервера, которые взаимодействуют как один распределенный поисковый агент или «клиент-основанный поисковый веб-агент». Компонент 316 обеспечивает, например, выполнение такой функции, как анализ данных, полученных от распределенных ресурсов, таких как клиентский компонент 302 системы или подобный ему, определение функции, размещение данных и их синхронизацию, обеспечение алгоритмов распределенных ресурсов для определения известных данных поискового агента, получение обновлений данных и/или дополнений, сохранение обновлений данных и/или дополнений в компоненте 320 хранения данных, определение оптимизированного использования распределенных ресурсов, обеспечение постраничных данных для компонента 314 поискового механизма для обеспечения возможности вложения данных в страницы результатов поиска для конкретного поискового запроса, обеспечение постраничных данных для провайдера Интернет-услуг для генерации страниц, которые включают в себя вложенную информацию о связях страниц, и отслеживание характеристик данных, таких как подсчеты, типы, процентное отношение имитаций соединений, источник и тому подобных. В другом примере настоящего изобретения компонент 314 страниц поиска посылает и/или получает информацию для компонента 316 управления распределенными ресурсами вместо непосредственного обращения компонента 316 к системе 306 связи.

В примере настоящего изобретения необязательно присутствующий компонент 322 размещения данных СС взаимодействует как с системой 306 связи, так и с компонентом 316 управления распределенными ресурсами. Компонент 322 размещения данных СС обеспечивает возможность размещения веб-страниц для обеспечения доступа пользователям к веб-странице. Поскольку компонент 322 размещения данных СС взаимодействует с компонентом 316 управления распределенными ресурсами, он может получать и вкладывать информацию связей веб-страниц непосредственно в размещенную на нем веб-страницу. В других примерах настоящего изобретения компонент 322 размещения данных СС взаимодействует напрямую с компонентом 320 хранения данных для доступа к информации для вложения в веб-страницу. В еще одном примере настоящего изобретения компонент 322 размещения данных СС взаимодействует с компонентом 314 поискового механизма для доступа к информации для вложения в его связи веб-страниц. В еще одном примере настоящего изобретения компонент 322 размещения данных СС может резидентно находиться в распределенном ресурсе, таком как клиент. Этот компонент 322 может также находиться на другом сервере, который имеет доступ к серверному компоненту 304 системы. В этом примере клиент (или сервер) станет в действительности сервером для размещенных веб-страниц и будет обеспечивать информацию для вложения в связи веб-страниц из локального средства хранения и/или других локальных средств.

Для специалиста в данной области техники очевидным является, что хотя каждый компонент описан независимо, компонент в других примерах настоящего изобретения может включать в себя выполняемую функцию, связанную с другими компонентами. Подобным образом некоторые компоненты могут быть устранены без изменения объема настоящего изобретения.

На фиг.4 представлена еще одна структурная схема системы 400 анализа данных в соответствии с вариантом осуществления настоящего изобретения. Система 400 анализа данных включает в себя клиентский компонент 402 системы и серверный компонент 404 системы с взаимодействующей с ними системой 406 связи. В этом примере настоящего изобретения серверный компонент 404 системы включает в себя компонент 414 управления распределенными ресурсами и компонент 416 хранения данных. Серверный компонент 404 системы сокращен для того, чтобы сделать акцент на примере настоящего изобретения в отношении получения информации веб-страницы от клиентского компонента 402 системы. Обычно информация поступает потоком к компоненту 414 управления распределенными ресурсами или от него посредством системы 406 связи. Клиентский компонент 402 системы включает в себя компонент 408 управления клиентом, компонент 410 хранения данных и, необязательно, компонент 412 уведомления. В этом примере настоящего изобретения компонент 412 уведомления управляет данными, которые поступают потоком от клиентского компонента 402 системы к серверному компоненту 404 системы. В других примерах настоящего изобретения этот компонент 412 также управляет передачами данных по соединению равноправных узлов между клиентским компонентом 402 системы и другими клиентскими системными компонентами. Более конкретно, компонент 412 уведомления определяет, когда и/или какие данные должны быть переданы от клиентского компонента 402 системы. Определение может быть основано на размере накопленных данных веб-страниц либо на том, обнаружены ли связи, которые неизвестны серверному компоненту 404 системы, важности (значимости) изменений веб-страниц (такой как 50% или более изменение содержания и/или изменение страницы с высоким приоритетом и тому подобное), допуски по истинному времени и/или допуски по обычному времени, установленные компонентом 414 управления распределенными ресурсами, и тому подобное. Компонент 412 уведомления может также использовать алгоритм для определения своих собственных факторов важности и/или собственного планирования времени для передач данных. Для специалиста в данной области техники очевидным является, что выполняемая функция компонента 412 уведомления может быть свойственна компоненту 408 управления клиентом и/или другим клиентским компонентам системы, не представленным на фиг.4.

Для обеспечения полного понимания настоящего изобретения описаны примеры функционирования. В одном примере настоящего изобретения распределенный клиент-основанный поисковый агент работает следующим образом. Предполагается, что существует сервер, получающий входящие сообщения клиента о потенциально новых веб-страницах и изменениях содержания/состояния веб-страниц, а также, что существует набор клиентов, который взаимодействует с сервером. Клиентские машины могут быть либо персональными компьютерами, которые используются для просмотра Веб, либо прокси-сервером, который используется для предоставления страниц персональному компьютеру. Клиенты наделены возможностью собирать информацию о просматриваемых веб-страницах, которая может содержать, но не ограничиваясь только этим, (1) УУР, использованные для перехода к веб-странице, (2) хешированное содержимое веб-страницы, (3) содержимое веб-страницы и (4) время посещения. В некоторых примерах настоящего изобретения (например, прокси-сервер и тому подобное) может быть нецелесообразным придерживаться всей этой информации и некоторой информации можно придерживаться лишь некоторое время.

В другом примере настоящего изобретения клиент записывает УУР веб-страниц, посещенных с помощью конкретного браузера или прокси-сервера в определенный период, и затем посылает этот набор УУР серверу. Сервер затем проверяет, который из УУР был до этого ему неизвестен, и добавляет таковые в перечень известных УУР для будущего поиска агентом/размещения/индексации. Это позволяет механизму поиска, ассоциированному с сервером, знать о веб-страницах, которые могли быть не обнаружены топологическим поиском.

Для того, чтобы уменьшить объем информации, посланной от клиентов серверу, клиент может локально хранить информацию в том случае, если он уже проинформировал сервер о конкретном УУР, и послать информацию серверу, только если это еще не было сделано. Существуют хорошо известные способы эффективного определения, идентичны ли две веб-страницы, выполняемые с помощью целочисленного отображения каждого документа посредством функции хеширования и затем проверки, являются ли два значения хеш-функции идентичными. Если новое значение хеш-функции для содержания, связанного с УУР, отличается от предыдущих значений хеш-функции содержания, связанного с УУР, то содержание изменилось. При каждом посещении клиентом веб-страницы вычисляется значение хеш-функции для той страницы. Если клиент раньше посещал страницу, выполняют проверку, изменилось ли значение хеш-функции. Если оно изменилось, то кли