Система и способ предоставления предпочтительного языка упорядочивания результатов поиска
Иллюстрации
Показать всеИзобретение относится к системе и способу для предоставления предпочтительного языка упорядочивания результатов поиска. Технический результат заключается в динамическом определении предпочтительных языков пользователя и автоматическом упорядочивании результатов поиска в соответствии с предпочтительными языками. Получают поисковый запрос и выполняют поиск, основываясь на поисковом запросе, для идентификации результатов поиска на множестве языков результатов поиска. Динамически определяют, по меньшей мере, один предпочтительный язык, применимый для результатов поиска. Упорядочивают результаты поиска и регулируют упорядочивание для, по меньшей мере, одного из результатов поиска из всех результатов поиска, основываясь на том, представлен ли указанный, по меньшей мере, один из результатов поиска на указанном по меньшей мере одном предпочтительном языке. Представляют результаты поиска в отрегулированном порядке. 2 н. и 20 з.п. ф-лы. 12 ил.
Реферат
ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ
Настоящая заявка на патент притязает на приоритет по 35 USC §119(e) предварительной заявки на патент США №60/459339, озаглавленной "System And Method For Providing Preferred Language Ordering Of Search Results", поданной 31 марта 2003, и притязает на приоритет по 35 USC §120 заявки на патент США №10/407476, поданной 3 апреля, 2003, указанные заявки включены в настоящее описание во всей своей полноте в качестве ссылки.
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящее изобретение относится в общем случае к обнаружению информации, в частности к системе и способу для предоставления предпочтительного языка упорядочивания результатов поиска.
УРОВЕНЬ ТЕХНИКИ
Несмотря на то, что развитие Интернета происходит с 1960-х, широкое распространение возможности использования персональных вычислений и межсетевого обмена привело к бурному росту и небывалому успеху в технологиях совместного использования информации. В частности, всемирная паутина ("Веб") революционизировала для мировой аудитории доступ к огромным объемам информации, сохраненной в электронном виде, включая письменную, речевую (аудио) и визуальную (изображение и видео) информацию, как в заархивированном формате, так и в формате реального времени. Одним словом, Веб предоставил каждому подсоединенному пользователю "настольный" доступ к виртуальной неограниченной библиотеке информации практически на каждом языке мира.
Информационный обмен по Веб работает по модели клиент-сервер. Отдельные клиенты выполняют приложения Веб поиска и представления контента, обычно в форме Веб браузеров. Веб браузеры посылают сообщения запроса Веб контента на централизованные Веб серверы, которые работают в качестве хранилищ данных и репозитариев. Веб серверы анализируют сообщения запроса и возвращают запрашиваемый Веб контент в ответных сообщениях.
Механизмы поиска развились в одном темпе с увеличением использования Веб для предоставления возможности пользователям эффективного и быстрого поиска и извлечения релевантного Веб контента. Вместе с возрастанием объема и типов Веб контента также улучшались изощренность и точность механизмов поиска. Обычно в ответ на поисковый запрос механизмы поиска стремятся предоставить результаты наилучшего качества. Однако определение качества является сложным, поскольку релевантность извлеченного Веб контента по существу субъективна и зависит от интересов, знаний и отношения пользователя.
Существующие способы, используемые поисковыми механизмами, основаны на соответствии элементов поискового запроса элементам, указанным на Веб страницах. Более продвинутые способы определяют важность извлекаемого Веб контента, используя, например, структурно-базовый анализ гиперссылок, так как описано у S. Brin и L. Page, "The Anatomy of Large-Scale Hypertextual Search Engine", (1998) и в патенте США №6285999, выданном 4 сентября 2001, приведенном в настоящем описании во всей своей полноте в качестве ссылки.
Обычный сценарий поискового запроса начинается либо с вопроса на естественном языке или с отдельных ключевых слов, предоставленных поисковому механизму. Поисковый механизм выполняет поиск описанных информационных характеристик потенциального извлекаемого Веб контента в архиве данных и идентифицирует возможные результаты поиска. Поиск может часто возвращать тысячи или даже миллионы результатов, так что большинство механизмов обычно ранжируют или оценивают только подгруппу наиболее перспективных результатов. Также могут быть введены результаты целевого поиска, такие как реклама или общий информационный контент. Затем основные результаты поиска представляют пользователю, обычно в форме заголовков Веб контента, гиперссылок и другой описательной информации, такой как отрезки текста, взятые из результатов поиска.
Поисковые механизмы обычно доступны пользователям по всему миру. Таким образом, часть предоставления высококачественных результатов поиска представляет собой способность предоставления этих результатов поиска на языках, воспринимаемых запрашивающим пользователем. Воспринимаемые языки включают в себя языки, определенные пользователем, а также другие подходящие языки. Например, пользователь, предпочитающий французский, также может принять результаты поиска на английском. Воспринимаемые языки могут также включать в себя родственные языки и диалекты. Например, результаты поиска на португальском могут быть подходящими для пользователя, который обычно предпочитает испанский. В заключение, воспринимаемые языки могут включать в себя мертвые языки, такие как классический греческий или староанглийский, или псевдоязыки, такие как Klingon. Мертвые языки или псевдоязыки обычно не поддерживаются поисковыми механизмами, однако они могут отражать академические, исторические или персональные интересы запрашивающего пользователя.
В настоящее время для реализации обмена информацией по Веб Веб браузером, Веб сервером, и родственными Веб приложениями в основном используется протокол передачи гипертекста (HTTP). HTTP представляет собой протокол без установления сессии и обычно не поддерживает идентификацию пользовательских предпочтений, включая язык. Единственная информация, доступная для указания языков, воспринимаемых пользователем, представляет собой либо предпочтения, поддерживаемые независимо в каждой HTTP транзакции или в самом поисковом запросе. Во-первых, предпочтения, предоставленные пользователем, определяются или в Веб клиенте или Веб сервере. Предпочтения, определенные на стороне клиента, такие как языки, допустимые Веб браузером, передаются через заголовки сообщений запроса. Предпочтения на стороне сервера определяются через опции механизма поиска и поддерживаются независимо каждой HTTP транзакцией, использующей cookie-файлы, которые должны быть извлечены из Веб клиента до выполнения поиска, или через процедуру регистрации.
Несмотря на эффективное определение воспринимаемых языков, на практике пользователи редко четко устанавливают языковые предпочтения. Кроме того, языковые предпочтения часто являются достаточно ограниченными, представляющими модель все-или-ничего. Предпочтения языка функционируют в качестве фильтра результатов поиска, обеспечивая результаты поиска на предпочтительном языке и отвергая результаты поиска в родственных или альтернативных языках.
Аналогично, установки по умолчанию для определенных принятых языков, либо на стороне клиента, либо на стороне сервера, могут дополнительно осложнить предоставление подходящих результатов поиска. Часто установки по умолчанию могут быть неверными. Например, английский язык может быть определен опцией Веб браузера как языковое предпочтение по умолчанию, но может быть неподходящим для предоставления результатов поиска пользователю, не очень хорошо владеющему английским языком.
Во-вторых, предпочтения, основанные на запросе, извлекаются из элементов в переданном поисковом запросе. Однако элементы поискового запроса по некоторым причинам не являются надежными при определении языковых предпочтений. Во-первых, имена собственные, такие как имена персон, мест или вещей, часто не зависят от языка и являются плохим индикатором языка, требуемого для предоставления результата поиска. Например, поисковый механизм не сможет определить воспринимаемые языки для поискового запроса, содержащего собственное имя "Elvis". Во-вторых, поисковые запросы, в частности, при их определении через ключевые слова, часто состоят только из нескольких отдельных слов, которые обычно не способны предоставить достаточный контекст, из которого определяется языковое предпочтение. Аналогично именам собственным, отдельные слова могут быть независимыми от языка или могут вводить в заблуждение относительно языка. Например, поисковый механизм может быть введен в заблуждение поисковым запросом, содержащим слова "Waldorf Astoria".
Соответственно, существует необходимость в предоставлении подхода для динамического определения языковых предпочтений при предоставлении пользователю результатов поиска. Предпочтительно, такой подход будет удовлетворять как предпочтительным, так и менее предпочтительным языкам, которые воспринимаются пользователем и включают в себя языковые предпочтения как в виде родственных, так и альтернативных языков.
Существует дополнительная необходимость в подходе для предоставления результатов поиска в упорядоченном виде согласно предпочтительному языку пользователя. Предпочтительно, при таком подходе упорядочивают или ранжируют результаты поиска, отдавая предпочтение результатам поиска на предпочтительных языках, но учитывая в то же время результаты поиска на других языках.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Настоящее изобретение предоставляет систему и способ для динамического определения предпочтительных языков и упорядочивания результатов поиска в ответ на поисковый запрос. Пользовательские предпочтительные и менее предпочтительные языки определяются на основе оценки поискового запроса, пользовательского интерфейса и характеристик результата поиска. Характеристики поискового запроса определяются из описывающих поисковый запрос метаданных. Характеристики пользовательского интерфейса также определяются с использованием метаданных поискового запроса, а также предпочтений на стороне клиента и сервера и адресом Интернет протокола (IP) клиента. Характеристики результата поиска определяются на основе оценки каждого результата поиска. Результаты поиска, извлеченные в ответ на поисковый запрос, упорядочивают на основе способа, использованного поисковым механизмом, для организации результатов поиска с учетом предпочтительных и, если они выбраны, менее предпочтительных языков. Результаты поиска упорядочиваются либо при помощи заданного фактора смещения, либо регулировкой бальной оценки, назначенной каждому результату поиска, на весовой коэффициент и повторной сортировкой результатов поиска.
Вариант осуществления предоставляет систему и способ для упорядочивания результатов поиска. Динамически определяют, по меньшей мере, один предпочтительный язык, применимый для результатов поиска, сгенерированных в ответ на поиск, проведенный по потенциально извлекаемой информации, и предоставленных на множестве языков результата поиска. По меньшей мере, некоторые результаты поиска упорядочивают, учитывая, по меньшей мере, один предпочтительный язык.
Дополнительно вариант осуществления предоставляет систему и способ для предоставления предпочтительного языка упорядочивания результатов поиска. Получают поисковый запрос, описывающий потенциально извлекаемую информацию, предоставленную на множестве языков результата поиска. Осуществляют поиск путем оценки поискового запроса по информационным характеристикам, поддерживаемым в доступном для поиска хранилище данных. Динамически определяют, по меньшей мере, один предпочтительный язык, применимый для результатов поиска, генерируемых в ответ на выполненный поиск. По меньшей мере, некоторые результаты поиска упорядочивают, учитывая, по меньшей мере, один предпочтительный язык.
Дополнительный вариант осуществления предоставляет систему и способ для динамического определения языковых предпочтений и упорядочивания результатов поиска. Получают сообщение поискового запроса и анализируют, по меньшей мере, один из элементов и атрибутов сообщения поискового запроса для идентификации потенциально извлекаемого Веб контента, предоставленного на множестве языков результата поиска. Выполняют поиск с помощью оценки, по меньшей мере, одного из элементов и атрибутов по информационным характеристикам, поддерживаемым в доступном для поиска хранилище данных, и генерируют результаты поиска, полученные в ответ на выполненный поиск. Определяют, по меньшей мере, один предпочтительный язык. Оценивают характеристики, по меньшей мере, одного из сообщения запроса поискового запроса, пользовательского интерфейса, использованного для передачи сообщения поискового запроса, и результатов поиска. Выбирают, по меньшей мере, один предпочтительный язык на основании оцененных характеристик. По меньшей мере, некоторые из результатов поиска упорядочивают, учитывая, по меньшей мере, один предпочтительный язык. Результаты поиска представляют в виде сообщений результата поиска.
Другие варианты осуществления настоящего изобретения будут очевидны для специалистов в данной области техники из нижеследующего подробного описания, в котором изложены варианты осуществления настоящего изобретения путем иллюстрации наилучшего способа, предполагаемого для осуществления настоящего изобретения. При реализации настоящее изобретение допускает другие и отличающиеся варианты осуществления, причем некоторые его детали допускают модификации в различных очевидных соотношениях без отступления от сущности и объема настоящего изобретения. Соответственно, чертежи и подробное описание необходимо рассматривать как по сути иллюстративные, а не как ограничивающие.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Фиг.1 представляет собой блок-схему, показывающую систему для предоставления предпочтительного языка упорядочивания результатов поиска, согласно настоящему изобретению.
Фиг.2 представляет собой функциональную блок-схему, показывающую поисковый механизм по Фиг.1.
Фиг.3 представляет собой блок-схему последовательности операций, показывающую выполнение поискового запроса и обработку результатов поиска с помощью поискового механизма по Фиг.1.
Фиг.4 представляет собой структурную диаграмму, показывающую, в качестве примера, сообщение запроса, получаемое поисковым механизмом по Фиг.1.
Фиг.5 представляет собой структурную диаграмму, иллюстрирующую, в качестве примера, ответное сообщение, передаваемое поисковым механизмом по Фиг.1.
Фиг.6 представляет собой блок-схему последовательности операций, показывающую способ предоставления предпочтительного языка упорядочивания результатов поиска, согласно настоящему изобретению.
Фиг.7 представляет собой блок-схему последовательности операций, показывающую процедуру определения предпочтительного языка для использования в способе по Фиг.6.
Фиг.8 представляет собой блок-схему последовательности операций, показывающую функцию оценки характеристик поискового запроса для использования в процедуре по Фиг.7.
Фиг.9 представляет собой блок-схему последовательности операций, показывающую функцию оценки характеристик пользовательского интерфейса для использования в процедуре по Фиг.7.
Фиг.10 представляет собой блок-схему последовательности операций, показывающую процедуру упорядочивания результатов поиска для использования в способе по Фиг.6.
Фиг.11 представляет собой блок-схему последовательности операций, показывающую процедуру упорядочивания результатов поиска с помощью фактора сдвига для использования в процедуре по Фиг.10.
Фиг.12 представляет собой блок-схему последовательности операций, показывающую процедуру упорядочивания результатов поиска с помощью весового коэффициента для использования в процедуре по Фиг.10.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
Фиг.1 представляет собой блок-схему, показывающую систему 10 для предоставления предпочтительного языка упорядочивания результатов поиска согласно настоящему изобретению. Множество отдельных клиентов 12 информационно соединены с сервером 11 через сеть 13, такую как Интернет, или сеть связи другого типа, как очевидно специалистам в данной области данных. Отдельные клиенты 12 управляются пользователями 19, которые реализуют запросы Веб контента и другие операции через своего соответствующего клиента 12.
В общем случае, каждый клиент 12 может представлять собой вычислительную платформу любого типа, имеющую возможность подсоединения к сети, такой как сеть 13, и выполненную с возможностью взаимодействия с прикладными программами. Иллюстративные примеры отдельных клиентов включают в себя, без ограничений, персональные компьютеры, цифровые помощники, смартфоны и пейджеры, легкие клиенты, рабочие станции, "неинтеллектуальные" терминалы, взаимодействующие с сервером приложений, и различные их варианты и конфигурации, очевидные специалисту в данной области техники. Сеть 13 включает в себя различные топологии, конфигурации и варианты сетевых коммуникационных компонентов, размещенных с возможностью соединения, обеспечивающего взаимодействие с сетью предприятия, глобальной и локальной сетями, и включает в себя, без ограничений, обычные проводные, беспроводные, спутниковые, оптические и эквивалентные сетевые технологии, как будет очевидно специалисту в данной области техники.
Для обмена Веб контентом и, в частности, для осуществления поиска, каждый клиент 12 выполняет приложение Веб браузера 18, ("браузер") через которое посылаются поисковые запросы Веб серверу 20, выполняемому на сервере 11. Каждый поисковый запрос описывает или идентифицирует информацию, обычно в форме Веб контента, которую потенциально можно извлечь через Веб сервер 20. Поисковый запрос предоставляет характеристики, обычно выраженные в виде элементов, таких как ключевые слова и т.п., и атрибутов, таких как язык, кодировка символов и т.д., которые предоставляют возможность поисковому механизму 21, также выполняемому на сервере 11, идентифицировать и отправить результаты поиска. Элементы и атрибуты представляют собой разновидность метаданных, которые представляют собой данные, описывающие данные. Также возможны другие стили, формы или определения поисковых запросов, характеристик поисковых запросов и метаданных, как будет понятно специалисту в данной области техники.
Результаты поиска пересылаются обратно на браузер 18 для предоставления, обычно в форме заголовков Веб контента, гиперссылок и другой описательной информации, такой как фрагменты текста, взятые из результатов поиска. Сервер 11 поддерживает присоединенное устройство 15 хранения, в котором поддерживается Веб контент 22. Веб контент 22 также может поддерживаться удаленно другими Веб серверами (не показано), связанными либо напрямую, либо косвенно, через сеть 13 и предпочтительно доступными каждому клиенту 12.
Поисковый механизм 21 предпочтительно идентифицирует Веб контент 22, наилучшим образом соответствующий элементам поискового запроса, для предоставления высококачественных результатов поиска, как описано S.Brin и L.Page, "The Anatomy of a Large-Scale Hypertextual Search Engine" (1998) и патенте США № 6285999, выданном 4 сентября 2001, которые включены в настоящее описание во всей своей полноте в качестве ссылки. При идентификации соответствия Веб контента 22 поисковый механизм 21 работает с информационными характеристиками, описывающими потенциально извлекаемый Веб контент, как дополнительно описано ниже со ссылкой на Фиг.2. Необходимо отметить, что функциональность, обеспечиваемая сервером 11, включающим в себя Веб сервер 20 и поисковый механизм 21, может быть обеспечена, помимо однопроцессорной среды, с помощью слабосвязанных или сильносвязанных распределенных или параллельных компьютерных конфигураций.
Индивидуальные компьютерные системы, включающие в себя сервер 11 и клиентов 12, включают в себя программируемые цифровые компьютерные устройства общего назначения, содержащие центральный процессор (процессоры 13 и 16 соответственно), оперативное запоминающее устройство (память 14 и 17 соответственно), энергонезависимое вспомогательное запоминающее устройство 15, такое как привод жесткого диска или привод CD ROM, сетевой или беспроводной интерфейс, и периферийные устройства, включающие в себя средства пользовательского интерфейса, такие как клавиатура и дисплей. Программный код, включающий в себя системные программы, и данные загружаются в RAM для выполнения и обработки с помощью CPU, и генерации результатов для отображения, выдачи, передачи или сохранения.
Фиг.2 представляет собой функциональную блок-схему, показывающую поисковый механизм 21 по Фиг.1. Каждый компонент представляет собой компьютерную программу, процедуру или процесс, записанные в виде исходного кода на обычном языке программирования, таком как язык программирования C++, и представленные для выполнения с помощью одного или более CPU в виде объектного или двоичного кода в однопроцессорной, распределенной или параллельной конфигурации, как известно в данной области техники. Различные реализации исходного кода и объектных и двоичных кодов могут размещаться в накопителе, считываемом компьютером, или могут быть реализованы в среде передачи в виде сигнала несущей.
Поисковый механизм 21 содержит пять компонентов: анализатор 31, индексатор 32, счетчик 33, языковой активатор 34 и устройство 35 представления. Кратко, поисковый механизм 21 принимает поисковый запрос 36, переданный через браузер 18 от пользователя 19, выполняет поиск, генерирует результаты 38 поиска, упорядочивает результаты 38 поиска, принимая во внимание языковые предпочтения, и передает упорядоченные результаты 37 поиска. Поисковый запрос 36 предпочтительно предоставляют в виде HTTP-совместимого сообщения запроса, а упорядоченные результаты 37 поиска предпочтительно предоставляют в виде HTTP-совместимого ответного сообщения, как описано ниже со ссылкой на Фиг.4 и 5, хотя, как очевидно специалисту в данной области техники, возможны другие формы обмена запросами и ответами.
Более подробно, анализатор 31 получает поисковый запрос 36. Каждый поисковый запрос 36 описывает потенциально извлекаемую информацию, такую как Веб контент 22. Затем анализатор 31 разбивает поисковый запрос 36 на отдельные маркеры. Маркеры включают в себя значения заголовка, составляющие метаданные 48, и тело, содержащее фактический поисковый запрос. Метаданные 48 копируют в языковой активатор 34.
Индексатор 32 выполняет поиск с помощью оценки поискового запроса 36 по информационным характеристикам, поддерживаемым архивами 49 данных, доступными для поиска. Информационные характеристики представляют собой либо существующий Веб контент 22, либо метаданные, такие как гиперссылки, описывающие элементы и атрибуты, используемые для идентификации Веб контента. Возможны другие структуры и варианты организации архива 49 данных, доступного для поиска, как очевидно специалисту в данной области техники. После завершения поиска индексатор 32 генерирует набор результатов 38 поиска, применяя к сохраненной информации характеристики, определенные в поисковом запросе 36. Возможны другие структуры и варианты организации архивов 49 данных, доступных для поиска, как очевидно специалисту в данной области техники.
Потенциально, индексатор 32 может идентифицировать тысячи или даже миллионы результатов 38 поиска, так что в качестве наиболее перспективных результатов 38 поиска сохраняется только подмножество результатов 38 поиска, обычно между 100 и 10000. Также могут быть введены целевые результаты поиска (не показано), такие как реклама или тематический информационный контент. Затем для наиболее перспективных результатов 38 поиска выполняют качественное ранжирование по степени соответствия элементам поискового запроса. Результаты 38 поиска могут быть численно ранжированы так, чтобы они отражали относительное качество или добротность соответствия. Счетчик 33 устанавливает бальную оценку 41 для каждого результата 38 поиска для указания качества соответствия.
Языковой активатор 34 выполняет две основные функции. Во-первых, языковой активатор 34 определяет один или несколько предпочтительных языков 39 и, необязательно, один или несколько менее предпочтительных языков 40 для каждого поискового запроса 36, как дополнительно описано ниже со ссылкой на Фиг.7. В одном из вариантов осуществления такие предпочтительные языки 39 могут быть определены с использованием языкового селектора (не показано). Во-вторых, языковой активатор 34 упорядочивает результаты 38 поиска, учитывая предпочтительные языки 39 и, если доступно, менее предпочтительные языки 40, как описано ниже со ссылкой на Фиг.10. В одном из вариантов осуществления такие результаты 38 поиска могут быть упорядочены с использованием блока упорядочивания результатов поиска (не показано). Для большей эффективности языковой активатор 34 предпочтительно упорядочивает подгруппу наиболее перспективных результатов 38 поиска, обычно в интервале от 15 до 30 результатов поиска, хотя, как очевидно специалисту в данной области техники, могут быть использованы другие интервалы.
В описанном варианте осуществления блок 33 ранжирования присваивает результатам 38 поиска, которые имеют более высокую степень соответствия, соответственно более высокий рейтинг относительно других результатов 38 поиска. Например, если испанский является предпочтительным языком 39, то результаты 38 поиска на испанском будут иметь более высокую степень соответствия, чем результаты 38 поиска, например, на английском. Однако результаты 38 поиска на менее предпочтительном языке, таком как португальский, также могут иметь более высокую степень соответствия, чем результаты 38 поиска на английском, но более низкую степень соответствия, чем результаты 38 поиска на испанском. В качестве альтернативы, может быть использован подход обратного ранжирования, при котором блок 33 ранжирования назначает результатам 38 поиска, которые имеют более высокую степень соответствия, соответственно более низкий рейтинг относительно других результатов 38 поиска. Возможны другие стили, виды присвоения или определения ранжирования результатов поиска, как очевидно специалисту в данной области техники.
В другом варианте осуществления результаты 38 поиска численно ранжируют для отражения относительного качества и добротности соответствия. Блок 33 ранжирования присваивает численный рейтинг 41 каждому результату 38 поиска для указания относительного качества соответствия, с более высоким численным рейтингом 41, отражающим лучшее качество, чем более низкий численный рейтинг 41. Например, если испанский является предпочтительным языком 39, результаты 38 поиска на испанском будут иметь более высокий численный рейтинг 41, чем результаты 38 поиска, например, на английском. Однако результаты 38 поиска на менее предпочтительном языке, таком как португальский, могут также иметь более высокий численный рейтинг 41, чем результаты 38 поиска на английском, но более низкий численный рейтинг 41, чем результаты 38 поиска на испанском. В качестве альтернативы, может быть использован подход обратного ранжирования, в результате которого блок 33 ранжирования присваивает более низкий численный рейтинг 41 для отражения лучшего качества по сравнению с более высоким численным рейтингом 41. Возможны другие стили, типы присвоения или определения оценки результата поиска, как очевидно специалисту в данной области техники.
Для определения предпочтительных языков 39 и менее предпочтительных языков 40, языковой активатор 34 оценивает характеристики 43 поискового запроса (SQ Chars), характеристики 44 пользовательского интерфейса (UI Chars), характеристики 45 результатов поиска (SR Chars). Характеристики 43 поискового запроса могут быть определены из метаданных 48. Характеристики 44 пользовательского интерфейса могут быть определены из метаданных 48 и любых доступных языковых предпочтений 42, которые могут поддерживаться сервером 11 (со стороны сервера) независимо от поискового запроса 36. Характеристики 45 результата поиска могут быть определены из результатов 38 поиска.
Языковой активатор 34 упорядочивает результаты 38 поиска. В одном из вариантов осуществления упорядоченные не численным образом результаты 38 поиска упорядочивают при помощи фактора 46 сдвига, как дополнительно описано ниже со ссылкой на Фиг.11. В описанном варианте осуществления постоянный фактор 46 сдвига два (2.0) используется для понижения на две позиции результатов 38 поиска на непредпочтительных языках. Такой фактор 46 сдвига является подходящим, если результаты 38 поиска упорядочивают путем уменьшения степени соответствия поискового запроса 36. Например, результат 38 поиска на непредпочтительном языке, попавший в третью позицию в списке результатов 38 поиска, будет опущен на пятую позицию. Также могут быть использованы другие формы факторов сдвига. Например, фактор 46 сдвига может активировать результаты поиска 38 на непредпочтительном языке. Также фактор 46 сдвига может упорядочить результаты 38 поиска с помощью математической функции с использованием, например, коэффициентов сложения, вычитания, умножения, отношения, деления и логарифмических коэффициентов, или может представлять собой формулы или функции, а также различные их комбинации и сочетания, как очевидно специалистам в данной области техники.
В другом варианте осуществления, предпочтительном, если для ранжирования численного рейтинга 41 доступна формула регулировки, численно ранжированные результаты 38 поиска упорядочивают с помощью весового коэффициента 47, как более подробно описано ниже со ссылкой на Фиг.12. Такой весовой коэффициент 47 может быть постоянной математической функцией, использующей, например, коэффициенты сложения, вычитания, умножения, отношения, деления и логарифмические коэффициенты, или может представлять собой формулы или функции, а также различные их комбинации и сочетания, как очевидно специалисту в данной области техники. В описанном варианте осуществления численный рейтинг 41 возрастает с качеством соответствия. Например, более высокий численный рейтинг 41 отражает лучшее качество по сравнению с более низким численным рейтингом 41. В качестве альтернативы, может быть использована система, при которой численный рейтинг 41 может понижаться с качеством соответствия, как очевидно специалисту в данной области техники. В описанном варианте осуществления используются два весовых коэффициента 47 для увеличения численного рейтинга 41 каждого результата 38 поиска, в зависимости от того, получен ли результат 38 поиска на одном из предпочтительных языков 39 или на одном из менее предпочтительных языков 40. Для результатов 38 поиска на одном из предпочтительных языков 39 весовой коэффициент wLP дается выражением
WLP=www.acme.at
Для результатов 38 поиска на одном из менее предпочтительных языков 40 весовой фактор wLPL дается выражением
WLP=
Такие весовые коэффициенты являются более подходящими, если численные рейтинги 41 находятся в пределах 0,0-1,0 и распределены приблизительно равномерно. В описанном варианте осуществления результаты 38 поиска, имеющие данную оценку si, ранжируются выше, если связаны с предпочтительными языками 39, чем при наличии связи с одним из менее предпочтительных языков 40. Однако вместо этого результаты 38 поиска, связанные с одним из менее предпочтительных языков 40, могут быть ранжированы ниже, чем результаты 38 поиска, связанные с одним из предпочтительных языков 39, как очевидно специалисту в данной области техники. В качестве альтернативы, весовые коэффициенты 47 могут быть использованы для понижения численного рейтинга 41 для каждого результата 38 поиска в зависимости от того, получен ли результат 38 поиска на один из предпочтительных языков 39 или менее предпочтительных языков 40. Могут быть применены другие виды численного ранжирования и формы весовых коэффициентов так, как очевидно специалисту в данной области техники.
В дополнительном варианте осуществления фактор 46 сдвига и весовой коэффициент 47 могут быть настроены для выполнения менее или более надежного динамического определения предпочтительного языка. Например, короткий поисковый запрос 36 или редкий результат 37 поиска могут понижать точность динамического определения предпочтительных языков вследствие уменьшения доступного для обработки контекста. Фактор 46 сдвига и весовой коэффициент 47 могут быть уменьшены для уменьшения их влияния на упорядочивание результатов 37 поиска. В качестве альтернативы, длинный поисковый запрос 36 или объемные результаты 37 поиска могут увеличить точность, и фактор 46 сдвига и весовой коэффициент 47 могут быть увеличены для более активного их влияния на упорядочивание результатов 37 поиска.
В завершение, блок презентации 35 представляет упорядоченные результаты 37 поиска пользователю 19 через браузер 18. Обычно может быть представлена только часть упорядоченных результатов 37 поиска, поскольку полный набор упорядоченных результатов 37 поиска может превышать доступное на браузере 18 пространство презентации. Презентация представляет собой передачу упорядоченных результатов 37 поиска с помощью ответного сообщения результатов поиска.
Фиг.3 представляет собой блок-схему 50 последовательности операций, показывающую выполнение поискового запроса и обработку результатов поиска с помощью поискового механизма 21 по Фиг.1. Блок-схема последовательности операций содержит пять основных этапов. Сначала поисковый запрос 52 принимают и анализируют (этап 51) и направляют на следующий этап. Выполняют поиск (этап 53) в хранилищах данных и результаты 54 поиска направляют на следующий этап. На основании метаданных и доступном контексте определяют предпочтительные и менее предпочтительные языки 56 пользователя 19 (этап 55). Предпочтительные и менее предпочтительные языки 56 направляют на следующий этап для использования в упорядочивании результатов 54 поиска (этап 57). На конечном этапе упорядоченные результаты 58 поиска передают и представляют (этап 59). Этапы определения предпочтительных и менее предпочтительных языков (этап 55) и упорядочивания результатов поиска (этап 57) улучшают качество результатов поиска с помощью подстройки результатов поиска согласно динамическому определению пользовательских языковых предпочтений.
Фиг.4 представляет собой структурную схему, показывающую, в качестве примера, сообщение 60 запроса, принимаемое поисковым механизмом 21 по Фиг.1 Сообщение 60 запроса представляет собой HTTP-совместимое сообщение запроса, например, как описано в D.Gourley и E.Totty, "HTTP, the Definitive Guide", гл.3, стр. 43-73, O'Reilly и Assoc., Sebastopol, CA (2002), включенное в настоящее описание во всей своей полноте в качестве ссылки. Сообщение 60 запроса содержит три части: начальную строку 61, заголовки 62, и тело 63. Начальная строка 61 идентифицирует HTTP метод, такой как "POST", при помощи которого посылает входные данные из браузера 18 в поисковый механизм 21. Начальная строка 61 также включает в себя запрашиваемый унифицированный указатель ресурса (URL) 68 и идентификатор версии HTTP. Иллюстративный запрос URL, "/search.cgi", идентифицирует поисковый запрос.
Заголовки 62 состоят из нулевого или большего количества пар MIME-совместимых имен и значений, которые предоставляют метаданные 48, описывающие характеристики интерфейса браузера 18 и тела 63, то есть самого поискового запроса. Четыре MIME-совместимых заголовка предоставляют метаданные 48, служащие средством определения тех языков, которые приемлемы для запрашивающего пользователя, следующим образом:
(1) Accept_Charset (64): Указывает на наборы символов, которые доступны или предпочтительны для запрашивающего браузера 18, например, ISO-Latin-1, восьмибитовое расширение для ASCII которое поддерживает восточно-европейские языки. ISO-Latin-1 также известное как ISO-8859-1.
(2) Accept_Language (65): Указывает на языки, которые допустимы или предпочтительны для пользователя 19, в порядке предпочтения и необязательно включают в себя коэффициент качества q, например, большее предпочтение в отношении французского (fr) и меньшее предпочтение в отношении английского (en).
(3) Content_Type (66): Описывает медиа тип тела 63, например, обычный текст (text/plain) и может указывать в качестве параметра на набор символов, используемый для кодирования тела 63, например, ISO-Latin-1,.
(4) Content_Language (67): Указывает на естественный язык, на котором описано тело 63, например, французский (fr).
Возможны другие форматы сообщения запроса, использующие эквивалентные или родственные протоколы и предоставляющие информацию, аналогичную приведенным выше заголовкам 62, а также другие заголовки и параметры, как очевидно специалисту в данной области техники.
Фиг.5 представляет собой структурную диаграмму данных, показывающую, в качестве примера, ответное сообщение 70, отправляемое поисковым механизмом 21 по Фиг.1. Ответное сообщение 70 пред