Ранжиратор результатов поиска
Изобретение относится к ранжираторам результатов поиска, в частности к способу оптимизации ранжираторов результатов поиска. Техническими результатами являются повышение релевантности результатов поиска, ускорение поиска пользователя, снижение трафика и нагрузки на поисковый сервер и на серверы веб-ресурсов. В способе оптимизации ранжирования результатов поиска, полученных из ранжиратора результатов поиска, получают первый набор пар запрос-документ, каждая из которых имеет соответствующий вектор параметров постпросмотра. Генерируют весовой вектор, имеющий количество весовых значений, соответствующее количеству параметров постпросмотра в каждом из векторов параметров постпросмотра первого набора. Генерируют целевую функцию с использованием весового вектора и векторов параметров постпросмотра первого набора. Оптимизируют весовые значения весового вектора с использованием первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией. Оптимизируют ранжиратор результатов поиска с помощью оптимизированной целевой функции и используют оптимизированный ранжиратор результатов поиска для ранжирования результатов поиска. 3 н. и 14 з.п. ф-лы, 4 ил.
Реферат
Область техники
Данная технология относится к ранжираторам результатов поиска, в частности к способу оптимизации ранжираторов результатов поиска.
Уровень техники
При выполнении поиска в интернете с помощью поисковой системы, например, предоставленной Яндекс™ (www.yandex.com), сервер сначала принимает поисковый запрос, введенный пользователем на пользовательском устройстве, например, компьютере, смартфоне или планшете, после чего сервер извлекает документы для данного запроса; затем с помощью ранжиратора результатов поиска документы ранжируются, а затем команды для открытия страницы результатов поиска (SERP) посылаются клиентскому устройству сервером. С помощью SERP предоставляется список ссылок на документы, а также, как правило, часть документа (или моментальный снимок, также известный как «скриншот», имеющейся в документе информации), упорядоченные в порядке релевантности.
Документы, найденные с помощью поисковой системы, могут существенно отличаться в отношении их практической ценности. Одной из основных проблем ранжирования результатов поиска является определение размещения наиболее релевантных документов в верхней части поисковой выдачи (т.е. SERP).
В некоторых поисковых системах ранжиратором результатов поиска для ранжирования результатов используется релевантность. С помощью релевантности определяется, в какой мере найденный документ соответствует поисковому запросу. Наиболее релевантным документом является тот, который располагается в самом верху. В некоторых поисковых системах релевантность вычисляется с помощью формулы ранжирования, которая является функцией множества факторов. Фактором является численная характеристика запроса, документа или пары запрос-документ, который может использоваться для оценки уместности результата в выдаче по запросу.
Примеры факторов включают количество слов поискового запроса, содержащихся в тексте документа, или принадлежность запроса к определенной категории. В некоторых случаях релевантность документа также может зависеть от пользователя, отправившего запрос.
Количество проиндексированных документов и потребности пользователей постоянно меняются. Именно поэтому формула ранжирования результатов поиска, используемая ранжиратором, должна регулярно обновляться. Для изменения формулы применяются методы машинного обучения. На основе данных экспертной оценки, предоставленных релевантностью набора известных документов для набора известных поисковых запросов, определяется зависимость между характеристиками документа и их размещением в поисковой выдаче (т.е. SERP). Определенные зависимости используются для внесения изменений в формулу.
Экспертными данными, используемыми для машинного обучения, являются оценки, описывающие, насколько уместно и корректно упорядочены документы в поисковой выдаче по конкретным запросам. Эти оценки назначаются экспертами.
Помимо использования в машинном обучении, экспертные оценки используются также для оценки качества результатов поиска, то есть степени удовлетворенности пользователей результатами поиска и их порядком следования.
При этом в случае, если необходима массовая выборка, предоставление таких экспертных оценок является непрактичным и очень сложным. Например, для такой массовой выборки необходимо персонализировать результаты поиска. Персонализация позволяет упорядочивать результаты поиска на основе личных предпочтений пользователей, тем самым улучшая качество поиска. Например, в зависимости от профиля пользователя, по запросу «zeppelin» для некоторых пользователей документы, относящиеся к типу дирижабля, будут ранжированы как документы с наивысшим рейтингом, в то время как для других пользователей документами с наивысшим рейтингом будут документы, относящиеся к группе Led Zeppelin.
С целью улучшить ранжирование для такого большого набора данных некоторые поисковые системы рассматривают взаимодействие пользователей с результатами поиска, представленными в SERP, вместо или как дополнение к экспертным данным. Эти данные иногда называются параметрами постпросмотра, которые в дальнейшем используются для улучшения формулы ранжиратора результатов поиска и, следовательно, оценок документов для будущих поисков. Примеры параметров постпросмотра включают: был ли кликнут документ; время, в течение которого пользователь просматривал документ, называемое иногда временем просмотра.
Тем не менее, документ может быть кликнут не потому, что в SERP он являлся релевантным. Аналогично, он может быть не кликнут не потому, что он нерелевантен. С помощью изучения таких параметров, как время просмотра, можно улучшить представление о релевантности документа и, таким образом, улучшить качество ранжирования. При этом величина времени просмотра нужна для определения того, является ли документ релевантным и не является ли он отчасти выбранным произвольно.
Таким образом, хотя с учетом параметров постпросмотра и можно улучшить ранжирование результатов, при этом трудно определить, какие параметры должны использоваться, и в случае параметров, значения которых взаимосвязаны, например, время просмотра сайта, значение какого должно соответствовать параметру для анализа релевантности документа для того, чтобы улучшить формулу результатов поиска ранжиратора.
Таким образом, необходим способ оптимизации оценки результатов поиска, полученных от ранжиратора результатов поиска.
Раскрытие изобретения
Целью данной технологии является улучшение по меньшей мере некоторых из недостатков, имеющихся в известном уровне техники.
В соответствии с одним из аспектов данной технологии предлагается реализованный на компьютере способ оптимизации оценки результатов поиска, полученных от ранжиратора результатов поиска. Способ включает следующие этапы: получение первого набора пар запрос-документ, каждая из которых имеет соответствующий вектор параметров постпросмотра; генерация весового вектора, имеющего количество весовых значений, соответствующее количеству параметров постпросмотра в каждом векторе параметров постпросмотра первого множества; генерирование целевой функции с использованием весового вектора и векторов параметров постпросмотра из первого набора; оптимизация весовых коэффициентов весового вектора с использованием первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией; оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции; использование оптимизированного ранжиратора результатов поиска для ранжирования результатов поиска.
В некоторых вариантах реализации данной технологии способ также включает этап выбора метрики производительности, в зависимости от параметров целевой функции.
В некоторых вариантах реализации данной технологии оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции включает оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции, применимой ко второму набору пар запрос-документ.
В некоторых вариантах реализации данной технологии после оптимизации ранжиратора результатов поиска и перед его использованием, способ также включает этап оценки оптимизированного ранжиратора результатов поиска с помощью третьего набора пар запрос-документ.
В некоторых вариантах реализации данной технологии параметр постпросмотра содержит по меньшей мере один параметр из по меньшей мере одного параметра уровня документа и по меньшей мере один параметр уровня страницы результатов поиска (SERP).
В некоторых вариантах реализации данной технологии по меньшей мере один параметр уровня документа содержит по меньшей мере один из следующих параметров: параметр клика, отображающий, был ли документ кликнут; параметр просмотра документа, отображающий время просмотра документа; параметр длительного просмотра документа, отображаемый в случае, если время просмотра документа превышает заранее определенную величину; параметр последнего клика, отображаемый в случае, если документ был кликнут последним; параметр первого клика, отображаемый в случае, если документ был кликнут первым; параметр удовлетворенного клика для отображения в случае, если документ был кликнут в прошлом, или если время просмотра сайта превышает заданную величину; параметр положения, отображающий исходное положение документа в SERP; параметр пропуска, отображаемый в случае, если документ был пропущен; параметр предыдущего пропуска, отображаемый в случае, если был пропущен другой, предшествующий данному, документ; и параметр пропуска выше, отображающий количество пропущенных документов.
В некоторых вариантах реализации данной технологии по меньшей мере один параметр уровня SERP содержит один из следующих параметров: параметр клика вверху, отображающий наивысшую оценку выбранных документов в рейтинге; параметр клика внизу, отображающий наименьшую оценку выбранных документов в рейтинге; параметр количества кликов, отображающий количество кликов на SERP; параметр количества кликов на первую тройку, отображающий количество кликов на три документа с наивысшей оценкой на SERP; параметр количества пропусков, отображающий количество документов, пропущенных на SERP; параметр последнего запроса, отображающий последний запрос в поисковой сессии; и параметр времени просмотра, отображающий период времени до первого клика на SERP.
В некоторых вариантах реализации данной технологии параметры постпросмотра содержат по меньшей мере один из следующих параметров: параметр клика, отображаемый в случае, если документ был выбран; параметр просмотра, отображающий время просмотра документа; параметр длительного просмотра, отображаемый в случае, если время просмотра документа превысило заранее определенную величину; параметр последнего клика, отображаемый в случае, если документ был выбран последним; параметр первого клика, отображаемый в случае, если документ был выбран первым; параметр удовлетворяющего клика, отображаемый в случае, если документ был выбран последним, или в случае, если время просмотра превышает заданную величину; параметр положения, отображающий исходное положение документа на SERP; параметр пропуска, отображаемый в случае, если был пропущен документ; параметр предыдущего пропуска, отображаемый в случае, если был пропущен другой, предыдущий по рейтингу документ; параметр пропусков выше, отображающий количество документов, предшествующих пропущенному документу в рейтинге; параметр клика вверху, отображающий наивысший рейтинг выбранных документов; параметр клика внизу, отображающий наименьшую оценку выбранных в рейтинге документов; параметр количества кликов, отображающий количество кликов на SERP; параметр количества кликов на первую тройку, отображающий количество кликов на три документа с наивысшим рейтингом SERP; параметр количества пропусков, отображающий количество документов, пропущенных на SERP; параметр последнего запроса, отображающий последний запрос в поисковой сессии; и параметр времени просмотра, отображающий время до первого клика на SERP.
В некоторых вариантах реализации данной технологии использование ранжиратора результатов поиска включает: получение поискового запроса от клиентского устройства по меньшей мере одним сервером посредством сети передачи данных; инициализацию по меньшей мере одним сервером, поиска в соответствии с поисковым запросом; ранжирование по меньшей мере одним сервером, документов, найденных в результате поиска с помощью ранжиратора результатов поиска, включающего оптимизированную целевую функцию; отправку на клиентское устройство посредством сети передачи данных по меньшей мере одним сервером команды для инициализации отображения пользователю с помощью пользовательского интерфейса клиентского устройства страницы результатов поиска (SERP), содержащей ссылки на документы, найденные с помощью поиска, упорядоченные на SERP согласно рейтингу документов, найденных в результате поиска.
В некоторых вариантах реализации данной технологии оптимизация весовых значений весового вектора включает оптимизацию весовых значений весового вектора с помощью алгоритма градиентного спуска.
В некоторых вариантах реализации данной технологии метрика производительности является одной из следующего: значение усредненной ценности ответов (MRR) и среднее значение средней точности (MAP).
В соответствии с другим аспектом данной технологии представлена система для оптимизации ранжирования результатов поиска, полученных от ранжиратора результатов поиска. Система содержит процессор и машиночитаемое средство для хранения информации, соединенное с процессором. На машиночитаемом средстве для хранения информации хранятся команды, инициирующие выполнение системой следующих этапов: получение первого набора пар запрос-документ, каждая из которых имеет соответствующий вектор параметров постпросмотра; генерация весового вектора, имеющего количество весовых значений, соответствующее количеству параметров постпросмотра в каждом векторе параметров постпросмотра первого набора; генерирование целевой функции с использованием весового вектора и векторов параметров постпросмотра из первого набора; оптимизация весовых значений весового вектора с использованием первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией; оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции; использование оптимизированного ранжиратора результатов поиска для ранжирования результатов поиска.
В некоторых вариантах реализации данной технологии на машиночитаемом средстве для хранения информации также хранятся команды, инициирующие выполнение системой этапа выбора метрики производительности, в зависимости от параметров целевой функции.
В некоторых вариантах реализации данной технологии оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции включает оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции, примененной ко второму набору пар запрос-документ.
В соответствии с другим аспектом данной технологии представлено машиночитаемое средство для хранения информации, на котором хранятся команды для оптимизации ранжирования результатов поиска, полученных из ранжиратора результатов поиска. Выполнение команд компьютером инициирует выполнение операций, включающих: извлечение первого набора пар запрос-документ, каждая из которых имеет соответствующий вектор параметров постпросмотра; генерацию весового вектора, имеющего количество весовых значений, соответствующее количеству параметров постпросмотра в каждом векторе параметров постпросмотра первого набора; генерирование целевой функции с использованием весового вектора и векторов параметров постпросмотра из первого набора; оптимизацию весовых коэффициентов весового вектора с использованием первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией; оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции; использование оптимизированного ранжиратора результатов поиска для ранжирования результатов поиска.
В некоторых вариантах реализации данной технологии операции дополнительно включают выбор метрики производительности, в зависимости от параметров целевой функции.
Некоторые варианты реализации данной технологии отличаются тем, что оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции включает оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции, примененной ко второму набору пар запрос-документ.
В контексте данного описания под «сервером» подразумевается компьютерная программа, выполняемая с помощью соответствующего аппаратного обеспечения, выполненного с возможностью получения запросов (от клиентских устройств) по сети передачи данных и выполнения этих запросов или инициирования их выполнения. С физической точки зрения оборудование может представлять собой один компьютер или компьютерную систему, но ни то, ни другое не является обязательным для реализации данной технологии. В контексте данной технологии использование определения «по меньшей мере, один сервер» не означает, что каждая задача (например, полученные команды или запросы) или какая-либо конкретная задача будет получена, выполнена или инициирована для выполнения одним и тем же сервером (то есть одним и тем же программным обеспечением и/или аппаратным обеспечением); это означает, что любое количество элементов программного обеспечения или аппаратных средств может быть задействовано для приема/передачи, выполнения или инициирования выполнения любого запроса или последовательности любых запросов, связанных с клиентским устройством, и все эти программные и аппаратные средства могут быть одним или несколькими серверами, оба из которых включаются в определение «по меньшей мере, один сервер».
В контексте данного описания под «клиентским устройством» подразумевается аппаратное устройство, выполненное с возможностью работы с программным обеспечением, соответствующим решению соответствующей задачи. Примерами клиентских устройств, среди прочего, являются персональные компьютеры (настольные компьютеры, ноутбуки и т.д.), смартфоны и планшеты.
В контексте данного описания под «базой данных» подразумевается структурированный набор данных, не зависящий от конкретной структуры, программного обеспечения для управления базами данных, аппаратного обеспечения компьютера, на котором данные хранятся, используются или иным образом становятся доступными для использования. В данном контексте база данных находится в «функциональном взаимодействии» в случае, если она является доступной для использования как часть системы управления базой данных, которая подключена к доступной сети передачи данных.
В контексте данного описания под «машиночитаемым средством для хранения информации» подразумевается носитель любого типа и принципа действия, включая ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, дискеты, жесткие диски и т.д.), USB-флеш-накопители, твердотельные накопители, накопители на магнитной ленте и т.д.
В контексте данной заявки определения «первый», «второй», «третий» и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не с целью описания какой-либо конкретной связи между этими существительными. Так, например, следует иметь в виду, что при использовании терминов «первый сервер» и «третий сервер» не подразумевается какой-либо порядок, принадлежность к определенному типу, хронологии, иерархии или ранжированию (например) серверов или между серверами, равно как и их использование (отдельно) не предполагает, что обязательно должен существовать в той или иной ситуации некий «второй сервер».
Каждый вариант реализации данной технологии включает по меньшей мере одну из вышеупомянутых целей и/или аспектов, но не обязательно наличие их всех.
Следует иметь в виду, что некоторые аспекты данной технологии, полученные в результате попыток достичь вышеупомянутой цели, могут не удовлетворять эту цель и/или могут удовлетворять другие цели, не указанные отдельно в данной заявке.
Дополнительные и/или альтернативные параметры, аспекты и преимущества вариантов реализации данной технологии станут очевидными из последующего описания, прилагаемых фигур, а также прилагаемой формулы изобретения.
Технический результат, достигаемый с помощью описанного в заявке изобретения, - повышение релевантности результатов поиска, а также ускорение поиска пользователя, снижение трафика и нагрузки на поисковый сервер и на серверы веб-ресурсов.
Краткое описание фигур
Для лучшего понимания данной технологии, а также других аспектов и параметров выполнена ссылка на следующее описание, которое должно использоваться вместе с прилагаемыми фигурами, на которых:
На Фиг. 1 проиллюстрировано схематическое изображение компьютерной системы, являющейся вариантом реализации данной технологии.
На Фиг. 2 представлена блок-схема способа предоставления пользователю результатов поиска;
На Фиг. 3 представлено типовое изображение страницы результатов поиска (SERP); и
На Фиг. 4 представлена блок-схема реализованного на компьютере способа оптимизации ранжирования результатов поиска.
В конце данного описания предоставлено приложение, которое содержит копию еще не опубликованной статьи под названием "Learning Personalization Targets Extracted from User Interaction with Search Engine Results" и копию еще не опубликованного документа под названием «Обучение весов примеров (confidence))) (что переводится как «Teaching Weights Examples (confidence)*). Эти статья и документ предоставляют дополнительную информацию, описание вариантов реализации данной технологии и примеры. Данные статья и документ полностью включены в данную заявку посредством ссылки для всех стран и территорий.
Осуществление изобретения
На Фиг. 1 представлена компьютерная система 10, включающая варианты реализации данной технологии. Следует ясно понимать, что компьютерная система 10 является лишь одним из вариантов реализации данной технологии. Представленное описание предназначается исключительно в целях предоставления наглядного примера данной технологии. Это описание не предназначается для определения объема и границ данной технологии. Некоторые полезные примеры модификаций компьютерной системы 10 также могут быть охвачены нижеследующим описанием. Таким образом, нижеследующее описание не предназначается для определения объема или границ данной технологии. Эти модификации не являются исчерпывающими и, как будет понятно специалистам в данной области техники, другие модификации также возможны. Кроме того, не следует истолковывать то, что не реализовано (т.е. там, где не были приведены примеры модификации), таким образом, что никакие изменения не возможны, и/или описанное является единственным способом реализации этого элемента в данное время. Специалистам в данной области техники будет понятно, что это не так. Кроме того, должно быть понятно, что компьютерная система 10 предоставляет простую реализацию данной технологии, представленной таким образом для облегчения понимания. Специалистам в данной области техники будет понятно, что большинство вариантов реализации данной технологии будут более сложными.
Компьютерная система 10 содержит клиентское устройство 12, используемое пользователем 14. Клиентское устройство 12 может быть любым из трех клиентских устройств 12, изображенных на Фиг.1, а именно настольным компьютером 12А, например iMac™, смартфоном 12В, например iPhone™ 4S™, и планшетным компьютером 12С, например iPad™. В других вариантах реализации клиентские устройства 12 могут включать другие марки и/или модели смартфона, планшетного компьютера, электронной книги, портативного компьютера, настольного компьютера, КПК или другого устройства, подключенного к Интернету.
Клиентское устройство 12 подключено к Интернету 16 (которое может быть подключено, в зависимости от конкретных обстоятельств, посредством мобильной телефонной сети, сети Wi-Fi, или Bluetooth™ соединения). На клиентском устройстве 12 установлено приложение веб-браузера, например Safari™, являющееся частью пользовательского интерфейса клиентского устройства 12. Предполагается, что на клиентском устройстве также могут быть установлены другие веб-браузеры и/или другие приложения, функционирующие через Интернет. Несмотря на то что представлено лишь одно клиентское устройство 12 (пользователь 14 использует только одно из клиентских устройств 12А, 12В или 12С), следует помнить, что в системе 10 также могут использоваться несколько клиентских устройств.
Компьютерная система 10 также содержит множество серверов 18, подключенных к Интернету 16. Для облегчения понимания показаны только три сервера 18, но следует понимать, что предполагается больше (и меньше), чем три сервера 18. Например, предполагается, что система 10 может содержать любой из серверов 18, подключенных к Интернету 16. Также предполагается, что система 10 может содержать только серверы 18, находящиеся в конкретном географическом месте. Каждый из серверов 18 может являться хостом для одной или нескольких веб-страниц, доступ к которым клиентское устройство 12 может получить через Интернет 16.
Компьютерная система 10 также содержит сервер поисковой системы 20. Для облегчения понимания показан только один сервер поисковой системы 20, но следует понимать, что предполагается больше чем один сервер поисковой системы 20. Как видно, сервер поисковой системы 20 взаимодействует с Интернетом 16. Следует понимать, что вместо передачи данных через Интернет 16 клиентское устройство 12 и серверы 18, 20, 24 могут взаимодействовать с помощью сети передачи данных другого типа. Примерами вариантов сетей передачи данных, среди прочего, могут быть локальная вычислительная сеть (ЛВС), глобальная вычислительная сеть и интранет. Хотя это не показано, сервер поисковой системы 20 также взаимодействует с базой данных индексации, содержащей информацию индексирования для множества документов, находящихся на серверах 18 (т.е. вебстраниц, изображений, видео и т.д.). Эту информацию получают, например, с помощью поисковых роботов (не показаны).
Сервер поисковой системы 20 также обменивается данными с обучающим сервером 22 по сети (отдельно не пронумерована). В альтернативных вариантах реализации сервер поисковой системы 20 может обмениваться данными с обучающим сервером 22 по сети Интернет 16.
С целью облегчения понимания показан только один обучающий сервер 22, но следует понимать, что предполагается более одного обучающего сервера 22. Как будет описано ниже, обучающий сервер 22 используется с целью оптимизации ранжиратора результатов поиска, используемого сервером поисковой системы 20 для ранжирования результатов поиска. Предполагается, что функции сервера поисковой системы 20 и обучающего сервера 22 могут быть объединены или могут быть дополнительно разделены для выполнения более чем двумя серверами.
Обучающий сервер 22 обменивается данными с базой данных пар запрос-документ (3-Д) 24. С целью облегчения понимания показана только одна база данных пар 3-Д 24, но следует понимать, что предполагается более чем одна база данных пар 3-Д 24. Как следует из названия, база данных пар 3-Д 24 содержит данные для набора пар запроса, а также соответствующие документы (т.е. пары 3-Д). Документ каждой пары 3-Д является документом, ранее полученным сервером поисковой системы 20 для запроса пары 3-Д. Хотя это не показано, база данных пар 3-Д 24 также обменивается данными с сервером поисковой системы 20. Следует понимать, что база данных пар 3-Д 24 может обмениваться данными с ранее упомянутой базой данных индексации. Также предполагается, что база данных пар 3-Д 24 может объединяться с ранее упомянутой базой данных индексации. По меньшей мере, некоторые из этих пар 3-Д упорядочены в наборы. Для облегчения понимания показаны четыре набора 3-Д 26, 28, 30, 32, но следует понимать, что предполагается больше или меньше четырех наборов 3-Д.
Перейдем к Фиг. 2, на которой представлен способ, в котором для предоставления результатов поиска в ответ на запрос пользователя используется сервер поисковой системы 20. Способ начинается с этапа 100, когда пользователь 14 вводит поисковый запрос с помощью пользовательского интерфейса клиентского устройства 12. Пользователь 14 вводит запрос с помощью типового пользовательского интерфейса, представленного на Фиг. 3, путем ввода поискового запроса в поле поиска 50, в этом случае «Яндекс», и затем нажимает кнопку поиска 52 для того, чтобы начать поиск. На этапе 102 сервер поисковой системы 20 получает поисковый запрос от пользовательского устройства 12 через Интернет 16.
На этапе 104, сервер поисковой системы 20 выполняет поиск для запроса и получает релевантные документы и/или информацию относительно релевантных документов. Сервер поисковой системы 20 может искать серверы 18, используя Интернет 16 и/или базы данных индексации и/или базы данных пар 3-Д для соответствующих запросов. Подразумевается, что способ, с помощью которого сервер поисковой системы 20 осуществляет поиск, идентификацию и извлечение соответствующих документов (или информации, касающейся соответствующих документов), может выполняться различным образом, как предполагается, хорошо известными специалистами в данной области.
Затем на этапе 106 с помощью сервера поисковой системы 20 найденные документы ранжируются в порядке их релевантности. Для ранжирования документов сервером поисковой системы 20 используется ранжиратор результатов поиска. Ранжиратор результатов поиска является алгоритмом, в котором используются параметры предпросмотра, связанные с документами, для оценки релевантности каждого документа и дальнейшей сортировки документов по оценкам. Параметры предпросмотра являются параметрами, которые могут вычисляться на основе данных, имеющихся в наличии до того, как пользователю 14 будет показана страница результатов поиска. Параметры предпросмотра содержат, но не ограничиваются этим, взаимосвязь между текстом документа и запросом, метаданные документа, специфичную для пользователя популярность документа и соответствие между текстом документа и профилем пользовательского интереса.
Несмотря на то что сервер поисковой системы 20 описывается как использующий параметры предпросмотра, связанные с документами, для ранжирования документов как часть этапа 106, в альтернативных вариантах реализации технологии документы могут быть ранжированы по параметрам предпросмотра, а также параметрам предпросмотра, связанным со взаимодействиями других пользователей с SERP, предоставленными в ответ на такие, практически такие или аналогичные поисковые запросы, отправленные другими пользователями ранее. Отображение параметров постпросмотра может хранится в журнале (не показан), доступном для сервера поисковой системы 20. В некоторых вариантах реализации технологии отображение параметров постпросмотра может быть анонимным (т.е. не связанным с идентификаторами последних пользователей, которые осуществляли такие, практически такие или аналогичные поиски). Подробная информация о различных вариантах реализации параметров постпросмотра будет представлена ниже.
Затем на этапе 108 с помощью сервера поисковой системы 20 через Интернет 16 посылаются команды на клиентское устройство 12 для отображения SERP, например показанного на Фиг. 3. Клиентское устройство 12 принимает эти команды и отображает SERP пользователю 14 на экране клиентского устройства 12. SERP содержит ссылку и связанное с ней краткое описание или фрагмент документа 54 (Фиг. 3) для документов, являющихся результатом поискового запроса.
Ссылки 54 ранжируются в порядке от наибольшей к наименьшей релевантности, начиная с верхней части SERP, как определено ранжиратором результатов поиска. В примере, представленном на Фиг. 3, ссылка 54А, находящаяся в верхней части SERP ссылок на документ, ранжирована ранжиратором результатов поиска как наиболее релевантная, ссылка 54В упорядочена как вторая наиболее релевантная и так далее.
На этапе 110 сервером поисковой системы 110 фиксируется взаимодействие пользователя 14 с результатами поиска, отображаемыми на SERP, которое сохраняется в базе данных пар 3-Д 24. Каждый документ, приведенный на SERP, образует пару 3-Д для определенного запроса, и взаимодействие пользователя с документами пар 3-Д записывается как параметры постпросмотра для этих определенных пар 3-Д. Примеры взаимодействия включают, но не ограничиваются этим, какие документы были просмотрены пользователем 14 (или «кликнуты»), как долго просматривался документ, какой документ был просмотрен первым и какой был просмотрен последним. Затем эти данные используются сервером поисковой системы 20 для оптимизации ранжиратора результатов поиска, как будет описано ниже.
Используемый сервером поисковой машины 20 способ предоставления результатов поиска в ответ на запрос пользователя завершается этапом 112 в случае, если пользователь 14 инициирует новый поиск, причем способ начинается снова с этапа 100 для нового поиска в случае, если к SERP не обращались в течение определенного периода времени, или если пользователь 14 закрывает пользовательский интерфейс. Также предполагается, что к завершению способа могут привести и другие действия.
На Фиг. 4 представлен способ оптимизации ранжиратора результатов поиска. Посредством оптимизации ранжиратора результатов поиска ранжирование результатов поиска таким оптимизированным ранжиратором поиска также является оптимизированным.
Способ начинается этапом 200 с копирования на обучающий сервер 22 ранжиратора результатов поиска, используемого в данный момент сервером поисковой системы 20. Предполагается, что вместо копирования ранжиратора результатов поиска, используемого в данный момент сервером поисковой системы 20, этот способ может выполняться на любом ранжираторе результатов поиска, который затем может быть сравнен с ранжиратором поиска, используемым в данный момент сервером поисковой системы 20, и если этот новый оптимизированный ранжиратор поиска предоставляет более высокий рейтинг, этот новый оптимизированный ранжиратор поиска может загружаться на сервер поисковой системы для замены ранжиратора результатов поиска, используемого в настоящее время сервером поисковой системы 20, как описывается ниже применительно к этапу 218. Последующие этапы с 202 до 218 могут выполняться обучающим сервером 22 автономно (т.е. без подключения к Интернету 16 или серверу поисковой системы 20), но подключением посредством сети передачи данных к базе данных пар 3-Д 24.
На этапе 202 обучающий сервер 22 получает от базы данных пар 3-Д 24 наборы пар 3-Д, которые в данном случае являются четырьмя наборами пар 3-Д 26, 28, 30, 32. Предполагается, что может использоваться больше или меньше, чем четыре набора пар 3-Д. Каждый набор 3-Д содержит ряд пар 3-Д. Каждая пара 3-Д имеет связанные с ней параметры предпросмотра и постпросмотра. Примеры параметров предпросмотра приводятся выше. Параметры постпросмотра соответствуют реакции пользователя 14 на список и ранжирование документов (Д) для конкретного запроса 3 пары 3-Д. Существует два типа параметров постпросмотра: параметры уровня документа и параметры уровня SERP.
Примеры параметров постпросмотра уровня документа содержат, но не являются ограничивающими: параметр клика, отображающий, был ли нажат документ; параметр просмотра документа, отображающий время просмотра документа; параметр длительного просмотра документа, отображаемый в случае, если время просмотра документа превышает заранее определенную величину; параметр последнего клика, отображаемый в случае, если документ был кликнут последним; параметр первого клика, отображаемый в случае, если документ был кликнут первым; параметр удовлетворенного клика, отображаемый в случае, если документ был кликнут в прошлом, или если время просмотра документа превышает заданную величину; параметр положения, отображающий исходное положение документа в SERP; параметр пропуска, отображаемый в случае, если документ был пропущен; параметр предыдущего пропуска, отображаемый в случае, если был пропущен другой, предшествующий данному документ; и параметр пропуска выше, отображающий количество пропущенных документов.
Все эти параметры являются двоичными, то есть они имеют значение 0 или 1, за исключением параметра просмотра, параметра положения и параметра пропуска выше. Для недвоичных параметров (т.е. просмотра, положения и пропуска выше) возможные значения этих параметров делятся на несколько уровней дискретизации, каждый из которых является двоичным.
Например, если в типовой SERP, представленной на Фиг. 3 документ 54А не выбран пользователем и документ 54В является первым документо