2640639 - Способ и система обработки поискового запроса

Способ и система обработки поискового запроса

Иллюстрации

Показать все

Изобретение относится к области компьютерной техники. Технический результат заключается в повышении качества обработки поискового запроса. Технический результат достигается за счет выбора подмножества высокоранжированных веб-ресурсов кандидатов путем применения заранее определенного параметра включения, указывающего на допустимое число веб-ресурсов кандидатов из множества веб-ресурсов кандидатов, которые будут включены в страницу результатов поиска (SERP), создание сервером SERP для отображения результатов поиска в порядке убывания релевантности, включающее в себя добавление к высокоранжированным позициям на SERP: подмножества высокоранжированных веб-ресурсов кандидатов, по меньшей мере один релевантный веб-ресурс для поискового запроса, получение сервером данных о пользовательском взаимодействии, указывающих на взаимодействие с отображаемым веб-ресурсом, представляющим собой по меньшей мере один веб-ресурс из подмножества высокоранжированных веб-ресурсов кандидатов и по меньшей мере одного релевантного веб-ресурса на SERP, сохранение сервером указания на данные о пользовательских взаимодействиях в связи с подмножеством высокоранжированных веб-ресурсов кандидатов. 2 н. и 22 з.п. ф-лы, 5 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

[1]. Настоящее техническое решение относится к способу обработки поискового запроса и серверу поисковой системы.

УРОВЕНЬ ТЕХНИКИ

[2]. Обычные поисковые системы, относящиеся к известному уровню техники, выполнены с возможностью получать поисковый запрос от вычислительного устройства пользователя и применять модель ранжирования, которая агрегирует свойства, полученные до предоставления обратной связи, которые описывают содержимое вебстраниц, и свойства, полученные из истории, на основе данных о поведении пользователя, которые хранятся в журналах запросов, чтобы определить одну или несколько веб-страниц, которые будут представлены в ответ на поисковый запрос в форме страницы результатов поиска (SERP).

[3]. Это приводит к последующему итерационному процессу взаимодействия с пользователями, которые повторно вводят конкретный запрос (даже если разные пользователи). На первом этапе, когда запрос является относительно новым для системы, поисковая система ранжирует веб-ресурсы по оценке с помощью информации о них, полученной до предоставления обратной связи. Далее, на втором этапе, система корректирует это ранжирование с помощью собранных явных данных обратной связи. В момент этой фазы стабилизации, оценки наиболее высоко ранжированных веб-ресурсов, которые получают отрицательную обратную связь от пользователей, опускаются ниже, и эти веб-ресурсы меняются с другими веб-ресурсами, которые получают высокие оценки обратной связи от пользователей. После того, как алгоритм ранжирования находит достаточное количество веб-ресурсов, которые получают в основном положительные отзывы от пользователей, ранжирование далее не изменяется по двум причинам: во-первых, алгоритм ранжирования продолжает получать только избыточные подтверждения наибольшей релевантности верхних веб-ресурсов, и, во-вторых, ни один из веб-ресурсов, в котором отсутствуют свойства, полученные из истории, не обладает оценкой выше, чем те веб-ресурсы, у которых они есть.

[4]. С учетом всего вышеописанного, информация, полученная до предоставления обратной связи, не может полностью отобразить все аспекты веб-ресурсов, которые потенциально могут влиять на степень удовлетворенности пользователя. Следовательно, несмотря на то, что некоторые веб-ресурсы, которые не обладают данными об обратной связи от пользователей, могут быть более релевантными, чем те, которые были ранжированы выше, эти веб-ресурсы почти не отображаются пользователю, который выполняет поиск.

[5]. Таким образом, неточность отображения результатов поиска может повысить необходимость проведения повторного поиска для пользователя, в результате чего будет увеличиваться расход энергии и расход трафика.

[6]. Патентная заявка US 2011/0196733 (Ли и др., 11 августа 2011 г.) описывает систему, которая разделяет ранжированную группу онлайн сообщений на первый список, второй список и набор продвижения. Каждое сообщение в первом списке обладает оценкой производительности, которая выше, чем каждая из оценок производительности сообщений во втором списке и наборе продвижения. Система перемещает сообщение из набора продвижения в третий список как функцию доверительного значения, и перемещает сообщение из одного из третьего или второго списка в первый список на основе исхода экспериментального события. Система передает верхние сообщения в первом списке через сеть для отображения на компьютере получателя (абстрактном).

[7]. Патентная заявка US 2014/0280548 (Ланглуа и др., 18 сентября 2014 г.) описывает способ и систему для изучения списка интересов пользователя вне границ текущих известных интересов пользователя путем определения метрик расстояния в пространстве интересов. Новый способ, система и системная цель для изучения элементов интереса, которые близки к текущему набору интересов пользователя, что значительно улучшает шанс того, что один из элементов изучения понравится пользователю.

[8]. Патентная заявка WO 2013189261 (Иоаннидис и др., 27 декабря 2013 г.) описывает способ выбора, который максимизирует ожидаемый выигрыш при сборе выигрыша в контексте многорукого бандита от случайно выбранных элементов в базе данных элементов, где элементы соответствуют рукам многорукого бандита. Изначально, элемент выбирается случайным образом и передается пользовательскому устройству, которое генерирует выигрыш. Элементы и поступающие награды записываются. Далее, пользовательским устройством создается контекст, который инициирует систему обучения и выбора вычислять оценку для каждой руки в конкретном контексте, и оценка вычисляется с использованием записанных элементов и полученных выигрышей. С помощью оценки, элемент из базы данных выбирается и передается пользовательскому устройству. Выбранный элемент выбирается для максимизации вероятности выигрыша от пользовательского устройства.

[9]. Патент US 7707131 (Чикеринг и др., 5 октября 2016 г.) описывает системы и способ для онлайн обучения с подкреплением. Конкретнее, предлагается способ выполнения поиска баланса между экспериментированием и эксплуатированием. Несмотря на то, что способ является эвристическим, он может быть применен, в соответствии с установленными принципами, в момент одновременного изучения параметров и/или структуры модели (например, Байесовкой сетевой модели).

[10]. Патентная заявка US 2011/0264639 (Сливкинс и др., 27 октября 2011 г.) описывает селектор документов, который выбирает и ранжирует документы, которые релевантны запросу. Селектор документов выполняет один алгоритм многорукого бандита для выбора документа для каждого раздела страницы результатов в соответствии с одной или несколькими стратегиями. Документы выбираются в порядке, который определяется страницей результатов, и документы, которые были выбраны для предыдущих разделов, используются для направления выбора документа в текущем разделе. Если документ в разделе выбирается последовательно, стратегия, которая используется для выбора документа, получает положительную обратную связь. Когда неопределенность в оценке полезности стратегии ниже, чем вариация между документами, связанными со стратегией, стратегия разделяется на несколько под-стратегий. Селектор документов способен «концентрироваться» на эффективных стратегиях и предоставлять более релевантные результаты поиска.

[11]. Патентная заявка US 2012/0016642 (Ли и др., 19 января 2012 г.) описывает способы и устройства для выполнения исполнимых на компьютере персонализированных рекомендаций. Может быть получена пользовательская информация, касающаяся множества свойств множества пользователей. Дополнительно, может быть получена информация об элементе, касающаяся множества свойств множества элементов. Множество наборов коэффициентов линейной модели может быть получено на основе, по меньшей мере частично, информации пользователя и/или информации элементов, таким образом, что каждый из множества наборов коэффициентов соответствует различным элементам из множества элементов, причем каждый из множества наоборот коэффициентов включает в себя множество коэффициентов, каждое из множества коэффициентов соответствует одному из множества свойств. Дополнительно, по меньшей мере один из множества коэффициентов может быть общим среди множества наборов коэффициентов для множества коэффициентов. Каждая из множества оценок для пользователя может быть вычислена с помощью линейной модели на основе, по меньшей мере частично, соответствующего набора из множества наборов коэффициентов, связанного с соответствующим элементом из множества элементов, причем каждая из множества оценок указывает на уровень интереса к соответствующему элементу среди множества элементов. Может быть установлено множество доверительных интервалов, каждый из множества доверительных интервалов указывает на диапазон, представляющий доверительный уровень в соответствующей оценке из множества оценок, связанных с соответствующим элементом из множества элементов. Один из множества элементов, для которых сумма соответствующей оценки из множества оценок и соответствующего интервала из множества доверительных интервалов является наивысшей, может быть рекомендован.

[12]. Патент US 8001001 (Брэйдиидр., 16 августа 2011 г.) описывает улучшенную систему и способ для использования отбора проб с целью обнаружения расположений вебстраниц в онлайн публикации содержимого. Движок многорукого бандита может предоставляться для отбора проб элементов содержимого путем обнаружения расположений веб-страниц различного качества для элементов содержимого и оптимизации выигрыша в целях максимальной прибыли. Поставщики могут предоставлять элементы содержимого, которые будут опубликованы, и выводить оценки по клику. Благодаря процессу оценки, отношение количества щелчков мышью к количеству показов для элементов содержимого и значения элементов содержимого может быть извлечено путем отбора проб. По мере продолжения процесса изучения оценки, настоящее техническое решение может сильнее приближаться к отношению количества щелчков мышью к количеству показов для элементов содержимого для того чтобы обнаружить расположения веб-страниц для элементов содержимого, которые могут оптимизировать макет содержимого путем максимизации дохода. Настоящее техническое решение может вычислять отношение количества щелчков мышью к количеству показов для новых элементов содержимого и поддерживать множество расположений веб-страниц различного качества.

[13]. Патент US 8923621 (Слэни и др., 30 декабря 2014 г.) описывает программное обеспечение для инициализированного эксперимента-эксплуатации, которое создает множество распределений вероятности. Каждое из этих распределений вероятности создается путем ввода численного описания одного или нескольких свойств, связанных с изображением, в регрессионную модель, которая выводит распределение вероятности для измерения привлекательности изображения. Каждое из изображений концептуально связано с другими изображениями. Программное обеспечение использует множество распределений вероятности для инициализации модели многорукого бандита, которая выводит схему выдачи для каждого из изображений. Далее программное обеспечение выдает множество изображений на веб-странице, которая отображает результаты поиска, на основе, по меньшей мере частично, схемы подачи.

[14]. Патентная заявка US 2009/0043597 (Агарвал и др., 12 февраля 2009 г.) описывает улучшенную систему и способ сопоставления объектов с помощью кластерно-зависимого многорукого бандита. Сопоставление может выполняться с помощью многорукого бандита, руки которого могут быть зависимыми. В данном варианте осуществления технического решения, может быть получен набор объектов разделяется на сегменты во множество кластеров зависимых объектов, и далее двухэтапная политика может применяться к многорукому бандиту с помощью, сначала, просмотра кластеров рук с целью выбора кластера и, далее, с помощью выбора конкретной руки внутри выбранного кластера. Многорукий бандит может использовать зависимости между руками для эффективной поддержки эксперимента с большим числом рук. Различные варианты осуществления технического решения могут включать в себя варианты политики для дисконтированных выигрышей и для недисконтированных выигрышей. В этих политиках каждый кластер может рассматриваться по отдельности в момент обработки и, следовательно, может значительно уменьшать размер большого пространства состояний для поиска решения.

[15]. Патентная заявка US 2010/0250523 (Джин и др., 30 сентября 2010 г.) описывает улучшенную систему и способ изучения модели ранжирования, которая оптимизирует метрики оценки ранжирования для ранжирования результатов поиска по поисковому запросу. Оптимизированная модель ранжирования нормализованного дисконтированного совокупного выигрыша (NDCG), которая оптимизирует приближение средней метрики оценки ранжирования NDCG, может быть создана с помощью обучающих данных с помощью итерационного способа форсирования для извлечения более точно ранжированного списка результатов поиска по запросу. Комбинация слабых классификаторов ранжирования может быть итерационно определена, что позволит оптимизировать приближение средней метрики оценки ранжирования NDCG для обучающих данных путем обучения слабого классификатора ранжирования на каждой итерации для каждого документа в обучающих данных с вычисленным весовым коэффициентом, и назначить метку класса, и затем обновить оптимизированную модель ранжирования NDCG путем добавления слабого классификатора ранжирования с комбинированным весовым коэффициентом к оптимизированной модели NDCG.

[16]. Патент US 8473486 (Хи и др., 25 января 2013 г.) описывает контролируемый способ, который использует актуальность суждений для обучения парсера зависимости таким образом, чтобы он аппроксиматично оптимизировал NDCG при извлечении информации. Взвешенное дерево дистанции изменения между синтаксическим деревом для запроса и синтаксическим деревом для документа добавляется к функции ранжирования, причем весовые коэффициенты дистанции изменения являются параметрами для парсера. Использование параметров в функции ранжирования позволяет аппроксимировать оптимизацию параметров парсера для NDCG путем добавления некоторых ограничений к целевой функции.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

[17]. Задачей предлагаемого технического решения является устранение по меньшей мере некоторых недостатков, присущих известному уровню техники.

[18]. Настоящее описание основано на предположении разработчиков о том, что используемые в настоящем уровне техники взаимодействия система-пользователь могут не позволить найти характеристики, основанные на пользовательском взаимодействии, которые необходимы для адекватного ранжирования веб-ресурсов, в которых недостаточно свойств, полученных из истории, поскольку эти низкоранговые веб-ресурсы с меньшей вероятностью будут помещены на страницу результатов поиска и, следовательно, обладают более низким потенциалом получения обратной связи на основе пользовательского взаимодействия. Следовательно, возможно использовать другие механизмы для помещения более низкоранговых веб-ресурсов на более высокие позиции для привлечения к ним пользовательских отзывов. Таким образом, поставщик поисковой системы может потенциально ухудшить выполнение запроса на короткий период времени, принимая на себя риск при показывании некоторых менее релевантных веб-ресурсов на верхних позициях, но при этом улучшить его в долговременной перспективе, предоставляя шанс получить обратную связь от пользователей (и, следовательно, улучшить их оценку) для потенциально более релевантных веб-ресурсов.

[19]. Разработчиками разработаны варианты осуществления технического решения для принятого «Алгоритма Бандита». В общем случае, в соответствии с алгоритмом бандита, существует две различных стратегии ранжирования: стратегия эксплуатации, нацеленная на каждом шагу на максимизирование выполнения ранжирования в отношении конкретного запроса, и стратегия экспериментирования, которая позволяет собирать больше обратной связи от пользователей на более низкоранговых веб-ресурсах, пусть и с ухудшением выполнения ранжирования в отношении некоторых запросов. Поэтому особенно важно достичь оптимального баланса между двумя этими стратегиями, который бы максимизировал совокупное качество серии последовательных запросов. В данном техническом решении эта проблема также называется проблемой онлайн-обучения ранжированию с балансом между экспериментированием и эксплуатированием (OLREE). Что является частным случаем задачи поиска баланса между экспериментированием и эксплуатированием, которая сформулирована в отношении стохастической задачи многорукого бандита (SMAB).

[20]. Одним объектом настоящего технического решения является способ обработки поискового запроса, способ выполняется сервером поисковой системы, который соединен с базой данных просмотренных поисковым роботом ресурсов и с сетью передачи. Способ включает в себя получение сервером поисковой системы поискового запроса от электронного устройства, связанного с пользователем; выбор алгоритмом ранжирования сервера поисковой системы по меньшей мере одного релевантного веб-ресурса для поискового запроса, причем по меньшей мере один релевантный веб-ресурс обладает по меньшей мере одним свойством, полученным заранее из истории, которое может быть использовано алгоритмом ранжирования для ранжирования по меньшей мере одного релевантного веб-ресурса для включения его на страницу результатов поиска (SERP); получение из базы данных просмотренных поисковым роботом ресурсов множества веб-ресурсов кандидатов, каждый из множества веб-ресурсов кандидатов не обладает свойством, полученным заранее из истории, которое может быть использовано алгоритмом ранжирования; применение первого машинно-обученного алгоритма для определения, для каждого из веб-ресурсов во множестве веб-ресурсов кандидатов, параметра предсказанной релевантности, параметр предсказанной релевантности основан, по меньшей мере частично, на соответствующих присущих веб-ресурсу данных, параметр предсказанной релевантности указывает на предсказанную релевантность соответствующего веб-ресурса для поискового запроса; применение второго машинно-обученного алгоритма для определения для каждого из множества веб-ресурсов кандидатов оценки эксперимента на основе, по меньшей мере частично, соответствующего параметра предсказанной релевантности, и ввод определенной оценки эксперимента множества веб-ресурсов кандидатов в алгоритм ранжирования на основе «многорукого бандита» для: ранжирования множества веб-ресурсов кандидатов; выбора подмножества высокоранжированных веб-ресурсов кандидатов путем применения заранее определенного параметра включения, указывающего на допустимое число веб-ресурсов кандидатов из множества веб-ресурсов кандидатов, которые будут включены в SERP; создание SERP для отображения результатов поиска в порядке убывания релевантности, создание включает в себя добавление к высокоранжированным позициям на SERP: подмножества высокоранжированных веб-ресурсов из множества веб-ресурсов кандидатов; по меньшей мере одного веб-ресурса, релевантного для поискового запроса; получение данных о пользовательском взаимодействии, которые указывают на пользовательское взаимодействие с отображаемым веб-ресурсом на SERP, отображаемый веб-ресурс представляет собой один из по меньшей мере одного веб-ресурса из подмножества высокоранжированных веб-ресурсов из множества веб-ресурсов кандидатов и по меньшей мере одного релевантного веб-ресурса; и сохранение указания на данные о пользовательских взаимодействиях в связи с подмножеством высокоранжированных веб-ресурсов из множества веб-ресурсов кандидатов.

[21]. В некоторых вариантах осуществления способа первый машинно-обученный алгоритм включает в себя: третий машинно-обученный алгоритм и четвертый машинно-обученный алгоритм; третий машинно-обученный алгоритм для определения вероятности выигрыша; четвертый машинно-обученный алгоритм для доверительного параметра выигрыша, причем вероятность выигрыша и доверительный параметр определяют параметр предсказанной релевантности.

[22]. В некоторых вариантах осуществления способа третий машинно-обученный алгоритм представляет собой алгоритм градиентного бустинга деревьев решений.

[23]. В некоторых вариантах осуществления способа третий машинно-обученный алгоритм выполнен с возможностью анализировать присущие веб-ресурсу данные для извлечения присущих веб-ресурсу свойств и использовать присущие веб-ресурсу кандидату свойства как вводные свойства.

[24]. В некоторых вариантах осуществления способа четвертый машинно-обученный алгоритм выполнен с возможностью получать, по меньшей мере, результаты предсказаний третьего машинно-обученного алгоритма в виде вводных свойств для предсказания абсолютной ошибки третьего машинно-обученного алгоритма.

[25]. В некоторых вариантах осуществления способа вероятность выигрыша преобразуется в среднюю вероятность выигрыша.

[26]. В некоторых вариантах осуществления способа преобразование осуществляется с помощью изотонической регрессии с разрывом связей.

[27]. В некоторых вариантах осуществления способа второй машинно-обученный алгоритм выполнен с возможностью получать в виде вводных свойств, по меньшей мере: среднюю вероятность выигрыша и доверительный параметр вероятности выигрыша.

[28]. В некоторых вариантах осуществления способа конкретный веб-ресурс кандидат из набора веб-ресурсов кандидатов, не обладающий свойствами, полученными из истории, которые могут быть использованы алгоритмом ранжирования по умолчанию, включает в себя минимальный набор свойств, полученных из истории, который не достаточен для использования алгоритмом ранжирования, и определение параметра предсказанной релевантности для конкретного веб-ресурса кандидата из набора веб-ресурсов кандидатов включает в себя определение второй вероятности выигрыша, которая основывается по меньшей мере на одном из числа предыдущих отображений конкретного веб-ресурса кандидата из набора веб-ресурсов кандидатов на предыдущей странице результатов поиска (SERP), числа кликов на конкретный веб-ресурс кандидат из набора веб-ресурсов кандидатов на предыдущей SERP, и параметра апостериорной плотности распределения вероятностей.

[29]. В некоторых вариантах осуществления способа данные, которые указывают на пользовательское взаимодействие с отображенным веб-ресурсом на SERP, включают в себя местоположение выбранного отображаемого веб-ресурса.

[30]. В некоторых вариантах осуществления способа сохранение указания на данные о пользовательском взаимодействии в связи с подмножеством высокоранжированных веб-ресурсов кандидатов включает в себя сохранение указания на данные о пользовательском взаимодействии с данным веб-ресурсом кандидатом, причем сохранение дополнительно включает в себя анализ данных о взаимодействии с помощью модели зависимых кликов (DCM), если данный веб-ресурс кандидат расположен на ранжированной позиции на SERP, которая совпадает или превышает позицию выбранного отображаемого веб-ресурса.

[31]. В некоторых вариантах осуществления способа сохранение указания на данные о пользовательском взаимодействии в связи с подмножеством высокоранжированных веб-ресурсов кандидатов включает в себя сохранение указания на данные о пользовательском взаимодействии с данным веб-ресурсом кандидатом, причем сохранение дополнительно включает в себя использование алгоритма максимизации на основе эксперимента (ЕМ), или Байесовского вывода, если данный веб-ресурс кандидат расположен на ранжированной позиции на SERP, которая ниже позиции выбранного отображаемого веб-ресурса.

[32]. Другим объектом настоящего технического решения является сервер поисковой системы, соединенный с базой данных просмотренных поисковым роботом веб-ресурсов и сетью передачи данных. Сервер поисковой системы включает в себя интерфейс связи, выполненный с возможностью устанавливать соединение между сервером поисковой системы и сетью передачи данных; по меньшей мере один компьютерный процессор, функционально соединенный с интерфейсом связи, который выполнен с возможностью осуществлять: получение, сервером поисковой системы, поискового запроса от электронного устройства, связанного с пользователем; выбор алгоритмом ранжирования сервера поисковой системы по меньшей мере одного релевантного веб-ресурса для поискового запроса, причем по меньшей мере один релевантный веб-ресурс обладает по меньшей мере одним свойством, полученным заранее из истории, которое может быть использовано алгоритмом ранжирования для ранжирования по меньшей мере одного релевантного веб-ресурса для включения его на страницу результатов поиска (SERP); получение из базы данных просмотренных поисковым роботом ресурсов множества веб-ресурсов кандидатов, каждый из множества веб-ресурсов кандидатов не обладает свойством, полученным заранее из истории, которое может быть использовано алгоритмом ранжирования; применение первого машинно-обученного алгоритма для определения для каждого из веб-ресурсов кандидатов во множестве веб-ресурсов кандидатов параметра предсказанной релевантности, причем параметр предсказанной релевантности основан, по меньшей мере частично, на соответствующих присущих веб-ресурсу данных, параметр предсказанной релевантности указывает на предсказанную релевантность соответствующего веб-ресурса для поискового запроса; применение второго машинно-обученного алгоритма для определения для каждого из множества веб-ресурсов кандидатов оценки эксперимента на основе, по меньшей мере частично, соответствующего параметра предсказанной релевантности, и ввод определенной оценки эксперимента множества веб-ресурсов кандидатов в алгоритм ранжирования на основе «многорукого бандита» для: ранжирования множества веб-ресурсов кандидатов; выбора подмножества высокоранжированных веб-ресурсов кандидатов путем применения заранее определенного параметра включения, указывающего на допустимое число веб-ресурсов кандидатов из множества веб-ресурсов кандидатов, которые будут включены в SERP; создание SERP для отображения результатов поиска в порядке убывания релевантности, создание включает в себя добавление к высокоранжированным позициям на SERP: подмножества высокоранжированных веб-ресурсов кандидатов; по меньшей мере одного веб-ресурса, релевантного для поискового запроса; получение данных о пользовательском взаимодействии, которые указывают на пользовательское взаимодействие с отображаемым веб-ресурсом на SERP, отображаемый веб-ресурс представляет собой один из по меньшей мере одного веб-ресурса из подмножества высокоранжированных веб-ресурсов кандидатов и по меньшей мере одного релевантного веб-ресурса; и сохранение указания на данные о пользовательских взаимодействиях в связи с подмножеством высокоранжированных веб-ресурсов кандидатов.

[33]. В некоторых вариантах осуществления сервера первый машинно-обученный алгоритм включает в себя: третий машинно-обученный алгоритм и четвертый машинно-обученный алгоритм: третий машинно-обученный алгоритм для определения вероятности выигрыша; четвертый машинно-обученный алгоритм - доверительный параметр выигрыша, где вероятность выигрыша и доверительный параметр определяют параметр предсказанной релевантности.

[34]. В некоторых вариантах осуществления сервера третий машинно-обученный алгоритм представляет собой алгоритм градиентного бустинга деревьев решений.

[35]. В некоторых вариантах осуществления сервера третий машинно-обученный алгоритм выполнен с возможностью анализировать присущие веб-ресурсу данные для извлечения присущих веб-ресурсу свойств и использовать присущие веб-ресурсу кандидату свойства как вводные свойства.

[36]. В некоторых вариантах осуществления сервера четвертый машинно-обученный алгоритм выполнен с возможностью получать, по меньшей мере, результаты предсказаний третьего машинно-обученного алгоритма в виде вводных свойств для предсказания абсолютной ошибки третьего машинно-обученного алгоритма.

[37]. В некоторых вариантах осуществления сервера процессор дополнительно выполнен с возможностью осуществлять преобразование вероятности выигрыша в среднюю вероятность выигрыша.

[38]. В некоторых вариантах осуществления сервера преобразование осуществляется с помощью изотонической регрессии с разрывом связей.

[39]. В некоторых вариантах осуществления сервера второй машинно-обученный алгоритм выполнен с возможностью получать в качестве вводных свойств, по меньшей мере: среднюю вероятность выигрыша; и доверительный параметр вероятности выигрыша.

[40]. В некоторых вариантах осуществления сервера конкретный веб-ресурс кандидат из набора веб-ресурсов кандидатов, не обладающий свойствами, полученными из истории, которые могут быть использованы алгоритмом ранжирования по умолчанию, включает в себя минимальный набор свойств, полученных из истории, который не достаточен для использования алгоритмом ранжирования, причем определение параметра предсказанной релевантности для конкретного веб-ресурса кандидата из набора веб-ресурсов кандидатов включает в себя определение второй вероятности выигрыша, которая основывается по меньшей мере на одном из числа предыдущих отображений конкретного веб-ресурса кандидата из набора веб-ресурсов кандидатов на предыдущей странице результатов поиска (SERP), числа кликов на конкретный веб-ресурс кандидат из набора веб-ресурсов кандидатов на предыдущей SERP, и параметра последующей плотности распределения вероятностей.

[41]. В некоторых вариантах осуществления сервера данные, которые указывают на пользовательское взаимодействие с отображенным веб-ресурсом на SERP, включают в себя местоположение выбранного отображаемого веб-ресурса.

[42]. В некоторых вариантах осуществления сервера сохранение указания на данные о пользовательском взаимодействии в связи с подмножеством высокоранжированных веб-ресурсов кандидатов включает в себя сохранение указания на данные о пользовательском взаимодействии с данным веб-ресурсом кандидатом, причем сохранение дополнительно включает в себя анализ данных о взаимодействии с помощью модели зависимых кликов (DCM), если данный веб-ресурс кандидат расположен на ранжированной позиции на SERP, которая совпадает или превышает позицию выбранного отображаемого веб-ресурса.

[43]. В некоторых вариантах осуществления сервера сохранение указания на данные о пользовательском взаимодействии в связи с подмножеством высокоранжированных веб-ресурсов кандидатов включает в себя сохранение указания на данные о пользовательском взаимодействии с данным веб-ресурсом кандидатом, причем сохранение дополнительно включает в себя использование алгоритма максимизации на основе эксперимента (ЕМ), или Байесовского вывода, если данный веб-ресурс кандидат расположен на ранжированной позиции на SERP, которая ниже позиции выбранного отображаемого веб-ресурса.

[44]. В контексте настоящего описания «сервер» подразумевает под собой компьютерную программу, работающую на соответствующем оборудовании, которая способна получать запросы (например, от клиентских устройств) по сети и выполнять эти запросы или инициировать выполнение этих запросов. Оборудование может представлять собой один физический компьютер или одну физическую компьютерную систему, но ни то, ни другое не является обязательным для данного технического решения. В контексте настоящего технического решения использование выражения «сервер» не означает, что каждая задача (например, полученные команды или запросы) или какая-либо конкретная задача будет получена, выполнена или инициирована к выполнению одним и тем же сервером (то есть одним и тем же программным обеспечением и/или аппаратным обеспечением); это означает, что любое количество элементов программного обеспечения или аппаратных устройств может быть вовлечено в прием/передачу, выполнение или инициирование выполнения любого запроса или последствия любого запроса, связанного с клиентским устройством, и все это программное и аппаратное обеспечение может быть одним сервером или несколькими серверами, оба варианта включены в выражение «по меньшей мере один сервер».

[45]. В контексте настоящего описания, если конкретно не указано иное, слова «первый», «второй», «третий» и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не для целей описания какой-либо конкретной передачи данных между этими существительными. Так, например, следует иметь в виду, что использование терминов "первый сервер" и "третий сервер " не подразумевает какого-либо порядка, отнесения к определенному типу, хронологии, иерархии или ранжирования (например) серверов/между серверами, равно как и их использование (само по себе) не предполагает, что некий "второй сервер" обязательно должен существовать в той или иной ситуации. В дальнейшем, как указано здесь в других контекстах, упоминание "первого" элемента и "второго" элемента не исключает возможности того, что это один и тот же фактический реальный элемент. Так, например, в некоторых случаях, "первый" сервер и "второй" сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться разным программным и/или аппаратным обеспечением.

[46]. В контексте настоящего описания, если конкретно не указано иное, термин «база данных» подразумевает под собой любой структурированный набор данных, не зависящий от конкретной структуры, программного обеспечения по управлению базой данных, аппаратного обеспечения компьютера, на котором данные хранятся, используются или иным образом оказываются доступны для использования. База данных может находиться на том же оборудовании, выполняющем процесс, который сохраняет или использует информацию, хранящуюся в базе данных, или же она может находиться на отдельном оборудовании, например, выделенном сервере или множестве серверов. Технический результат заключается в снижении необходимости проведения повторного поиска для пользователя, в результате чего будет снижаться расход энергии и трафика.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[47]. Для лучшего понимания настоящего технического решения, а также других его аспектов и характерных черт сделана ссылка на следующее описание, которое должно использоваться в сочетании с прилагаемыми чертежами, где:

[48]. На Фиг. 1 представлено схематическое изображение системы, соответствующей неограничивающим вариантам осуществления настоящего технического решения.

[49]. На Фиг. 2 представлено схематичное изображение архитектуры сервера поисковой системы, выполненной в соответствии с некоторыми неограничивающими вариантами осуществления настоящего технического решения.

[50]. На Фиг. 3 представлено схематическое изображение архитектуры модуля экспериментального ранжирования сервиса поисковой системы, показанной на Фиг. 1, модуль экспериментального ранжирования реализован в соответствии с некоторым неограничивающим вариантом осуществления настоящего технического решения.

[51]. На Фиг. 4 представлено схематическое изображение примера поисковых логов, соответствующих некоторому неограничивающему варианту осуществления настоящего технического решения, поисковые логи доступны серверу поисковой системы или формируют часть сервера поисковой системы, который показан на Фиг. 2.

[52]. На Фиг. 5 представлена блок-схема примерного способа обработки поискового запроса.

[53]. В конце настоящего описания предусмотрено приложение. Приложение включает в себя копию опубликованной статьи, озаглавленной «Сбор дополнительных параметров обратной связи в отношении поисковых результатов с помощью алгоритма многорукого бандита в контексте ранжирования» (обозначена как 34055-529 Приложение А), и копию опубликованной статьи «Улучшение качества поиска с помощью алгоритма бандита» (обозначена как 34055-529 Приложение В). Эти статьи предоставляют дополнительную информацию об известном уровне техники, описание вариантов осуществления настоящего технического решения, а также примеры. Эти статьи представляют собой часть приложения в виде файлов. Эти статьи включены здесь в полном объеме посредством ссылки для всех юрисдикции, допускающих включение в описание сведений посредством ссылки.

ОСУЩЕСТВЛЕНИЕ

[54]. На Фиг. 1 представлена принципиальная схема системы 100, выполненной в соответствии с вариантами осуществления настоящего технического решения, не ограничивающими ее объем. Важно иметь в виду, что нижеследующее описание системы 100 представляет собой описание иллюстративных вариантов осуществления настоящего технического решения. Таким образом, все последующее описание представлено только как описание иллюстративного примера настоящего технического решения. Это описание не предназначено для определения объема или установл

Способ и система обработки поискового запроса

Патент 2640639