2632143 - Способ обучения модуля ранжирования с использованием обучающей выборки с зашумленными ярлыками

Способ обучения модуля ранжирования с использованием обучающей выборки с зашумленными ярлыками

Иллюстрации

Показать все

Изобретение относится к области компьютерных технологий. Технический результат заключается в оптимизации качества ранжирования. Технический результат достигается за счет извлечения обучающей выборки, включающей в себя множество обучающих объектов, причем каждому обучающему объекту в обучающей выборке назначен ярлык, и каждый обучающий объект связан с вектором характеристик объекта, определения весового параметра для каждого обучающего объекта, причем весовой параметр указывает на качество ярлыка, которое представляет собой уровень достоверности назначения ярлыка обучающему объекту, определения параметра релевантности, выполненное на основе переназначения сервером параметра релевантности, относительно других ярлыков в обучающей выборке, обучения средства ранжирования с использованием множества обучающих объектов из обучающей выборки, определенного параметра релевантности для каждого обучающего объекта из множества обучающих объектов обучающей выборки и определенного весового параметра для каждого объекта из множества обучающих объектов обучающей выборки, ранжировать новый документ. 2 н. и 15 з.п. ф-лы, 4 ил.

Реферат

ОБЛАСТЬ ТЕХНИКИ

[001] Настоящее техническое решение относится к способам и системам обучения модуля ранжирования в общем и, более конкретно, к способу и системе обучения модуля ранжирования с использованием обучающей выборки с зашумленными ярлыками.

УРОВЕНЬ ТЕХНИКИ

[002] С повышающимся количеством данных, хранящихся на различных серверах, задача эффективного поиска становится еще более важной. Например, в Интернете есть миллионы доступных ресурсов, и целью нескольких поисковых систем (например, GOOGLE™, YAHOO!™, YANDEX™, BAIDU™ и им подобных) является предоставление пользователям удобного инструмента для обнаружения релевантной информации, которая отвечает на пользовательский поисковой запрос.

[003] Типичный сервер поисковой системы выполняет функцию сбора данных (кроулинг, от англ. crawling). Более конкретно, поисковая система исполняет программу-робот, которая «посещает» различные ресурсы, доступные в Интернете, и индексирует их содержимое. Конкретные алгоритмы и режим программ-роботов для сбора данных разнятся, но, в общем, главной целью процесса сбора данных является (i) идентификация конкретного ресурса в Интернете, (ii) идентификация ключевых тем, связанных с конкретным ресурсом (темы представлены ключевыми словами и тому подобное), (iii) индексирование ключевых тем с конкретным ресурсом.

[004] После того, как поисковой системой получен поисковый запрос, поисковая система идентифицирует все посещенные ресурсы, которые потенциально относятся к поисковому запросу пользователя. Поисковая система затем исполняет поисковой ранкер для ранжирования таким образом идентифицированных потенциально релевантных ресурсов. Основная цель поискового ранкера - организация идентифицированных результатов поиска с помощью размещения потенциально наиболее релевантных результатов поиска сверху списка результатов поиска. Поисковые ранкеры реализованы по-разному, некоторые из них применяют алгоритмы машинного обучения (Machine Learning Algorithms, MLAs) для ранжирования поисковых результатов.

[005] Типичный MLA, используемый поисковыми ранкерами, обучен с использованием обучающих выборок пар «запрос-документ», где каждая пара «запрос-документ» связана с параметром релевантности. Данная пара «запрос-документ» включает в себя обучающий поисковый запрос и данный документ (например, веб-ресурс) потенциально релевантный обучающему поисковому запросу (или отвечающий на него). Ярлык релевантности указывает на то, как точно данный документ показывает поисковое намерение обучающего поискового запроса (т.е. насколько содержимое данного документа отвечает на обучающий поисковый запрос или, другими словами, с какой вероятностью содержимое данного документа удовлетворит поисковое намерение пользователя, связанное с обучающим поисковым запросом).

[006] Обычно обучающие выборки оцениваются «экспертами», которые назначают ярлыки релевантности парам «запрос-документ», с использованием оценки человеком. Эксперты обучаются назначать ярлыки паре «запрос-документ» для обеспечения единообразия ярлыков среди различных экспертов. Экспертам представляются очень строгие указания о том, как назначать значения ярлыков данной паре «запрос-документ» (например, подробное описание каждого ярлыка, о том, что представляет собой высокорелевантный документ, что представляет собой документ с низкой релевантностью, и так далее).

[007] Несмотря на тщательный контроль присвоения ярлыков парам «запрос-документ», ярлыки, назначенные профессиональными экспертами, могут быть «зашумлены» - в том смысле, что ярлыки, назначенные данной паре «запрос-документ» различными экспертами, могут существенно различаться. Некоторые эксперты очень консервативны в оценках (т.е. они назначают высокие показатели только очень релевантным документам), а другие эксперты могут быть более «гибкими» в оценках.

[008] Недавно стали набирать популярность в обучении поисковых ранкеров обучающие краудсорсинговые (от англ. "crowd-sourced") выборки, которые, как считается, предоставляют быструю и малозатратную альтернативу обучающим выборкам, которым ярлыки присвоены вручную профессиональными экспертами. Однако, параметры релевантности, полученные с помощью краудсорсинга (краусорсинговые ярлыки) могут быть «зашумлены» из-за различных факторов, например, различиях в качестве работы краудсорсера, неточности инструкций для задачи присвоения ярлыков, предоставленной участнику краудсорсинга и так далее.

[009] Вне зависимости от типа шума, шум при присвоении ярлыков выборке может повлиять на качество ранжирования поискового ранкера. Для того, чтобы бороться с шумом в обучающих выборках (а именно, без введения ограничений, в краудсорсинговых обучающих выборках), вместе с краудсорсинговыми обучающими выборками для обучения алгоритмов ранжирования применяются различные модели консенсуса для краудсорсинга.

РАСКРЫТИЕ

[0010] Задачей предлагаемого изобретения является устранение по меньшей мере некоторых недостатков, присущих известному уровню техники.

[0011] Варианты осуществления настоящего технического решения были разработаны с учетом изобретательского понимания по меньшей мере одной проблемы, связанной с известным уровнем техники. Разработчики определили, в результате чего профессионально назначенные ярлыки могут быть зашумленными, причем уровень шума в краудсорсинговых обучающих выборках больше, чем в обучающих выборках с профессионально назначенными ярлыками.

[0012] Без желания ограничиваться какой-либо конкретной теорией, разработчики настоящего технического решения считают, что краудсорсинговые обучающие выборки могут обладать повышенным уровнем шума по меньшей мере из-за следующего (без введения ограничений): (1) участникам краудсорсинга обычно не предоставляют подробные инструкции, подобные тем, которые составляются для профессиональных экспертов, поскольку считается, что большинство участников краудсорсинга либо откажется следовать более сложным указаниям, либо не сможет им следовать; (2) частично из-за этого оценки отдельных участников краудсорсинга сильно отличаются по качеству; (3) большое число участников краудсорсинга - спамеры, отвечают случайным образом или используют простые качественные агностические эвристики.

[0013] Разработчики также считают, что традиционные подходы к снижению шума в обучающей выборке с ярлыками могут быть неэффективными для краудсорсинговых обучающих выборок с ярлыками. Например, общие подходы к снижению шума включают в себя техники чистки и взвешивания. Техники чистки шума аналогичны «обнаружению выбросов», это отфильтровывание образцов, которые по какой-то причине выглядят как «похожие» на отмеченные неправильным ярлыком. При применении подхода взвешивания ни один из образцов полностью не отбрасывается, в то время как их влияние на алгоритм машинного обучения контролируется по весам, представляя достоверность конкретного ярлыка.

[0014] Устраивая процесс краудсорсингового присвоения ярлыков, можно модифицировать процесс присвоения ярлыков для того, чтобы собрать доказательства того, что каждый ярлык верен. А именно, наблюдатели за участниками краудсорсинга обычно: (1) предоставляют упрощенные инструкции по присвоению ярлыков, гораздо проще, чем в случае профессиональных экспертов (например, по шкале от 1 до 2, а не по шкале от 1 до 5); (2) размещают проверочные задачи, т.е. задачи с известным истинным ярлыком; (3) назначают каждую задачу множеству работников для оценки и агрегирования их ответов.

[0015] Наличие проверочных задач и множества ярлыков для каждой пары «запрос-документ» в выборке позволяет использовать определенные модели консенсуса для краудсорсинга. Эти модели обобщают единственный консенсусный ярлык для каждой задачи, предоставляя более точные ярлыки, чем те, что созданы индивидуальными участниками краудсорсинга. Консенсусные модели делают дополнительные заключения о распределении ошибок среди ярлыков и краудсорсинговых участников (экспертов), и получают определенные показатели, которые оценивают вероятность точности ярлыков. Самый простой пример консенсусных моделей - это «голосование большинством голосов» и «средняя оценка», которые назначают наиболее частые/средние показатели каждой паре «запрос-документ».

[0016] Хотя краудсорсинговые консенсусные модели могут использоваться для чистки обучения с ранжированием баз данных с помощью замещения краудсорсинговых ярлыков консенсусными ярлыками или с помощью отбрасывания конкретных краудсорсинговых ярлыков с низкой достоверностью качества, разработчики настоящего технического решения считают, что такой подход обладает определенными недостатками. Поскольку целью консенсусной модели является точность ярлыков на выходе и оптимизация точности ярлыков, нет необходимости в оптимизации качества ранкера, обученного на выборке, «почищенной» консенсусной моделью. Определенные эксперименты, проведенные разработчиками, дали основания полагать, что непосредственное использование консенсусных ярлыков при обучении алгоритма ранжирования приводит к суб-оптимальным ранкерам.

[0017] Существует и другой аспект, обычно не покрываемый существующими консенсусными моделями. Часто инструкции эксперта упрощены (например, 5-балльная шкала сводится к 2-балльной), чтобы можно было легче привлекать непрофессиональных экспертов с краудсорсинговых платформ. К сожалению, хотя такие упрощения и позволяют привлечь больше участников краудсорсинга, они привносят систематическую ошибку в их оценки, поскольку участники краудсорсинга становятся гораздо менее точными и выразительными в своих оценках. Например, некоторые участники краудсорсинга более консервативны в оценках, чем другие, и поэтому подразумевается, что их положительные ярлыки более высоко релевантны, чем положительные ярлыки участников краудсорсинга, которые оценивают их менее осторожно.

[0018] Разработчики настоящего технического решения устраняют указанные выше недостатки, связанные с краудсорсинговыми обучающими выборками, с помощью разработки процедуры предварительной обработки краудсорсинговых ярлыков. В общем случае процедура предварительной обработки включает в себя: (i) нормирование релевантности ярлыков и (ii) взвешивание ярлыков с нормированной релевантностью.

[0019] Более конкретно, варианты осуществления настоящего технического решения, в общем случае, направлены на алгоритм на основе машинного обучения, которые назначает каждой части выборки (1) значение ее релевантности (которое, в определенной мере, нормирует ярлык), и (2) ее вес (который, в определенной мере, показывает достоверность ее значения). Эти два параметра моделируются как соответствующие функции характеристик ярлыка, которые могут включать в себя выводы различных консенсусных моделей, статистики по данной задаче, сам по себе краудсорсинговый ярлык и т.д. Варианты осуществления настоящего технического решения включают в себя обучение обеих функций (одной - для значения релевантности, и одной - для веса).

[0020] Варианты осуществления настоящего технического решения могут быть использованы с любым типом обучения алгоритма ранжирования. Технический эффект настоящего технического решения заключается в том, что варианты осуществления настоящего технического решения напрямую оптимизируют качество ранжирования, достигнутое связанным обученным ранжированию алгоритмом.

[0021] Одним объектом настоящего технического решения является компьютерный способ обучения поискового ранкера, причем поисковой ранкер выполнен с возможностью ранжировать поисковые результаты. Способ выполняется на сервере, связанном с поисковым ранкером. Способ включает в себя: извлечение сервером обучающей выборки, включающей в себя множество обучающих объектов, причем каждому обучающему объекту в обучающей выборке был назначен ярлык, и каждый обучающий объект связан с вектором характеристик объекта; для каждого обучающего объекта на основе соответствующего связанного вектора характеристик объекта осуществляется: определение весового параметра, причем весовой параметр указывает на качество ярлыка; определение параметра релевантности, причем параметр релевантности указывает на модерированное значение ярлыка относительно других ярлыков в обучающей выборке; обучение поискового ранкера, с использованием множества обучающих объектов из обучающей выборки, определенного параметра релевантности для каждого обучающего объекта из множества обучающих объектов обучающей выборки и определенного весового параметра для каждого объекта из множества обучающих объектов обучающей выборки, ранжировать новый документ.

[0022] В некоторых вариантах осуществления способа обучающая выборка является краудсорсинговой обучающей выборкой.

[0023] В некоторых вариантах осуществления способа обучающая выборка является краудсорсинговой обучающей выборкой, и каждому обучающему объекту в обучающей выборке участником краудсорсинга был назначен ярлык.

[0024] В некоторых вариантах осуществления способа вектор характеристик объекта по меньшей мере частично основан на данных, связанных с участниками краудсорсинга, назначающими ярлык данному обучающему объекту.

[0025] В некоторых вариантах осуществления способа данные представляют по меньшей мере одно из: активности просмотра участника краудсорсинга; временной интервал, проведенный за просмотром данного обучающего объекта; уровень опыта, связанный с участником краудсорсинга, параметр скрупулезности, связанный с участником краудсорсинга.

[0026] В некоторых вариантах осуществления способа вектор характеристик объекта по меньшей мере частично основан на данных, связанных с характеристиками ранжирования данного обучающего объекта.

[0027] В некоторых вариантах осуществления способа способ в дальнейшем включает в себя обучение функции параметра релевантности определению параметра релевантности для каждого обучающего объекта с использованием соответствующего связанного вектора характеристик объекта с помощью оптимизации качества ранжирования поискового ранкера.

[0028] В некоторых вариантах осуществления способа способ дополнительно включает в себя обучение весовой функции определению весового ярлыка для каждого обучающего объекта на основе соответствующего связанного вектора характеристик объекта с помощью оптимизации качества ранжирования поискового ранкера.

[0029] В некоторых вариантах осуществления способа параметр релевантности определяется с помощью функции параметра релевантности; весовой ярлык определяется весовой функцией; функция параметра релевантности и весовая функция были обучены независимо.

[0030] В некоторых вариантах осуществления способа поисковый ранкер выполнен с возможностью выполнять алгоритм машинного обучения, и обучение поискового ранкера включает в себя обучение алгоритма машинного обучения.

[0031] В некоторых вариантах осуществления способа алгоритм машинного обучения основан либо на обучении с учителем, либо на обучении с частичным привлечением учителя.

[0032] В некоторых вариантах осуществления способа алгоритм машинного обучения является одним из: алгоритм на основе нейронной сети, алгоритм на основе деревьев принятия решений, MLA на основе обучения ассоциативным правилам, MLA на основе глубинного обучения, MLA индуктивно логически запрограммированный MLA, MLA на основе метода опорных векторов, MLA на основе кластеризации, Байесова сеть, MLA на основе обучения с подкреплением, MLA на основе репрезентативного обучения, MLA на основе метрик схожести, MLA на основе разреженного словаря и MLA на основе генетического алгоритма.

[0033] В некоторых вариантах осуществления способа обучение основано на цели прямой оптимизации качества поискового ранкера.

[0034] В некоторых вариантах осуществления способа способ дополнительно включает в себя определение вектора характеристик объекта на основе множества характеристик объекта.

[0035] В некоторых вариантах осуществления способа множество характеристик объекта включают в себя по меньшей мере характеристики ранжирования и характеристики ярлыка, и способ дополнительно включает в себя организацию характеристик объекта в матрицу, причем строки матрицы представляют собой характеристики ранжирования, а столбцы матрицы представляют собой характеристики ярлыка.

[0036] В некоторых вариантах осуществления способа определение вектора характеристик объекта включает в себя определение объектной характеристики на основе матрицы.

[0037] Другим объектом настоящего технического решения является обучающий сервер для обучения поискового ранкера, причем сервер поискового ранкера ранжирует результаты поиска. Обучающий сервер включает в себя: сетевой интерфейс для функционального подключения к сети передачи данных; процессор, соединенный с сетевым интерфейсом, процессор выполнен с возможностью осуществлять: извлечение обучающей выборки, включающей в себя множество обучающих объектов, причем каждому обучающему объекту в обучающей выборке был назначен ярлык, и каждый обучающий объект связан с вектором характеристик объекта; для каждого обучающего объекта на основе соответствующего связанного вектора характеристик объекта осуществляется: определение весового параметра, причем весовой параметр указывает на качество ярлыка; определение параметра релевантности, причем параметр релевантности указывает на модерированное значение ярлыка относительно других ярлыков в обучающей выборке; обучение поискового ранкера, с использованием множества обучающих объектов из обучающей выборки, определенного параметра релевантности для каждого обучающего объекта из множества обучающих объектов обучающей выборки и определенного весового параметра для каждого объекта из множества обучающих объектов обучающей выборки, ранжировать новый документ.

[0038] В некоторых вариантах осуществления обучающего сервера обучающий сервер и поисковый ранкер могут быть выполнены как единый сервер.

[0039] В контексте настоящего описания, если четко не указано иное, «электронное устройство», «пользовательское устройство», «сервер», «компьютерная система» подразумевают под собой аппаратное и/или системное обеспечение, подходящее к решению соответствующей задачи. Таким образом, некоторые неограничивающие примеры аппаратного и/или программного обеспечения включают в себя компьютеры (серверы, настольные компьютеры, ноутбуки, нетбуки и так далее), смартфоны, планшеты, сетевое оборудование (маршрутизаторы, коммутаторы, шлюзы и так далее) и/или их комбинацию.

[0040] В контексте настоящего описания, если четко не указано иное, «машиночитаемый носитель» и «хранилище» подразумевает под собой носитель абсолютно любого типа и характера, не ограничивающие примеры включают в себя ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, дискеты, жесткие диски и т.д.), USB-ключи, флеш-карты, твердотельные накопители и накопители на магнитной ленте.

[0041] В контексте настоящего описания, если конкретно не указано иное, слова «первый», «второй», «третий» и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не для целей описания какой-либо конкретной взаимосвязи между этими существительными. Так, например, следует иметь в виду, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо порядка, отнесения к определенному типу, хронологии, иерархии или ранжирования (например) серверов/между серверами, равно как и их использование (само по себе) не предполагает, что некий «второй сервер» обязательно должен существовать в той или иной ситуации. В дальнейшем, как указано здесь в других контекстах, упоминание «первого» элемента и «второго» элемента не исключает возможности того, что это один и тот же фактический реальный элемент. Так, например, в некоторых случаях, «первый» сервер и «второй» сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться разным программным и/или аппаратным обеспечением.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0042] Для лучшего понимания настоящего технического решения, а также других ее аспектов и характерных черт, сделана ссылка на следующее описание, которое должно использоваться в сочетании с прилагаемыми чертежами, где:

[0043] На Фигуре 1 показана система, подходящая для реализации неограничивающих вариантов осуществления настоящего технического решения.

[0044] На Фигуре 2 показано схематическое представление фаз обучения (фаза обучения, фаза применения, суб-фаза валидации) алгоритма машинного обучения, применяемого приложением ранжирования системы, изображенной на Фигуре 1.

[0045] На Фигуре 3 представлен данный обучающий объект из обучающей выборки, хранящейся на обучающем сервере системы, изображенной на Фигуре 1.

[0046] На Фиг. 4 представлена блок-схема способа обучения приложения ранжирования, способ выполняется обучающим сервером, изображенным на Фигуре 1, способ выполняется в соответствии с вариантами осуществления настоящего технического решения, не ограничивающими его объем.

ОСУЩЕСТВЛЕНИЕ

[0047] На Фиг. 1 представлена система 100, реализованная в соответствии с вариантами осуществления настоящего технического решения. Важно иметь в виду, что нижеследующее описание системы 100 представляет собой описание показательных вариантов осуществления настоящего технического решения. Таким образом, все последующее описание представлено только как описание показательного примера настоящего технического решения. Это описание не предназначено для определения объема или установления границ настоящего технического решения. Некоторые полезные примеры модификаций системы 100 также могут быть охвачены нижеследующим описанием. Целью этого является также исключительно помощь в понимании, а не определение объема и границ настоящего технического решения. Эти модификации не представляют собой исчерпывающий список, и специалистам в данной области техники будет понятно, что возможны и другие модификации. Кроме того, это не должно интерпретироваться так, что там, где это еще не было сделано, т.е. там, где не были изложены примеры модификаций, никакие модификации невозможны, и/или что то, что описано, является единственным вариантом осуществления этого элемента настоящего технического решения. Как будет понятно специалисту в данной области техники, это, скорее всего, не так. Кроме того, следует иметь в виду, что система 100 представляет собой в некоторых конкретных проявлениях достаточно простой вариант осуществления настоящего технического решения, и в подобных случаях этот вариант представлен здесь с целью облегчения понимания. Как будет понятно специалисту в данной области техники, многие варианты осуществления настоящего технического решения будут обладать гораздо большей сложностью.

[0048] Система 100 включает в себя сеть 102 передачи данных для осуществления обмена данными между различными компонентами системы 100, функционально подключенной к этой сети. В некоторых вариантах осуществления настоящего технического решения, не ограничивающих его объем, сеть 102 передачи данных может представлять собой Интернет. В других вариантах осуществления настоящего технического решения сеть 102 передачи данных может быть реализована иначе - в виде глобальной сети передачи данных, локальной сети передачи данных, частной сети передачи данных и т.п. Сеть 102 передачи данных может поддерживать обмен сообщениями и данными в открытом формате или в зашифрованном виде с использованием различных стандартов шифрования.

[0049] Система 100 включает в себя множество электронных устройств 104, причем множество электронных устройств 104 функционально соединено с сетью 102 передачи данных. В изображенных вариантах осуществления настоящего технического решения множество электронных устройств включает в себя первое электронное устройство 106, второе электронное устройство 108, третье электронное устройство 110 и ряд дополнительных электронных устройств 112. Следует отметить, что точное число устройств во множестве электронных устройств 104 никак конкретно не ограничивается и, в общем случае, можно сказать, что множество электронных устройств 104 включает в себя по меньшей мере два электронных устройства, такие как те, что изображены (т.е. первое электронное устройство 106, второе электронное устройство 108, третье электронное устройство 110 и ряд дополнительных электронных устройств 112).

[0050] Первое электронное устройство 106 связано с первым пользователем 114 и, таким образом, иногда может упоминаться как «первое клиентское устройство». Следует отметить, что тот факт, что первое электронное устройство 106 связано с первым пользователем 114, не подразумевает какого-либо конкретного режима работы, равно как и необходимости входа в систему, регистрации, или чего-либо подобного. Варианты первого электронного устройства 106 конкретно не ограничены, но в качестве примера перового электронного устройства 106 могут использоваться персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.п.), беспроводные электронные устройства (мобильные телефоны, смартфоны, планшеты и т.п.), а также сетевое оборудование (маршрутизаторы, коммутаторы или шлюзы). На Фиг. 1 первое электронное устройство 106 реализовано в виде персонального компьютера (ноутбука).

[0051] Второе электронное устройство 108 связано со вторым пользователем 116 и, таким образом, иногда может упоминаться как «второе клиентское устройство». Следует отметить, что тот факт, что второе электронное устройство 108 связано со вторым пользователем 116, не подразумевает какого-либо конкретного режима работы, равно как и необходимости входа в систему, регистрации, или чего-либо подобного. Варианты второго электронного устройства 108 конкретно не ограничены, но в качестве примера второго электронного устройства 108 могут использоваться персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.п.), устройства беспроводной связи (мобильные телефоны, смартфоны, планшеты и т.п.), а также сетевое оборудование (маршрутизаторы, коммутаторы или шлюзы). На Фиг. 1 второе электронное устройство 108 реализовано в виде планшетного компьютерного устройства.

[0052] Третье электронное устройство 110 связано с третьим пользователем 118 и, таким образом, иногда может упоминаться как «третье клиентское устройство». Следует отметить, что тот факт, что третье электронное устройство 110 связано с третьим пользователем 118, не подразумевает какого-либо конкретного режима работы, равно как и необходимости входа в систему, регистрации, или чего-либо подобного. Варианты третьего электронного устройства 110 конкретно не ограничены, но в качестве примера третьего электронного устройства 110 могут использоваться персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.п.), устройства беспроводной связи (мобильные телефоны, смартфоны, планшеты и т.п.), а также сетевое оборудование (маршрутизаторы, коммутаторы или шлюзы). На Фиг. 1 третье электронное устройство 110 реализовано в виде смартфона.

[0053] Данное устройство из ряда дополнительных электронных устройств 112 связано с соответствующим дополнительным пользователем 120 и, таким образом, может иногда упоминаться как «дополнительное клиентское устройство». Следует отметить, что тот факт, что данное устройство из ряда дополнительных электронных устройств 112 связано с соответствующим дополнительным пользователем 120, не подразумевает какого-либо конкретного режима работы, равно как и необходимости входа в систему, регистрации, или чего-либо подобного. Варианты данного устройства из ряда дополнительных электронных устройств 112 конкретно не ограничены, но в качестве примера данное устройство из ряда дополнительных электронных устройств 112 могут использоваться персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.п.), беспроводные устройства передачи данных (мобильные телефоны, смартфоны, планшеты и т.п.), а также сетевое оборудование (маршрутизаторы, коммутаторы или шлюзы).

[0054] К сети передачи данных также присоединены обучающий сервер 130 и сервер 132 поискового ранкера. Сервер 132 поискового ранкера также упоминается здесь как сервер 132 поискового ранкера. Хотя в изображенных вариантах осуществления обучающий сервер и сервер 132 поискового ранкера изображены как отдельные серверы, их функции могут быть выполнены единственным сервером.

[0055] В примере варианта осуществления настоящего технического решения обучающий сервер 130 может представлять собой сервер Dell™ PowerEdge™, на котором используется операционная система Microsoft™ Windows Server™. Излишне говорить, что обучающий сервер 130 может представлять собой любое другое подходящее аппаратное и/или прикладное программное, и/или системное программное обеспечение или их комбинацию. В представленном варианте осуществления настоящего технического решения, не ограничивающем его объем, обучающий сервер 130 является одиночным сервером. В других вариантах осуществления настоящего технического решения, не ограничивающих его объем, функциональность обучающего сервера 130 может быть разделена и может выполняться с помощью нескольких серверов.

[0056] В примере варианта осуществления настоящего технического решения сервер 132 поискового ранкера может представлять собой сервер Dell™ PowerEdge™, на котором используется операционная система Microsoft™ Windows Server™. Излишне говорить, что сервер 132 поискового ранкера может представлять собой любое другое подходящее аппаратное и/или прикладное программное, и/или системное программное обеспечение или их комбинацию. В представленном варианте осуществления настоящего технического решения, не ограничивающем его объем, сервер 132 поискового ранкера является одиночным сервером. В других вариантах осуществления настоящего технического решения, не ограничивающих его объем, функциональность сервера 132 поискового ранкера может быть разделена и может выполняться с помощью нескольких серверов.

[0057] Хотя обучающий сервер 130 и сервер 132 поискового ранкера были описаны с использованием примера того же самого аппаратного обеспечения, эти серверы не обязательно должны быть реализованы сходным образом.

[0058] В некоторых вариантах осуществления нестоящего технического решения сервер 132 поискового ранкера контролируется и/или управляется поисковой системой, например, поисковой системой YANDEX, предоставленной ООО «Яндекс», Россия, 119021, Москва, улица Льва Толстого, 16. Однако сервер 132 поискового ранкера может быть реализован по-иному (например, как локальный поисковик и так далее), Сервер 132 поискового ранкера выполнен с возможностью хранить поисковую базу данных 134, которая включает в себя указание различных ресурсов, доступных и открытых для сети 102 передачи данных.

[0059] Процесс заполнения и сохранения поисковой базы данных 134 в общем случае известен как «сбор данных» (кроулинг, от англ. "crawling"), причем приложение 140 сбора данных, реализованное сервером 132 поискового ранкера, выполнено с возможностью «посещать» различные веб-сайты и веб-страницы, доступные по сети 102 передачи данных, и индексировать их содержимое (например, связывать данный веб-ресурс с одним или несколькими ключевыми словами). В некоторых вариантах осуществления настоящего технического решения приложение 140 сбора данных хранит поисковую системы данных 134 как «инвертированный индекс». Приложение 140 сбора данных сервера 132 поискового ранкера выполнено с возможностью хранить информацию о таких проиндексированных веб-ресурсах в поисковой базе данных 134.

[0060] Когда сервер 132 поискового ранкера получает поисковой запрос от пользователя (например, "Cheap Hotels in Munich" («дешевые отели в Мюнхене»)), сервер 132 поискового ранкера выполнен с возможностью реализовать приложение 160 ранжирования. Приложение 160 ранжирования выполнено с возможностью получать доступ к поисковой базе данных 134, чтобы извлекать указание множества ресурсов, которые потенциально релевантны введенному пользователем поисковому запросу (в этом примере). Приложение 160 ранжирования дополнительно выполнено с возможностью ранжировать таким образом извлеченные потенциально релевантные ресурсы так, что они могут быть представлены в порядке ранжирования на странице результатов поиска (SERP), причем SERP представляет ранжированные более релевантные ресурсы вверху списка.

[0061] Для этого приложение 160 ранжирования выполнено с возможностью выполнять алгоритм ранжирования. В некоторых вариантах осуществления настоящего технического решения алгоритм ранжирования является алгоритмом машинного обучения (Machine Learning Algorithm, MLA). В некоторых вариантах осуществления настоящего технического решения приложение 160 ранжирования реализует алгоритм на основе нейронной сети, алгоритм на основе деревьев принятия решений, MLA на основе обучения ассоциативным правилам, MLA на основе глубинного обучения, MLA индуктивно логически запрограммированный MLA, MLA на основе метода опорных векторов, MLA на основе кластеризации, Байесову сеть, MLA на основе обучения с подкреплением, MLA на основе репрезентативного обучения, MLA на основе метрик схожести, MLA на основе разреженного словаря и MLA на основе генетического алгоритма и так далее.

[0062] В некоторых вариантах осуществления настоящего технического решения приложение 160 ранжирования применяет MLA на основе машинного обучения с учителем. В других вариантах осуществления настоящего технического решения приложение 160 ранжирования применяет алгоритм машинного обучения на основе обучения с частичным привлечением учителя.

[0063] В этих вариантах осуществления настоящего технического решения приложение 160 ранжирования может быть использовано в двух фазах - фазе обучения, на которой приложение 160 ранжирования «обучается» выводить формулу MLA и фазе применения, на которой приложение 160 ранжирования используется для ранжирования документов и использованием формулы MLA. Фаза обучения также включает в себя «суб-фазу» валидации, на которой формула MLA проверяется и калибруется.

[0064] На Фигуре 2 схематически изображены упомянутые фазы: фаза обучения 280, фаза 282 применения и суб-фаза 284 валидации.

[0065] В течение фазы 280 обучения приложению 160 ранжирования представляется обучающий набор данных 202, причем обучающий набор данных 202 включает в себя множество обучающих объектов - а именно, первый обучающий объект 204, второй обучающий объект 206, третий обучающий объект 208, а также другие обучающие объекты, потенциально присутствующие в обучающем наборе данных 202. Следует отметить, что обучающий набор данных 202 не ограничивается первым обучающим объектом 204, вторым обучающим объектом 206 и третьим обучающим объектов 208, изображенными на Фигуре 2. И, таким образом, обучающий набор данных 202 будет включать в себя ряд дополнительных обучающих объектов (например, сотни, тысячи, или сотни тысяч обучающих объектов, аналогичных изображенным первому обучающему объекту 204, второму обучающему объекту 206 и третьему обучающему объекту 208).

[0066] На Фигуре 3 схематически изображен данный обучающий объект из обучающего набора данных 202 (в данном случае, первый обучающий объект 204). Аналогично примеру первого обучающего объекта, каждый обучающий объект 204, 206, 208 в обучающей выборке 202 включает в себя пару «запрос-документ» (которая включает в себя указание обучающего запроса 302 и связанного обучающего документа 304, потенциально отвечающего на поисковой запрос 302) и назначенный ярлык 306.

[0067] В общем случае, ярлык 306 указывает на то, насколько отвечает обучающий документ 304 на обучающий запрос 302 (чем выше значение ярлыка 306, тем более вероятно, что пользователь, проводящий поисковые запросы, аналогичные обучающему запросу 302, найдет обучающий документ 304 полезным для ответа на обучающий запрос 302). То, как назначается ярлык 306, будет описано подробнее ниже.

[0068] Каждый обучающий объект 204, 206, 208 может также быть связан с соответствующим вектором 308 характеристик объекта. Вектор 308 характеристик объекта может быть создан обучающим сервером 130 в течение фазы 280 обучения. Вектор 308 характеристик объекта представляет одну или несколько характеристик с

Способ обучения модуля ранжирования с использованием обучающей выборки с зашумленными ярлыками

Патент 2632143