Способ создания обучающего объекта для обучения алгоритма машинного обучения

Иллюстрации

Показать все

Изобретение относится к способу создания обучающего объекта для обучения алгоритма машинного обучения. Технический результат заключается в создании распределения средней отметки релевантности документа поисковому запросу в форме распределения воспринимаемых отметок. Способ включает в себя: получение цифрового обучающего документа, который будет использован в обучении; передачу цифрового обучающего документа множеству экспертов, передача далее включает в себя указание на диапазон возможных отметок для экспертов, диапазон возможных отметок включает в себя по меньшей мере первую возможную отметку и вторую возможную отметку; получение от каждого из множества экспертов выбранной отметки для формирования набора выбранных отметок; создание распределения средней отметки на основе набора выбранных отметок, распределение средней отметки представляет собой диапазон воспринимаемых отметок для цифрового обучающего документа и связанную оценку вероятности для каждой из воспринимаемых отметок; и обучение алгоритма машинного обучения с использованием цифрового обучающего документа и распределения средней отметки. 2 н. и 22 з.п. ф-лы, 5 ил.

Реферат

Область техники

[001] Настоящее техническое решение относится к способам и системам для создания обучающего объекта для обучения алгоритма машинного обучения.

Уровень техники

[002] С постоянно растущим объемом данных, хранящихся на различных серверах, задача эффективного поиска становится все более важной. Например, в сети Интернет доступны миллионы ресурсов и множество поисковых систем (например, GOOGLE™, YAHOO! ™, YANDEX™, BAIDU™ и так далее), которые предоставляют пользователям удобные инструменты поиска релевантной информации, которая соответствует поисковому намерению пользователя.

[003] Обычно сервер поисковой системы выполняет функцию поискового робота. Конкретнее, поисковая система выполняет функцию робота, который «посещает» различные ресурсы, доступные в Интернете и индексирует их содержимое. Конкретные алгоритмы и программы поисковых роботов могут быть различны, но на высшем уровне основной задачей поискового робота является (i) идентифицировать конкретный ресурс в Интернете, (ii) идентифицировать ключевые темы, связанные с конкретным ресурсом (темы представлены ключевыми словами и тому подобным), и (iii) индексировать ключевые темы по отношению к конкретному ресурсу.

[004] После того как поисковая система получает поисковый запрос от пользователя, она идентифицирует все просмотренные ресурсы, которые потенциально релевантны поисковому запросу пользователя. Поисковая система далее выполняет поисковое ранжирование для ранжирования идентифицированных потенциальных релевантных ресурсов. Ключевой задачей поискового ранжирования является организация идентифицированных результатов поиска путем расположения потенциально наиболее релевантных результатов в верхней части списка результатов поиска. Поисковое ранжирование выполняется различными способами, некоторые из которых включают в себя алгоритмы машинного обучения (MLA) для ранжирования результатов поиска. Поисковое ранжирование выполняется различными способами, некоторые из которых включают в себя алгоритмы машинного обучения (MLA) для ранжирования результатов поиска.

[005] Обычный алгоритм машинного (MLA) обучения, который используется при поисковом ранжировании, обучается с помощью обучающих наборов данных. Обычно, обучающий набор данных включает в себя документ (например, веб-ресурс), который потенциально релевантен (или соответствует) обучающему поисковому запросу.

[006] Платформы краудсорсинга, например, Amazon Mechanical Turk™, позволяют оценивать размечать большие наборы данных за короткие сроки и с меньшими затратами по сравнению с профессиональными экспертами. Тем не менее, эксперты на платформах краудсорсинга в общем случае являются непрофессиональными могут сильно отличаться друг от друга по уровню экспертизы, и полученные отметки могут быть «с помехами» - в том смысле, что назначенные отметки, которые назначаются данному объекту различными экспертами могут очень существенно различаться. Например, некоторые эксперты могут быть слишком консервативны (т.е. ставить хорошие отметки только очень релевантными объектам), а другие эксперты могут быть более мягкими при проставлении отметок.

[007] Обычно, для достижения средней отметки вычисляется большинство голосов среди отметок «с помехами» для каждого объекта. Тем не менее, данное решение игнорирует какую-либо разницу между работниками, что может приводить к плохим результатам, если большинство экспертов, работающих над данной задачей, являются низкоквалифицированными.

[008] Другой стандартный подход основан на предположении о скрытой отметке, при котором подразумевается, что все эксперты воспринимают одно и то же скрытое истинное значение, и далее это значение изменяется экспертами в соответствии с выбранной ими моделью отметки. Как следствие, модели отметки, созданные с учетом этого предположения, воспринимают любые отличия в отметках «с помехами» для объекта как ошибки, допущенные работниками.

[009] Обычные способы снижения «помех» включают в себя очистку данных и присваивание весовых коэффициентов. Коротко говоря, очистка от помех аналогична «поиску выбросов» и по сути означает отфильтровывание выбранных отметок, которые «похожи» по каким-то причинам на неверно отмеченные. При подходе, включающем в себя весовые коэффициенты, ни одна из выбранных отметок полностью не отбрасывается, вместо этого их влияние на алгоритм машинного обучения контролируется с помощью весовых коэффициентов, которые представляют собой значимость конкретной отметки. Способы очистки от помех и подход с использованием весовых коэффициентов основываются на предположении о существовании «единственной истинной отметки» для каждого цифрового обучающего документа.

РАСКРЫТИЕ

[0010] Задачей предлагаемой технологии является устранение по меньшей мере некоторых недостатков, присущих известному уровню техники.

[0011] Варианты осуществления настоящего технического решения были разработаны с учетом определения разработчиками по меньшей мере одного технического недостатка, связанного с известным уровнем техники.

[0012] Без установления каких-либо ограничений, разработчики настоящей технологии считают, что традиционные подходы к созданию средней отметки не способны объяснить конкретные несогласованности между отметками, проставленными экспертами, что является стандартной ситуацией для некоторых типов объектов. Например, известно, что при оценке релевантности документов по поисковым запросам, даже опытные эксперты могут расходиться во мнениях касательно истинной отметки (т.е. истинной релевантности данного документа для поискового запроса) для конкретных документов. В самом деле, для правильного установления соответствия отметки с документом на основе поискового запроса, необходимо учитывать множество аспектов объекта, например, релевантность, новизна, охват, бренд, дизайн и так далее. С учетом такой сложной задачи, даже самый опытный эксперт может обладать личными предпочтениями касательно ценности различных аспектов, что приводит к разнице в выборе отметок. Разработчики полагают, что по факту это означает, что единственная истинная отметка объекта не существует, вместо нее объект обладает конкретным распределением возможных истинных воспринимаемых отметок. Аналогичные проблемы, хоть и в несколько более сложной форме, присутствуют в системе отметки документов на основе краудсорсинга.

[0013] Следовательно, разработчики настоящей технологии стремятся устранить на вышеупомянутые недостатки, связанные с традиционными подходами к созданию средних отметок, путем разработки настройки отметки документов, в которой нет предположения о существовании единственной истинной отметки для объекта, и вместо этого каждый объект обладает различными «субъективными, но истинными» воспринимаемыми отметками. Таким образом, варианты осуществления настоящей технологии нацелены на создание распределения средней отметки в форме распределения воспринимаемых отметок. Распределение средней отметки может также включать в себя оценку вероятности, связанную с каждой из воспринимаемых отметок.

[0014] Первым объектом настоящей технологии является исполняемый на компьютере способ создания обучающего объекта для обучения алгоритма машинного обучения, обучающий объект включает в себя цифровой обучающий документ и назначенную отметку. Способ выполняется на обучающем сервере. Способ включает в себя: получение цифрового обучающего документа, который будет использован в обучении; передачу через сеть передачи данных цифрового обучающего документа множеству экспертов, передача далее включает в себя указание на диапазон возможных отметок для экспертов, диапазон возможных отметок включает в себя по меньшей мере первую возможную отметку и вторую возможную отметку; получение от каждого из множества экспертов выбранной отметки для формирования набора выбранных отметок; создание распределения средней отметки на основе набора выбранных отметок, распределение средней отметки представляет собой диапазон воспринимаемых отметок для цифрового обучающего документа и связанную отметку вероятности для каждой из воспринимаемых отметок; и обучение алгоритма машинного обучения с использованием цифрового обучающего документа и распределения средней отметки.

[0015] В некоторых вариантах осуществления способа, способ далее включает в себя определение параметра экспертизы для каждого из множества экспертов на основе набора выбранных отметок; и определение параметра сложности цифрового обучающего документа на основе набора выбранных отметок.

[0016] В некоторых вариантах осуществления способа, параметр экспертизы независим от оцениваемого цифрового обучающего документа; и параметр сложности независим от какого-либо эксперта, оценивающего цифровой обучающий документ.

[0017] В некоторых вариантах осуществления способа, распределение средней отметки определяется путем определения конкретного для эксперта распределения воспринимаемой отметки для каждого эксперта из множества экспертов; агрегирования каждого конкретного для эксперта распределения воспринимаемой отметки из множества экспертов.

[0018] В некоторых вариантах осуществления способа, конкретное для эксперта распределение воспринимаемой отметки для данного эксперта определяется следующим образом. Для первой возможной отметки: определение присущей эксперту оценки вероятности того, что данный эксперт выберет первую возможную отметку; определение условной оценки вероятности на основе по меньшей мере параметра экспертизы и параметра сложности, условная оценка вероятности представляет собой вероятность того, что выбранная отметка, предоставленная данному эксперту, который воспринял первую возможную отметку, будет наиболее релевантной отметкой для цифрового обучающего документа; и агрегирование присущей эксперту оценки вероятности и условной оценки вероятности для получения воспринимаемой оценки, конкретной для первой отметки. Для второй отметки: определение присущей эксперту оценки вероятности того, что данный эксперт выберет вторую возможную отметку; определение условной оценки вероятности на основе по меньшей мере параметра экспертизы и параметра сложности, условная оценка вероятности представляет собой вероятность того, что выбранная отметка, предоставленная данному эксперту, который воспринял вторую возможную отметку, будет наиболее релевантной отметкой для цифрового обучающего документа; агрегирование присущей эксперту оценки вероятности и условной оценки вероятности для получения воспринимаемой оценки, конкретной для второй отметки. Далее, агрегирование воспринимаемой оценки, конкретной для первой отметки, и воспринимаемой оценки, конкретной для второй отметки.

[0019] В некоторых вариантах осуществления способа, присущая эксперту оценка вероятности определяется на основе по меньшей мере конкретного для эксперта параметра тенденции.

[0020] В некоторых вариантах осуществления способа, способ дополнительно включает в себя определение для данного эксперта конкретного для эксперта параметра тенденции на основе по меньшей мере истории оценок данного эксперта.

[0021] В некоторых вариантах осуществления способа, распределение средней отметки получают путем максимизации вероятности выбранной отметки путем использования формулы:

[0022] В некоторых вариантах осуществления способа, формула вычисляется с помощью по меньшей мере одной модифицированной модели на основе (i) модели Дэвида-Скен, (ii) генеративной модели отметок, возможностей и сложностей (GLAD) и (iii) принципа минимакса энтропии.

[0023] В некоторых вариантах осуществления способа, множество экспертов включает в себя первого эксперта и второго эксперта и выбранная отметка, полученная от первого эксперта, отличается от выбранной отметки, полученной от второго эксперта.

[0024] В некоторых вариантах осуществления способа, алгоритм машинного обучения выполняется приложением ранжирования сервера поискового ранжирования, и при этом обучение происходит с целью повышения точности алгоритма машинного обучения.

[0025] В некоторых вариантах осуществления способа, повышение точности представляет собой улучшение релевантности поискового результата в ответ на поисковый запрос.

[0026] В некоторых вариантах осуществления способа, обучающий сервер является сервером поискового ранжирования.

[0027] Другим объектом настоящей технологии является обучающий сервер для обучения приложения ранжирования, приложение ранжирования предназначено для ранжирования результатов поиска. Обучающий сервер включает в себя сетевой интерфейс для коммуникативного соединения к сети передачи данных и процессор, соединенный с сетевым интерфейсом. Процессор выполнен с возможностью осуществлять: получение цифрового обучающего документа, который будет использован в обучении; передачу через сеть передачи данных цифрового обучающего документа множеству экспертов, передача далее включает в себя указание на диапазон возможных отметок для экспертов, диапазон возможных отметок включает в себя по меньшей мере первую возможную отметку и вторую возможную отметку; получение от каждого из множества экспертов выбранной отметки для формирования набора выбранных отметок; создание распределения средней отметки на основе набора выбранных отметок, распределение средней отметки представляет собой диапазон воспринимаемых отметок для цифрового обучающего документа и связанную оценку вероятности для каждой из воспринимаемых отметок; и обучение алгоритма машинного обучения с использованием цифрового обучающего документа и распределения средней отметки.

[0028] В некоторых вариантах осуществления обучающего сервера, процессор дополнительно выполнен с возможностью осуществлять определение параметра экспертизы для каждого из множества экспертов на основе набора выбранных отметок; и определение параметра сложности цифрового обучающего документа на основе набора выбранных отметок.

[0029] В некоторых вариантах осуществления обучающего сервера, параметр экспертизы независим от оцениваемого цифрового обучающего документа; и параметр сложности независим от какого-либо эксперта, оценивающего цифровой обучающий документ.

[0030] В некоторых вариантах осуществления обучающего сервера, распределение средней отметки определяется процессором, который выполнен с возможностью осуществлять определение конкретного для эксперта распределения воспринимаемой отметки для каждого эксперта из множества экспертов; и агрегирование каждого конкретного для эксперта распределения воспринимаемой отметки из множества экспертов.

[0031] В некоторых вариантах осуществления обучающего сервера, конкретное для эксперта распределение воспринимаемой отметки для данного эксперта определяется процессором. Процессор далее выполнен с возможностью осуществлять, для первой возможной отметки: определение присущей эксперту оценки вероятности того, что данный эксперт выберет первую возможную отметку; определение условной оценки вероятности на основе по меньшей мере параметра экспертизы и параметра сложности, условная оценка вероятности представляет собой вероятность того, что выбранная отметка, предоставленная данному эксперту, который воспринял первую возможную отметку, будет наиболее релевантной отметкой для цифрового обучающего документа; и агрегирование присущей эксперту оценки вероятности и условной оценки вероятности для получения воспринимаемой оценки, конкретной для первой отметки. Процессор далее выполнен с возможностью осуществлять, для второй отметки: определение присущей эксперту оценки вероятности того, что данный эксперт выберет вторую возможную отметку; определение условной оценки вероятности на основе по меньшей мере параметра экспертизы и параметра сложности, условная оценка вероятности представляет собой вероятность того, что выбранная отметка, предоставленная данному эксперту, который воспринял вторую возможную отметку, будет наиболее релевантной отметкой для цифрового обучающего документа; агрегирование присущей эксперту оценки вероятности и условной оценки вероятности для получения воспринимаемой оценки, конкретной для второй отметки. Процессор далее выполнен с возможностью осуществлять агрегирование воспринимаемой оценки, конкретной для первой отметки, и воспринимаемой оценки, конкретной для второй отметки.

[0032] В некоторых вариантах осуществления обучающего сервера, присущая эксперту оценка вероятности определяется на основе по меньшей мере конкретного для эксперта параметра тенденции.

[0033] В некоторых вариантах осуществления обучающего сервера, процессор далее выполнен с возможностью осуществлять определение для данного эксперта конкретного для эксперта параметра тенденции на основе по меньшей мере истории оценок данного эксперта.

[0034] В некоторых вариантах осуществления обучающего сервера множество экспертов включает в себя первого эксперта и второго эксперта и выбранная отметка, полученная от первого эксперта, отличается от выбранной отметки, полученной от второго эксперта.

[0035] В некоторых вариантах осуществления обучающего сервера, алгоритм машинного обучения выполняется приложением ранжирования сервера поискового ранжирования, и при этом обучение происходит с целью повышения точности алгоритма машинного обучения.

[0036] В некоторых вариантах осуществления обучающего сервера, повышение точности представляет собой улучшение релевантности поискового результата в ответ на поисковый запрос.

[0037] В некоторых вариантах осуществления обучающего сервера, обучающий сервер является сервером поискового ранжирования.

[0038] В контексте настоящего описания, если четко не указано иное, «электронное устройство», «пользовательское устройство», «сервер» и «компьютерная система» подразумевают под собой аппаратное и/или системное обеспечение, подходящее к решению соответствующей задачи. Таким образом, некоторые неограничивающие примеры аппаратного и/или программного обеспечения включают в себя компьютеры (серверы, настольные компьютеры, ноутбуки, нетбуки и так далее), смартфоны, планшеты, сетевое оборудование (маршрутизаторы, коммутаторы, шлюзы и так далее) и/или их комбинацию.

[0039] В контексте настоящего описания, если четко не указано иное, "машиночитаемый носитель" и "память" подразумевает под собой носитель абсолютно любого типа и характера, не ограничивающие примеры включают в себя ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, дискеты, жесткие диски и т.д.), USB-ключи, флеш-карты, твердотельные накопители и накопители на магнитной ленте.

[0040] В контексте настоящего описания, если конкретно не указано иное, слова «первый», «второй», «третий» и и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не для целей описания какой-либо конкретной взаимосвязи между этими существительными. Так, например, следует иметь в виду, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо порядка, отнесения к определенному типу, хронологии, иерархии или ранжирования (например) серверов/между серверами, равно как и их использование (само по себе) не предполагает, что некий "второй сервер" обязательно должен существовать в той или иной ситуации. В дальнейшем, как указано здесь в других контекстах, упоминание «первого» элемента и «второго» элемента не исключает возможности того, что это один и тот же фактический реальный элемент. Так, например, в некоторых случаях, «первый» сервер и «второй» сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться разным программным и/или аппаратным обеспечением.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0041] Для лучшего понимания настоящей технологии, а также других ее аспектов и характерных черт сделана ссылка на следующее описание, которое должно использоваться в сочетании с прилагаемыми чертежами, где:

[0042] На Фиг. 1 представлена система, подходящая для реализации неограничивающих вариантов осуществления настоящей технологии.

[0043] На Фиг. 2 представлена принципиальная схема создания присущей эксперту оценки вероятности.

[0044] На Фиг. 3 представлена принципиальная схема создания назначенной отметки.

[0045] На Фиг. 4 представлена принципиальная схема создания конкретного для эксперта распределения воспринимаемой отметки.

[0046] На Фиг. 5 представлена блок-схема способа создания обучающего объекта, способ выполняется обучающем сервером, изображенном на Фиг. 1, способ выполняется в соответствии с вариантами осуществления настоящей технологии, не ограничивающими ее объем.

ОСУЩЕСТВЛЕНИЕ

[0047] На Фиг. 1 представлена система 100, реализованная в соответствии с вариантами осуществления настоящей технологии. Важно иметь в виду, что нижеследующее описание системы 100 представляет собой описание иллюстративных вариантов осуществления настоящего технического решения. Таким образом, все последующее описание представлено только как описание иллюстративного примера настоящей технологии. Это описание не предназначено для определения объема или установления границ настоящей технологии. Некоторые полезные примеры модификаций системы 100 также могут быть охвачены нижеследующим описанием. Целью этого является также исключительно помощь в понимании, а не определение объема и границ настоящей технологии. Эти модификации не представляют собой исчерпывающий список, и специалистам в данной области техники будет понятно, что возможны и другие модификации. Кроме того, это не должно интерпретироваться так, что там, где это еще не было сделано, т.е. там, где не были изложены примеры модификаций, никакие модификации невозможны, и/или что то, что описано, является единственным вариантом осуществления этого элемента настоящей технологии. Как будет понятно специалисту в данной области техники, это, скорее всего, не так. Кроме того, следует иметь в виду, что система 100 представляет собой в некоторых конкретных проявлениях достаточно простой вариант осуществления настоящей технологии, и в подобных случаях представлен здесь с целью облегчения понимания. Как будет понятно специалисту в данной области техники, многие варианты осуществления настоящей технологии будут обладать гораздо большей сложностью.

[0048] Система 100 включает в себя сеть 102 передачи данных, которая обеспечивает связь между различными компонентами системы 100, которые с ней коммуникативно связаны. В некоторых вариантах осуществления настоящей технологии, не ограничивающих ее объем, сеть 102 передачи данных может представлять собой Интернет. В других вариантах осуществления настоящего технического решения, сеть 102 передачи данных может быть реализована иначе - в виде глобальной сети передачи данных, локальной сети передачи данных, частной сети передачи данных и т.п. Сеть 102 передачи данных может поддерживать обмен сообщениями и данными в открытом формате или в зашифрованном виде, с использованием известных стандартов шифрования.

[0049] Система 100 включает в себя множество электронных устройств 104, множество электронных устройств 104 коммуникативно соединено с сетью 102 передачи данных. В представленных вариантах осуществления технологи, множество электронных устройств 104 включает в себя первое электронное устройство 106 и второе электронное устройство 108. Следует отметить, что конкретное количество устройств во множестве электронных устройств 104 никак конкретно не ограничено, и, в общем случае, можно утверждать, что множество электронных устройств 104 содержит по меньшей мере два электронных устройства, таких как те, что представлены в данном примере.

[0050] Первое электронное устройство 106 связано с первым экспертом 110 и, таким образом, иногда может упоминаться как «первое клиентское устройство». Следует отметить, что тот факт, что первое электронное устройство 106 связано с первым экспертом 110, не подразумевает какого-либо конкретного режима работы, равно как и необходимости входа в систему, регистрации, или чего-либо подобного. Варианты первого электронного устройства 106 конкретно не ограничены, но в качестве примера перового электронного устройства 106 могут использоваться персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.п.), беспроводные устройства связи (мобильные телефоны, смартфоны, планшеты и т.п.), а также сетевое оборудование (маршрутизаторы, коммутаторы или шлюзы).

[0051] Второе электронное устройство 108 связано со вторым экспертом 112 и, таким образом, иногда может упоминаться как «второе клиентское устройство». Следует отметить, что тот факт, что второе электронное устройство 108 связано со вторым экспертом 112, не подразумевает какого-либо конкретного режима работы, равно как и необходимости входа в систему, регистрации, или чего-либо подобного. Варианты второго электронного устройства 108 конкретно не ограничены, но в качестве примера второго электронного устройства 108 могут использоваться персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.п.), беспроводные устройства связи (мобильные телефоны, смартфоны, планшеты и т.п.), а также сетевое оборудование (маршрутизаторы, коммутаторы или шлюзы).

[0052] К сети 102 передачи данных также присоединены обучающий сервер 114 и сервер 116 поискового ранжирования. Несмотря на то, что в представленном варианте осуществления технологии обучающий сервер 114 и сервер 116 поискового ранжирования представлены как отдельные элементы, их функциональность может быть выполнена одним сервером.

[0053] Способы, в соответствии с которыми будет реализован обучающий сервер 114 и сервер 116 поискового ранжирования, никак конкретно не ограничены. Например, оба обучающий сервер 114 и сервер 116 поискового ранжирования могут представлять собой сервер Dell™ PowerEdge™, на котором используется операционная система Microsoft™ Windows Server™. Излишне говорить, что обучающий сервер 114 и сервер 116 поискового ранжирования могут представлять собой любое другое подходящее аппаратное и/или прикладное программное, и/или системное программное обеспечение или их комбинацию. В представленном неограничивающем варианте осуществления настоящей технологии, каждый из обучающего сервера 114 и сервера 116 поискового ранжирования является одиночным сервером. В других вариантах осуществления настоящей технологии, не ограничивающих ее объем, функциональность обучающего сервера 114 и сервера 116 поискового ранжирования может быть разделена, и может выполняться с помощью нескольких серверов.

[0054] Несмотря на то, что обучающий сервер 114 и сервер 116 поискового ранжирования были в целях иллюстрации описаны как работающие на одном аппаратном обеспечении, это не является обязательным.

[0055] В некоторых вариантах осуществления настоящей технологии, сервер 116 поискового ранжирования находится под контролем и/или управлением поисковой системы, например, поисковой системы YANDEX™ компании ООО «Яндекс», расположенной по адресу: 119021, Москва, ул. Льва Толстого, дом 16. Тем не менее, сервер 116 поискового ранжирования может быть реализован иначе (например, через локальный поисковик и так далее). Сервер 116 поискового ранжирования выполнен с возможностью поддерживать поисковую базу 118 данных, которая содержит указание на различные ресурсы, доступные через сеть 102 передачи данных.

[0056] Процесс заполнения и поддержания поисковой базы 118 данных в общем случае известен как «сбор информации», когда приложение 120 поискового робота, которое выполняется сервером 116 поискового ранжирования, выполнено с возможностью «посещать» различные веб-сайты и веб-страницы, доступные через сеть 102 передачи данных и индексировать их содержимое (например, связывать данный веб-ресурс с одним или несколькими ключевыми словами). В некоторых вариантах осуществления настоящей технологии, приложение 120 поискового робота поддерживает поисковую базу 118 данных как «инвертированный индекс». Следовательно, приложение 120 поискового робота сервера 116 поискового ранжирования выполнено с возможностью сохранять информацию о проиндексированных веб-ресурсах в поисковой базе 118 данных.

[0057] Когда сервер 116 поискового ранжирования получает поисковый запрос от эксперта (например, «как раньше выйти на пенсию»), сервер 116 поискового ранжирования выполнен с возможностью выполнять приложение 112 ранжирования. Приложение 112 ранжирования выполнено с возможностью получать доступ к поисковой базе 118 данных для получения указания на множество ресурсов, которые потенциально релевантны введенному поисковому запросу. В данном примере, приложение 112 ранжирования дополнительно выполнено с возможностью ранжировать таким образом полученные потенциальные релевантные ресурсы, чтобы они могли быть представлены в ранжированном порядке на странице результатов поиска (SERP), причем на странице результатов поиска наиболее релевантные ранжированные ресурсы расположены в верхней части списка.

[0058] С этой целью, приложение 122 ранжирования выполнено с возможностью выполнять алгоритм ранжирования. В некоторых вариантах осуществления настоящей технологии, алгоритм ранжирования представляет собой алгоритм машинного обучения (MLA). В некоторых вариантах осуществления настоящей технологии, приложение 160 ранжирования реализует алгоритм на основе нейронной сети, алгоритм на основе деревьев принятия решений, MLA на основе обучения ассоциативным правилам, MLA на основе глубинного обучения, MLA индуктивно логически запрограммированный MLA, MLA на основе метода опорных векторов, MLA на основе кластеризации, Байесову сеть, MLA на основе обучения с подкреплением, MLA на основе репрезентативного обучения, MLA на основе метрик схожести, MLA на основе разреженного словаря и MLA на основе генетического алгоритма и так далее.

[0059] В некоторых вариантах осуществления настоящей технологии, приложение 122 ранжирования реализует алгоритм машинного обучения на основе обучения с учителем. В других вариантах осуществления настоящей технологии, приложение 122 ранжирования реализует алгоритм машинного обучения на основе частичного обучения с учителем.

[0060] В рамках этих вариантов осуществления технологии, приложение 122 ранжирования может быть использован в двух фазах - обучающей фазе, где приложение 122 ранжирования «обучается» для выведения формулы алгоритма машинного обучения - и в фазе действия, где приложение 122 ранжирования используется для ранжирования документов с помощью формулы алгоритма машинного обучения.

[0061] В некоторых вариантах осуществления настоящей технологии, обучающий сервер 114 находится под контролем и/или управлением платформы краудсорсинга, например платформы YANDEXTOLOKA™, предоставляемой компанией YANDEX™. Тем не менее, может быть использована любая другая коммерческая или собственная платформа краудсорсинга. Тем не менее, важно иметь в виду, что несмотря на то что варианты осуществления настоящей технологии будут описаны с использованием краудсорсной отметке документа в качестве примера, описанная здесь технология может применяться к отметке документов профессиональными экспертами и так далее.

[0062] В некоторых вариантах осуществления настоящей технологии, множество электронных устройств 104 может представлять собой часть набора профессиональных экспертов и, таким образом, эксперты (первый эксперт 110, второй эксперт 112) могут являться профессиональными экспертами. Альтернативно, множество электронных устройств 104 может представлять собой часть набора краудсорсинговых экспертов и, таким образом, эксперты (первый эксперт 110 и второй эксперт 112) могут являться участниками краудсорсинга.

[0063] В других вариантах осуществления технологии, множество электронных устройств 104 может быть частично разделено - некоторые из множества электронных устройств 104 могут являться частью профессиональных экспертов, а другие из множества электронных устройств 104 могут быть частью набора экспертов краудсорсинга. Таким образом, первый эксперт 110 может быть профессиональным экспертом; а второй эксперт 112 может быть участником краудсорсинга.

[0064] Обучающий сервер 114 включает в себя базу 124 данных краудсорсинга. База 124 данных краудсорсинга выполнена с возможностью получать и сохранять цифровой обучающий документ 126, который будет оценен множеством электронных устройств 104. В контексте настоящей технологии, термин «цифровой обучающий документ» относится к задаче, предлагаемой одному или нескольким экспертам, на получение необходимых услуг, идеи или содержимого с помощью отметок. Таким образом, цифровой обучающий документ 126 включает в себя диапазон возможных отметок 128, из которых эксперты должны выбирать конкретную отметку. Способ, согласно которому база 124 данных краудсорсинга получает цифровой обучающий документ 126, никак не ограничен и, например, может передаваться администратором (не показано) в связи с платформой краудсорсинга.

[0065] Несмотря на то что в представленном варианте осуществления технологии, база 124 данных краудсорсинга содержит только один цифровой обучающий документ 126, следует отметить, что конкретное число цифровых обучающих документов 126 никак конкретно не ограничено, и, в общем случае, можно утверждать, что база 124 данных краудсорсинга содержит по меньшей мере один цифровой обучающий документ 126, и диапазон возможных отметок 128 включает в себя по меньшей мере 2 возможные отметки (описано ниже).

[0066] Обучающий сервер 114 включает в себя базу 130 данных истории экспертов. База 130 данных истории экспертов выполнена с возможностью хранить некоторые или все данные, указывающие на предыдущую историю отметок/ярлыков для каждого из экспертов, связанных со множеством электронных устройств 104. В некоторых вариантах осуществления настоящей технологии, обучающий сервер 114 выполнен с возможностью анализировать данные, содержащиеся в базе 130 данных истории экспертов для создания и хранения набора конкретных для экспертов параметров 132 тенденции в базе 130 данных истории экспертов.

[0067] В контексте настоящей технологии, термин «конкретный для эксперта параметр тенденции» представляет собой характеристики назначения отметки для каждого из экспертов, связанных со множеством электронных устройств 104 (т.е. первым экспертом 110 и вторым экспертом 112).

[0068] Например, на основе предыдущих активностей по отметке, обучающий сервер 114 может определять, что первый эксперт 110 является категоричным экспертом (на основе того, что первый эксперт 110 имеет тенденцию к выбору только крайних отметок из всего диапазона возможных отметок 128).

[0069] Таким образом, в ситуации когда первого эксперта 110 просят выбрать конкретную отметку из диапазона возможных отметок 128 (например, от 1 до 5, наиболее релевантно будет 5) цифрового обучающего документа 126 для данного запроса, первый эксперт 110 имеет тенденцию назначения либо 1, либо 5, и с малой вероятностью будет выбирать промежуточные значения.

[0070] Альтернативно, обучающий сервер 114 может определять, что второй эксперт 112 является нерешительным экспертом (на основе того, что второй эксперт 112 имеет тенденцию к выбору только промежуточных отметок из всего диапазона возможных отметок 128).

[0071] Например, в ситуации когда второго эксперта 112 просят выбрать конкретную отметку из диапазона возможных отметок 128 (например, от 1 до 5, наиболее релевантно будет 5) цифрового обучающего документа 126 для данного запроса, второй эксперт 112 с малой вероятностью выберет 1 или 5, и имеет тенденцию выбирать промежуточные значения (например, 2, 3 и 4).

[0072] На основе по меньшей созданного набора конкретных для экспертов параметров 132 тенденции и диапазона возможных отметок 128, обучающий сервер 114 дополнительно выполнен с возможностью создавать присущую эксперту оценку 134 вероятности для каждой отметки из диапазона возможных отметок 128. Термин «присущая эксперту оценка вероятности» относится к вероятности того, что данная отметка из диапазона возможных отметок 128 выбирается экспертом, связанным с конкретным для эксперта параметром тенденции (подробн