2517271 - Длина документа в качестве статического признака релевантности для ранжирования результатов поиска

Длина документа в качестве статического признака релевантности для ранжирования результатов поиска

Иллюстрации

Показать все

Изобретение относится к предоставлению информации на основании запроса пользователя. Технический результат - эффективность выполнения запросов поисковыми машинами. Для этого в некотором варианте осуществления система включает в себя поисковый компонент, имеющий ранжирующий компонент, который может использоваться для ранжирования результатов поиска в качестве части ответа на запрос. В одном варианте осуществления ранжирующий компонент включает в себя ранжирующий алгоритм, который может использовать длину документа, возвращенную в ответ на поисковый запрос, для ранжирования результатов поиска. 3 н. и 12 з.п. ф-лы, 2 табл., 4 ил.

Реферат

Предшествующий уровень техники

Пользователи компьютера обладают различными путями находить информацию, которая может храниться локально или удаленно. Например, для нахождения документов и других файлов с помощью ключевых слов могут использоваться поисковые машины. Поисковые машины могут также использоваться для выполнения запросов, основанных на Web. Поисковая машина пытается возвратить релевантные результаты на основании запроса.

Сущность изобретения

Это краткое изложение сущности изобретения предоставляется для того, чтобы представить в упрощенной форме подборку концепций, которые более глубоко описаны ниже в подробном описании. Это краткое описание сущности изобретения не предназначается для выявления ключевых признаков или существенных признаков заявленного изобретения, равно как и не подразумевается в качестве помощи в определении объема заявленного изобретения.

Варианты осуществления приспособлены так, чтобы предоставлять информацию, включающую использование одного или более ранжировочных признаков, при предоставлении результатов поиска. В некотором варианте осуществления система включает в себя поисковую машину, которая включает в себя ранжирующий алгоритм, который может быть сконфигурирован для использования одного или нескольких ранжировочных признаков для ранжирования и предоставления результатов поиска на основании запроса. Согласно одному варианту осуществления длина документа может быть использована в качестве ранжировочного признака или меры релевантности документа.

Эти и другие свойства и преимущества будут очевидны при прочтении последующего подробного описания и обзора соответственных чертежей. Необходимо понимать, что как предшествующее общее описание, так и последующее подробное описание являются только пояснительными и не являются ограничительными для заявленного изобретения.

Краткое описание чертежей

Фиг.1 описывает структурную схему примера системы, сконфигурированной для управления информацией.

Фиг.2 является логической блок-схемой, описывающей пример процесса ранжирования и запроса.

Фиг.3 является логической блок-схемой, описывающей пример процесса ранжирования и запроса.

Фиг.4 является структурной схемой, иллюстрирующей вычислительную среду для реализации различных вариантов осуществления, описанных здесь.

Подробное описание

Варианты осуществления приспособлены так, чтобы предоставлять информацию, включающую использование одного или более ранжировочных признаков, при предоставлении результатов поиска. В некотором варианте осуществления система включает в себя поисковую машину, которая включает в себя ранжирующий алгоритм, который может быть сконфигурирован для использования одного или нескольких ранжировочных признаков, соответствующих переходам по ссылкам, для ранжирования и предоставления результатов поиска на основании запроса. В одном варианте осуществления система включает в себя ранжирующий компонент, который может использовать параметр выбора (щелчком мыши (кликом)), параметр пропуска, один или более потоковых параметров и длину документа для ранжирования и предоставления результата поиска.

В одном варианте осуществления система включает в себя поисковый компонент, который содержит поисковое приложение, которое может быть включено как часть машиночитаемого носителя данных. Поисковое приложение может использоваться для предоставления результатов поиска на основании, частично, пользовательского запроса и другого действия и/или бездействия пользователя. Например, пользователь может ввести ключевые слова в поисковое приложение, и поисковое приложение может использовать эти ключевые слова, чтобы вернуть релевантные результаты поиска. Пользователь может кликнуть или может не кликать на результат поиска для большей информации. Как описано ниже, поисковое приложение может использовать информацию, основанную на предыдущем действии или предыдущем бездействии, при ранжировании и возвращении результатов поиска. Соответственно, поисковое приложение может использовать реакции пользователя, основанные на результате поиска, чтобы обеспечить дополнительное фокусирование при возвращении релевантных результатов поиска. Например, поисковое приложение может использовать информацию состоявшихся переходов по ссылкам при ранжировании результатов поиска и возвращении ранжированных результатов поиска на основе пользовательского запроса.

Фиг.1 является структурной схемой системы 100, которая включает индексирование, поиск и другую функциональность. Например, система 100 может включать в себя индексирование, поиск и другие приложения, которые могут быть использованы для индексирования информации в качестве части индексированной структуры данных и искать релевантные данные с использованием индексированной структуры данных. Как описано ниже, компоненты системы 100 могут использоваться для того, чтобы ранжировать и возвратить результаты поиска, основанные, по меньшей мере частично, на запросе. Например, компоненты системы 100 могут быть сконфигурированы так, чтобы обеспечивать функциональность основанной на Web поисковой машины, которая может быть использована для возвращения результатов поиска в пользовательский браузер на основании, частично, отправленного запроса, который может состоять из одного или более ключевых слов, фраз и других поисковых элементов. Пользователь может представлять запросы в поисковый компонент 102 с помощью пользовательского интерфейса 103, такого как браузер или поисковое окно, например.

Как показано на фиг.1, система 100 включает в себя поисковый компонент 102, такой как поисковая машина, например, которая может быть сконфигурирована возвращать результаты, основанные, частично, на введенном запросе. Например, поисковый компонент 102 может функционировать так, чтобы использовать слово, слова, фразы, концепции и другие данные для нахождения релевантных файлов, документов, интернет-страниц и другой информации. Поисковый компонент 102 может функционировать так, чтобы находить информацию, и может быть использован операционной системой (ОС), файловой системой, системой, основанной на Web, или другой системой. Поисковый компонент 102 может также включаться в качестве встраиваемого (add-in) компонента, при этом поисковая функциональность может использоваться главной системой или приложением.

Поисковый компонент 102 может быть сконфигурирован для предоставления результатов поиска (унифицированных указателей информационных ресурсов (URL), например), которые могут быть ассоциированы с файлами, такими как документы, например, содержимым файла, виртуальным контентом, контентом, основанным на Web, и другой информацией. Например, поисковый компонент 102 может использовать текст, информацию о свойствах и/или метаданные при возврате результатов поиска, ассоциированных с локальными файлами, файлами, переданными из удаленной сети, комбинациями локальных и удаленных файлов и т.д. В одном варианте осуществления поисковый компонент 102 может взаимодействовать с файловой системой, виртуальным Web, сетевым или другим источником информации при предоставлении результатов поиска.

Поисковый компонент 102 включает в себя ранжирующий компонент 104, который может быть сконфигурирован для ранжирования результатов поиска на основании, по меньшей мере частично, ранжирующего алгоритма 106 и одного или более ранжировочных признаков 108. В одном варианте осуществления ранжирующий алгоритм 106 может быть настроен, чтобы предоставлять число или другую переменную, которая может быть использована для целей сортировки поисковым компонентом 102. Ранжировочные признаки 108 могут быть описаны как базовые входные значения или исходные числа, которые могут использоваться при определении релевантности результата поиска. Ранжировочные признаки 108 могут быть собраны, сохранены и содержатся в компоненте 110 базы данных.

Например, ранжировочные признаки, соответствующие переходам по ссылкам, могут сохраняться и поддерживаться с использованием нескольких таблиц регистрации запросов, которые также могут содержать информацию запросов, связанную с пользовательскими запросами. В альтернативном варианте осуществления ранжировочные признаки 108 могут сохраняться и содержаться в выделенном хранилище, включая локальные, удаленные и другие средства хранения. Один или более ранжировочных признаков 108 могут быть введены в ранжирующий алгоритм 106, и ранжирующий алгоритм 106 может функционировать так, чтобы ранжировать результаты поиска, в качестве части процесса определения ранжирования. Как описано ниже, в одном варианте осуществления ранжирующий компонент 104 может оперировать одним или более ранжировочными признаками 108 в качестве части процесса определения ранжирования.

Соответственно, поисковый компонент 102 может применять ранжирующий компонент 104 и связанный с ним ранжирующий алгоритм 106 при использовании одного или более ранжировочных признаков 108 в качестве части процесса определения ранжирования для того, чтобы предоставить результаты поиска. Результаты поиска могут быть предоставлены на основании ранжирования по релевантности или какого-либо другого ранжирования. Например, поисковый компонент 102 может представить результаты поиска от наиболее релевантного до наименее релевантного, основываясь, по меньшей мере частично, на определении релевантности, обеспечиваемом ранжирующим компонентом 104 с использованием одного или более ранжировочных признаков 108.

С продолжением обращения к фиг.1, система 100 также включает в себя индексирующий компонент 112, который может использоваться для индексирования информации. Индексирующий компонент 112 может использоваться для индексирования и внесения в каталог информации, подлежащей хранению в компоненте 110 базы данных. Более того, индексирующий компонент 112 может использовать метаданные, контент и/или другую информацию при выполнении индексирования в отношении ряда принципиально различных источников информации. Например, индексирующий компонент 112 может использоваться для построения инвертированной структуры индексных данных, которая соотносит документам ключевые слова, включая указатели URL, связанные с документами.

Поисковый компонент 102 может использовать индексированную информацию при возвращении релевантных результатов поиска в соответствии с ранжированием, обеспеченным ранжирующим компонентом 104. В некотором варианте осуществления, в качестве части поиска, поисковый компонент 102 может быть настроен идентифицировать набор возможных результатов, таких как несколько возможных документов (документов-кандидатов), например, которые содержат часть или всю информацию пользовательских запросов, такую как ключевые слова или фразы, например. Например, информация о запросе может быть локализована в теле документа или метаданных, или дополнительных метаданных, связанных с документом, которые могут быть в других документах или хранилищах данных (таких как привязанный текст, например). Как описано ниже, вместо возвращения всего набора результатов поиска, если набор является большим, поисковый компонент 102 может использовать ранжирующий компонент 104 для ранжирования кандидатов по релевантности или какому-нибудь другому критерию и возвращать подмножество всего набора, основываясь на, по меньшей мере частично, определении ранжирования. Однако, если набор кандидатов не слишком большой, поисковый компонент 102 может функционировать так, чтобы возвратить полный набор.

В некотором варианте осуществления ранжирующий компонент 104 может использовать ранжирующий алгоритм 106 для предсказания степени релевантности кандидата, связанного с конкретным запросом. Например, ранжирующий алгоритм 106 может вычислять ранжировочное значение, связанное с возможным результатом поиска, при котором большее ранжировочное значение соответствует более релевантному кандидату. Множество признаков, включая один или более ранжировочных признаков 108, могут быть введены в ранжирующий алгоритм 106, который может затем вычислить некий вывод, который дает возможность поисковому компоненту 102 сортировать кандидатов по рангу или по какому-либо другому критерию. Поисковый компонент 102 может использовать ранжирующий алгоритм 106 для предотвращения ситуации, в которой пользователь вынужден проверять полный набор кандидатов, такой как большой объем интернет кандидатов и URL коллекции предприятия, например, путем ограничения набора кандидатов согласно рангу.

В одном варианте осуществления поисковый компонент 102 может отслеживать и собирать ранжировочные признаки, основанные на действии и/или основанные на бездействии. Ранжировочные признаки, основанные на действии и/или основанные на бездействии, могут сохраняться в компоненте 110 базы данных и обновляться по мере необходимости. Например, информация переходов по ссылкам может отслеживаться и сохраняться в компоненте 110 базы данных в качестве одного или более ранжировочных признаков 108, когда пользователь взаимодействует с результатом поиска, например, кликая мышью. Данная информация также может использоваться для отслеживания того, когда пользователь не взаимодействует с ним. Например, пользователь может пропустить и не кликать на один или более результатов поиска. В альтернативном варианте осуществления отдельный компонент, такой как детектор ввода или другой записывающий компонент, например, может использоваться для наблюдения за пользовательскими реакциями, связанными с результатом или результатами поиска.

Поисковый компонент 102 может использовать выбранное число собранных ранжировочных признаков, основанных на действии и основанных на бездействии, как часть процесса определения релевантности при возвращении результатов поиска. В одном варианте осуществления поисковый компонент 102 может собирать и использовать несколько параметров взаимодействия, основанных на щелчках мыши, в качестве части процесса определения релевантности при возвращении результатов поиска, основанных на запросе. Например, представьте, что пользователь кликает на результат поиска (например, документ), который не был возвращен наверху списка результатов по какой бы то ни было причине. Как описано ниже, поисковый компонент 102 может записывать и использовать признак клика для повышения ранга выбранного (кликнутого) результата, когда в следующий раз какой-либо пользователь выдает такой же или похожий запрос. Поисковый компонент 102 также может собирать и использовать другие признаки и/или параметры взаимодействия, такие как ввод прикосновением, ввод стилусом или другие утвердительные вводы пользователя.

В одном варианте осуществления поисковый компонент 102 может использовать один или более ранжировочных признаков, соответствующих переходам по ссылкам, где один или более ранжировочных признаков, соответствующих переходам по ссылкам, могут быть извлечены из косвенной пользовательской обратной связи. Ранжировочные признаки, соответствующие переходам по ссылкам, могут быть собраны и сохранены, включая обновленные признаки, в нескольких таблицах регистрации запросов компонента 110 базы данных. Например, поисковый компонент 102 может использовать функциональность интегрированной серверной платформы, такой как система MICROSOFT OFFICE SHAREPOINT SERVER®, чтобы собирать, хранить и обновлять основанные на взаимодействии признаки, которые могут использоваться в качестве части процесса определения ранжирования. Функциональность серверной платформы может включать в себя управление Web-контентом, сервисами корпоративного информационного контента, корпоративный поиск, совместные бизнес-процессы, сервисы по бизнес-аналитике и другие сервисы.

Согласно этому варианту осуществления поисковый компонент 102 может использовать один или более ранжировочных признаков, соответствующих переходам по ссылкам, в качестве части процесса определения ранжирования при возвращении результатов поиска. Поисковый компонент 102 может использовать информацию о предыдущих переходах по ссылкам при компиляции ранжировочных признаков, соответствующих переходам по ссылкам, которую он может использовать для смещения ранжирующих упорядочений в качестве части процесса определения релевантности. Как описано ниже, один или более ранжировочных признаков, соответствующих переходам по ссылкам, могут быть использованы для обеспечения самоподстраивающейся ранжировочной функциональности путем использования неявной обратной связи, которую получает результат поиска, когда пользователь реагирует или не реагирует на этот результат поиска. Например, несколько результатов поиска могут быть предоставлены поисковым компонентом 102, перечисленные в порядке релевантности на странице результата поиска, а параметры могут быть собраны на основании того, выбирает ли пользователь (щелчком мыши) результат поиска или пропускает результат поиска.

Поисковый компонент 102 может использовать информацию в компоненте 110 базы данных, включая сохраненные признаки, основанные на действии и/или бездействии, при ранжировании и предоставлении результатов поиска. Поисковый компонент 102 может использовать записи запросов и информацию, связанную с предыдущими действиями пользователя или бездействиями, связанными с результатом запроса, при предоставлении текущего списка релевантных результатов запрашивающему. Например, поисковый компонент 102 может использовать информацию, связанную с тем, как другие пользователи отреагировали на предыдущие результаты поиска (например, файлы, документы, Web-каналы и т.д.) в ответ на такие же или похожие запросы, при предоставлении текущего списка ссылок, основанного на выданных пользовательских запросах.

В одном варианте осуществления поисковый компонент 102 может использоваться в сочетании с функциональностью обслуживающей системы, такой как система MICROSOFT OFFICE SHAREPOINT SERVER®, функционирующей для записывания и использования запросов и/или последовательностей запросов, записывания и использования пользовательских действий и/или бездействий, связанных с результатами поиска, и для записывания и использования другой информации, связанной с определением соответствия. Например, поисковый компонент 102 может использоваться в сочетании с функциональностью системы MICROSOFT OFFICE SHAREPOINT SERVER® для того, чтобы записывать и использовать выданные запросы наряду с результатом поиска в виде URL, который мог быть нажат для конкретного запроса. Система MICROSOFT OFFICE SHAREPOINT SERVER® также может записывать список URL-ссылок, которые были показаны или представлены с выбранной URL-ссылкой, например, несколько URL-ссылок, которые были показаны над выбранной URL. Дополнительно система MICROSOFT OFFICE SHAREPOINT SERVER® может функционировать для записывания полученной в результате поиска URL-ссылки, которая не была выбрана, на основании конкретного запроса. Ранжировочные признаки, соответствующие переходам по ссылкам, могут быть собраны и использованы при проведении определения релевантности, описанного ниже.

В одном варианте осуществления несколько ранжировочных признаков, соответствующих переходам по ссылкам, могут быть агрегированы и определены, как следует ниже:

1) параметр выбора щелчком мышью (клика), Nc, который соответствует числу раз (по всем запросам), которое результат поиска (например, документ, файл, URL-ссылка и т.д.) был выбран щелчком мыши (кликом);

2) параметр пропуска, Ns, который соответствует числу раз (по всем запросам), которое результат поиска был пропущен. А именно, результат поиска был включен с другими результатами поиска, мог быть замечен пользователем, но не выбран. Например, наблюдаемый или пропущенный результат поиска может ссылаться на результат поиска, имеющий более высокий ранг, чем выбранный результат. В одном варианте осуществления поисковый компонент 102 может использовать допущение, что пользователь просматривает результаты поиска сверху вниз при взаимодействии с результатами поиска;

3) первый потоковый параметр, Pc, который может быть представлен как текстовый поток, соответствующий объединению всех строк запросов, связанных с выбранным щелчком мыши результатом поиска. В одном варианте осуществления объединение включает в себя все строки запросов, для которых результат был возвращен и выбран. Дубликаты строк запросов возможны (т.е. каждый индивидуальный запрос может быть использован в функционировании объединения);

4) второй потоковый параметр, Ps, который может быть представлен как текстовый поток, соответствующий объединению всех строк запросов, связанных с пропущенным результатом поиска. В одном варианте осуществления объединение включает в себя все строки запросов, для которых результат был возвращен и пропущен. Дубликаты строк запросов возможны (т.е. каждый индивидуальный запрос может быть использован в функционировании объединения).

Вышеперечисленные ранжировочные признаки, соответствующие переходам по ссылкам, могут собираться в желаемое время, таким образом, например, как одной или более системами поисковых роботов на некоторой периодической основе, и ассоциироваться с каждым результатом поиска. Например, один или более ранжировочных признаков, соответствующих переходам по ссылкам, могут быть ассоциированы с документом, который был возвращен поисковым компонентом 102 на основании запроса пользователя. Следующим шагом один или более ранжировочных признаков, соответствующих переходам по ссылкам, могут быть введены в ранжирующий компонент 104 и использованы с ранжирующим алгоритмом 106 как часть процесса определения ранжирования и релевантности. В некоторых случаях некоторые результаты поиска (например, документы, URL-ссылки и т.д.) могут не включать в себя информацию переходов по ссылкам. Для результатов поиска с отсутствующей информацией переходов по ссылкам определенные свойства текста (например, Pc и/или Ps потоки) могут быть оставлены пустыми, а определенные статические параметры (например, Nc и Ns) могут иметь нулевое значение.

В одном варианте осуществления один или более ранжировочных признаков, соответствующих переходов по ссылкам, могут использоваться с ранжирующим алгоритмом 106, который сначала требует накопления одной или более комбинаций переходов по ссылкам в процессе кроллинга (регулярного обхода страниц Интернета с целью занесения их в базу поисковой программы), включая полные и/или инкрементные кроллинги. Например, поисковый компонент 102 может задействовать поискового робота, который может совершать ряд операций для кроллинга файловой системы, коллекции, основанной на Web, или другого хранилища при накоплении информации, связанной с ранжировочными признаками, соответствующими переходам по ссылкам, и другими данными. Один или более поисковых роботов могут быть реализованы для кроллинга или кроллингов, в зависимости от целевого объекта или объектов кроллинга и конкретной реализации.

Поисковый компонент 102 может использовать собранную информацию, включая любые ранжировочные признаки, соответствующие переходам по ссылкам, для обновления не зависимых от запроса накопителей, таких как несколько таблиц регистрации запросов, например, одним или более признаками, которые могут быть использованы при ранжировании результатов поиска. Например, поисковый компонент 102 может обновлять несколько таблиц регистрации запросов параметром клика (Nc) и/или параметром пропуска (Ns) для каждого результата поиска, который включает в себя обновленную информацию переходов по ссылкам. Информация, связанная с обновленными независимыми от запроса хранилищами, может также быть использована различными компонентами, включая индексирующий компонент 112 при выполнении операций индексирования.

Соответственно, индексирующий компонент 112 может периодически получать любые изменения или обновления из одного или более независимых хранилищ. Более того, индексирующий компонент 112 может периодически обновлять один или более индексов, которые могут включать один или более динамических и других признаков. В одном варианте осуществления система 100 может включать в себя два индекса, главный индекс и второстепенный индекс, например, которые поисковый компонент 102 может использовать, чтобы обслужить запрос. Первый (главный) индекс может использоваться для индексирования ключевых слов из тела документов и/или метаданных, связанных с Web-сайтами, файловыми серверами и другими хранилищами информации. Второстепенный индекс может использоваться для индексирования дополнительных текстовых и статических признаков, которые могут не получаться прямо из документа. Например, дополнительные текстовые и статические признаки могут включать в себя закрепленный текст, дистанцию кликов, данные клика и т.д.

Второстепенный индекс также позволяет разделить расписания обновлений. Например, когда новый документ выбран, для индексирования ассоциированных данных требуется только частичное перепостроение второстепенного индекса. Таким образом, главный индекс может оставаться неизменным, а весь документ не требует повторного кроллинга. Структура главного индекса может быть структурирована как инвертированный индекс и может использоваться для соотнесения ключевых слов с идентификаторами (ID) документов, но не является столь ограниченной. Например, индексирующий компонент 112 может обновить второстепенный индекс, используя первый потоковый параметр Pc и/или второй потоковый параметр Ps для каждого результата, который включает в себя обновленную информацию переходов по ссылкам. В дальнейшем один или более ранжировочных признаков переходов по ссылкам и связанных параметров могут быть применены и использоваться поисковым компонентом 102, как, например, один или более вводов в ранжирующий алгоритм 106 как часть процесса определения релевантности, связанным с выполнением запроса.

Как описано ниже, двухслойная нейронная сеть может быть использована в качестве части процесса определения релевантности. В одном варианте осуществления реализация двухслойной нейронной сети включает в себя фазу обучения и фазу ранжирования как часть процесса прямого распространения, использующего двухслойную нейронную сеть. В качестве обучающего алгоритма во время фазы обучения может использоваться модель лямбда-ранжирования (см. C. Burges, R. Ragno, Q. V. Le, "Learning To Rank With Nonsmooth Cost Functions" in Schόlkopf, Platt and Hofmann (Ed.) Advances in Neural Information Processing Systems 19, Proceedings of the 2006 Conference, (MIT Press, 2006)), а модель нейронной сети с прямым распространением может использоваться в качестве части процесса определения ранжирования. Например, стандартная модель нейронной сети с прямым распространением может использоваться в качестве части фазы ранжирования. Один или более из ранжировочных признаков, соответствующих переходам по ссылкам, могут использоваться в сочетании с двухуровневой нейронной сетью в качестве части процесса определения релевантности при возвращении результатов запроса, основанных на запросе пользователя.

В некотором варианте осуществления ранжирующий компонент 104 использует ранжирующий алгоритм 106, который заключает в себе оценочную функцию двухуровневой нейронной сети, здесь и далее «оценочную функцию», которая включает в себя:

где

h_j является выходом скрытого узла j,

x_i является входным значением от входного узла i, такого как один или более вводов ранжировочных признаков,

w2_j является весовым коэффициентом, который необходимо применить к выходу скрытого узла,

w_ij является весовым коэффициентом, который необходимо применить к входному значению x_i скрытым узлом j,

t_j является пороговым значением для скрытого узла j,

tanh является функцией гиперболического тангенса:

В альтернативном варианте осуществления другие функции, имеющие похожие свойства и характеристики как у функции tanh, могут быть использованы выше. В одном варианте осуществления переменная x_i может представлять один или более параметров перехода по ссылкам. Тренировочный алгоритм λ-ранжирования может использоваться для обучения оценочной функции двухуровневой нейронной сети перед ранжированием в качестве части процесса определения релевантности. Более того, новые признаки и параметры могут быть добавлены в оценочную функцию без значительного влияния на точность обучения или скорость обучения.

Один или более ранжировочных признаков 108 могут быть введены и использованы ранжирующим алгоритмом 106, оценочной функцией двухуровневой нейронной сети для этого варианта осуществления, при проведении определения соответствия при возвращении результатов поиска, основанных на запросе пользователя. В одном варианте осуществления один или более ранжировочных параметров, соответствующих переходам по ссылкам (Nc, Ns, Pc, и/или Ps) могут быть введены и использованы ранжирующим алгоритмом 106 при проведении определения релевантности в качестве части возвращения результатов поиска, основанных на запросе пользователя.

Параметр Nc может использоваться для формирования дополнительного ввода в оценочную функцию двухуровневой нейронной сети. В одном варианте осуществления входное значение, связанное с параметром Nc, может быть вычислено в соответствии со следующей формулой:

входное значение=

Где в одном варианте осуществления, параметр Nc соответствует значению исходного параметра, связанного с числом раз (по всем запросам и всем пользователям), которое результат поиска был выбран;

K_Nc является настраиваемым параметром (например, больший чем, или равный нулю);

M_Nc и S_Nc являются параметрами среднего значения и стандартного отклонения или нормировочными константами, связанными с обучающими данными;

iNc соответствует индексу режима ввода.

Параметр Ns может использоваться для формирования дополнительного ввода в оценочную функцию двухуровневой нейронной сети. В одном варианте осуществления входное значение, связанное с параметром Ns, может быть вычислено в соответствии со следующей формулой:

входное значение=

Где в одном варианте осуществления, параметр Ns соответствует значению исходного параметра, связанного с числом раз (по всем запросам и всем пользователям), которое результат поиска был сознательно пропущен;

K_Ns является настраиваемым параметром (например, больший чем, или равный нулю);

M_Ns и S_Ns являются параметрами среднего значения и стандартного отклонения или нормировочными постоянными, связанными с обучающими данными;

iNs соответствует индексу режима ввода.

Параметр Pc может быть включен в формулу (4) ниже, которая может использоваться для выведения зависимого от контента ввода в оценочную функцию двухуровневой нейронной сети.

входное значение=

Формула для TF'_t может быть вычислена следующим образом:

Где Q является строкой запроса,

t является отдельным элементом запроса (например, слово),

D - результат (например, документ), который оценивают,

р является индивидуальным свойством результата (например, документа) (например, заголовком, телом, текстом привязки, автором и т.д.) и любым другим текстовым свойством, которое будет использоваться для ранжирования,

N - суммарное число результатов (например, документов) в области поиска,

n_t представляет собой число результатов (например, документов), содержащих термин t,

DL_p является длиной свойства р,

AVDL_p является усредненной длиной свойства р,

TF_t,p является частотой появления термина t в свойстве р,

TF_t,pc соответствует числу раз, которое заданный термин появляется в параметре Рс,

DL_pc соответствует длине параметра Рс (например, количеству включенных в него терминов),

AVDL_pc соответствует средней длине параметра Рс,

W_pc и b_pc соответствуют настраиваемым параметрам,

D\P_c соответствует набору свойств документа D, исключая свойство P_c (элемент для P_c взят вне знака суммирования только для ясности),

iBM25main является индексом узла ввода и

M и S представляют собой нормировочные постоянные, соответствующие среднему и стандартному отклонению.

Параметр Ps может быть включен в формулу (6) ниже, которая может использоваться для выведения дополнительного ввода в оценочную функцию двухуровневой нейронной сети.

входное значение=

где

TF_t,ps представляет собой число раз, которое заданный термин является связанным с параметром Ps,

DL_ps представляет собой длину параметра Ps (например, число терминов),

AVDL_pc представляет собой среднюю длину параметра Ps,

N представляет собой число результатов поиска (например, документов) в собрании документов,

n_t представляет собой число результатов поиска (например, документов), содержащих заданный термин запроса,

k₁ ^”, w_ps, b_ps представляют собой настраиваемые параметры и

M и S представляют собой нормировочные постоянные, соответствующие среднему и стандартному отклонению.

Как только одно или более входных значений вычислены, как показано выше, одно или более входных значений могут быть введены в (1), и на выход может быть выдана оценка или ранжирование, которые могут затем использоваться при ранжировании результатов поиска в качестве части процесса определения релевантности. В качестве примера, х₁ может использоваться для представления вычисляемого входного значения, связанного с параметром Nc, х₂ может использоваться для представления вычисляемого входного значения, связанного с параметром Ns, х₃ может использоваться для представления вычисляемого входного значения, связанного с параметром Pc, а х₄ может использоваться для представления вычисляемого входного значения, связанного с параметром Ps. Как описано выше, текстовые потоки могут также включать тело, заголовок, автора, URL-ссылку, текст привязки, сгенерированный заголовок и/или Pc. Соответственно, одно или более входных значений, например х₁, х₂, х₃ и/или х₄, могут быть введены в оценочную функцию (1) при ранжировании результатов поиска в качестве части процесса определения релевантности. Соответственно, поисковый компонент 102 может предоставить пользователю ранжированные результаты поиска на основании выданного запроса и одного или более ранжирующих входных значений. Например, поисковый компонент 102 может возвратить набор URL-ссылок, где URL-ссылки в рамках данного набора могут быть представлены пользователю на основании ранжирующего порядка (например, от высокого значения релевантности к низкому значению релевантности).

Другие признаки также могут быть использованы при ранжировании и предоставлении результатов поиска. В некотором варианте осуществления дистанция кликов (CD), глубина URL-ссылок (UD), тип файла или типовой приоритет (Т), язык или языковой приоритет (L) и/или другие ранжировочные признаки могут использоваться для ранжирования и предоставления результатов поиска. Один или более из дополнительных ранжировочных признаков могут использоваться в качестве части процесса определения линейного ранжирования, определения нейронной сети или другого определения ранжирования. Например, один или более статических ранжировочных признаков могут использоваться в сочетании с одним или более динамическими ранжировочными признаками в качестве части процесса определения линейного ранжирования, определения нейронной сети или другого определения ранжирования.

Соответственно, CD представляет собой дистанцию кликов, при котором CD может быть описано как независимый от запроса ранжировочный пр

Длина документа в качестве статического признака релевантности для ранжирования результатов поиска

Патент 2517271