Способ и устройство иерархической фильтрации документов

Иллюстрации

Показать все

Изобретение относится к области техники поиска информации и, в частности, к способу и устройству иерархической фильтрации документов. Техническим результатом является сокращение времени ответа при поиске и снижение расходов на вычисление. В способе иерархической фильтрации документов выбирают несколько документов из фильтруемого набора документов текущего иерархического слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов и формируют первый список документов. Вычисляют значение качества каждого документа в первом списке документов. Переупорядочивают документы в первом списке документов в соответствии со значением качества каждого документа, чтобы получить второй список документов. Фильтруют фильтруемый набор документов текущего иерархического слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов. В соответствии с изобретением фильтруется фильтруемый набор документов текущего слоя фильтрации документов, так что значительно сокращается количество документов, которые должны быть обработаны на нижерасположенном слое фильтрации документов. 2 н. и 10 з.п. ф-лы, 3 ил.

Реферат

Область техники, к которой относится изобретение

Настоящее изобретение относится к области техники поиска информации и, в частности, к способу и устройству иерархической фильтрации документов.

Предпосылки создания изобретения

В повседневной жизни пользователь часто использует ключевые слова, чтобы осуществлять поиск требуемого контента посредством использования поисковой машины. Поисковой машине требуется найти связанные документы из значительного количества документов в соответствии с ключевым словом с тем, чтобы пользователь смог прочитать требуемый контент из связанных документов.

В настоящее время, во время поиска документа, поисковая машина сначала использует алгоритм релевантности с определенным количеством признаков, чтобы вычислить релевантность между каждым документом из значительного количества документов и ключевым словом, т.е. значение качества документа, и отфильтровывает документы со значениями качества меньше, чем текущая пороговая величина фильтрации. Когда в алгоритм релевантности добавляются еще признаки, вычисляются значения качества оставшихся документов, и дополнительно отфильтровываются документы со значениями качества меньше, чем текущая пороговая величина фильтрации. По аналогии, вычисление значения качества документов и отфильтровывание документов со значениями качества, меньшими, чем пороговая величина фильтрации, выполняются несколько раз вышеупомянутым образом до тех пор, пока количество документов, получаемых в результате фильтрации, не достигает ожидаемого количества, и итоговые оставшиеся документы определяются в качестве связанных документов, найденных посредством поиска.

Во время реализации настоящего изобретения авторы изобретения обнаружили, что когда присутствует некоторое количество документов в поиске, каждый раз после фильтрации, по-прежнему остается много документов. Вычисление значений качества большого количества документов занимает всякий раз длительное время, и в целом, это занимает много времени, что приводит к более высоким накладным расходам на вычисления и длительному времени ответа при поиске.

Сущность изобретения

В связи с этим, цель вариантов осуществления настоящего изобретения состоит в предоставлении способа и устройства иерархической фильтрации документов, тем самым реализуя иерархическую фильтрацию документов, сокращая время ответа при поиске, и снижая накладные расходы на вычисления.

В соответствии с первым аспектом, вариант осуществления настоящего изобретения предоставляет способ иерархической фильтрации документов, при этом способ включает в себя этапы, на которых:

выбирают несколько документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, и формируют первый список документов посредством использования выбранных документов в соответствии с упорядоченностью выбранных документов в фильтруемом наборе документов, где документы в фильтруемом наборе документов упорядочены в соответствии со значениями качества документов на вышерасположенном слое фильтрации документов;

вычисляют значение качества каждого документа в первом списке документов соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов;

переупорядочивают документы в первом списке документов в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов; и

фильтруют фильтруемый набор документов текущего слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов.

Со ссылкой на первый аспект, данный вариант осуществления настоящего изобретения предоставляет первую возможную реализацию первого аспекта, где этап, на котором выбирают несколько документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, включает в себя этапы, на которых:

определяют, в соответствии с количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов, первое количество подмножеств документов на которое требуется разделить фильтруемый набор документов, и второе количество документов, которое требуется выбрать из каждого из подмножеств документов;

делят фильтруемый набор документов на первое количество подмножеств документов в соответствии с упорядоченностью документов; и

выбирают второе количество документов из каждого из подмножеств документов соответственно, чтобы получить несколько документов.

Со ссылкой на первую возможную реализацию первого аспекта, данный вариант осуществления настоящего изобретения предоставляет третью возможную реализацию первого аспекта, где этап, на котором выбирают второе количество документов из каждого из подмножеств документов соответственно, включает в себя этапы, на которых:

выбирают второе количество документов из передней части каждого из подмножеств документов соответственно; или,

выбирают второе количество документов из каждого из подмножеств документов с предварительно определенным интервалом соответственно; или,

выбирают второе количество документов из каждого из подмножеств документов соответственно случайным образом.

Со ссылкой на первый аспект, данный вариант осуществления настоящего изобретения предоставляет вторую возможную реализацию первого аспекта, где этап, на котором выбирают несколько документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, включает в себя этапы, на которых:

определяют интервал отбора образцов документов в соответствии с количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов; и

выбирают документы из фильтруемого набора документов с интервалом отбора образцов документов, чтобы получить несколько документов.

Со ссылкой на первый аспект, данный вариант осуществления настоящего изобретения предоставляет четвертую возможную реализацию первого аспекта, где этап, на котором фильтруют фильтруемый набор документов текущего слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов, включает в себя этапы, на которых:

оценивают, является ли степень согласованности между первым списком документов и вторым списком документов больше, чем предварительно установленная пороговая величина согласованности; если да, отфильтровывают документы, удовлетворяющие предварительно установленному условию фильтрации в фильтруемом наборе документов текущего слоя фильтрации документов; и если нет, вычисляют значение качества каждого документа в фильтруемом наборе документов в соответствии со способом вычисления релевантности для текущего слоя фильтрации документов, переупорядочивают документы в фильтруемом наборе документов в соответствии с вычисленными значениями качества, и отфильтровывают документы, удовлетворяющие предварительно установленному условию фильтрации в переупорядоченном фильтруемом наборе документов.

Со ссылкой на первый аспект, данный вариант осуществления настоящего изобретения предоставляет пятую возможную реализацию первого аспекта, где после этапа, на котором фильтруют фильтруемый набор документов текущего слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов, способ дополнительно включает в себя этапы, на которых:

оценивают, удовлетворяется ли предварительно установленное условие остановки фильтрации в соответствии с номером слоя у текущего слоя фильтрации документов или количеством документов в отфильтрованном фильтруемом наборе документов; если да, определяют документы в отфильтрованном фильтруемом наборе документов в качестве результата поиска; и если нет, используют отфильтрованный фильтруемый набор документов в качестве нового набора документов, и фильтруют новый набор документов посредством использования нижерасположенного слоя фильтрации документов.

В соответствии со вторым аспектом, вариант осуществления настоящего изобретения предоставляет устройство иерархической фильтрации документов, где устройство включает в себя:

модуль выбора, выполненный с возможностью выбора нескольких документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, и формирования первого списка документов посредством использования выбранных документов в соответствии с упорядоченностью выбранных документов в фильтруемом наборе документов, где документы в фильтруемом наборе документов упорядочены в соответствии со значениями качества документов на вышерасположенном слое фильтрации документов;

модуль вычисления, выполненный с возможностью вычисления значения качества каждого документа в первом списке документов соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов;

модуль упорядочивания, выполненный с возможностью переупорядочивания документов в первом списке документов в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов; и

модуль фильтрации, выполненный с возможностью фильтрации фильтруемого набора документов текущего слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов.

Со ссылкой на второй аспект, данный вариант осуществления настоящего изобретения предоставляет первую возможную реализацию второго аспекта, где модуль выбора включает в себя:

первый блок определения, выполненный с возможностью определения, в соответствии с количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов, первого количества подмножеств документов на которое требуется разделить фильтруемый набор документов, и второго количества документов, которое требуется выбрать из каждого из подмножеств документов;

блок деления, выполненный с возможностью деления фильтруемого набора документов на первое количество подмножеств документов в соответствии с упорядоченностью документов; и

первый блок выбора, выполненный с возможностью выбора второго количества документов из каждого из подмножеств документов соответственно, чтобы получить несколько документов.

Со ссылкой на первую возможную реализацию второго аспекта, данный вариант осуществления настоящего изобретения предоставляет третью возможную реализацию второго аспекта, где первый блок выбора включает в себя:

первый субблок выбора, выполненный с возможностью выбора второго количества документов из передней части каждого из подмножеств документов соответственно; или,

второй субблок выбора, выполненный с возможностью выбора второго количества документов из каждого из подмножеств документов с предварительно определенным интервалом соответственно; или,

третий субблок выбора, выполненный с возможностью выбора второго количества документов из каждого из подмножеств документов соответственно случайным образом.

Со ссылкой на второй аспект, данный вариант осуществления настоящего изобретения предоставляет вторую возможную реализацию второго аспекта, где модуль выбора включает в себя:

второй блок определения, выполненный с возможностью определения интервала отбора образцов документов в соответствии с количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов; и

второй блок выбора, выполненный с возможностью выбора документов из фильтруемого набора документов с интервалом отбора образцов документов, чтобы получить несколько документов.

Со ссылкой на второй аспект, данный вариант осуществления настоящего изобретения предоставляет четвертую возможную реализацию второго аспекта, где модуль фильтрации включает в себя:

блок фильтрации, выполненный с возможностью определения, является ли степень согласованности между первым списком документов и вторым списком документов больше, чем предварительно установленная пороговая величина согласованности; если да, отфильтровывания документов, удовлетворяющих предварительно установленному условию фильтрации в фильтруемом наборе документов текущего слоя фильтрации документов; и если нет, вычисления значения качества каждого документа в фильтруемом наборе документов в соответствии со способом вычисления релевантности для текущего слоя фильтрации документов, переупорядочивания документов в фильтруемом наборе документов в соответствии с вычисленными значениями качества, и отфильтровывания документов, удовлетворяющих предварительно установленному условию фильтрации в переупорядоченном фильтруемом наборе документов.

Со ссылкой на второй аспект, данный вариант осуществления настоящего изобретения предоставляет пятую возможную реализацию второго аспекта, где устройство дополнительно включает в себя:

модуль оценки остановки, выполненный с возможностью определения, удовлетворяется ли предварительно установленное условие остановки фильтрации в соответствии с номером слоя у текущего слоя фильтрации документов или количеством документов в отфильтрованном фильтруемом наборе документов; если да, определения документов в отфильтрованном фильтруемом наборе документов в качестве результата поиска; и если нет, использования отфильтрованного фильтруемого набора документов в качестве нового набора документов, и фильтрации нового набора документов посредством использования нижерасположенного слоя фильтрации документов.

В соответствии со способом и устройством, предоставляемыми вариантом осуществления настоящего изобретения, первый список документов формируется посредством выбора нескольких документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов; значение качества каждого документа в первом списке документов вычисляется соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов; документы в первом списке документов переупорядочиваются в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов; и фильтруемый набор документов текущего слоя фильтрации документов фильтруется в соответствии со степенью согласованности между первым списком документов и вторым списком документов. Так как фильтруется фильтруемый набор документов текущего слоя фильтрации документов, значительно сокращается количество документов, которое требуется обработать на нижерасположенном слое фильтрации документов. На каждом слое, фильтруемый набор документов текущего слоя может фильтроваться в соответствии с данным решением. Вследствие этого, реализуется иерархическая фильтрация документов, сокращается время ответа при поиске, и снижаются накладные расходы на вычисления.

Для того чтобы сделать цели, признаки, и преимущества настоящего изобретения более понятными, подробное описание предоставляется ниже посредством использования предпочтительных вариантов осуществления со ссылкой на сопроводительные чертежи.

Краткое описание чертежей

Чтобы проиллюстрировать технические решения в вариантах осуществления настоящего изобретения более четко, сопроводительные чертежи, требуемые для описания вариантов осуществления, кратко описываются ниже. Должно быть понятно, что сопроводительные чертежи ниже лишь показывают некоторые варианты осуществления настоящего изобретения, и, вследствие этого, не должны толковаться в качестве ограничивающих объем. Специалисты в соответствующей области техники по-прежнему могут получить другие чертежи из этих сопроводительных чертежей, без приложения творческих усилий.

Фиг. 1A является блок-схемой способа иерархической фильтрации в соответствии с Вариантом 1 Осуществления настоящего изобретения;

Фиг. 1B является принципиальной блок-схемой выбора документа в соответствии с Вариантом 1 Осуществления настоящего изобретения; и

Фиг. 2 является принципиальной структурной схемой устройства иерархической фильтрации в соответствии с Вариантом 2 Осуществления настоящего изобретения.

Подробное описание

Технические решения в соответствии с вариантами осуществления настоящего изобретения четко и полностью описываются ниже со ссылкой на сопроводительные чертежи. Очевидно, что варианты осуществления нижеследующего описания являются лишь некоторыми, а не всеми вариантами осуществления настоящего изобретения. Как правило, компоненты вариантов осуществления настоящего изобретения, описанные или показанные на сопроводительных чертежах, могут быть организованы или исполнены в соответствии с разнообразными конфигурациями. Вследствие этого, нижеследующее подробное описание вариантов осуществления настоящего изобретения, предоставленное на сопроводительных чертежах, не предназначено для того, чтобы ограничивать объем правовой охраны настоящего изобретения, а лишь показывает выбранные варианты осуществления настоящего изобретения. Все другие варианты осуществления, полученные специалистами в соответствующей области техники на основании вариантов осуществления настоящего изобретения без приложения творческих усилий, должны лежать в рамках объема правовой охраны настоящего изобретения.

В области техники поиска, к которой принадлежит настоящее изобретение, количество документов в сети Интернет очень большое, так что поисковая машина может находить большое количество связанных документов в соответствии с ключевым словом, предоставленным пользователем, но значительная часть большого количества связанных документов обладает очень низкой релевантностью по отношению к ключевому слову, и качество документа большого числа документов является очень низким. Если такие документы отправляются к пользователю, вероятность того, что пользователь просматривает такие документы очень низкая, и передача таких документов требует растраты большого объема трафика данных. Чтобы сократить трафик данных и улучшить информативный характер и качество документа у документов, которые в итоге передаются пользователю, требуется сначала отфильтровать найденные документы.

В ходе осмысления решения фильтрации документов настоящего изобретения, учитывалось, что в известном уровне техники, когда количество документов, найденных посредством поиска, является очень большим, фильтрация выполняется в соответствии со значениями качества документов несколько раз, причем количество оставшихся документов после каждой фильтрации по-прежнему очень большое, и по-прежнему каждый раз вычисление значений качества большого количества документов занимает очень длительное время, приводя к тому, что накладные расходы на вычисления являются очень высокими, а время ответа при поиске является очень длительным. На основании этого, варианты осуществления настоящего изобретения предоставляют способ и устройство иерархической фильтрации документов. Описание предоставляется ниже посредством использования вариантов осуществления.

Вариант 1 Осуществления

Данный вариант осуществления настоящего изобретения предоставляет способ иерархической фильтрации документов. В данном варианте осуществления присутствует несколько слоев фильтрации документов от верхнего к нижнему, способ вычисления релевантности является предварительно установленным для каждого слоя фильтрации документов, и способы вычисления релевантности слоев могут быть разными, как исходя из количества признаков, которые используются, так и исходя из сложности алгоритма. Для нижерасположенного слоя фильтрации документов, может быть использован алгоритм более высокой сложности и большее число признаков с тем, чтобы улучшить точность вычисления.

Во время фильтрации документов на каждом слое фильтрации документов способ фильтрации документов на первом слое является точно таким же, как существующий способ фильтрации документов, т.е., документы удовлетворяющие предварительно установленному условию фильтрации фильтруются в соответствии со значением качества каждого документа, и оставшиеся документы переносятся на второй слой с тем, чтобы фильтроваться в дальнейшем. Предварительно установленное условие фильтрации может состоять в том, что отфильтровываются все документы со значениями качества меньшими, чем предварительно установленная пороговая величина качества; или может состоять в том, что оставляется предварительно определенное количество документов с самыми высокими значениями качества, а другие документы отфильтровываются. Применительно к каждому из этих слоев фильтрации, за исключением первого слоя, фильтруемый набор документов текущего слоя фильтрации документов фильтруется посредством использования способа, предоставленного посредством данного варианта осуществления настоящего изобретения, и набор документов, после того как фильтрация выполняется на текущем слое фильтрации документов, используется в качестве набора документов, который должен быть отфильтрован на нижерасположенном слое фильтрации документов, до тех пор, пока набор документов, полученный посредством фильтрации, уже не удовлетворяет требованию, например, количество наборов документов уже достигло ожидаемого количества, или до тех пор, пока набор документов уже не отфильтрован последним слоем.

Обращаясь к Фиг. 1A, Фиг. 1A является блок-схемой способа иерархической фильтрации документов, предоставленного данным вариантом осуществления настоящего изобретения, и способ, в частности, включает в себя следующие этапы:

Этап 101: Выбирают несколько документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, и формируют первый список документов посредством использования выбранных документов в соответствии с упорядоченностью выбранных документов в фильтруемом наборе документов.

Фильтруемый набор документов текущего слоя фильтрации документов является набором документов, сформированным документами, которые остались после фильтрации, выполненной на вышерасположенном слое фильтрации документов. Документы в фильтруемом наборе документов упорядочены в соответствии со значениями качества документов на вышерасположенном слое фильтрации документов. Т.е., во время фильтрации на вышерасположенном слое фильтрации документов, значение качества каждого документа в фильтруемом наборе документов вычисляется в соответствии со способом вычисления релевантности для вышерасположенного слоя фильтрации документов, и документы в фильтруемом наборе документов упорядочиваются в соответствии с предварительно установленной упорядоченностью значений качества. Предварительно установленная упорядоченность может быть упорядоченностью по убыванию значений качества или упорядоченностью по возрастанию значений качества.

Способ вычисления релевантности состоит в том, что значение качества документа вычисляется посредством использования предварительно установленного алгоритма в соответствии с некоторым количеством признаков, и в данном варианте осуществления настоящего изобретения, соответствующий способ вычисления релевантности конфигурируется для каждого слоя. Предварительно установленный алгоритм может быть алгоритмом ранжирования релевантности, таким как алгоритм BM25. Значение качества может указывать, является ли качество документа хорошим или низким. Большее значение качества указывает более высокое качество документа, а меньшее значение качества указывает на более низкое качество документа. Признаки, используемые способом вычисления релевантности, могут быть признаками, таким как длина документа и количество раз или частота, с которой ключевое слово встречается в документе.

В данном варианте осуществления настоящего изобретения, предварительно установленная стратегия отбора образцов может включать в себя количество документов, выбираемых из фильтруемого набора документов текущего слоя фильтрации документов, и способ выбора. Способ выбора может быть случайным выбором документов, выбором документов из передней части фильтруемого набора документов, выбором документов с предварительно определенным интервалом, или подобным. Количество выбранных документов связано с количеством документов в фильтруемом наборе документов текущего слоя фильтрации документов, и предварительно установленная стратегия отбора образцов может включать в себя предварительно установленный коэффициент выбора. Во время выбора документа, количество выбираемых документов может определяться в соответствии с количеством документов, включаемых фильтруемым набором документов, и коэффициентом выбора.

В данном варианте осуществления настоящего изобретения, несколько документов может быть выбрано из фильтруемого набора документов текущего слоя фильтрации документов непосредственно в соответствии с предварительно установленной стратегией отбора образцов, и первый список документов формируется посредством использования выбранных документов в соответствии с упорядоченностью выбранных документов в фильтруемом наборе документов. Способ упорядочивания документов в первом списке документов, полученном данным путем, является точно таким же, как способ упорядочивания документов в фильтруемом наборе документов, и все документы в первом списке документов упорядочены в соответствии со значениями качества документов на вышерасположенном слое фильтрации документов, так что достоверность упорядоченности документов в первом списке документов является очень близкой к достоверности упорядоченности документов в фильтруемом наборе документов, и первый список документов может быть использован, чтобы представлять фильтруемый набор документов. Количество документов в первом списке документов много меньше количества документов в фильтруемом наборе документов, так что выполнение последующей обработки посредством использования первого списка документов, чтобы представлять фильтруемый набор документов, может значительно сократить объем вычислений, упростить процесс обработки и снизить накладные расходы на вычисления.

Чтобы облегчить понимание вышеупомянутой операции выбора документов и формирования первого списка документов, ниже в качестве примера предоставляется описание. Например, предполагается, что предварительно установленным коэффициентом выбора, включенным в предварительно установленную стратегию отбора образцов, является 20%, способ выбора состоит в том, что выбор выполняется с предварительно определенным интервалом, равным 10, и количество документов в фильтруемом наборе документов текущего слоя фильтрации документов составляет 5000. Один документ выбирается, с интервалом каждые 10 документов, из 5000 документов, включенных в фильтруемый набор документов текущего слоя фильтрации документов, суммарно выбирается 500 документов, и первый список документов формируется, посредством использования 500 документов в соответствии с упорядоченностью 500 документов в фильтруемом наборе документов.

Когда документы выбираются из фильтруемого набора документов посредством отбора образцов, если выбор является более равномерным, степень, в которой полученный первый список документов представляет фильтруемый набор документов, является более высокой. Вследствие этого, для того, чтобы выбирать документы равномерно из фильтруемого набора документов, перед вышеупомянутой операцией выбора документа, фильтруемый набор документов может быть дополнительно разделен равномерно на несколько подмножеств документов, и затем документы выбираются из каждого подмножества документов соответственно. Количество подмножеств документов, полученных посредством деления, связано с количеством документов в фильтруемом наборе документов текущего слоя фильтрации документов, и предварительно установленная стратегия отбора образцов может дополнительно включать в себя предварительно установленное правило деления, количество документов, выбираемых из подмножества документов, и способ выбора. Предварительно установленное правило деления может состоять в том, что количество документов в подмножестве документов, получаемом посредством деления, является фиксированным значением; или, предварительно установленное правило деления может состоять в том, что когда количество документов в фильтруемом наборе документов больше, чем предварительно установленная пороговая величина, фильтруемый набор документов делится на первое предварительно установленное количество подмножеств документов, или в противном случае, фильтруемый набор документов делится на второе предварительно установленное количество подмножеств документов. Предварительно установленное правило деления также может быть другим правилом, и может быть установлено в соответствии с фактическими потребностями на практике.

Как показано на Фиг. 1B, вышеупомянутая операция получения подмножеств документов посредством сначала деления и затем выбора документов, может быть в частности реализована посредством операции из следующих этапов с S1 по S4, которые в частности включают в себя:

S1: Определяют, в соответствии с количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов и предварительно установленным правилом деления, включенным в предварительно установленную стратегию отбора образцов, первое количество подмножеств документов на которое требуется разделить фильтруемый набор документов.

S2: Определяют, в соответствии с предварительно установленной стратегией отбора образцов, второе количество документов, которое требуется выбрать из каждого подмножества документов.

S3: Делят фильтруемый набор документов на первое количество подмножеств документов в соответствии с упорядоченностью документов.

S4: Выбирают второе количество документов из каждого подмножества документов соответственно, чтобы получить несколько документов.

Операция выбора второго количества документов из каждого подмножества документов соответственно может быть выполнена посредством использования нескольких способов выбора, которые в частности включают в себя:

выбор второго количества документов из передней части каждого подмножества документов соответственно; или, выбор второго количества документов из каждого подмножества документов с предварительно определенным интервалом соответственно; или, выбор второго количества документов из каждого подмножества документов соответственно случайным образом.

Непосредственный выбор документов из передних частей подмножеств документов обеспечивает быстрый выбор второго количества документов из каждого подмножества документов, тем самым сокращая время выбора документов из фильтруемого набора документов. Выполнение выбора с предварительно определенным интервалом или выполнение случайного выбора обеспечивает равномерный выбор документов из каждого подмножества документов, так что итоговый формируемый первый список документов может лучше представлять фильтруемый набор документов.

Чтобы облегчить понимание вышеупомянутого способа получения подмножеств документов посредством сначала деления и затем выбора документов, ниже в качестве примера предоставляется описание. Например, предполагается, что предварительно установленное правило деления, включенное в предварительно установленную стратегию отбора образцов, состоит в том, что количество документов в подмножестве документов, получаемых посредством деления, равно 200, количество документов выбираемых из подмножества документов является 20, и способ выбора является случайным выбором; и количество документов в фильтруемом наборе документов текущего слоя фильтрации документов составляет 5000. Количество подмножеств документов, которые должны быть получены посредством деления, определяется равным 25 в соответствии с правилом о том, что количество документов в фильтруемом наборе документов текущего слоя фильтрации документов равно 5000 и что количество документов в подмножестве документов предварительно установлено равным 200 в предварительно установленном правиле деления. Соответственно, 20 документов случайным образом выбираются из каждого из 25 подмножеств документов, полученных посредством деления, и, вследствие этого, суммарно выбирается 500 документов. Первый список документов формируется посредством использования 500 документов в соответствии с упорядоченностью 500 документов в фильтруемом наборе документов.

В данном варианте осуществления настоящего изобретения, когда документы выбираются из фильтруемого набора документов текущего слоя фильтрации документов посредством использования способа разнесенного отбора образцов, если документы выбираются с предварительно определенным интервалом, когда количество документов в фильтруемом наборе документов текущего слоя фильтрации документов является очень большим, большое количество документов выбираются из фильтруемого набора документов, и, как результат, объем вычислений по-прежнему является очень большим, когда последующая обработка фильтрации выполняется в соответствии со сформированным первым списком документов. Вследствие этого, во время разнесенного отбора образцов, интервал отбора образцов может быть адаптирован к количеству документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов. Большее количество документов приводит к большему интервалу отбора образцов, а меньшее количество документов приводит к меньшему интервалу отбора образцов. Конкретная операция выбора разнесенного отбора образцов включает в себя:

Несколько интервалов отбора образцов может быть установлено в предварительно установленной стратегии отбора образцов, и каждый интервал отбора образцов является соответствующим диапазону количества документов соответственно. Диапазон количества документов, соответствующий количеству документов, включаемых фильтруемым набором документов, определяется в соответствии с предварительно установленной стратегией отбора образцов и количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов, интервал отбора образцов, соответствующий диапазону количества, определяется в качестве интервала отбора образцов документов, и затем документы выбираются из фильтруемого набора документов в соответствии с интервалом отбора образцов документов с тем, чтобы получить несколько документов.

Например, предполагается, что в предварительно установленной стратегии отбора образцов установлено, что интервал отбора образцов равный 10 является соответствующим диапазону количества документов [2000, 5000], и установлено, что интервал отбора образцов равный 20 является соответствующим диапазону количества документов (5000, 10000], и предполагается, что количество документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов, равно 8000, так что определяется, что диапазоном, соответствующим количеству документов 8000, является (5000, 10000], и определяется, что интервал отбора образцов фильтруемого набора документов текущего слоя фильтрации документов равен 20. Один документ выбирается, через каждый интервал в 20 документов, из 8000 документов, включаемых фильтруемым набором документов, и суммарно выбирается 400 документов. Посредством операции этапа 101, первый список документов формируется посредством использован