Система и способ определения рейтинга электронных сообщений для борьбы со спамом

Иллюстрации

Показать все

Изобретение относится к способу и системе определения нежелательных электронных сообщений. Технический результат заключается в повышении защищенности от нежелательных сообщений. В способе проводят предварительный анализ входящих сообщений для выявления, по меньшей мере, одного сообщения, не относящегося к легитимным и нежелательным сообщениям, формируют метаданные, состоящие из набора хеш-сумм и IP-адреса отправителя для выявленного входящего электронного сообщения, с помощью средства подготовки метаданных, передают метаданные, сформированные из электронного сообщения, на средство кластеризации при помощи средства взаимодействия, определяют кластер, к которому относятся переданные метаданные, при помощи средства кластеризации, получают рейтинг кластера, к которому относятся переданные метаданные, при этом полученный рейтинг соответствует рейтингу электронного сообщения и имеет прямую зависимость от количества различных IP-адресов отправителей, соответствующих метаданным в данном кластере, передают рейтинг электронного сообщения на средство принятия решений, определяют, основываясь на рейтинге электронного сообщения и установленном верхнем пороге, является ли сообщение нежелательным при помощи средства принятия решений. 2 н. и 30 з.п. ф-лы, 12 ил.

Реферат

Область техники

Данное изобретение относится к системам и способам защиты компьютерных устройств от нежелательных электронных сообщений на основе определения схожих сообщений и оценки их рейтинга.

Уровень техники

Компьютерные системы играют существенную роль в жизни современного человека. В современном обществе вряд ли кто-то сможет утверждать, что без труда сможет обходиться без персонального компьютера, ноутбука или карманного компьютера. Разнообразные компьютерные системы используются в работе, на производстве, в офисах. Огромная часть всей работы, выполняемой людьми, связана, так или иначе, с компьютерами.

Принимая в расчет всю значимость компьютерных систем в жизни людей для обеспечения ее привычного существования, повышается число злоумышленников, деятельность которых направлена на создание программных приложений, представляющих угрозу для компьютерных систем. Одним из наиболее распространенных примеров деятельности злоумышленников является организация рассылок спама. Спамом является анонимная незапрошенная массовая рассылка электронной почты. Разновидностью спама, которая в последнее время наращивает популярность, является SMS-рассылка сообщений, содержащих коммерческие и иные предложения, рассылаемые без согласия получателя. Спам, как правило, носит рекламный характер, поэтому в большей степени не представляет угрозу для компьютерных систем пользователей. Исключением является тот спам, который содержит вредоносный контент. Такие электронные сообщения, которые содержат вредоносные вложения, могут представлять угрозу данным, находящимся на компьютере.

Тем не менее, даже если нежелательные рассылки сообщений не являются вредоносными и носят только рекламный характер, они могут доставлять определенные неудобства. Одним из таких неудобств является «замусоривание» почты клиента, когда клиент может легко упустить нужное письмо в потоке многочисленных спам-писем. Кроме того, нежелательные сообщения занимают существенный объем трафика электронной почты, поскольку по статистике доля спама в почтовом трафике может составлять более 70%, согласно данным Лаборатории Касперского (http://www.securelist.com/en/analysis/204792249/Spam_in_September_2012). Все нежелательные сообщения, попадая на почтовый ящик, со временем накапливаются и заставляют тратить время на его очистку. Также стоит учитывать, что среди нежелательных сообщений встречаются сообщения, ведущие на фишинговые ресурсы, которые могут стать причиной кражи паролей и личных данных.

Перечисленные опасности и неудобства, связанные с нежелательными сообщениями, опровергая кажущуюся безвредность таких сообщений, указывают на необходимость создания подходов для защиты от деятельности распространителей спама. На текущий момент имеется множество подходов к обнаружению и блокированию нежелательных сообщений, каждый из которых имеет свои достоинства и недостатки. Самым распространенным подходом является проверка IP-адресов отправителей по черным спискам, где хранятся IP-адреса, с которых часто приходят нежелательные сообщения. Данный подход позволяет блокировать источник нежелательных сообщений, но недостатком является серьезный ущерб при ложных срабатываниях, когда в черный список попадает доверенный IP-адрес и полезная почта блокируется как спам. Использование такого подхода часто применяется в патентных заявках, посвященных обнаружению нежелательных сообщений, например, в американской заявке US 20110252472 А1, в которой по IP-адресу определяется рассылка нежелательных сообщений.

Другим часто используемым подходом, который применяется для обнаружения нежелательных сообщений, является фильтрация сообщений при помощи фильтра Байеса. Данный подход основан на обучении фильтра (предварительная стадия), при этом для различных слов в сообщении формируется вероятность того, что сообщение с данным словом является спамом. После этого производится определение вероятности принадлежности сообщения к спаму путем анализа всех его слов и сравнения полученного значения вероятности с пороговым значением, заданным заранее. Минусом данного подхода является низкий уровень обнаружения нежелательных сообщений, если пользователь получает сообщения, которые относятся к различным тематикам (в этом случае фильтр трудно обучить). Также данный подход трудно применим, когда анализируется входящий поток разнородных сообщений на корпоративном почтовом сервере, при этом поток состоит из сообщений для разных пользователей. В качестве примера применения фильтра Байеса для решения проблемы обнаружения нежелательных сообщений можно привести запатентованную технологию US 6732157 B1 определения спама с использованием вероятностного подхода, основанного на работе нескольких фильтров, в том числе фильтра Байеса. При этом результаты работы фильтров комбинируются при помощи логических операторов и операторов условий.

На сегодняшний момент все подходы, связанные с группировкой сообщений по различным критериям, влекут возникновение существенного числа ложных срабатываний, когда нежелательное сообщение попадает в группу легитимных сообщений или когда возникает обратная ситуация.

Данное изобретение позволяет снизить количество ложных срабатываний, возникающих в процессе обнаружения спама, и повысить защищенность от нежелательных сообщений.

Раскрытие изобретения

Техническим результатом данного изобретения является повышение качества обнаружения нежелательных электронных сообщений за счет кластеризации сообщений, определения рейтинга сообщений, соответствующего рейтингу кластера, и сравнения рейтинга сообщений со значением порогового рейтинга для нежелательных сообщений.

Настоящее изобретение представляет собой систему и способ определения нежелательных электронных сообщений. Способ определения нежелательных электронных сообщений, выполняющийся на компьютерной системе, заключается в том, что:

A) проводят предварительный анализ входящих сообщений для выявления, по меньшей мере, одного сообщения, которое не относится к легитимным и нежелательным сообщениям;

Б) формируют метаданные из проанализированного входящего электронного сообщения с помощью средства подготовки метаданных;

B) передают метаданные, сформированные из электронного сообщения, на средство кластеризации при помощи средства взаимодействия;

Г) определяют кластер, к которому относятся переданные метаданные, при помощи средства кластеризации;

Д) получают рейтинг кластера, к которому относятся переданные метаданные, при этом полученный рейтинг соответствует рейтингу электронного сообщения;

Е) передают рейтинг электронного сообщения на средство принятия решений;

Ж) определяют, основываясь на рейтинге электронного сообщения и установленном верхнем пороге, является ли сообщение нежелательным при помощи средства принятия решений.

В частном варианте исполнения метаданные, сформированные из сообщения, состоят, по меньшей мере, из набора хеш-сумм и IP-адреса отправителя.

В частном варианте исполнения набор хеш-сумм вычисляют, по меньшей мере, для данных, содержащихся в теле сообщения, путем предварительного разбиения данных на части и применения хеш-функции к каждой части.

В частном варианте исполнения входящие сообщения предварительно анализируют, по меньшей мере, с использованием белого и черного списков.

В частном варианте исполнения для проанализированных нежелательных сообщений формируют метаданные для помещения в кластеры средством кластеризации.

В частном варианте исполнения при помощи средства кластеризации фильтруют хеш-суммы подписей в сообщениях.

В частном варианте исполнения фильтрацию хеш-сумм подписей выполняют путем удаления из наборов хеш-сумм, по меньшей мере, тех из них, которые относятся к подписям отправителей.

В частном варианте исполнения при помощи средства кластеризации формируют кластеры, которые состоят из схожих наборов метаданных.

В частном варианте исполнения при помощи средства кластеризации формируют рейтинги для кластеров.

В частном варианте исполнения при помощи средства кластеризации хранят дерево кластеров, позволяющее определить, к какому кластеру относятся поступающие метаданные.

В частном варианте исполнения дерево кластеров формируют в виде многоуровневой структуры, на каждом уровне которой создаются узлы, состоящие из наиболее часто встречающихся в кластере хеш-сумм.

В частном варианте исполнения дерево кластеров обновляют после поступления новых метаданных.

В частном варианте исполнения кластер, к которому относятся метаданные, определяют путем вычисления степени схожести хеш-сумм в поступивших метаданных с хеш-суммами в одном из наборов в дереве кластеров.

В частном варианте исполнения вместе с рейтингом электронного сообщения на средство принятия решений для анализа передают значение, определяющее степень схожести хеш-сумм в поступивших метаданных с хеш-суммами в одном из наборов в дереве кластеров.

В частном варианте исполнения на средство кластеризации поступают нежелательные сообщения из ловушек сообщений для кластеризации.

В частном варианте исполнения рейтинг кластеров изменяют в сторону уменьшения при поступлении в кластер новых схожих наборов хеш-сумм, которые относятся к сообщениям, полученным от отправителей с разных IP-адресов.

В частном варианте исполнения сообщение, рейтинг которого находится между верхним порогом, соответствующим нежелательным сообщениям, и нижним порогом, соответствующим легитимным сообщениям, помещают в карантин на установленное время.

В частном варианте исполнения для сообщения повторно определяют рейтинг по истечении времени нахождения в карантине.

Система определения нежелательных электронных сообщений, взаимодействующая, по меньшей мере, с одним почтовым сервером клиента, который включает:

а) средство анализа сообщений, связанное со средством подготовки метаданных, при этом средство анализа сообщений предназначено для проведения предварительного анализа входящих электронных сообщений;

б) упомянутое средство подготовки метаданных, связанное со средством взаимодействия, при этом средство подготовки метаданных предназначено для формирования метаданных для входящего электронного сообщения, которое по результатам предварительного анализа не признано легитимным или нежелательным;

в) упомянутое средство взаимодействия, связанное со средством принятия решения и средством кластеризации системы определения рейтингов электронных сообщений, при этом средство взаимодействия предназначено для передачи метаданных сообщения на средство кластеризации и передачи рейтинга электронного сообщения, полученного от средства кластеризации в качестве ответа, на средство принятия решений;

г) упомянутое средство принятия решений, предназначенное для определения, основываясь на рейтинге электронного сообщения и установленном верхнем пороге, является ли сообщение нежелательным;

при этом система определения рейтингов электронных сообщений также включает:

I) упомянутое средство кластеризации, связанное со средством хранения кластеров, при этом средство кластеризации предназначено для определения кластера, к которому относятся метаданные, получения рейтинга кластера, который соответствует рейтингу электронного сообщения, и передаче рейтинга на средство взаимодействия на стороне почтового сервера клиента;

II) упомянутое средство хранения кластеров, предназначенное для хранения кластеров, состоящих из метаданных, объединенных по степени схожести.

В частном варианте исполнения метаданные для входящего электронного сообщения состоят, по меньшей мере, из набора хеш-сумм и IP-адреса отправителя.

В частном варианте исполнения набор хеш-сумм вычисляется, по меньшей мере, для данных, содержащихся в теле сообщения, путем предварительного разбиения данных на части и применения хеш-функции к каждой части.

В частном варианте исполнения средство кластеризации дополнительно предназначено для:

- формирования кластеров в средстве хранения кластеров;

- изменения рейтингов для кластеров;

- формирования дерева кластеров, позволяющего определить, к какому кластеру относятся поступающие метаданные. В частном варианте исполнения средство кластеризации определяет, к какому кластеру относятся метаданные путем определения степени схожести хеш-сумм в полученном наборе хеш-сумм с хеш-суммами в одном из наборов в анализируемом кластере.

В частном варианте исполнения средство кластеризации выполнено с возможностью передачи для анализа вместе с рейтингом электронного сообщения на средство принятия решений значения, определяющего степень схожести хеш-сумм в поступивших метаданных с хеш-суммами в одном из наборов в дереве кластеров.

В частном варианте исполнения средство кластеризации изменяет в сторону уменьшения рейтинг кластера при поступлении схожих новых наборов хеш-сумм, которые относятся к сообщениям, полученным от отправителей с разными IP-адресами.

В частном варианте исполнения средство кластеризации формирует дерево кластеров в виде многоуровневой структуры, на каждом уровне которой создаются узлы, состоящие из наиболее часто встречающихся в кластере хеш-сумм.

В частном варианте исполнения средство кластеризации обновляет дерево кластеров после поступления новых метаданных.

В частном варианте исполнения упомянутая система содержит ловушки сообщений, связанные со средством хранения нежелательных сообщений, при этом ловушки сообщений предназначены для сбора рассылок нежелательных электронных сообщений и передаче их на средство хранения нежелательных сообщений.

В частном варианте исполнения упомянутая система содержит средство хранения нежелательных сообщений, связанное со средством кластеризации, при этом средство хранения нежелательных сообщений предназначено для хранения сообщений, полученных от ловушек сообщений.

В частном варианте исполнения средство кластеризации дополнительно предназначено для:

- вычисления наборов хеш-сумм для нежелательных сообщений, поступающих от ловушек сообщений;

- определения IP-адресов отправителей для нежелательных сообщений, поступающих от ловушек сообщений.

В частном варианте исполнения упомянутая система содержит средство хранения хеш-сумм подписей, связанное со средством кластеризации и предназначенное для хранения хеш-сумм подписей, которые необходимо отфильтровать до выполнения кластеризации.

В частном варианте исполнения средство кластеризации дополнительно предназначено для фильтрации хеш-сумм подписей при помощи средства хранения хеш-сумм подписей.

В частном варианте исполнения упомянутая система содержит средство хранения карантина, связанное со средством принятия решений, при этом средство хранения карантина предназначено для хранения в течение заданного времени сообщений, для которых рейтинг находится между верхним порогом, соответствующим нежелательным сообщениям, и нижним порогом, соответствующим легитимным сообщениям.

В частном варианте исполнения средство принятия решений повторно определяет рейтинг для сообщения по истечении времени нахождения в карантине.

В частном варианте исполнения упомянутая система содержит средство хранения черного списка, связанное со средством анализа сообщений, при этом средство хранения черного списка предназначено для хранения информации о нежелательных сообщениях.

В частном варианте исполнения упомянутая система содержит средство хранения белого списка, связанное со средством анализа сообщений, при этом средство хранения белого списка предназначено для хранения информации о легитимных сообщениях.

Краткое описание чертежей

Дополнительные цели, признаки и преимущества настоящего изобретения будут очевидными из прочтения последующего описания осуществления изобретения со ссылкой на прилагаемые чертежи, на которых:

Фиг.1 иллюстрирует схему системы определения рейтингов электронных сообщений.

Фиг.2 показывает часть схемы почтового сервера клиента.

Фиг.3 показывает внутреннее строение средства кластеризации системы определения рейтингов электронных сообщений.

Фиг.4 иллюстрирует пример представления рейтингов сообщений и порогов.

Фиг.5 показывает алгоритм обработки входящих сообщений, выполняемый на почтовом сервере клиента.

Фиг.6 иллюстрирует алгоритм определения рейтингов электронных сообщений.

Фиг.7 иллюстрирует алгоритм обработки нежелательных входящих сообщений от ловушек сообщений.

Фиг.8 отображает схему формирования метаданных из сообщений.

Фиг.9 отображает один из вариантов строения дерева индексов кластеров.

Фиг.10 показывает схему перестроения дерева индексов кластеров.

Фиг.11 иллюстрирует строение кластера.

Фиг.12 показывает пример компьютерного устройства общего назначения, на котором может быть реализовано описанное изобретение.

Хотя изобретение может иметь различные модификации и альтернативные формы, характерные признаки, показанные в качестве примера на чертежах, будут описаны подробно. Следует понимать, однако, что цель описания заключается не в ограничении изобретения конкретным его воплощением. Наоборот, целью описания является охват всех изменений, модификаций, входящих в рамки данного изобретения, как это определено приложенной формулой.

Описание вариантов осуществления изобретения

Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Сущность, приведенная в описании, является ничем иным, как конкретными деталями, необходимыми для помощи специалисту в области техники в исчерпывающем понимании изобретения, и настоящее изобретение определяется в объеме приложенной формулы.

На Фиг.1 изображена схема системы определения рейтингов электронных сообщений. В основе описываемой системы лежит процесс кластеризации метаданных, которые подготавливаются системой определения рейтингов 100 из полученных сообщений. Метаданные сообщения представляют собой минимальную информацию о сообщении, необходимую для однозначного определения сообщения и его отправителя. В контексте текущего описания под метаданными понимается, по меньшей мере, набор хеш-сумм, полученных для сообщения, и IP-адрес отправителя сообщения. Такой набор, характеризующий сообщение, представляется достаточным, поскольку хеш-суммы характеризуют содержание сообщения, a IP-адрес несет информацию об отправителе. Поэтому может быть применен критерий отнесения сообщений к нежелательным, в соответствии с которым, если сообщения имеют схожее содержание, то есть схожие наборы хеш-сумм, но при этом достаточно большое количество IP-адресов отправителей разные, то анализируемые сообщения относятся к спамовой рассылке. При этом количество IP - адресов может задаваться в относительном выражении от общего количества IP-адресов для той или иной рассылки.

Кластеризация является важным этапом для определения принадлежности сообщения к спаму, однако не менее важным является этап определения рейтинга кластера, который указывает на то, метаданные каких сообщений хранятся в соответствующем кластере. После определения рейтинга кластера можно судить о том, является ли нежелательным сообщение, которое было отнесено к соответствующему кластеру. Рейтингом кластера в данном варианте реализации является числовое значение, которое может изменяться в установленном диапазоне, и служит критерием, определяющим категорию сообщений, метаданные которых находятся в кластере. Рейтинг кластера формируется и изменяется в процессе пополнения кластеров метаданными сообщений, а также после перестроения структуры дерева индексов кластеров (далее - дерево кластеров). Более подробно процесс формирования и изменения рейтингов кластеров будет рассмотрен далее.

В рамках описываемого варианта реализации изобретения системе определения рейтингов 100 отправляются данные из разных источников. В качестве одного из источников выступают ловушки сообщений 170, которые служат для предоставления нежелательных сообщений. В качестве ловушек сообщений могут использоваться заброшенные доменные имена, при этом сообщения, поступающие на заброшенные домены, будут пересылаться системе 100. Ловушки сообщений в частном варианте могут представлять собой множество разнообразных почтовых ящиков 170А…170N, обладающих разными электронными адресами, которые используются для сбора разнообразных рассылок нежелательных электронных сообщений. Для того чтобы обеспечить потоки входящих сообщений, электронные адреса ловушек преднамеренно распространяются на тех ресурсах, откуда отправителями спама потенциально могут собираться почтовые адреса для будущих спам-рассылок. Например, данные адреса могут быть преднамеренно оставлены при регистрации на различных порно-сайтах, интернет-магазинах с низким уровнем репутации, социальных сетях, тематических форумах и т.п. На ресурсы, на которых оставлены адреса ловушек, со временем начинают поступать разнообразные рассылки, которые перенаправляются системе определения рейтингов 100 и сохраняются в средстве 110 хранения нежелательных сообщений. При этом чем дольше ловушка сообщений существует, тем большее количество разнообразных сообщений она может собрать. Это связано, прежде всего, с тем, что адрес ловушки передается другим недобросовестным интернет-ресурсам, которые распространяют нежелательные сообщения, а также злоумышленникам, которые целенаправленно организуют спам-рассылки.

Сообщения из ловушек 170 поступают на систему определения рейтингов 100 по факту получения сообщения одной из ловушек. Все сообщения, поступающие от ловушек сообщений 170, сохраняются в средстве хранения нежелательных сообщений 110.

Система определения рейтингов 100, помимо ловушек сообщений, взаимодействует, по меньшей мере, с одним почтовым сервером клиента 200. В рамках данного описания для простоты будет рассматриваться один почтовый сервер клиента 200, но стоит указать, что таких серверов может быть несколько. Почтовый сервер клиента 200 содержит модули, необходимые для проведения анализа сообщений и осуществления взаимодействия с системой определения рейтингов сообщений.

На почтовый сервер поступают различные сообщения 180. Сразу после поступления сообщения анализируются средством 210 (будет подробно рассмотрено при описании Фиг.2) и по результатам анализа определяются нежелательные, легитимные сообщения и те сообщения, которые не относятся к первым двум категориям - они являются неизвестными. Нежелательные сообщения обрабатываются в соответствии с правилами клиента, в частности они могут быть удалены или помещены в специальную область для хранения нежелательных сообщений.

В одном из вариантов реализации системы нежелательные сообщения могут использоваться в процессе кластеризации. Сообщения могут передаваться на систему определения рейтингов 100, сохраняться в средстве хранения 110, после чего средство 130 выполнит их кластеризацию. В другом варианте нежелательные сообщения могут быть обработаны непосредственно на почтовом сервере клиента 200, для сообщений могут быть подготовлены метаданные, которые будут переданы на систему определения рейтингов 100, и при помощи средства кластеризации 130 будут отнесены к тому или иному кластеру.

Неизвестные сообщения могут включать как нежелательные, так и легитимные сообщения. Для определения того, к какой категории относятся неизвестные сообщения, они подлежат дополнительной проверке, которая осуществляется в несколько этапов. Сначала для таких сообщений формируются метаданные средством подготовки метаданных 240. После чего метаданные отправляются средству кластеризации 130, являющемуся центральным модулем системы определения рейтингов 100. По результатам обработки метаданных формируется ответ, который используется средством принятия решений 260 на почтовом сервере клиента 200 для определения, является ли письмо нежелательным или нет.

Ключевую роль в процессе создания кластеров выполняет средство кластеризации 130. Оно состоит из нескольких составных элементов, которые отображены на Фиг.3. Средство подготовки метаданных 310, входящее в средство кластеризации 130, предназначается для создания набора хеш-сумм для сообщений, а также получения IP - адресов отправителей. Алгоритмов для вычисления хеш-сумм существует большое количество, но в рамках данного изобретения алгоритм должен обеспечивать выполнение определенных требований, накладываемых на создаваемые хеш-суммы. В частности, хеш-суммы должны быть созданы так, чтобы при создании набора хеш-сумм для другого сообщения, которое отличается от первого незначительно, оба набора хеш-сумм обладали высокой степенью схожести, то есть в двух наборах должно быть количество совпадающих хеш-сумм выше установленного порога. Данное правило должно выполняться для обеспечения возможности определения близких по содержанию сообщений с незначительными отличиями, в том числе внесенными преднамеренно злоумышленниками для препятствования обнаружению сообщения с использованием точных шаблонов.

С другой стороны, хеш-суммы не должны быть построены так, чтобы два отличающихся сообщения обладали высоким числом совпадающих хеш-сумм. В таком случае высока вероятность возникновения ошибки, когда разные сообщения будут помещены в один кластер, при этом нежелательные сообщения могут смешаться с легитимными сообщениями, попав в один общий кластер. Более подробно процесс формирования хеш-сумм в качестве одного из вариантов реализации в рамках данного изобретения будет рассмотрен при описании схемы формирования метаданных, изображенной на Фиг.8.

С процессом формирования хеш-сумм из данных, находящихся в сообщении, связано также средство фильтрации хеш-сумм 340, которое также входит в состав средства кластеризации 130. Задачей средства фильтрации хеш-сумм 340 является определение хеш-сумм, которые необходимо отсеять предварительно, до выполнения процесса кластеризации. Такие хеш-суммы хранятся в средстве хранения хеш-сумм подписей 120 на стороне системы определения рейтингов 100. Выполнение предварительной фильтрации полученных средством 310 наборов хеш-сумм позволяет убирать те хеш-суммы, которые могут повлиять на возникновение ложных срабатываний. В качестве примера можно рассмотреть анализ сообщений, содержащих подписи. Подпись в сообщении может содержать имя отправителя, название компании, ссылку на веб-страницу и т.п. Поскольку подпись, как правило, добавляется к сообщению автоматически, то все сообщения от одного отправителя или группы отправителей будут обладать одними и теми же данными, которые если останутся неотфильтрованными, будут учтены в процессе формирования хеш-сумм и последующей кластеризации. Таким образом, степень сходства сообщений, обладающих похожими подписями, будет выше независимо от содержания сообщения. Данное обстоятельство может впоследствии отразиться на том, что по результатам анализа кластеров рассылка, состоящая из легитимных сообщений с похожими подписями, может быть определена как спам, поскольку она будет иметь массовый характер и поступать от различных отправителей. Чтобы избежать подобных ситуаций, средство 340 производит фильтрацию хеш-сумм, которые ухудшают полезную для анализа информативность полученного для сообщения набора хеш-сумм.

Информация, полученная после обработки сообщений, в виде хеш-сумм хранится в форме кластеров в средстве хранения кластеров 140. Кластеры формируются средством 320, которое входит в состав средства кластеризации 130. Кроме хеш-сумм, в средстве хранения 140 находятся IP-адреса отправителей соответствующих сообщений. IP-адреса устанавливаются при помощи средства подготовки метаданных 310 в составе средства кластеризации 130. Стоит отметить, что хеш-суммы вместе с IP-адресом составляют необходимую информацию о сообщении, которая образует метаданные для сообщения. Тем не менее, в общем случае может быть использована и другая дополнительная информация о сообщении.

С целью определения принадлежности набора хеш-сумм, характеризующего сообщение, конкретному кластеру в рамках данного изобретения используется принцип построения индексного дерева, содержащего характерные для каждого определенного кластера или группы кластеров хеш-суммы. Данное дерево кластеров формируется средством 320 и хранится в средстве 350 хранения дерева кластеров. В то же время сами кластеры в виде полных наборов хеш-сумм и IP-адресов хранятся на средстве хранения 140. При помещении новых данных в кластер с использованием дерева кластеров в средстве 350 средство 320 определяет подходящий кластер и сохраняет данные на средстве хранения 140 в найденный кластер. После добавления новых хеш-сумм дерево кластеров может перестраиваться средством 320. Более подробно механизм формирования и перестроения дерева кластеров будет описан далее при рассмотрении Фиг.9 и Фиг.10.

В составе средства кластеризации 130 осталось нерассмотренным только средство формирование рейтингов 330. Данное средство выполняет важную функцию в рамках данного изобретения, а именно определяет рейтинги для сформированных кластеров. Рейтинг кластера позволяет выяснить, какие сообщения в нем содержатся: являются ли сообщения нежелательными или не являются таковыми. Поэтому после определения, к какому кластеру принадлежит сообщение, данному сообщению присваивается рейтинг того кластера, который был определен.

Рейтинги кластеров могут меняться при добавлении новых метаданных в кластер. Основным критерием, который учитывается при формировании рейтинга кластера, является учет количества схожих наборов хеш-сумм с разными IP-адресами отправителей. Чем больше в кластер будет поступать схожих наборов хеш-сумм, полученных от разных отправителей, тем выше будет вероятность того, что данный кластер содержит хеш-суммы, относящиеся к нежелательным сообщениям, и рейтинг у кластера будет расти. Большое количество схожих хеш-сумм, относящихся к сообщению, отправленному с одного IP-адреса, будет означать, что данное сообщение не относится к нежелательным, что выразится в уменьшении рейтинга кластера.

В процессе изменения рейтингов кластеров могут быть учтены также источники, из которых были получены сообщения или метаданные сообщений. Например, при кластеризации сообщений, полученных из ловушек сообщений, рейтинг кластера, к которому метаданные сообщений будут отнесены, будет увеличиваться.

На Фиг.2 показана схема системы обработки входящих сообщений на почтовом сервере клиента, который осуществляет обработку входящих электронных сообщений 180. Сообщения 180, поступающие на сервер, в общем случае могут быть адресованы различным получателям, которые имеют электронный адрес, зарегистрированный на данном почтовом сервере клиента 200. На стороне сервера находятся черный и белый списки в средствах хранения 220 и 230 соответственно, списки используются при анализе входящих сообщений с целью обнаружения легитимных и нежелательных сообщений и их устранения из дальнейшего анализа. Данные списки содержат различную информацию, например в белом списке могут храниться легитимные IP-адреса. В черном списке, напротив, могут быть запрещенные адреса, которые были определены для блокирования сообщений, поступающих с этих адресов. Помимо этого, списки могут содержать контрольные суммы сообщений, характерные слова и другую информацию, позволяющую однозначно идентифицировать категорию сообщений. Обработку входящих сообщений осуществляет средство анализа сообщений 210.

После проведения предварительной обработки все входящие сообщения делятся на три группы: легитимные сообщения, которые становятся доступны получателю, нежелательные сообщения и неизвестные сообщения, которые не были отнесены к первым двум группам.

Сообщения в зависимости от группы, к которой они были отнесены, по-разному обрабатываются в дальнейшем.

Нежелательные сообщения в зависимости от варианта реализации системы могут быть обработаны различными способами. В одном из вариантов реализации системы нежелательные сообщения могут использоваться в процессе кластеризации. Сообщения могут передаваться на систему определения рейтингов 100, сохраняться в средстве хранения 110, после чего средство кластеризации 130 выполнит их кластеризацию. В другом варианте нежелательные сообщения могут быть обработаны непосредственно на почтовом сервере клиента 200, для сообщений могут быть подготовлены метаданные, которые будут переданы на систему определения рейтингов 100 и при помощи средства кластеризации 130 будут отнесены к тому или иному кластеру.

Процесс кластеризации нежелательных сообщений дает возможность, используя систему определения рейтингов 100, определять при помощи части рассылки нежелательных сообщений, обнаруженной стандартными средствами, другую часть той же рассылки нежелательных сообщений, которая не может быть обнаружена стандартными средствами обнаружения. Например, если средство анализа сообщений 210, обнаружив несколько одинаковых нежелательных сообщений, не обнаружит схожее, но немного измененное нежелательное сообщение, то такое сообщение будет обнаружено при помощи системы определения рейтингов 100. При этом метаданные нежелательных сообщений, обнаруженных стандартными средствами и в дальнейшем кластеризованных, будут необходимы для обнаружения схожих нежелательных сообщений при помощи системы определения рейтингов 100.

Основной же процесс, для реализации которого служит данное изобретение, связан с неизвестными сообщениями.

Когда средство анализа сообщений 210 не может достоверно определить при помощи доступных средств, к какой группе (к легитимным или нежелательным) относится сообщение, то сообщение получает промежуточный статус неизвестного сообщения. Группа неизвестных сообщений обрабатывается дополнительно, и по результатам обработки сообщения могут быть признаны нежелательными.

Неизвестные сообщения после средства анализа сообщений 210 отправляются на средство подготовки метаданных 240, где формируются метаданные, соответствующие поступившим сообщениям. Сформированные метаданные передаются при помощи средства взаимодействия 250 системе определения рейтинга 100 на средство кластеризации 130. Средство кластеризации 130 формирует метаданные и определяет, к какому кластеру они принадлежат, далее определятся рейтинг кластера, который отправляется обратно почтовому серверу клиента в качестве ответа. Если рейтинг кластера оказывается в пределах между верхним и нижним порогами, заданными на средстве принятия решений 260, то средство принятия решений 260 направляет сообщение в средство 280 на карантин, где сообщение находится в течение установленного промежутка времени, в ходе которого ожидается изменение рейтинга кластера, к которому относится сообщение. По истечении установленного времени сообщение из карантина подлежит повторной проверке. Система может быть реализована в одном из вариантов так, чтобы сообщение проверялось повторно несколько раз в течение времени нахождения в карантине. Время нахождения в карантине может быть также вычислено по результатам работы системы определения рейтингов, в частности может зависеть от скорости наполнения кластеров. Стоит отметить, что одно сообщение не может дважды быть помещено в карантин. После окончания времени нахождения в карантине, если письмо не признано нежелательным, оно отображается пользователю.

После получения ответа от средства кластеризации 130 в виде рейтинга кластера (который является рейтингом, характеризующим сообщение) средство взаимодействия 250 передает рейтинг сообщения средству принятия решения 260, которое играет роль конечного звена в процессе определения нежелател