Контур обратной связи для предотвращения несанкционированной рассылки

Иллюстрации

Показать все

Изобретение относится к системам и способам идентификации как легитимной (полезной почты), так и нежелательной информации (бесполезная почта), и к классификации электронной почтовой корреспонденции для предотвращения спама. Технический результат изобретения заключается в обучении и в усовершенствовании фильтра несанкционированной рассылки. Технический результат достигается за счет того, что производят выборку по случайной схеме входящих почтовых сообщений, так чтобы были получены примеры и легитимной, и бесполезной почты/несанкционированной рассылки, чтобы сгенерировать наборы обучающих данных. Пользователям, определенным как борцы с несанкционированной рассылкой, выдается задание проголосовать по тому, является ли выборка их входящих почтовых сообщений по отдельности легитимной почтой или бесполезной почтой. База данных сохраняет свойства каждой почтовой транзакции и транзакции голосования, например информацию о пользователе, свойства сообщения и сводку по содержимому, а также результаты голосования, чтобы сгенерировать обучающие данные для систем обучения фильтра. 5 н. и 40 з.п.ф-лы, 11 ил.

Реферат

Область техники, к которой относится изобретение

Изобретение относится к системам и способам идентификации как легитимной (к примеру, полезной почты), так и нежелательной информации (к примеру, бесполезной почты), и более конкретно, к классификации электронной почтовой корреспонденции для предотвращения спама (несанкционированной рассылки; практически бесполезной информации (обычно рекламы), большому числу абонентов электронной почты).

Предшествующий уровень техники

Появление глобальных сетей связи, например Интернета, представило коммерческие возможности для охвата огромного количества потенциальных клиентов. Обмен электронными сообщениями и, в частности, сообщениями электронной почты, становится все более широко используемым средством распространения нежелательных рекламных объявлений и предложений (также называемых несанкционированной рассылкой или "спамом") пользователям сети.

Radicati Group, Inc., фирма по оказанию консультационных услуг и исследованию рынка, дает оценку, что по состоянию на август 2002 года ежедневно отправляется два миллиарда бесполезных сообщений электронной почты, и это число, по прогнозам, утраивается каждые два года. Физические и юридические лица (к примеру, бизнес-компании, правительственные организации) испытывают все больше неудобств и зачастую несут потери от бесполезных сообщений. По существу, бесполезные сообщения электронной почты сейчас или вскоре станут основной угрозой защищенной работы вычислительной техники.

Ключевая методика, используемая, чтобы отсеивать бесполезную электронную почту, заключается в использовании систем/методик фильтрации. Одна из проверенных методик фильтрации основана на подходе обучения машины - машинно-обучаемые фильтры назначают входящему сообщению вероятность того, что сообщение бесполезно. При этом подходе признаки в типичном случае извлекаются из двух классов примеров сообщений (к примеру, бесполезных и небесполезных сообщений), а обучаемый фильтр применяется, чтобы различать в вероятностном смысле эти два класса. Поскольку многие признаки сообщений относятся к содержимому (к примеру, словам и фразам в теме и/или теле сообщения), эти типы фильтров обычно называют "основанными на содержимом фильтрами".

Некоторые фильтры бесполезной информации/несанкционированной рассылки являются адаптивными, что важно в том, что пользователям, которые говорят на нескольких языках, и пользователям, которые говорят на редких языках, необходим фильтр, который может адаптироваться к их конкретным потребностям. Более того, не все пользователи согласны с тем, что считать, а что не считать бесполезной информацией/несанкционированной рассылкой. Следовательно, посредством использования фильтра, который может быть обучен неявным образом (к примеру, посредством наблюдения за поведением пользователей), соответствующий фильтр может быть приспособлен динамически, чтобы удовлетворять конкретным потребностям пользователя по идентификации сообщений.

Один из подходов к адаптации фильтрации - предписать пользователю(ям) помечать сообщения как бесполезные или небесполезные. К сожалению, подобные методики обучения с большим количеством операций вручную неудобны для многих пользователей вследствие сложности, ассоциированной с таким обучением, не говоря уже о количестве времени, требуемом, чтобы надлежащим образом проводить это обучение. Помимо этого, такие методики обучения вручную зачастую искажаются отдельными пользователями. Например, подписки на бесплатные рассылки часто забываются пользователями и, таким образом, некорректно помечаются как бесполезная почта. В результате легитимная почта блокируется неявно из почтового ящика пользователя. Другой подход к обучению на основе адаптивной фильтрации - использовать скрытые ключи обучения. Например, если пользователь(и) отвечает или переадресовывает сообщение, этот подход считает, что сообщение не бесполезно. Тем не менее, использование только ключей сообщений такого типа привносит статистические отклонения в процесс обучения, что имеет следствием фильтры с более низкой соответствующей достоверностью.

Еще один подход - использовать для обучения всю электронную почту пользователя(ей), где исходные метки назначены используемым фильтром, и пользователь(и) иногда переопределяет эти назначения явными ключами (к примеру, способ "пользовательской коррекции"), например, выбирая такие параметры, как "удалить как бесполезное" и "небесполезное", и/или скрытыми ключами. Хотя такой подход более оптимален, чем ранее описанные методики, он по-прежнему неполный по сравнению с представленным изобретением, описанным и заявленным далее.

Сущность изобретения

Далее представлено упрощенное изложение сущности изобретения, для того чтобы предоставить базовое понимание некоторых аспектов изобретения. Это изложение сущности не является всесторонним обзором изобретения. Оно не предназначено, чтобы определить ключевые/важнейшие элементы изобретения или обрисовать область применения изобретения. Его единственная цель - представить некоторые понятия изобретения в упрощенной форме в качестве вступления в более подробное описание, которое представлено далее.

Представленное изобретение предоставляет систему и способ контура обратной связи, которые обеспечивают выполнение классификации элементов в связи с предотвращением несанкционированной рассылки. Изобретение использует подход обучения машины при применении к фильтрам несанкционированной рассылки, и, в частности, производит выборку по случайной схеме входящих сообщений электронной почты, так чтобы были получены примеры и легитимной, и бесполезной почты/несанкционированной рассылки для генерирования наборов обучающих данных. Заранее выбранные люди служат в качестве борцов с несанкционированной рассылкой и принимают участие в категоризировании соответствующих дублирований (которые в необязательном порядке могут быть немного модифицированными) выборок.

Как правило, сообщения, выбранные для опроса, модифицируются в различных аспектах, чтобы представать как сообщения для опроса. Уникальный аспект изобретения состоит в том, что делается копия входящего сообщения, выбранного для опроса, с тем чтобы некоторые пользователи (к примеру, борцы с несанкционированной рассылкой) получали одно и то же сообщение (к примеру, в терминах содержимого сообщения) дважды: один раз в форме сообщения для опроса и повторно в исходной форме. Другой уникальный аспект представленного изобретения состоит в том, что для опроса учитываются все сообщения, включая и те, которые используемыми фильтрами были помечены как несанкционированная рассылка. Помеченные как несанкционированная рассылка сообщения учитываются для опроса и, если выбраны, не интерпретируются как несанкционированная рассылка согласно спецификациям используемого фильтра (к примеру, перемещение в папку бесполезной почты, удаление...).

В отличие от традиционных фильтров несанкционированной рассылки, более точные фильтры несанкционированной рассылки могут быть созданы посредством обучения фильтров несанкционированной рассылки в соответствии с методикой обратной связи представленного изобретения, чтобы научиться проводить различие между полезной почтой и несанкционированной рассылкой, тем самым уменьшая объем необъективной и неточной фильтрации. Обратная связь осуществляется, по меньшей мере, частично посредством опроса любого подходящего числа пользователей, чтобы получить обратную связь по их входящей электронной почте. Пользователям, определенным как борцы с несанкционированной рассылкой, выдается задание голосования по тому, является ли выборка входящих сообщений легитимной почтой или бесполезной почтой. И позитивная, и негативная классификация входящей электронной почты предназначена, чтобы уменьшить неправильную фильтрацию как несанкционированной рассылки почты, которая является полезной (к примеру, не несанкционированной рассылкой), предназначенной для пользователя. Соответствующие классификации вместе с любой другой информацией, ассоциированной с каждой почтовой транзакцией, переносятся в базу данных, чтобы облегчить обучение фильтров несанкционированной рассылки. База данных и относящиеся к ней компоненты позволяют компилировать и сохранять свойства выбранного сообщения(ий) (или выбранной почтовой транзакции), что включает в себя пользовательские свойства, информацию и предысторию голосований пользователей, свойства сообщений, такие как уникальные идентификационные номера, назначенные каждому выбранному сообщению, классификации сообщений и сводки по содержимому сообщений или статистические данные, связанные с любым из вышеперечисленного, чтобы сгенерировать наборы обучающих данных для систем обучения машины. Системы обучения машины (к примеру, нейронные сети, реализации метода опорных векторов (SVM), сети байесовских представлений) обеспечивают создание усовершенствованных фильтров несанкционированной рассылки, которые обучены распознавать как легитимную почту, так и несанкционированную рассылку и, дополнительно, различать их. После того, как новый фильтр несанкционированной рассылки был обучен в соответствии с изобретением, он может быть распространен почтовым серверам и клиентским почтовым программам. Более того, новый фильтр несанкционированной рассылки может быть подготовлен по отношению к конкретному пользователю(ям), чтобы повысить эффективность персонализированного фильтра(ов). После того, как новые наборы обучающих данных созданы, фильтр несанкционированной рассылки может пройти дополнительное обучение посредством обучения машины, чтобы оптимизировать свои рабочие характеристики и точность. Обратная связь от пользователей посредством классификации сообщений также может быть использована, чтобы сгенерировать списки для фильтров несанкционированной рассылки и родительские элементы управления, чтобы протестировать эффективность фильтров несанкционированной рассылки и/или определить происхождение несанкционированной рассылки.

Другой аспект изобретения предоставляет способ распознавания недоверенных пользователей посредством методик перекрестной проверки и /или тестовых сообщений с известным результатом. Перекрестная проверка влечет за собой обучение фильтра, из которого исключены результаты опросов некоторых пользователей. Т.е. фильтр обучается с помощью результатов опросов поднабора пользователей. В среднем этот поднабор пользователей даст достаточно хорошие результаты даже при некоторых ошибках, чтобы распознавать тех, кто обычно не согласуется с ними. Результаты опроса исключенных пользователей сравниваются с результатами обученного фильтра. Это сравнение по существу определяет, как пользователи из обучающего поднабора проголосовали бы по сообщениям, принадлежащим исключенным пользователям. Если согласование между голосами исключенного пользователя и фильтром незначительное, то результаты голосования этого пользователя могут либо быть отброшены, либо помечены для изучения вручную. Эта методика может быть повторена при необходимости, исключая данные каждый раз от различных пользователей.

Ошибки по отдельным сообщениям также могут быть распознаны, например сообщение, по которому фильтр и голос пользователя сильно расходятся. Эти сообщения могут быть помечены либо для автоматического удаления, либо для изучения вручную. В качестве альтернативы перекрестной проверке фильтр может быть обучен на всех или практически всех пользователях. Голоса и/или сообщения пользователя, которые расходятся с фильтром, могут быть отброшены. Другая альтернатива перекрестной проверки влечет за собой тестовые сообщения с известным результатом, в которых пользователя(ей) просят проголосовать по сообщению(ям), где результат известен. Точная классификация (к примеру, голос пользователя совпадает с действием пользователя) сообщения пользователем удостоверяет доверенность пользователя и определяет, следует ли удалять классификации пользователя из обучения и следует ли удалять пользователя из будущего опроса.

Еще один аспект изобретения предусматривает создание известных мишеней несанкционированной рассылки (к примеру, электронных приманок), чтобы идентифицировать входящую почту как несанкционированную рассылку и/или отслеживать обработку конкретных коммерческих адресов электронной почты. Известная мишень несанкционированной рассылки, или электронная приманка, - это адрес электронной почты, где адрес легитимной почты может быть определен и вся остальная почта может считаться несанкционированной рассылкой. Например, адрес электронной почты может быть ограниченно раскрыт на Web-сайте, чтобы практически не мог быть обнаружен людьми. Следовательно, вся почта, отправленная на этот адрес, может считаться несанкционированной рассылкой. Альтернативно, адрес электронной почты может быть раскрыт только коммерсанту, от которого, как ожидается, должна быть принята легитимная почта. Таким образом, почта, принятая от коммерсанта, является легитимной почтой, а вся остальная принятая почта может безошибочно считаться несанкционированной рассылкой. Данные несанкционированной рассылки, полученной из электронных приманок и/или других источников (к примеру, пользователей), могут быть интегрированы в систему контура обратной связи, но вследствие значительного расширения классификации несанкционированной рассылки с помощью электронных приманок вес этих данных должен быть понижен, как более подробно описано ниже, чтобы уменьшить получение необъективных результатов опроса.

Другой аспект изобретения предусматривает помещение на карантин сообщений, которые считаются неопределенными либо системой контура обратной связи, либо фильтром. Эти сообщения сохраняются любой надлежащий период вместо того, чтобы быть отброшенными или классифицированными. Этот период времени может быть задан заранее, либо сообщение может быть сохранено до получения определенного числа результатов опроса, аналогичных сообщению, к примеру, с того же самого IP-адреса или с аналогичным содержимым.

Для достижения вышеупомянутых и связанных целей определенные иллюстрационные аспекты изобретения описаны в данном документе в связи со следующим описанием и прилагаемыми чертежами. Эти аспекты, тем не менее, указывают только на некоторые из множества способов, которыми могут быть использованы принципы изобретения. Изобретение предназначено, чтобы включить в себя все такие аспекты и их эквиваленты. Другие преимущества и новые признаки изобретения могут стать явными из следующего подробного описания изобретения, если рассматривать их вместе с чертежами.

Перечень фигур чертежей

Фиг.1A - блок-схема обучающей системы контура обратной связи в соответствии с аспектом настоящего изобретения.

Фиг.1B - блок-схема алгоритма типичного процесса обучения в контуре обратной связи в соответствии с аспектом настоящего изобретения.

Фиг.2 - блок-схема последовательности операций типичного способа, который обеспечивает классификацию почты пользователями, чтобы создавать фильтры несанкционированной рассылки, в соответствии с аспектом настоящего изобретения.

Фиг.3 - блок-схема последовательности операций типичного способа, который обеспечивает перекрестную проверку пользователей, принимающих участие в способе по фиг.2, в соответствии с аспектом настоящего изобретения.

Фиг.4 - блок-схема последовательности операций типичного способа, который обеспечивает определение того, какие пользователи являются недоверенными, в соответствии с аспектом настоящего изобретения.

Фиг.5 - блок-схема последовательности операций типичного способа, который обеспечивает выявление несанкционированной рассылки и определение инициаторов несанкционированной рассылки, в соответствии с аспектом настоящего изобретения.

Фиг.6 - блок-схема основанной на клиенте архитектуры контура обратной связи в соответствии с аспектом настоящего изобретения.

Фиг.7 - блок-схема основанной на сервере архитектуры контура обратной связи в соответствии с аспектом настоящего изобретения.

Фиг.8 - блок-схема межкорпоративной основанной на сервере системы контура обратной связи, включающей в себя внутренний сервер с собственной базой данных, чтобы извлекать данные обучения, сохраненные во внешних пользовательских базах данных, в соответствии с аспектом настоящего изобретения.

Фиг.9 - иллюстрация типичной среды для реализации различных аспектов изобретения.

Фиг.10 - блок-схема типичной коммуникационной среды в соответствии с настоящим изобретением.

Подробное описание изобретения

Настоящее изобретение описано далее со ссылками на чертежи, на которых одинаковые номера ссылок соответствуют идентичным элементам. В последующем описании, для целей пояснения, многие конкретные детали объяснены, чтобы обеспечить полное понимание настоящего изобретения. Тем не менее, может быть очевидно, что настоящее изобретение может быть применено на практике без этих конкретных деталей. В иных случаях, на модели блок-схемы показаны широко известные структуры и устройства, чтобы облегчить описание настоящего изобретения.

При использовании в данной заявке термины "компонент" и "система" предназначены, чтобы ссылаться на связанную с вычислительной машиной объектную сущность, а именно либо аппаратные средства, либо сочетание аппаратных средств и программного обеспечения, либо программное обеспечение, либо программное обеспечение в ходе исполнения. Например, компонент может быть, но не только, процессом, запущенным на процессоре, процессором, объектом, исполняемым файлом, потоком исполнения, программой и/или вычислительной машиной. В качестве иллюстрации, и приложение, запущенное на сервере, и сервер может быть компонентом. Один или более компонентов могут постоянно находиться внутри процесса и/или потока исполнения, и компонент может быть размещен на вычислительной машине и/или распределен между двумя и более вычислительными машинами.

Представленное изобретение может содержать различные схемы и/или методики умозаключения в связи с генерацией обучающих данных для машинообученной фильтрации несанкционированной рассылки. При использовании в данном документе термин "умозаключение" обычно означает процесс рассуждения или обозначения состояний системы, окружения и/или пользователя из набора данных наблюдения, полученных посредством событий и/или данных. Умозаключение может быть использовано, чтобы определить конкретный контекст или действие, либо может генерировать распределение вероятностей, к примеру, по состояниям. Умозаключение может быть вероятностным, т.е. вычислением распределения вероятностей по интересующим состояниям на основе анализа данных и событий. Умозаключение также может означать методики, используемые для компоновки событий более высокого уровня из набора событий и/или данных. Такое умозаключение приводит к составлению новых событий или действий из набора наблюдаемых событий и/или сохраненных данных событий, независимо от того, коррелированны ли события в тесной временной близости и исходят ли события и данные из одного или нескольких источников событий и данных.

Следует принимать во внимание, что хотя термин "сообщение" широко используется в данном подробном описании, этот термин не ограничен электронной почтой самой по себе, но может быть надлежащим образом адаптирован, чтобы включать в себя электронное сообщение любой формы, обмен которыми может быть распределен по любой надлежащей коммуникационной архитектуре связи. Например, приложения проведения конференций, которые обеспечивают конференцию между двумя и более людьми (к примеру, программы интерактивных дискуссий и программы мгновенного обмена сообщениями), могут также использовать преимущества фильтрации, раскрытые в настоящем документе, поскольку лишний текст может электронным образом распространяться в обычных дискуссионных комнатах, когда пользователи обмениваются сообщениями, и/или вставлен в качестве начального сообщения, завершающего сообщения, или всего из вышеперечисленного. В этом конкретном приложении фильтр может быть обучен автоматически отфильтровывать конкретное содержимое сообщений (текст и изображения), чтобы фиксировать и помечать как бесполезное нежелательное содержимое (к примеру, коммерческие предложения, продвижения товаров или рекламные объявления).

В представленном изобретении термин "получатель" означает адресата входящего сообщения или элемента. Термин "пользователь" означает получателя, который выбрал, пассивно или активно, принимать участие в системах и процессах контура обратной связи, описанных в данном документе.

Обратимся теперь к фиг.1A, где проиллюстрирована общая блок-схема обучающей системы 10 обратной связи в соответствии с аспектом настоящего изобретения. Компонент 12 приема сообщений принимает и доставляет входящие сообщения (обозначаемые как IM) намеченным получателям 14. Компонент приема сообщений может включать в себя, по меньшей мере, один фильтр 16, что является обычным в случае многих компонентов приема сообщений (к примеру, фильтр бесполезной почты), чтобы уменьшить доставку нежелательных сообщений (к примеру, несанкционированной рассылки). Компонент 12 приема сообщений вместе с фильтром 16 обрабатывает сообщения (IM) и предоставляет отфильтрованный поднабор сообщений (IM') намеченным получателям 14.

Как часть аспекта обратной связи представленного изобретения, компонент 18 опросов принимает все входящие сообщения (IM) и определяет соответствующих намеченных получателей 14. Компонент опросов выбирает поднабор намеченных получателей 14 (называемых борцами 20 с несанкционированной рассылкой), чтобы классифицировать поднабор входящих сообщений (отмеченных как IM") как несанкционированную рассылку или не несанкционированную рассылку, например. Связанная с классификацией информация (отмеченная как "ИНФОРМАЦИЯ О ГОЛОСОВАНИИ") отправляется в хранилище 22 сообщений/голосов, в котором информация о голосовании, а также копии соответствующих IM" сохраняются для будущего использования, например компонентом 24 обратной связи. В частности, компонент 24 обратной связи использует методики обучения машины (к примеру, нейронные сети, SVM, байесовы сети или любую систему обучения машины, подходящую для использования с представленным изобретением), которые используют информацию о голосовании, чтобы обучить и/или усовершенствовать фильтр 16 (и/или создать новый фильтр(ы)), например, в отношении определения несанкционированной рассылки. Поскольку новые потоки входящих сообщений обрабатываются посредством нового обученного фильтра 16, меньше несанкционированной рассылки и больше легитимных сообщений (отмечены как IM') доставляется намеченным получателям 14. Таким образом, система 10 обеспечивает определение несанкционированной рассылки и обучение усовершенствованных фильтров несанкционированной рассылки посредством использования обратной связи, сгенерированной борцами 20 с несанкционированной рассылкой. Данный аспект обратной связи представленного изобретения предоставляет имеющую широкие возможности и в высшей степени динамичную схему детализации системы распознавания несанкционированной рассылки. Далее подробно описаны подробности, касающиеся более детальных аспектов представленного изобретения.

Обратимся теперь к фиг.1B, где проиллюстрирована блок-схема 100 обучающей системы контура обратной связи в связи с борьбой с несанкционированной рассылкой и предотвращением несанкционированной рассылки в соответствии с аспектом настоящего изобретения. В ходе подготовки и/или до процесса обучения выбирают пользователей в качестве борцов с несанкционированной рассылкой (к примеру, из главного набора, содержащего всех пользователей электронной почты). Этот выбор может быть основан на случайной выборке или уровне доверия, либо любой другой схеме/критериях выбора в соответствии с представленным изобретением. Например, выбранный поднабор пользователей может включать в себя всех пользователей, случайно выбранный набор пользователей, тех, кто выбран в качестве борца с несанкционированной рассылкой, или тех, кто не выбран, и/или любое их сочетание, и/или частично на основе их демографического местоположения и связанной информации.

Альтернативно, главный набор пользователей электронной почты, из которого осуществляют выбор, может быть ограничен платящими пользователями, что может сделать более затратным для распространителей несанкционированной рассылки нанести вред представленному изобретению. Таким образом, поднабор пользователей, выбранных, чтобы принимать участие в борьбе с несанкционированной рассылкой, может содержать только платящих пользователей. После этого может быть создан список или таблица клиентов, включающий имена и свойства выбранных пользователей (к примеру, борцов с несанкционированной рассылкой).

Когда входящий поток сообщений 102 принят, получатель каждого сообщения проверяется на соответствие списку борцов с несанкционированной рассылкой на этапе 104. Если получатель находится в списке, то сообщение учитывается для опроса. Далее выполняется определение того, следует ли выбирать сообщение для опроса. В отличие от традиционных борцов с несанкционированной рассылкой изобретение не удаляет какие-либо сообщения (к примеру, несанкционированную рассылку) до тех пор, пока, по меньшей мере, вся входящая почта не будет учтена для опроса. Т.е. почта классифицируется до того, как она подвергается какому-либо присваиванию меток (к примеру, несанкционированная рассылка, не несанкционированная рассылка). Это облегчает получение объективной выборки сообщений, доступных для опроса пользователей.

Компонент выбора сообщений (не показан) может быть использован, чтобы выбрать сообщения с некоторой случайной вероятностью, чтобы уменьшить необъективность данных. Другой подход влечет за собой использование демографической информации, а также других атрибутов и свойств пользователя/получателя. Таким образом, сообщения могут быть выбраны на основе, по меньшей мере, частично пользователя/получателя. Для выбора сообщений существуют другие альтернативные алгоритмы. Тем не менее, возможны ограничения по числу сообщений, выбираемых на каждого пользователя или на каждого пользователя на каждый период времени, либо по вероятности выбора сообщения от любого заданного пользователя. Без этих ограничений распространитель несанкционированной рассылки может создать учетную запись, отправить ей миллионы сообщений с несанкционированной рассылкой и классифицировать все эти сообщения как полезные: это позволит распространителю несанкционированной рассылки повредить базу данных по обучению с помощью некорректно помеченных сообщений.

Некоторые формы фильтрации несанкционированной рассылки, чаще всего называемые списками черных дыр, могут не быть пропускаемыми. Списки черных дыр запрещают серверу прием какой-либо почты из списка IP-адресов. Поэтому выбор сообщений может быть выбран из набора почты, которая не из списка черных дыр.

Уникальный аспект изобретения состоит в том, что сообщения, выбранные для опроса, которые помечены используемыми в настоящее время фильтрами как несанкционированная рассылка, не удаляются или перемещаются в папку бесполезной почты. Вместо этого они помещаются в стандартную папку или почтовый ящик, куда принимаются все сообщения для учета в опросе. Тем не менее, если имеется две копии сообщения и сообщение считается фильтром несанкционированной рассылки, то копия доставляется в папку несанкционированной рассылки или иным образом интерпретируется согласно заданным параметрам (к примеру, удалено, специально помечено или перемещено в папку бесполезной почты).

Когда сообщение выбрано, оно переадресуется пользователю и помечается каким-либо специальным способом, чтобы указывать, что оно является сообщением для опроса. В частности, выбранное сообщение может быть модифицировано компонентом 106 модификации сообщений. Примеры модификации сообщений включают в себя, но не только, помещение сообщения для опроса в отдельную папку, изменение адреса "от" или строки темы и/или использования специального значка или специального цвета, который будет определять сообщение пользователю как сообщение для опроса. Выбранное сообщение также может быть заключено в другое сообщение, которое содержит инструкции пользователю о том, как голосовать и/или классифицировать заключенное сообщение. Эти инструкции могут включать в себя, по меньшей мере, две кнопки или ссылки: одна, чтобы проголосовать за то, что сообщение является несанкционированной рассылкой, и одна, чтобы проголосовать за то, что сообщение не является несанкционированной рассылкой, например.

Кнопки для голосования могут быть реализованы посредством модификации содержимого сообщений перед отправкой копии сообщения для опроса пользователю. Когда изобретение используется по отношению к клиентскому почтовому программному обеспечению (в противоположность почтовому серверу), пользовательский интерфейс может быть модифицирован, чтобы включать в себя кнопки для голосования.

Более того, сообщение для опроса может содержать инструкции и кнопки для голосования, а также выбранное сообщение, прикрепленное к нему. Сообщение для опроса также может содержать сводку по выбранному сообщению, например строку темы, адрес от кого, отправленные и/или принятые данные и текст или, по меньшей мере, первые несколько строк текста. Другой подход влечет за собой отправку сообщения с инструкциями по голосованию и кнопками для голосования, присоединенными к нему. На практике, когда пользователь открывает и/или загружает копию сообщения для опроса, кнопки (или ссылки), включающие в себя, но не только, кнопки "несанкционированная рассылка" и "не несанкционированная рассылка", могут появиться на экране в пользовательском интерфейсе или могут быть заключены в сообщение для опроса. Таким образом, возможно, что каждое сообщение для опроса содержит набор инструкций и надлежащие кнопки для голосования. Могут быть необходимы другие модификации, включая вероятное удаление фоновых HTML-инструкций (которые могут сделать незаметным текст инструкций или кнопки).

Также может быть предусмотрена еще одна кнопка, такая как "электронная почта с коммерческим предложением", в зависимости от типа информации, который нужен. Сообщение также может включать в себя кнопку/ссылку на исключение из будущего опроса. Инструкции переводятся на предпочтительный язык пользователя и могут быть вложены в сообщение для опроса.

Более того, сообщения, выбранные для опроса, могут быть просканированы на вирусы компонентом 106 модификации сообщений или каким-либо другим подходящим компонентом сканирования на вирусы (не показан). Если обнаружен вирус, либо вирус может быть удален, либо сообщение может быть отброшено. Следует принимать во внимание, что удаление вируса может осуществляться в любой точке системы 100, в том числе и когда сообщение выбрано и перед тем, как пользователь загружает сообщение.

После модификации сообщения компонент 108 доставки сообщений доставляет сообщение для опроса пользователю для голосования. Обратной связи от пользователей (к примеру, сообщению для опроса, голосу пользователя и любым свойствам пользователя, ассоциированным с ним) назначается уникальный идентификатор (ID) 110 (к примеру, метаданные). ID 110 и/или информация, соответствующая ему, отправляется в хранилище 112 сообщений/голосов (к примеру, в центральную базу данных), где классификации/голоса пользователей компилируются и сохраняются.

На уровне базы данных сообщения, доступные для опроса, могут быть сохранены для дальнейшего опроса или использования. Помимо этого, база данных может выполнять анализ повторяемости на временной основе, чтобы удостоверяться, что в отношении конкретного пользователя выборка не осуществляется излишне часто и что от пользователя собирается объем данных в рамках ограничений, заданных пользователем. В частности, система 100 обратной связи отслеживает процентное ограничение почты пользователя, а также период выборки, чтобы уменьшить необъективность и выборки, и данных. Это особенно важно, если пользователи выбраны из всех доступных пользователей, включая и нечасто пользующихся почтой пользователей, и часто пользующихся почтой пользователей. Например, нечасто пользующийся почтой пользователь принимает и отправляет значительно меньший объем почты по сравнению с часто пользующимся почтой пользователем. Таким образом, система 100 отслеживает процесс выбора сообщений, чтобы быть уверенной, что выбранное сообщение - это приблизительно одно из каждых T сообщений, принятых пользователем, и не более чем одно сообщение, принятое пользователем каждые Z часов. Следовательно, система может опросить 1 из каждых 10 входящих сообщений, которые должны быть отобраны (к примеру, рассмотрены для опроса), но не более 1 каждые 2 часа, к примеру. Ограничение по частоте или проценту уменьшает вероятность выборки непропорционального количества сообщений для пользователя, нечасто пользующегося почтой, по сравнению с пользователем, часто пользующимся почтой, а также уменьшает чрезмерное досаждение пользователю.

С небольшой периодичностью центральная база 112 данных сканирует сообщения, которые были выбраны системой 100 для опроса, но не были классифицированы. База данных извлекает эти сообщения и выполняет их локализацию относительно демографических свойств соответствующего пользователя, а также создает сообщения для опроса, чтобы запросить пользователя(ей) голосовать и классифицировать сообщение(я). Тем не менее, фильтр несанкционированной рассылки не может быть модифицирован или обучен сразу после приема каждой новой входящей классификации. Вместо этого автономное обучение позволяет блоку обучения постоянно проверять данные, принятые в базу 112 данных на запланированной, текущей или ежедневной основе. Т.е. блок обучения начинает с заданной начальной точки или с заданного времени в прошлом и проверяет все данные с этой точки вперед, чтобы обучить фильтр. Например, заданный период времени может быть от полуночи до 6:00.

Новый фильтр несанкционированной рассылки может быть обучен на текущей основе посредством анализа классификаций сообщений, сохраненных в базе 112 данных, с помощью методик 114 обучения машины (к примеру, нейронных сетей, методов опорных векторов (SVM)). Методики обучения машины требуют примеров и полезной почты, и несанкционированной рассылки, чтобы они могли научиться различать их. Даже методики, основанные на приведение в соответствие с известными примерами несанкционированной рассылки, могут извлечь пользу из наличия примеров полезной почты, чтобы они могли удостоверяться, что случайно не отлавливают полезную почту.

Следовательно, важно иметь положительные и отрицательные примеры несанкционированной рассылки вместо простых жалоб. Существуют некоторые домены, которые отправляют большие объемы и несанкционированной рассылки, и легитимной почты, например бесплатные рассылки. Если создана система только на основе жалоб, вся почта из этих доменов может быть отфильтрована, приводя к большому количеству ошибок. Следовательно, знание о том, что этот домен также отправляет большие объемы полезной почты, важно. Помимо этого, пользователи часто делают ошибки, например забывая, что они подписались на бесплатную рассылку. Например, крупный легитимный поставщик, такой как New York Times, регулярно отправляет легитимную почту. Некоторые пользователи забывают, что они подписались, и жалуются, классифицируя эти сообщения как несанкционированную рассылку. Без данных о том, что большинство пользователей понимают, что эта почта легитимна, почта с этого сайта может быть заблокирована.

Новый фильтр 116 может быть распространен на текущей основе компонентом 118 распространения между участвующими поставщиками услуг Интернета (ISP),