Детектор спама, выполняющий опознавательные запросы

Иллюстрации

Показать все

Настоящее изобретение относится к обнаружению незапрашиваемых сообщений электронной почты посредством опознавательных запросов. Настоящее изобретение включает в себя компонент электронной почты и компонент опознавательных запросов. Компонент электронной почты может принимать сообщения электронной почты и вычислять ассоциированные вероятности того, что данные сообщения электронной почты являются спамом. Компонент опознавательных запросов посылает опознавательный запрос отправителю сообщения электронной почты, имеющего указанную вероятность больше первого полученного значения. При этом компонент опознавательных запросов корректирует вероятность того, что данное сообщение электронной почты является спамом на основании, по меньшей мере частично, ответа на опознавательный запрос. Опознавательный запрос может представлять собой встроенный код, вычисляемый опознавательный запрос, опознавательный запрос, требующий участия человека, и/или требование микроплатежа. 6 н. и 25 з.п. ф-лы, 13 ил.

Реферат

Область изобретения

Настоящее изобретение относится, в общем, к электронной почте и, более конкретно, к системе и способу, использующим обнаружение незапрашиваемых сообщений электронной почты (спама) посредством выполнения опознавательных запросов.

Предшествующий уровень техники

Обмен электронными сообщениями, в особенности передаваемой по Интернет электронной почтой, не только приобретает стремительное распространение в общественной жизни, но также становится предпочтительным режимом обмена информацией для многих индивидуумов и организаций благодаря присущим ему неформальности, простоте использования и низкой стоимости.

К сожалению, как это уже произошло с более традиционными формами обмена информацией (например, обычной почтой сообщением и телефонной связью), получатели электронной почты все в большей степени подвергаются массовым незапрашиваемым рассылкам. При взрывном развитии Интернет-коммерции, в особенности наблюдаемом за последние несколько лет, широкое и нарастающее разнообразие представителей электронной коммерции многократно выполняет рассылку незапрашиваемых почтовых сообщений, рекламирующих их товары и услуги для постоянно расширяющегося множества получателей электронной почты. Большинство потребителей, которые заказывают некие товары или, напротив, заключают сделки с неким коммерсантом через Интернет, ожидают получения подобных коммерческих предложений и в действительности получают их. Однако распространители электронной почты постоянно расширяют свои списки рассылки с целью более глубокого проникновения в общество для охвата постоянно увеличивающегося количества получателей. Например, получатели, которые просто предоставляют свои адреса электронной почты в ответ на, возможно, безобидные появляющиеся запросы на получение информации о посетителе, формируемые различными веб-сайтами, позже, после получения незапрашиваемой почты, зачастую к своему неудовольствию обнаруживают, что они были включены в списки рассылки электронной почты. Это включение происходит таким образом, что получатели не имеют о нем никакого представления, за исключением того, что они всего лишь дали согласие на вышеупомянутый запрос. Более того, как и в случае списков прямой почтовой рассылки, распространитель электронной почты зачастую передает свой список рассылки посредством продажи, аренды или каким-либо иным способом другому подобному распространителю и далее последующим распространителям. Впоследствии получатели электронной почты со временем обнаруживают, что их почтовые ящики забиты незапрашиваемой почтой, что является результатом наличия обособленных списков рассылки, поддерживаемых широким и нарастающим множеством массовых распространителей почты. Несмотря на то, что существуют определенные средства, основывающиеся на взаимном сотрудничестве во всей индустрии прямой почтовой рассылки, посредством которых индивидуум может затребовать, чтобы его(ее) имя было удалено из большинства списков прямой почтовой рассылки, подобного механизма среди распространителей электронной почты не существует.

Как только получатель обнаруживает себя в списке рассылки электронной почты, этот индивидуум не сможет без труда, если вообще сможет, удалить его(ее) адрес из него, тем самым гарантируя, что он(она) будет на основе данного списка, а часто и на основе других списков, продолжать получать незапрашиваемую почту - зачастую в нарастающем объеме. Это происходит просто потому, что отправитель либо препятствует тому, чтобы получатель сообщения мог идентифицировать отправителя данного сообщения (например, посредством посылки почты через сервер-посредник), и, таким образом, препятствует установлению контакта между получателем и отправителем в качестве попытки добиться исключения из списка рассылки, либо просто игнорирует любые ранее полученные от получателя запросы на подобное исключение.

В течение года или за меньший срок индивидуум может запросто получать сотни незапрашиваемых почтовых сообщений. Напротив, учитывая простоту и незначительную стоимость, благодаря которым можно без труда обмениваться списками рассылки электронной почты и распространять сообщения электронной почты среди большого количества адресатов, отдельный адресат электронной почты, включенный в несколько списков рассылки, может ожидать получения гораздо большего количества незапрашиваемых сообщений за значительно меньший период времени. Более того, хотя многие незапрашиваемые сообщения электронной почты (например, предложения об услуге скидок или компьютерной поддержке, либо приглашения посетить конференции того или иного типа) являются безобидными; другие, которые включают порнографические, подстрекательские и непристойные материалы, для многих получателей могут оказаться в высшей степени оскорбительными.

Незапрашиваемые сообщения электронной почты в общем случае называют “спам”. Аналогично задаче обработки ненужных почтовых сообщений получатель электронной почты должен тщательно анализировать свою входящую почту с целью удаления спама. К сожалению, выбор, является ли данное сообщение электронной почты спамом или нет, сильно зависит от конкретного получателя и содержания сообщения - то, что для одного получателя является спамом, может не являться спамом для другого. Зачастую распространитель электронной почты готовит сообщение таким образом, чтобы его истинное содержание не было очевидным из поля темы данного сообщения, а становилось понятным только из прочтения сообщения. Следовательно, для полного удаления сообщений, относящихся к спаму, часто перед получателем стоит незавидная задача прочтения каждого из сообщений, полученных им(ей) в любой заданный день, вместо простого просмотра их полей темы. Нет необходимости говорить, что подобная фильтрация (зачастую выполняемая вручную) может оказаться трудоемкой задачей, отнимающей много времени.

В качестве попытки автоматизировать выполнение задачи обнаружения оскорбительных сообщений (так называемых “наездов”) новостных групп в рассматриваемой области техники изучают подход к классификации сообщений новостных групп посредством текстового классификатора, основывающегося на правилах. См. E.Spertus “Smokey: Automatic Recognition of Hostile Messages”, Proceedings of the Conference on Innovative Applications in Artificial Intelligence (IAAI), 1997. В этой публикации отличительные признаки семантической и синтаксической классификации текстов впервые определяют посредством прогона соответствующей совокупности текстов сообщений новостных групп через генератор дерева вероятностных решений в качестве обучающего набора. При наличии классификаций, выработанных самостоятельно для каждого из этих сообщений на предмет того, является ли оно “наездом” или нет, вышеупомянутый генератор выделяет специфические отличительные признаки текста таким образом, что если они присутствуют или отсутствуют в сообщении, то он может, как правило, предсказать, является ли данное сообщение “наездом” или нет. Далее, те отличительные признаки, которые обеспечивают корректное предсказание сущности сообщения с достаточно высокой вероятностью, отбирают для последующего использования. После этого для классификации входящего сообщения каждое предложение этого сообщения обрабатывают с целью получения на выходе многоэлементного (например, состоящего из 47 элементов) вектора отличительных признаков, каждый элемент которого просто означает наличие или отсутствие некоего отличающегося отличительного признака в этом предложении. Затем вектора отличительных признаков всех предложений рассматриваемого сообщения суммируют с целью получения на выходе вектора отличительных признаков сообщения (для всего сообщения). Затем вектор отличительных признаков сообщения оценивают посредством соответствующих правил, вырабатываемых генератором дерева решений с целью оценки, при наличии комбинации и количества отличительных признаков, которые присутствуют или отсутствуют во всем сообщении, является ли данное сообщение “наездом” или нет. В качестве примера одного из семантических отличительных признаков заявитель заметил, что фразы, содержащие слово “вы”, модифицированное посредством определенной именной группы, например “вы, люди”, “вы, типы”, “вы, скандалисты”, скорее всего являются оскорбительными. Исключением является фраза “вы, парни”, которая в употреблении редко оказывается оскорбительной. Следовательно, один из отличительных признаков состоит в том, имеется ли какая-либо из вышеперечисленных фраз. Ассоциированное правило состоит в том, что если такая фраза имеется, то предложение оскорбительно, и сообщение представляет собой “наезд”. Другим отличительным признаком является наличие слова “спасибо”, “пожалуйста” или конструкций фраз, содержащих слово “ли” (как, например, в предложении: “Не желаете ли послать мне ваш логотип по электронной почте”), но не слов “спасибо нет”. Если какая-либо из таких фраз или слов присутствует (за исключением “спасибо нет”), то ассоциированное правило, которое автор называет “правилом вежливости”, категоризирует данное сообщение как вежливое и, следовательно, не являющееся "наездом". За некоторыми исключениями правила, используемые в данном подходе, не зависят от местоположения, то есть, по большей части они используют одни и те же отличительные признаки и функционируют одним и тем же образом независимо от адресата, получающего рассылку.

В публикации W.W.Cohen, "Learning Rules that Classify E-mail", 1996 AAAI Spring Symposium on Machine Learning in Information Access, 1996 (далее называемой публикацией "Cohen") описан текстовый классификатор электронной почты, основывающийся на правилах, который в рассматриваемом случае представляет собой специальный классификатор, включающий обучаемые "правила распознавания ключевых слов". Согласно этому подходу на вход системы подают набор сообщений электронной почты, заранее классифицированных по разным категориям. Далее на основе этого набора выполняют обучение правилам с целью классификации входящих сообщений электронной почты по различным категориям. Хотя данный способ действительно включает обучающую компоненту, которая позволяет автоматически генерировать правила, эти правила просто проводят различия на уровне "да/нет" с целью классификации сообщений электронной почты по разным категориям, не предоставляя при этом какой-либо меры доверия данному предсказанию. Более того, в этой работе актуальная проблема обнаружения спама не рассмотрена. В связи с этим, для классификаторов, основывающихся на правилах, характерны серьезные недостатки, которые сильно ограничивают их практическое использование при обнаружении спама. Во-первых, существующие системы обнаружения спама для проведения различия между легальной почтой и спамом требуют от пользователей ручного конструирования соответствующих правил. Большинство получателей не станут обременять себя хлопотами по выполнению таких трудоемких задач. Как отмечалось выше, оценка того, является или нет конкретное сообщение электронной почты спамом, может быть достаточно субъективной в зависимости от его получателя. То, что является спамом для одного получателя, для другого может таковым не являться. Более того, почта, не относящаяся к спаму, значительно отличается от человека к человеку. Следовательно, для демонстрации приемлемой эффективности при фильтрации большей части спама из потока входящей почты пользователь должен сконструировать и запрограммировать набор правил классификации для основывающегося на правилах классификатора, которые точно проводят различие между тем, что относится к спаму, и тем, что к спаму не относится (легальные сообщения электронной почты). Корректное выполнение описанной процедуры может оказаться необычайно сложной и утомительной задачей, отнимающей много времени, даже для знающих пользователей компьютера с большим опытом.

Во-вторых, характеристики электронной почты, относящейся и не относящейся к спаму, могут значительно меняться со временем; основывающиеся на правилах классификаторы статичны (если, конечно, пользователь не намерен постоянно вносить изменения в правила). Соответственно, отправители, осуществляющие массовую рассылку электронной почты, регулярно модифицируют содержание своих сообщений в постоянной попытке воспрепятствовать ("перехитрить") тому, чтобы получатели изначально распознали эти сообщения как спам, а затем удалили эти сообщения, не прочтя их полностью. Таким образом, если пользователь не намерен постоянно конструировать новые правила или обновлять уже существующие правила с целью отслеживания изменений в спаме (по мере того, как данные получатели воспринимают эти изменения), то со временем основывающийся на правилах классификатор становится все более и более неточным при проведении для данного получателя различия между спамом и требующимися сообщениями электронной почты (не являющимися спамом), тем самым дополнительно уменьшая полезность классификатора и раздражая пользователя/получателя.

В качестве альтернативы, пользователь может рассмотреть использование способа для обучения правил (как это описано в публикации Cohen) на основе уже имеющегося у него спама с целью адаптации со временем к изменениям в потоке входящей электронной почты. Здесь проблемы подхода, основывающегося на правилах, выделены более четко. Правила основываются на логических выражениях; таким образом, как это отмечалось выше, правила просто проводят различие на уровне "да/нет" касаемо классификации данного сообщения электронной почты. Проблематично то, что подобные правила не предоставляют какого-либо уровня доверия предсказаниям на их основе. В силу того, что пользователи могут определить различные допуски в отношении того, насколько агрессивно они хотели бы фильтровать свою электронную почту с целью удаления спама, в таком приложении, как обнаружение спама, классификация на основе правил становится весьма проблематичной. Например, консервативный пользователь может потребовать, чтобы система была в высшей степени уверена в том, что сообщение является спамом, прежде, чем удалить его, в то время как другой пользователь может оказаться не столь предусмотрительным. Без труда подобные изменяющиеся степени предусмотрительности пользователей встроить в основывающуюся на правилах систему, подобную описанной в публикации Cohen, невозможно.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Ниже следует краткое содержание настоящего изобретения, представленное в упрощенном виде с целью обеспечения базового понимания некоторых аспектов настоящего изобретения. Это краткое содержание не является всесторонним обзором настоящего изобретения. При этом не подразумевается, что оно идентифицирует ключевые/критические элементы настоящего изобретения или охватывает предметную область настоящего изобретения. Единственной его целью является представление в упрощенном виде некоторых концепций настоящего изобретения в качестве прелюдии к более подробному описанию, которое представлено ниже.

В настоящем изобретении предлагается система, предназначенная для обнаружения незапрашиваемых сообщений (например, электронной почты). Данная система включает в себя компонент электронной почты и компонент опознавательных запросов. Система может получать сообщения и ассоциированные вероятности того, что данные сообщения являются спамом. На основе, по меньшей мере частично, ассоциированной вероятности, рассматриваемая система может послать опознавательный запрос отправителю сообщения. Компонент электронной почты может сохранять сообщения и ассоциированные вероятности того, что эти сообщения являются спамом. В одном из примеров на основе ассоциированных вероятностей того, что сообщения являются спамом, сообщения электронной почты сохраняют с отличающимися атрибутами, такими как имя папки. В другом примере сообщения электронной почты, имеющие ассоциированные вероятности, меньшие или равные первому пороговому значению, сохраняют в папке для легальной электронной почты, в то время как сообщения электронной почты, имеющие ассоциированные вероятности, большие первого порогового значения, сохраняют в папке для спама. В еще одном варианте реализации настоящего изобретения сообщения электронной почты, имеющие ассоциированные вероятности, меньшие или равные первому пороговому значению, сохраняют в папке для легальной электронной почты; сообщения электронной почты, имеющие ассоциированные вероятности, большие первого порогового значения, но меньшие второго порогового значения, сохраняют в папке для сообщений с подозрением на спам. Те же сообщения электронной почты, которые имеют ассоциированные вероятности, большие второго порогового значения, сохраняют в папке для спама. Необходимо заметить, что первое пороговое значение и/или второе пороговое значение могут быть фиксированными на основе предпочтений пользователя и/или адаптивными (например, на основе, по меньшей мере частично, доступных вычислительных ресурсов).

Следует заметить, что отличные от вероятностей числа, такие как рейтинги, вычисляемые вспомогательной векторной вычислительной машиной, нейронной сетью и т.д., могут служить для тех же самых целей, что и вероятности - в общем случае, в соответствии с одним из аспектов настоящего изобретения числовые выходные данные любого алгоритма обучения машины можно использовать вместо вероятности. Аналогично, некоторые алгоритмы обучения машины, подобные деревьям решений, выдают информацию о категориях, и ее тоже можно использовать вместо комбинации вероятности и порогового значения. Компонент опознавательных запросов может послать опознавательный запрос отправителю сообщения электронной почты, имеющего ассоциированную вероятность, большую первого порогового значения. Например, опознавательный запрос может основываться, по меньшей мере частично, на встроенном в опознавательный запрос коде (например, буквенно-цифровом коде). При ответе на такой опознавательный запрос отправитель электронной почты может ответить посредством этого кода. В одном из примеров систему отправителя можно адаптировать для автоматического извлечения встроенного кода и ответа на опознавательный запрос. В качестве альтернативы и/или дополнения, отправитель может получить приглашение для ответа на опознавательный запрос (например, вручную). Использование опознавательного запроса, основывающегося на встроенном коде, может увеличить сетевую и/или вычислительную нагрузку в системе отправителя спама, тем самым выполняя функции сдерживания от рассылки спама. Необходимо заметить, что опознавательный запрос может быть любым из множества подходящих типов (например, вычисляемый опознавательный запрос, опознавательный запрос, требующий участия человека, и/или требование микроплатежа). Опознавательный запрос может быть фиксированным и/или переменным. Например, при высокой ассоциированной вероятности компонент опознавательных запросов может послать более сложный опознавательный запрос или опознавательный запрос, требующий большего микроплатежа.

Компонент опознавательных запросов может скорректировать ассоциированную вероятность того, что сообщение электронной почты является спамом на основе, по меньшей мере частично, ответа на опознавательный запрос. Например, после получения приемлемого (например, корректного) ответа на опознавательный запрос компонент опознавательных запросов может уменьшить ассоциированную вероятность того, что данное сообщение электронной почты является спамом. В одном из примеров сообщение электронной почты перемещают из папки для спама в папку для легальной электронной почты. В другом варианте реализации сообщение электронной почты перемещают из папки для сообщений с подозрением на спам в папку для легальной электронной почты. После получения неприемлемого (например, некорректного) ответа на опознавательный запрос и/или в случае невозможности получить ответ на опознавательный запрос в течение определенного периода времени (например, 4 часов) компонент опознавательных запросов может увеличить ассоциированную вероятность того, что данное сообщение электронной почты является спамом. Например, сообщение электронной почты могут переместить из папки для сообщений с подозрением на спам в папку для спама.

Согласно другому аспекту настоящего изобретения предоставляется система, которая дополнительно включает в себя классификатор почты. Классификатор почты получает сообщение электронной почты, определяет ассоциированную вероятность того, что данное сообщение электронной почты является спамом, и сохраняет сообщения электронной почты и ассоциированные вероятности в компоненте электронной почты. Соответственно, классификатор почты анализирует содержание сообщения для заданного получателя, на основе данного содержания для данного получателя проводит различие между спамом и легальными сообщениями (не являющимися спамом) и таким образом классифицирует каждое входящее сообщение для данного получателя.

В качестве дополнения и/или альтернативы сообщение электронной почты можно пометить с помощью индикатора правдоподобия (вероятности) того, что данное сообщение является спамом; сообщения, которым назначены промежуточные вероятности того, что они - спам, можно переместить в папку для сообщений с подозрением на спам на основе упомянутого правдоподобия. На основе, по меньшей мере частично, информации, предоставляемой классификатором почты, компонент опознавательных запросов может послать опознавательный запрос отправителю сообщения электронной почты, имеющего ассоциированную вероятность, большую первого порогового значения.

Согласно еще одному аспекту настоящего изобретения обеспечивается система, дополнительно включающая в себя папку(и) для спама и папку(и) для легальной электронной почты. Классификатор электронной почты определяет ассоциированную вероятность того, что сообщение электронной почты является спамом, и сохраняет данное сообщение электронной почты в папке(ах) для спама и папке(ах) для легальной электронной почты (например, на основе первого порогового значения). Входящие сообщения электронной почты подают на вход классификатора почты, который, в свою очередь, на основе вероятностей классифицирует каждое их этих сообщений либо как легальное, либо как спам. Сообщение направляют либо в папку(и) для спама, либо в папку(и) для легальной электронной почты на основе его классификации. После этого компонент опознавательных запросов может послать опознавательный запрос отправителю сообщения, сохраненного в папке(ах) для спама (например, имеющего ассоциированную вероятность, большую первого порогового значения). На основе, по меньшей мере частично, ответа на опознавательный запрос компонент опознавательных запросов может переместить рассматриваемое сообщение электронной почты из папки(ок) для спама в папку(и) для легальной электронной почты. Например, после получения приемлемого (например, корректного) ответа на опознавательный запрос компонент опознавательных запросов может переместить рассматриваемое сообщение электронной почты из папки(ок) для спама в папку(и) для легальной электронной почты. Помимо этого, после получения неприемлемого (например, некорректного) ответа на опознавательный запрос и/или в случае невозможности получить ответ на опознавательный запрос в течение определенного периода времени (например, 4 часов) компонент опознавательных запросов может удалить данное сообщение электронной почты из папки(ок) для спама и/или изменить атрибут(ы) сообщения электронной почты, хранящегося в папке(ах) для спама.

Согласно другому аспекту настоящего изобретения, предлагается система, дополнительно включающая в себя каталог (хранилище) отправителей легальной электронной почты и каталог (хранилище) отправителей спама. В каталоге отправителей легальной электронной почты хранится информация (например, адреса электронной почты), ассоциированная с отправителями легальной электронной почты. На сообщения электронной почты от отправителей, идентифицируемых в каталоге отправителей легальной электронной почты, компонент опознавательных запросов в общем случае опознавательных запросов не выдает. Информацию (например, адреса электронной почты) можно сохранять в каталоге (хранилище) отправителей легальной электронной почты на основе выбора пользователя (например, по команде "не посылать запрос" конкретному отправителю), адресной книги пользователя, адресов, на которые пользователь отправил, по меньшей мере, заданное количество сообщений электронной почты, и/или посредством компонента опознавательных запросов. В каталоге отправителей легальной электронной почты может дополнительно храниться уровень доверия, ассоциированный с отправителем легального сообщения электронной почты. На сообщения электронной почты, имеющие ассоциированные вероятности, меньшие или равные ассоциированному уровню доверия, компонент опознавательных запросов не выдает опознавательные запросы, в то время как на сообщения электронной почты, имеющие ассоциированные вероятности, большие ассоциированного уровня доверия, компонент опознавательных запросов выдает опознавательные запросы. В каталоге (хранилище) отправителей спама хранится информация (например, адреса электронной почты), ассоциированная с отправителями спама. Сохранение информации в каталоге отправителей спама может выполнять пользователь и/или компонент опознавательных запросов.

Для выполнения вышеупомянутых и связанных с ними задач в данном документе описаны некоторые иллюстративные аспекты настоящего изобретения совместно с нижеследующим описанием и прилагающимися чертежами. Тем не менее, эти аспекты показывают лишь некоторые из множества путей, которые позволяют использовать принципы настоящего изобретения, при этом подразумевается, что настоящее изобретение включает в себя все подобные аспекты и их эквиваленты. Другие преимущества и новые отличительные признаки настоящего изобретения становятся очевидными из нижеследующего подробного описания настоящего изобретения, которое рассматривается совместно с чертежами.

ПЕРЕЧЕНЬ ФИГУР ЧЕРТЕЖЕЙ

Фиг.1 представляет собой блок-схему соответствующей одному из аспектов настоящего изобретения системы, предназначенной для обнаружения незапрашиваемой электронной почты;

фиг.2 представляет собой блок-схему соответствующей одному из аспектов настоящего изобретения системы, предназначенной для обнаружения незапрашиваемой электронной почты;

фиг.3 представляет собой блок-схему соответствующей одному из аспектов настоящего изобретения системы, предназначенной для обнаружения незапрашиваемой электронной почты;

фиг.4 представляет собой блок-схему соответствующей одному из аспектов настоящего изобретения системы, предназначенной для обнаружения незапрашиваемой электронной почты;

фиг.5 представляет собой блок-схему соответствующей одному из аспектов настоящего изобретения системы, предназначенной для обнаружения незапрашиваемой электронной почты;

фиг.6 представляет собой блок-схему соответствующей одному из аспектов настоящего изобретения системы, предназначенной для обнаружения незапрашиваемой электронной почты;

фиг.7 представляет собой блок-схему соответствующей одному из аспектов настоящего изобретения системы, предназначенной для ответа на опознавательный запрос;

фиг.8 представляет собой блок-схему алгоритма, иллюстрирующую соответствующий одному из аспектов настоящего изобретения способ, предназначенный для обнаружения незапрашиваемой электронной почты;

фиг.9 представляет собой блок-схему алгоритма, дополнительно иллюстрирующую способ по фиг.8;

фиг.10 представляет собой блок-схему алгоритма, иллюстрирующую соответствующий одному из аспектов настоящего изобретения способ, предназначенный для ответа на опознавательный запрос;

фиг.11 представляет собой блок-схему алгоритма, иллюстрирующую соответствующий одному из аспектов настоящего изобретения способ, предназначенный для ответа на опознавательные запросы;

фиг.12 представляет собой соответствующий одному из аспектов настоящего изобретения примерный вариант пользовательского интерфейса, предназначенного для ответа на множество опознавательных запросов;

фиг.13 иллюстрирует пример операционной среды, в которой может функционировать настоящее изобретение.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Ниже приводится описание настоящего изобретения со ссылкой на чертежи, причем на протяжении всего описания для подобных элементов используют подобные же номера позиций. В нижеследующем описании в пояснительных целях изложены многочисленные специфические детали для обеспечения исчерпывающего понимания настоящего изобретения. Однако может оказаться очевидным, что настоящее изобретение можно использовать на практике без этих специфических деталей. В других примерах широко известные структуры и устройства показаны в форме блок-схем с целью содействия описанию настоящего изобретения.

Подразумевается, что используемый в данной патентной заявке термин "компьютерный компонент" относится к объекту, связанному с компьютером, будь то аппаратные средства, комбинация аппаратных средств и программного обеспечения, программное обеспечение или программное обеспечение, исполняемое в текущий момент. Например, компьютерным компонентом может быть процесс, выполняемый процессором, процессор, объект, исполняемый файл, поток исполнения, программа и/или компьютер, однако компьютерный компонент не ограничивается вышеперечисленным. В качестве иллюстрации как исполняемое на сервере приложение, так и сам сервер могут быть компьютерным компонентом. Один или несколько компьютерных компонентов могут постоянно находиться внутри процесса и/или потока исполнения, и компонент может быть локализован на одном компьютере и/или распределен между двумя или более компьютерами.

Обратимся к фиг.1, на которой изображена соответствующая одному из аспектов настоящего изобретения система 100, предназначенная для обнаружения незапрашиваемых сообщений (например, электронной почты). Система 100 включает в себя компонент 110 электронной почты и компонент 120 опознавательных запросов. Система 100 может принимать сообщения электронной почты и ассоциированные вероятности того, что данные сообщения электронной почты являются спамом. На основе, по меньшей мере частично, упомянутой ассоциированной вероятности система 100 может послать опознавательный запрос отправителю сообщения электронной почты.

Компонент 110 электронной почты принимает и/или сохраняет сообщения электронной почты, принимает и/или вычисляет ассоциированные вероятности того, что данные сообщения электронной почты являются спамом. Например, компонент 110 электронной почты может сохранять информацию на основе, по меньшей мере частично, информации, полученной от классификатора почты (не показан). В одном из примеров сообщения электронной почты сохраняют в компоненте 110 электронной почты на основе ассоциированных вероятностей того, что данные сообщения электронной почты являются спамом. В другом примере компонент 110 электронной почты принимает сообщения электронной почты и вычисляет ассоциированные вероятности того, что данные сообщения электронной почты являются спамом.

Компонент 120 опознавательных запросов может послать опознавательный запрос отправителю сообщения электронной почты, имеющего ассоциированную вероятность, большую первого порогового значения. Например, опознавательный запрос может основываться, по меньшей мере частично, на встроенном в опознавательный запрос коде (например, буквенно-цифровом коде). При ответе на такой опознавательный запрос отправитель сообщения электронной почты может ответить посредством данного кода. В одном из примеров систему отправителя (не показана) можно адаптировать для автоматического извлечения встроенного кода и ответа на опознавательный запрос. В качестве альтернативы и/или дополнения отправитель может получить приглашение ответить на опознавательный запрос (например, вручную). Использование опознавательного запроса, основывающегося на встроенном коде, может увеличить сетевую и/или вычислительную нагрузку в системе отправителя спама, тем самым выполняя функции сдерживания от рассылки спама.

В качестве дополнения и/или альтернативы, опознавательный запрос может быть вычисляемым опознавательным запросом, опознавательным запросом, требующим участия человека, и/или требованием микроплатежа. Ниже такие опознавательные запросы и ответы на такие опознавательные запросы рассматриваются более подробно. Более того, опознавательный запрос может быть фиксированным и/или изменяемым. Например, при высокой ассоциированной вероятности компонент 120 опознавательных запросов может послать более сложный опознавательный запрос или опознавательный запрос, который требует большего микроплатежа.

Например, требование микроплатежа может в качестве опции использовать сертификаты спама однократного использования. Система 100 может наложить "блокировку" на полученный сертификат спама. В случае, когда пользователь системы 100 читает сообщение и помечает его как спам, сертификат спама аннулируют - отправитель не сможет в дальнейшем использовать этот сертификат спама. Если же сообщение не помечено как спам, то блокировку снимают, тем самым позволяя отправителю использовать сертификат спама повторно (например, отправитель сообщения не потратил при этом денег). В альтернативном варианте реализации сертификат спама при получении всегда аннулируют независимо от того, было ли сообщение помечено как спам или нет.

Что касается вычисляемого опознавательного запроса, то в одном из вариантов реализации отправитель опознавательного запроса (приемник сообщения) может определить, каким следует быть вычисляемому опознавательному запросу. Однако в другом варианте реализации опознавательный запрос однозначно определяют посредством некоторой комбинации содержания сообщения, времени получения или отправки сообщения, отправителя сообщения и, что важно, получателя сообщения. Например, вычисляемый опознавательный запрос может основываться на одностороннем хешировании этих величин. В случае, если отправителю вызова (приемнику сообщения) разрешено выбрать опознавательный запрос, распространитель спама может использовать следующий способ. Он подписывается на списки почтовой рассылки или, в противном случае, генерирует почту от имени пользователей. Таким образом, респонденты посылают сообщения обратно распространителю спама, на которое распространитель спама отвечает выбираемым по своему усмотрению вычисляемым опознавательным запросом. В частности, распространитель спама может выбрать опознавательные запросы, которые легальные пользователи послали распространителю спама незадолго до этого в ответ на спам. Некоторый процент получателей опознавательных запросов, посланных распространителем спама, разрешают опознавательные запросы, тем самым позволяя распространителю спама в дальнейшем отвечать на опознавательные запросы, посылаемые ему. В одном из вариантов реализации вычисляемый вызов основывается на одностороннем хешировании сообщения (включая метку времени и метку получателя), что делает определение опознавательного запроса практически невозможным для отправителя или получателя, но дает каждому из них возможность удостовериться в том, что опознавательный запрос служит своей намеченной цели.

Компонент 120 опознавательных запросов может скорректировать ассоциированную вероятность того, что сообщение электронной почты является спамом, на основе, по меньшей мере частично, ответа на опознавательный запрос. Например, после приема приемлемого (например, корректного) ответа на опознавательный запрос компонент 120 опознавательных запросов может уменьшить ассоциированную вероятность того, что данное сообщение электронной почты является спамом. В одном из примеров сообщени