Система и способ управления вычислительными ресурсами для обнаружения вредоносных файлов
Иллюстрации
Показать всеИзобретение относится к области антивирусных технологий. Техническим результатом является управление вычислительными ресурсами для обнаружения вредоносных файлов. Раскрыта система управления вычислительными ресурсами для обнаружения вредоносных файлов, которая содержит: а) средство анализа журнала поведения, предназначенное для: формирования по меньшей мере одного шаблона поведения на основании команд и параметров, выбранных из созданного журнала поведения, исполняемых на вычислительном устройстве (далее - приложения), при этом шаблон поведения представляет собой набор из по меньшей мере одной команды и такого параметра, который описывает все команды из упомянутого набора; вычисления свертки от сформированного шаблона поведения; передачи вычисленной свертки средству вычисления степени вредоносности; б) средство вычисления степени вредоносности, предназначенное для: вычисления степени вредоносности приложений на основании анализа полученной свертки с помощью модели обнаружения вредоносных файлов, при этом степень вредоносности приложений представляет собой численное значение, характеризующее вероятность того, что ко времени вычисления упомянутой степени вредоносности приложений осуществляется вредоносная активность; передачи вычисленной степени вредоносности приложений средству управления ресурсами; в) средство управления ресурсами, предназначенное для управления вычислительными ресурсами, которые используются для обеспечения безопасности упомянутого вычислительного устройства (далее - ресурсы), в зависимости от полученной степени вредоносности приложений, таким образом, чтобы степень вредоносности приложений, вычисленная после упомянутого управления ресурсами, находилась в заранее заданном диапазоне значений, при этом в случае превышения полученной степени вредоносности приложений заранее заданного порогового значения передачи запроса на выделение дополнительных ресурсов вычислительного устройства, в случае снижения полученной степени вредоносности ниже заранее заданного порогового значения передачи запроса на освобождение выделенных ранее ресурсов вычислительного устройства. 2 н. и 22 з.п. ф-лы, 7 ил., 1 табл.
Реферат
Область техники
Изобретение относится к антивирусным технологиям, а более конкретно к системам и способам обнаружения вредоносных файлов.
Уровень техники
Бурное развитие компьютерных технологий в последнее десятилетие, а также широкое распространение разнообразных вычислительных устройств (персональных компьютеров, ноутбуков, планшетов, смартфонов и т.д.) стали мощным стимулом для использования упомянутых устройств в разнообразных сферах деятельности и для огромного количества задач (от интернет-серфинга до банковских переводов и ведения электронного документооборота). Параллельно с ростом количества вычислительных устройств и программного обеспечения, работающего на этих устройствах, быстрыми темпами росло и количество вредоносных программ.
В настоящий момент существует огромное количество разновидностей вредоносных программ. Одни крадут с устройств пользователей их персональные и конфиденциальные данные (например, логины и пароли, банковские реквизиты, электронные документы). Другие формируют из устройств пользователей так называемые бот-сети (англ. botnet) для таких атак, как отказ в обслуживании (англ. DDoS - Distributed Denial of Service) или для перебора паролей методом грубой силы (англ. bruteforce) на другие компьютеры или компьютерные сети. Третьи предлагают пользователям платный контент через навязчивую рекламу, платные подписки, отправку CMC на платные номера и т.д.
Для борьбы с вредоносными программами, включающей в себя обнаружение вредоносных программ, предотвращение заражения и восстановление работоспособности вычислительных устройств, зараженных вредоносными программами, применяются специализированные программы -антивирусы. Для обнаружения всего многообразия вредоносных программ антивирусные программы используют разнообразные технологии, такие как:
статический анализ - анализ программ на вредоносность, исключающий запуск или эмуляцию работы анализируемых программ, на основании данных содержащихся в файлах, составляющих анализируемые программы, при этом при статистическом анализе могут использоваться:
сигнатурный анализ - поиск соответствий какого-либо участка кода анализируемых программ известному коду (сигнатуре) из базы данных сигнатур вредоносных программ;
белые и черные списки - поиск вычисленных контрольных сумм от анализируемых программ (или их частей) в базе данных контрольных сумм вредоносных программ (черные списки) или базе данных контрольных сумм безопасных программ (белые списки);
динамический анализ - анализ программ на вредоносность на основании данных, полученных в ходе исполнения или эмуляции работы анализируемых программ, при этом при динамическом анализе могут использоваться:
эвристический анализ - эмуляция работы анализируемых программ, создание журналов эмуляции (содержащих данные по вызовам API-функций, переданным параметрам, участкам кода анализируемых программ и т.д.) и поиск соответствий данных из созданных журналов с данными из базы данных поведенческих сигнатур вредоносных программ;
проактивная защита - перехват вызовов API-функций запущенных анализируемых программ, создания журналов поведения анализируемых программ (содержащих данные по вызовам API-функций, переданным параметрам, участкам кода анализируемых программ и т.д.) и поиск соответствий данных из созданных журналов с данными из базы данных вызовов вредоносных программ.
И статический, и динамический анализ обладают своими плюсами и минусами. Статический анализ менее требователен к ресурсам вычислительного устройства, на котором выполняется анализ, а поскольку он не требует исполнения или эмуляции анализируемой программы, статистический анализ более быстрый, но при этом менее эффективен, т.е. имеет более низкий процент обнаружения вредоносных программ и более высокий процент ложных срабатываний (т.е. вынесения решения о вредоносности файла, анализируемого средствами программы-антивируса, при том, что анализируемый файл является безопасным). Динамический анализ из-за того, что использует данные, получаемые при исполнении или эмуляции работы анализируемой программы, более медленный и предъявляет более высокие требования к ресурсам вычислительного устройства на котором выполняется анализ, но при этом и более эффективен. Современные антивирусные программы используют комплексный анализ, включающий в себя как элементы статического, так и динамического анализа.
Поскольку современные стандарты информационной безопасности требуют оперативного реагирования на вредоносные программы (в особенности на новые), на первый план выходят автоматические средства обнаружения вредоносных программ. Для эффективной работы упомянутых средств зачастую применяются элементы искусственного интеллекта и разнообразные методы машинного обучения моделей обнаружения вредоносных программ (т.е. совокупности правил принятия решения о вредоносности файла на основании некоторого набора входных данных, описывающих вредоносный файл), позволяющие эффективно обнаруживать не только хорошо известные вредоносные программы или вредоносные программы с хорошо известным вредоносным поведением, но и новые вредоносные программы, обладающие неизвестным или слабо исследованным вредоносным поведением, а также оперативно адоптироваться (обучаться) к обнаружению новых вредоносных программ.
В патентной публикации US 9288220 B2 описана технология обнаружения вредоносного ПО в сетевом трафике. С этой целью из данных, выбранных из сетевого трафика, выделяют характерные признаки (признаки, характеризующие тип исполняемого файла, поведение исполняемого файла, тип передаваемых по компьютерной сети данных, например тип и размер передаваемых по компьютерной сети данных, команды, выполняемые при исполнении файла, наличие заранее заданных сигнатур в файле и т.д.), в качестве которых может выступать признаковое описание выбранных данных, т.е. вектор (англ. feature vector), составленный из значений, соответствующих некоторому набору признаков для объекта, содержащего выбранные данные. Применяя модели обнаружения безопасных файлов, обнаружения вредоносных файлов и определения типов вредоносных файлов, предварительно обученные с использованием методов машинного обучения на основании шаблонов, составленных из схожих с упомянутыми характерных признаков, определяют, с каким весом и к какому типу вредоносного ПО относятся выбранные данные, и выносят решение об обнаружении вредоносного ПО в сетевом трафике.
Хотя описанная выше технология хорошо справляется с обнаружением вредоносных файлов, обладающих некоторыми характерными признаками (т.е. данными, описывающими некоторые особенности файлов из некоторой совокупности файлов, например, наличие графического интерфейса, шифрования данных, передачи данных по компьютерной сети и т.д.), сам используемый способ обнаружения может неэффективно использовать доступные вычислительные ресурсу вычислительного устройства, на котором выполняется упомянутое обнаружение вредоносных файлов (например, может быть чрезмерное использование оперативной памяти или резервирование времени центрального процессора). Таким образом, в случае, когда вычислительные ресурсы интенсивно используют другими приложения, обнаружение вредоносных файлов может стать неэффективным, в том числе возможны появления ошибок первого и второго роде (ложные срабатывания на безопасных файлах и пропуски вредоносных файлов). Это связано с тем, что для одной задачи обнаружения вредоносных файлов может быть недостаточно доступных вычислительных ресурсов, поскольку ранее часть из них была выделена для другой задачи обнаружения вредоносных файлов (например, больше вычислительных ресурсов было выделено для сигнатурного анализа и меньше для эвристического анализа), в связи с чем эффективность поиска и обнаружения вредоносных файлов значительно снижается.
Настоящее изобретение позволяет решать задачу обнаружения вредоносных файлов.
Раскрытие изобретения
Изобретение предназначено для антивирусной проверки файлов.
Технический результат настоящего изобретения заключается в реализации заявленного назначения.
Еще один технический результат настоящего изобретения заключается в обнаружении вредоносных файлов с использованием обученной модели обнаружения вредоносных файлов.
Еще один технический результат настоящего изобретения заключается в управлении вычислительными ресурсами вычислительного устройства в зависимости от вычисленной степени вредоносности приложения.
Данные результаты достигаются с помощью использования системы управления вычислительными ресурсами для обнаружения вредоносных файлов, которая содержит средство анализа журнала поведения, предназначенное для формирования по меньшей мере одного шаблона поведения на основании команд и параметров, выбранных из созданного журнала поведения, исполняемых на вычислительном устройстве (далее -приложения), при этом шаблон поведения представляет собой набор из по меньшей мере одной команды и такого параметра, который описывает все команды из упомянутого набора; вычисления свертки от сформированного шаблона поведения; передачи вычисленной свертки средству вычисления степени вредоносности; средство вычисления степени вредоносности, предназначенное для вычисления степени вредоносности приложений на основании анализа полученной свертки с помощью модели обнаружения вредоносных файлов, при этом степень вредоносности приложений представляет собой численное значение, характеризующее вероятность того, что ко времени вычисления упомянутой степени вредоносности приложений осуществляется вредоносная активность; передачи вычисленной степени вредоносности приложений средству управления ресурсами; средство управления ресурсами, предназначенное для управления вычислительными ресурсами, которые используются для обеспечения безопасности упомянутого вычислительно устройства (далее - ресурсы), в зависимости от полученной степени вредоносности приложений, таким образом, чтобы степень вредоносности приложений, вычисленная после упомянутого управления ресурсами, находилась в заранее заданном диапазоне значений, при этом в случае превышения полученной степени вредоносности приложений заранее заданного порогового значения передачи запроса на выделение дополнительных ресурсов вычислительного устройства, в случае снижения полученной степени вредоносности ниже заранее заданного порогового значения передачи запроса на освобождение выделенных ранее ресурсов вычислительного устройства.
В другом частном случае реализации системы система дополнительно содержит средство формирования журналов поведения, предназначенное для перехвата по меньшей мере одной команды по меньшей мере во время исполнения приложения на вычислительном устройстве, эмуляции на вычислительном устройстве исполнения приложения; определения для каждой перехваченной команды по меньшей мере одного параметра, описывающего упомянутую команду; формирования на основании перехваченных команд и определенных параметров журнала поведения упомянутого приложения; передачи сформированного журнала поведения средству анализа журнала поведения.
Еще в одном частном случае реализации системы журнал поведения представляет собой совокупность исполняемых команд (далее - команда) приложения, где каждой команде соответствует по меньшей мере один параметр, описывающий упомянутую команду (далее - параметр).
В другом частном случае реализации системы вычисление свертки от сформированных шаблонов поведения выполняется на основании заранее заданной функции свертки, такой что обратная функция свертки от результата упомянутой функции свертки над всеми сформированными шаблонами поведения имеет степень схожести с упомянутым шаблоном поведения больше заданного значения.
Еще в одном частном случае реализации системы модель обнаружения вредоносных файлов была предварительно обучена методом машинного обучения на по меньшей мере одном безопасном файле и вредоносном файле.
В другом частном случае реализации системы в качестве метода машинного обучения модели обнаружения выступает по меньшей мере метод градиентный бустинг на деревьях принятия решений; деревья принятия решений; ближайших соседей kNN; опорных векторов.
Еще в одном частном случае реализации системы метод обучения модели обнаружения обеспечивает монотонность изменения степени вредоносности приложений в зависимости от изменения количества шаблонов поведения, сформированных на основании анализа журнала поведения.
В другом частном случае реализации системы управление вычислительными ресурсами включает по меньшей мере выделение дополнительных вычислительных ресурсов для предоставления приложениям, исполняемым на упомянутом вычислительном устройстве; освобождение вычислительных ресурсов, ранее выделенных для предоставления приложениям, исполняемым на упомянутом вычислительном устройстве; управление политиками безопасности работы с вычислительными ресурсами приложениями, исполняемыми на упомянутом вычислительном устройстве.
Еще в одном частном случае реализации системы управление вычислительными ресурсами осуществляется по запросу от средства управления ресурсами по меньшей мере с помощью средств операционной системы, под управлением которой работает упомянутое вычислительное устройство; средств, предоставляемых исполняемым на упомянутом вычислительном устройстве приложением, использующим упомянутые вычислительные ресурсы.
В другом частном случае реализации системы дополнительно средство управления ресурсами управляет вычислительными ресурсами с помощью модели управления вычислительными ресурсами.
Еще в одном частном случае реализации системы в системе дополнительно содержится средство обучения модели управления, предназначенное для машинного обучения модели управления вычислительными ресурсами, таким образом, чтобы при управлении вычислительными ресурсами с помощью упомянутой обученной модели, использование упомянутых вычислительных ресурсов было минимальным.
В другом частном случае реализации системы в системе дополнительно содержится средство обучения модели обнаружения, предназначенное для машинного обучения модели обнаружения вредоносных файлов на основании анализа по меньшей мере одного созданного журнала поведения, при этом упомянутое машинное обучение выполняется в случае, когда после завершения последнего управления ресурсами вычисленная степень вредоносности приложений оказывается выше заранее заданного порогового значения.
Данные результаты достигаются с помощью использования способа управления вычислительными ресурсами для обнаружения вредоносных файлов, при этом способ содержит этапы, которые реализуются с помощью средств из системы управления вычислительными ресурсами для обнаружения вредоносных файлов и на которых формируют по меньшей мере один шаблон поведения на основании команд и параметров, выбранных из созданного журнала поведения, исполняемых на вычислительном устройстве (далее - приложения), при этом шаблон поведения представляет собой набор из по меньшей мере одной команды и такого параметра, который описывает все команды из упомянутого набора; вычисляют свертку от сформированного шаблона поведения; вычисляют степень вредоносности приложений на основании анализа вычисленной свертки с помощью модели обнаружения вредоносных файлов, при этом степень вредоносности приложений представляет собой численное значение, характеризующее вероятность того, что ко времени вычисления упомянутой степени вредоносности приложений осуществляется вредоносная активность; управляют вычислительными ресурсами, которые используются для обеспечения безопасности упомянутого вычислительно устройства (далее - ресурсы), в зависимости от вычисленной степени вредоносности приложений, таким образом, чтобы степень вредоносности приложений, вычисленная после упомянутого управления ресурсами, находилась в заранее заданном диапазоне значений, при этом в случае превышения полученной степени вредоносности приложений заранее заданного порогового значения передачи запроса на выделение дополнительных ресурсов вычислительного устройства, в случае снижения полученной степени вредоносности ниже заранее заданного порогового значения передачи запроса на освобождение выделенных ранее ресурсов вычислительного устройства.
В другом частном случае реализации способа дополнительно перехватывают по меньшей мере одну команду по меньшей мере во время исполнения приложения на вычислительном устройстве, эмуляции на вычислительном устройстве исполнения приложения; определяют для каждой перехваченной команды по меньшей мере один параметр, описывающий упомянутую команду; формируют на основании перехваченных команд и определенных параметров журнала поведения.
Еще в одном частном случае реализации способа журнал поведения представляет собой совокупность исполняемых команд (далее - команда) из файла, где каждой команде соответствует по меньшей мере один параметр, описывающий упомянутую команду (далее - параметр).
В другом частном случае реализации способа вычисляют свертку от сформированных шаблонов поведения на основании заранее заданной функции свертки, такой что обратная функция свертки от результата упомянутой функции свертки над всеми сформированными шаблонами поведения имеет степень схожести с упомянутым шаблоном поведения больше заданного значения
Еще в одном частном случае реализации способа модель обнаружения вредоносных файлов была предварительно обучена методом машинного обучения на по меньшей мере одном безопасном файле и вредоносном файле.
В другом частном случае реализации способа в качестве метода машинного обучения модели обнаружения выступает по меньшей мере метод градиентный бустинг на деревьях принятия решений; деревья принятия решений; ближайших соседей kNN; опорных векторов.
Еще в одном частном случае реализации способа метод обучения модели обнаружения обеспечивает монотонность изменения степени вредоносности приложений в зависимости от изменения количества шаблонов поведения, сформированных на основании анализа журнала поведения.
В другом частном случае реализации способа управление вычислительными ресурсами включает по меньшей мере выделение дополнительных вычислительных ресурсов для предоставления приложениям, исполняемым на упомянутом вычислительном устройстве освобождение вычислительных ресурсов, ранее выделенных для предоставления приложениям, исполняемым на упомянутом вычислительном устройстве управление политиками безопасности работы с вычислительными ресурсами приложениями, исполняемыми на упомянутом вычислительном устройстве.
Еще в одном частном случае реализации способа управление вычислительными ресурсами осуществляется по запросу от средства управления ресурсами по меньшей мере с помощью средств операционной системы, под управлением которой работает упомянутое вычислительное устройство; средств, предоставляемых исполняемым на упомянутом вычислительном устройстве приложением, использующим упомянутые вычислительные ресурсы.
В другом частном случае реализации способа дополнительно управляют вычислительными ресурсами с помощью модели управления вычислительными ресурсами.
Еще в одном частном случае реализации способа дополнительно обучают с помощью методов машинного обучения модель управления вычислительными ресурсами, таким образом, чтобы при управлении вычислительными ресурсами с помощью упомянутой обученной модели, использование упомянутых вычислительных ресурсов было минимальным.
В другом частном случае реализации способа дополнительно обучают с помощью методов машинного обучения модель обнаружения вредоносных файлов на основании анализа по меньшей мере одного созданного журнала поведения, при этом упомянутое машинное обучение выполняется в случае, когда после завершения последнего управления ресурсами вычисленная степень вредоносности приложений оказывается выше заранее заданного порогового значения.
Краткое описание чертежей
Фиг. 1 представляет структурную схему системы машинного обучения модели обнаружения вредоносных файлов.
Фиг. 2 представляет структурную схему способа машинного обучения модели обнаружения вредоносных файлов.
Фиг. 3 представляет примеры динамики изменения степени вредоносности от количества шаблонов поведения.
Фиг. 4 представляет пример схемы связей между элементами шаблонов поведения.
Фиг. 5 представляет структурную схему системы управления вычислительными ресурсами для обнаружения вредоносных файлов.
Фиг. 6 представляет структурную схему способа управления вычислительными ресурсами для обнаружения вредоносных файлов.
Фиг. 7 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер.
Хотя изобретение может иметь различные модификации и альтернативные формы, характерные признаки, показанные в качестве примера на чертежах, будут описаны подробно. Следует понимать, однако, что цель описания заключается не в ограничении изобретения конкретным его воплощением. Наоборот, целью описания является охват всех изменений, модификаций, входящих в рамки данного изобретения, как это определено приложенной формуле.
Описание вариантов осуществления изобретения
Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Сущность, приведенная в описании, является ничем иным, как конкретными деталями, необходимыми для помощи специалисту в области техники в исчерпывающем понимании изобретения, и настоящее изобретение определяется в объеме приложенной формулы.
Введем ряд определений и понятий, которые будут использоваться при описании вариантов осуществления изобретения.
Вредоносный файл - файл, исполнение которого заведомо способно привести к несанкционированному уничтожению, блокированию, модификации, копирования компьютерной информации или нейтрализации средств защиты компьютерной информации.
Вредоносное поведение исполняемого файла - совокупность действий, которые могут быть выполнены при исполнении упомянутого файла и которые заведомо способны привести к несанкционированному уничтожению, блокированию, модификации, копированию информации или нейтрализации средств защиты компьютерной информации.
Вредоносная активность исполняемого файла - совокупность действий, выполненных упомянутым файлом в соответствии с его вредоносным поведением.
Вычислительное устройство среднестатистического пользователя -гипотетическое (теоретическое) вычислительное устройство, обладающее усредненными характеристиками вычислительных устройств заранее выбранной группы пользователей, на котором исполняются те же приложения, что и на вычислительных устройствах упомянутых пользователей.
Команда, исполняемая вычислительным устройством - совокупность машинных инструкций или инструкций сценариев, исполняемых вычислительным устройством на основании параметров упомянутых инструкций, называемых параметрами команды или параметрами, описывающими упомянутую команду.
Лексический анализ («токенизация», от англ. tokenizing) - процесс аналитического разбора входной последовательности символов на распознанные группы (далее - лексемы), с целью формирования на выходе идентификационных последовательностей (далее - токены).
Токен - идентификационная последовательность, формируемая из лексемы в процессе лексического анализа.
Фиг. 1 представляет структурную схему системы машинного обучения модели обнаружения вредоносных файлов.
Структурная схема системы машинного обучения состоит из средства подготовки обучающих выборок 111, средства формирования журналов поведения 112, средства формирования шаблонов поведения 121, средства формирования функций свертки 122, средства создания модели обнаружения 131, средства машинного обучения модели обнаружения 132, средства вычисления степени вредоносности 142, средства управления ресурсами 143.
В одном из вариантов реализации системы упомянутая система машинного обучения модели обнаружения представляет собой клиент-серверную архитектуру, в которой средство подготовки обучающих выборок 111, средство формирования журналов поведения 112, средство формирования шаблонов поведения 121, средство формирования функций свертки 122, средство создания модели обнаружения 131 и средство машинного обучения модели обнаружения 132 работают на стороне сервера, а средство формирования шаблонов поведения 121, средство вычисления степени вредоносности 142 и средство управления ресурсами 143 работают на стороне клиента.
Например, в качестве клиента могут выступать вычислительные устройства пользователя такие, как персональный компьютер, ноутбук, смартфон и т.д., а в качестве сервера могут выступать вычислительные устройства антивирусной компании такие, как распределенные системы серверов, с помощью которых кроме всего прочего предварительно осуществляют сбор и антивирусный анализ файлов, создание антивирусных записей и т.д., при этом система машинного обучения модели обнаружения вредоносных файлов будет использована для обнаружения вредоносных файлов на клиенте, тем самым повышая эффективность антивирусной защиты упомянутого клиента.
Еще в одном примере в качестве как клиента, так и сервера могут выступать вычислительные устройства только антивирусной компании, при этом система машинного обучения модели обнаружения вредоносных файлов будет использована для автоматизированного антивирусного анализа файлов и создания антивирусных записей, тем самым повышая эффективность работы антивирусной компании.
Средство подготовки обучающих выборок 111 предназначено для:
выборки по меньшей мере одного файла из базы файлов согласно заранее заданным правилам формирования обучающей выборки файлов, впоследствии на основании анализа выбранных файлов средство машинного обучения модели обнаружения 132 будет выполнять обучение модели обнаружения;
передачи выбранных файлов средству формирования журналов поведения 112.
В одном из вариантов реализации системы в базе файлов хранится по меньшей мере один безопасный файл и один вредоносный файл.
Например, в базе файлов в качестве безопасных файлов могут храниться файлы операционной системы «Windows», а в качестве вредоносных - файлы бэкдоров (англ. backdoor), приложений, осуществляющих несанкционированный доступ к данным и удаленному управлению операционной системой и компьютером в целом. При этом обученная на упомянутых файлах с помощью методов машинного обучения модель обнаружения вредоносных файлов будет способна с высокой точностью (точность тем выше, чем больше файлов было использовано для обучения упомянутой модели обнаружения) обнаруживать вредоносные файлы, обладающие функционалом, схожим с функционалом упомянутых выше бэкдоров.
Еще в одном из вариантов реализации системы дополнительно в базе файлов хранятся по меньшей мере:
подозрительные файлы (англ. riskware) - файлы, не являющиеся вредоносными, но способные выполнять вредоносные действия;
неизвестные файлы - файлы, вредоносность которых не была определена и остается неизвестной (т.е. файлы, не являющиеся безопасными, вредоносными, подозрительными и т.д.). Например, в базе файлов в качестве подозрительных файлов могут выступать файлы приложений удаленного администрирования (к примеру, RAdmin), архивации или шифрования данных (к примеру, WinZip) и т.д.
Еще в одном из вариантов реализации системы в базе файлов хранятся файлы по меньшей мере:
собранные антивирусными поисковыми роботами (англ. web crawler);
переданные пользователями.
При этом упомянутые файлы анализируются антивирусными экспертами, в том числе с помощью автоматических средств анализа файлов, для последующего вынесения решение о вредоносности упомянутых файлов.
Например, в базе файлов могут храниться файлы, переданные пользователями со своих вычислительных устройств антивирусным компаниям для проверки на вредоносность, при этом переданные файлы могут быть как безопасными, так и вредоносными, при этом распределение между количеством упомянутых безопасных и вредоносных файлов близко к распределению между количеством всех безопасных и вредоносных файлов, расположенных на вычислительных устройствах упомянутых пользователей (т.е. отношение количества упомянутых безопасных к количеству упомянутых вредоносных файлов отличается от отношения количества всех безопасных к количеству всех вредоносных файлов, расположенных на вычислительных устройствах упомянутых пользователей на величину меньше заданного порогового значения
). В отличии от файлов, переданных пользователями (т.е. файлов, субъективно подозрительных), файлы, собранные антивирусными поисковыми роботами, созданными для поиска подозрительных и вредоносных файлов, чаще оказываются вредоносными.
Еще в одном из вариантов реализации системы в качестве критериев, согласно которым выбираются файлы из базы файлов, выступает по меньшей мере одно из условий:
распределение между безопасными и вредоносными файлами, выбранными из базы файлов, соответствует распределению между безопасными и вредоносными файлами, расположенными на вычислительном устройстве среднестатистического пользователя;
распределение между безопасными и вредоносными файлами, выбранными из базы файлов, соответствует распределению между безопасными и вредоносными файлами, собранными с помощью антивирусных поисковых роботов;
параметры файлов, выбранных из базы файлов, соответствуют параметрам файлов, расположенных на вычислительном устройстве среднестатистического пользователя;
количество выбранных файлов соответствует заранее заданному значению, а сами файлы выбраны случайным образом.
Например, база файлов содержит 100000 файлов, среди которых 40% безопасных файлов и 60% вредоносных файлов. Из базы файлов выбирают 15000 файлов (15% от общего количества файлов, хранящихся в базе файлов) таким образом, чтобы распределение между выбранными безопасными и вредоносными файлами соответствовало распределению между безопасными и вредоносными файлами, расположенными на вычислительном устройстве среднестатистического пользователя и составляло 95 к 5. С этой целью из базы файлов случайным образом выбирают 14250 безопасных файлов (35,63% от общего числа безопасных файлов) и 750 вредоносных файлов (1,25% от общего числа вредоносных файлов).
Еще в одном примере база файлов содержит 1250000 файлов, среди которых 95% безопасных файлов и 5% вредоносных файлов, т.е. распределение между безопасными и вредоносными файлами, хранящимися в базе файлов, соответствует распределению между безопасными и вредоносными файлами, расположенными на вычислительном устройстве среднестатистического пользователя. Среди упомянутых файлов случайным образом выбирают 5000 файлов, среди которых с большой вероятностью окажется ~4750 безопасных файлов и ~250 вредоносных файлов.
Еще в одном из вариантов реализации системы в качестве параметров файла выступает по меньшей мере:
вредоносность файла, характеризующая, является ли файл безопасным, вредоносным, потенциально опасным или поведение вычислительной системы при исполнении файла не определено и т.д.;
количество команд, выполненных вычислительным устройством во время исполнения файла;
размер файла;
приложения, использующие файл.
Например, из базы файлов выбирают вредоносные файлы, представляющие собой сценарии на языке «ActionScript», выполняемые приложением «Adobe Flash», и не превышающие размер в 5 КБ.
Еще в одном из вариантов реализации системы дополнительно средство подготовки обучающих выборок 111 предназначено для:
выборки по меньшей мере еще одного файла из базы файлов согласно заранее заданным правилам формирования тестовой выборки файлов, при этом впоследствии на основании анализа выбранных файлов средство машинного обучения модели обнаружения 132 будет выполнять проверку обученной модели обнаружения;
передачи выбранных файлов средству формирования журналов поведения 112.
Например, база файлов содержит 75000 файлов, среди которых 20% безопасных файлов и 80% вредоносных файлов. Изначально из базы файлов выбирают 12500 файлов, среди которых 30% безопасных файлов и 70% вредоносных файлов, при этом впоследствии на основании анализа выбранных файлов средство машинного обучения модели обнаружения 132 будет выполнять обучение модели обнаружения, затем из оставшихся 62500 файлов выбирают 2500 файлов, среди которых 60% безопасных файлов и 40%>вредоносных файлов, при этом впоследствии на основании анализа выбранных файлов средство машинного обучения модели обнаружения 132 будет выполнять проверку обученной модели обнаружения. Данные, сформированные описанным выше образом, называется набором данных для перекрестной проверки (англ. cross-validation set of data).
Средство формирования журналов поведения 112 предназначено для:
перехвата по меньшей мере одной исполняемой команды по меньшей мере во время:
исполнения полученного файла,
эмуляции исполнения полученного файла, при этом эмуляция исполнения файла включает в том числе открытие упомянутого файла (например, открытие сценария интерпретатором);
определения для каждой перехваченной команды по меньшей мере одного параметра, описывающего упомянутую команду;
формирования на основании перехваченных команд и определенных параметров журнала поведения полученного файла, при этом журнал поведения представляет собой совокупность перехваченных команд (далее - команда) из файла, где каждой команде соответствует по меньшей мере один определенный параметр, описывающий упомянутую команду (далее - параметр). Например, перехваченные во время исполнения вредоносного файла, собирающего пароли и передающего их по компьютерной сети, команды и вычисленные параметры упомянутых команд могут иметь вид:
В одном из вариантов реализации системы перехват команд из файла осуществляется с помощью по меньшей мере: