Система и способ обнаружения вредоносных файлов с использованием обученной модели обнаружения вредоносных файлов
Иллюстрации
Показать всеИзобретение предназначено для антивирусной проверки файлов. Технический результат заключается в обнаружении вредоносных файлов с использованием обученной модели обнаружения вредоносных файлов. Система обнаружения вредоносных файлов содержит средство анализа журнала поведения, предназначенное для формирования шаблона поведения на основании команд и параметров, выбранных из журнала; вычисления свертки от всех сформированных шаблонов поведения; средство выбора моделей обнаружения, предназначенное для выборки из базы моделей обнаружения по меньшей мере двух моделей обнаружения вредоносных файлов на основании команд и параметров, выбранных из журнала поведения; средство вычисления степени вредоносности, предназначенное для вычисления степени вредоносности исполняемого файла на основании анализа полученной свертки с помощью каждой полученной модели обнаружения; средство анализа, предназначенное для формирования на основании полученной степени вредоносности шаблона решения; признания исполняемого файла вредоносным, в случае, когда степень схожести между сформированным шаблоном решения и по меньшей мере одним из заранее заданных шаблонов решения из базы шаблонов решения превышает заранее заданное пороговое значение. 2 н. и 18 з.п. ф-лы, 7 ил.
Реферат
Область техники
Изобретение относится к антивирусным технологиям, а более конкретно к системам и способам обнаружения вредоносных файлов.
Уровень техники
Бурное развитие компьютерных технологий в последнее десятилетие, а также широкое распространение разнообразных вычислительных устройств (персональных компьютеров, ноутбуков, планшетов, смартфонов и т.д.) стали мощным стимулом для использования упомянутых устройств в разнообразных сферах деятельности и для огромного количества задач (от интернет-серфинга до банковских переводов и ведения электронного документооборота). Параллельно с ростом количества вычислительных устройств и программного обеспечения, работающего на этих устройствах, быстрыми темпами росло и количество вредоносных программ.
В настоящий момент существует огромное количество разновидностей вредоносных программ. Одни крадут с устройств пользователей их персональные и конфиденциальные данные (например, логины и пароли, банковские реквизиты, электронные документы). Другие формируют из устройств пользователей так называемые бот-сети (англ. botnet) для таких атак, как отказ в обслуживании (англ. DDoS - Distributed Denial of Service), или для перебора паролей методом грубой силы (англ. bruteforce) на другие компьютеры или компьютерные сети. Третьи предлагают пользователям платный контент через навязчивую рекламу, платные подписки, отправку CMC на платные номера и т.д.
Для борьбы с вредоносными программами, включающей в себя обнаружение вредоносных программ, предотвращение заражения и восстановление работоспособности вычислительных устройств, зараженных вредоносными программами, применяются специализированные программы-антивирусы. Для обнаружения всего многообразия вредоносных программ антивирусные программы используют разнообразные технологии, такие как:
статический анализ - анализ программ на вредоносность, исключающий запуск или эмуляцию работы анализируемых программ, на основании данных содержащихся в файлах, составляющих анализируемые программы, при этом при статистическом анализе могут использоваться:
сигнатурный анализ - поиск соответствий какого-либо участка кода анализируемых программ известному коду (сигнатуре) из базы данных сигнатур вредоносных программ;
белые и черные списки - поиск вычисленных контрольных сумм от анализируемых программ (или их частей) в базе данных контрольных сумм вредоносных программ (черные списки) или базе данных контрольных сумм безопасных программ (белые списки);
динамический анализ - анализ программ на вредоносность на основании данных, полученных в ходе исполнения или эмуляции работы анализируемых программ, при этом при динамическом анализе могут использоваться:
эвристический анализ - эмуляция работы анализируемых программ, создание журналов эмуляции (содержащих данные по вызовам API-функций, переданным параметрам, участкам кода анализируемых программ и т.д.) и поиск соответствий данных из созданных журналов с данными из базы данных поведенческих сигнатур вредоносных программ;
проактивная защита - перехват вызовов API-функций запущенных анализируемых программ, создания журналов поведения анализируемых программ (содержащих данные по вызовам API-функций, переданным параметрам, участкам кода анализируемых программ и т.д.) и поиск соответствий данных из созданных журналов с данными из базы данных вызовов вредоносных программ.
И статический, и динамический анализ обладают своими плюсами и минусами. Статический анализ менее требователен к ресурсам вычислительного устройства, на котором выполняется анализ, а поскольку он не требует исполнения или эмуляции анализируемой программы, статистический анализ более быстрый, но при этом менее эффективен, т.е. имеет более низкий процент обнаружения вредоносных программ и более высокий процент ложных срабатываний (т.е. вынесения решения о вредоносности файла, анализируемого средствами программы-антивируса, при том, что анализируемый файл является безопасным). Динамический анализ из-за того, что использует данные, получаемые при исполнении или эмуляции работы анализируемой программы, более медленный и предъявляет более высокие требования к ресурсам вычислительного устройства на котором выполняется анализ, но при этом и более эффективен. Современные антивирусные программы используют комплексный анализ, включающий в себя как элементы статического, так и динамического анализа.
Поскольку современные стандарты информационной безопасности требуют оперативного реагирования на вредоносные программы (в особенности на новые), на первый план выходят автоматические средства обнаружения вредоносных программ. Для эффективной работы упомянутых средств зачастую применяются элементы искусственного интеллекта и разнообразные методы машинного обучения моделей обнаружения вредоносных программ (т.е. совокупности правил принятия решения о вредоносности файла на основании некоторого набора входных данных, описывающих вредоносный файл), позволяющие эффективно обнаруживать не только хорошо известные вредоносные программы или вредоносные программы с хорошо известным вредоносным поведением, но и новые вредоносные программы, обладающие неизвестным или слабо исследованным вредоносным поведением, а также оперативно адоптироваться (обучаться) к обнаружению новых вредоносных программ.
В патентной публикации US 9288220B2 описана технология обнаружения вредоносного ПО в сетевом трафике. С этой целью из данных, выбранных из сетевого трафика, выделяют характерные признаки (признаки, характеризующие тип исполняемого файла, поведение исполняемого файла, тип передаваемых по компьютерной сети данных, например тип и размер передаваемых по компьютерной сети данных, команды, выполняемые при исполнении файла, наличие заранее заданных сигнатур в файле и т.д.), в качестве которых может выступать признаковое описание выбранных данных, т.е. вектор (англ. feature vector), составленный из значений, соответствующих некоторому набору признаков для объекта, содержащего выбранные данные. Применяя модели обнаружения безопасных файлов, обнаружения вредоносных файлов и определения типов вредоносных файлов, предварительно обученные с использованием методов машинного обучения на основании шаблонов, составленных из схожих с упомянутыми характерных признаков, определяют, с каким весом и к какому типу вредоносного ПО относятся выбранные данные, и выносят решение об обнаружении вредоносного ПО в сетевом трафике.
Хотя описанная выше технология хорошо справляется с обнаружением вредоносных файлов, обладающих некоторыми характерными признаками (т.е. данными, описывающими некоторые особенности файлов из некоторой совокупности файлов, например, наличие графического интерфейса, шифрования данных, передачи данных по компьютерной сети и т.д.), схожими с характерными признаками уже известных вредоносных файлов, она не способна справиться с обнаружением вредоносных файлов, имеющих отличные характерные признаки (хотя и схожее поведение) от характерных признаков уже известных вредоносных файлов, кроме того описанная выше технология не раскрывает такие аспекты машинного обучения моделей, как тестирование и переобучение моделей, а также формирование и переформирование (в зависимости от результатов упомянутого выше тестирования) характерных признаков.
Настоящее изобретение позволяет решать задачу обнаружения вредоносных файлов.
Раскрытие изобретения
Изобретение предназначено для антивирусной проверки файлов.
Технический результат настоящего изобретения заключается в обнаружении вредоносных файлов с использованием обученной модели обнаружения вредоносных файлов.
Еще один технический результат настоящего изобретения заключается в повышении точности обнаружения вредоносных файлов за счет использования нескольких моделей обнаружения вредоносных файлов, каждая из которых обучена для обнаружения вредоносных файлов с уникальными заранее заданными характерными признаками.
Еще один технический результат настоящего изобретения заключается в повышении скорости обнаружения вредоносных файлов за счет использования нескольких моделей обнаружения вредоносных файлов, каждая из которых обучена для обнаружения вредоносных файлов с уникальными заранее заданными характерными признаками.
Данные результаты достигаются с помощью использования системы обнаружения вредоносных файлов с использованием обученной модели обнаружения вредоносных файлов, которая содержит средство анализа журнала поведения, предназначенное для формирования по меньшей мере одного шаблона поведения на основании команд и параметров, выбранных из журнала поведения исполняемого файла, при этом шаблон поведения представляет собой набор из по меньшей мере одной команды и такого параметра, который описывает все команды из упомянутого набора; вычисления свертки от всех сформированных шаблонов поведения; передачи сформированной свертки средству вычисления степени вредоносности; средство выбора моделей обнаружения, предназначенное для выборки из базы моделей обнаружения по меньшей мере двух моделей обнаружения вредоносных файлов на основании команд и параметров, выбранных из журнала поведения исполняемого файла, при этом модель обнаружения вредоносных файлов представляет собой решающее правило определения степени вредоносности; передачи всех выбранных моделей обнаружения вредоносных файлов средству вычисления степени вредоносности; средство вычисления степени вредоносности, предназначенное для вычисления степени вредоносности исполняемого файла на основании анализа полученной свертки с помощью каждой полученной модели обнаружения вредоносных файлов; передачи каждой вычисленной степени вредоносности средству анализа; средство анализа, предназначенное для формирования на основании полученных степени вредоносности шаблона решения; признания исполняемого файла вредоносным, в случае, когда степень схожести между сформированным шаблоном решения и по меньшей мере одним из заранее заданных шаблонов решения из базы шаблонов решения, предварительно сформированных на основании анализа вредоносных файлов, превышает заранее заданное пороговое значение.
В другом частном случае реализации системы система обнаружения вредоносных файлов с использованием обученной модели обнаружения вредоносных файлов дополнительно содержит средство формирования журналов поведения исполняемого файла, предназначенное для перехвата по меньшей мере одной команды по меньшей мере во время исполнения файла, эмуляции исполнения файла; определения для каждой перехваченной команды по меньшей мере одного параметра, описывающего упомянутую команду; формирования на основании перехваченных команд и определенных параметров журнала поведения упомянутого файла; передачи сформированного журнала поведения средству анализа журнала поведения и средству выбора моделей обнаружения.
Еще в одном частном случае реализации системы журнал поведения представляет собой совокупность исполняемых команд (далее - команда) из файла, где каждой команде соответствует по меньшей мере один параметр, описывающий упомянутую команду (далее - параметр).
В другом частном случае реализации системы вычисление свертки от сформированных шаблонов поведения выполняется на основании заранее заданной функции свертки, такой что обратная функция свертки от результата упомянутой функции свертки над всеми сформированными шаблонами поведения имеет степень схожести с упомянутым шаблоном поведения больше заданного значения.
Еще в одном частном случае реализации системы модель обнаружения вредоносных файлов была предварительно обучена методом машинного обучения на по меньшей мере одном безопасном файле и вредоносном файле.
В другом частном случае реализации системы в качестве метода машинного обучения модели обнаружения выступает по меньшей мере метод: градиентный бустинг на деревьях принятия решений; деревья принятия решений; ближайших соседей kNN; опорных векторов.
Еще в одном частном случае реализации системы метод обучения модели обнаружения обеспечивает монотонность изменения степени вредоносности файла в зависимости от изменения количества шаблонов поведения, сформированных на основании анализа журнала поведения.
В другом частном случае реализации системы шаблон решения представляет собой композицию степеней вредоносности.
Еще в одном частном случае реализации системы каждая выбранная из базы моделей обнаружения модель обнаружения вредоносных файлов обучена для обнаружения вредоносных файлов с уникальными заранее заданными характерными признаками.
В другом частном случае реализации системы дополнительно средство анализа предназначено для переобучения по меньшей мере одной модели обнаружения из базы моделей обнаружения на основании команд и параметров, выбранных из журнала поведения исполняемого файла, в случае, когда степень схожести между сформированным шаблоном решения и по меньшей мере одним из заранее заданных шаблонов решения из базы шаблонов решения превышает заранее заданное пороговое значение, а степени вредоносности, вычисленные с помощью упомянутых моделей обнаружения вредоносного файла, не превышают заранее заданного порогового значения.
Данные результаты достигаются с помощью использования способа обнаружения вредоносных файлов с использованием обученной модели обнаружения вредоносных файлов, при этом способ содержит этапы, которые реализуются с помощью средств из системы обнаружения вредоносных файлов с использованием обученной модели обнаружения вредоносных файлов и на которых формируют по меньшей мере один шаблон поведения на основании команд и параметров, выбранных из журнала поведения исполняемого файла, при этом шаблон поведения представляет собой набор из по меньшей мере одной команды и такого параметра, который описывает все команды из упомянутого набора; вычисляют свертку от всех сформированных на предыдущем этапе шаблонов поведения; выбирают из базы моделей обнаружения по меньшей мере две модели обнаружения вредоносных файлов на основании команд и параметров, выбранных из журнала поведения исполняемого файла, при этом модель обнаружения вредоносных файлов представляет собой решающее правило определения степени вредоносности; вычисляют степень вредоносности исполняемого файла на основании анализа вычисленной на предыдущем этапе свертки с помощью каждой выбранной на предыдущем этапе модели обнаружения вредоносных файлов; формируют на основании полученных на предыдущем этапе степеней вредоносности шаблона решения; признают исполняемый файл вредоносным, в случае, когда степень схожести между сформированным на предыдущем этапе шаблоном решения и по меньшей мере одним из заранее заданных шаблонов решения из базы шаблонов решения превышает заранее заданное пороговое значение.
В другом частном случае реализации способа дополнительно перехватывают по меньшей мере одну команду по меньшей мере во время исполнения файла, эмуляции исполнения файла; определяют для каждой перехваченной команды по меньшей мере один параметр, описывающий упомянутую команду; формируют на основании перехваченных команд и определенных параметров журнала поведения упомянутого файла.
Еще в одном частном случае реализации способа журнал поведения представляет собой совокупность исполняемых команд (далее - команда) из файла, где каждой команде соответствует по меньшей мере один параметр, описывающий упомянутую команду (далее - параметр).
В другом частном случае реализации способа вычисляют свертку от сформированных шаблонов поведения на основании заранее заданной функции свертки, такой что обратная функция свертки от результата упомянутой функции свертки над всеми сформированными шаблонами поведения имеет степень схожести с упомянутым шаблоном поведения больше заданного значения
Еще в одном частном случае реализации способа модель обнаружения вредоносных файлов была предварительно обучена методом машинного обучения на по меньшей мере одном безопасном файле и вредоносном файле.
В другом частном случае реализации способа в качестве метода машинного обучения модели обнаружения выступает по меньшей мере метод: градиентный бустинг на деревьях принятия решений; деревья принятия решений; ближайших соседей kNN; опорных векторов.
Еще в одном частном случае реализации способа метод обучения модели обнаружения обеспечивает монотонность изменения степени вредоносности файла в зависимости от изменения количества шаблонов поведения, сформированных на основании анализа журнала поведения.
В другом частном случае реализации способа шаблон решения представляет собой композицию степеней вредоносности.
Еще в одном частном случае реализации способа каждая выбранная из базы моделей обнаружения модель обнаружения вредоносных файлов обучена для обнаружения вредоносных файлов с уникальными заранее заданными характерными признаками.
В другом частном случае реализации способа переобучают по меньшей мере одну модель обнаружения из базы моделей обнаружения на основании команд и параметров, выбранных из журнала поведения исполняемого файла, в случае, когда степень схожести между сформированным шаблоном решения и по меньшей мере одним из заранее заданных шаблонов решения из базы шаблонов решения превышает заранее заданное пороговое значение, а степени вредоносности, вычисленные с помощью упомянутых моделей обнаружения вредоносного файла, не превышают заранее заданного порогового значения.
Краткое описание чертежей
Фиг. 1 представляет структурную схему системы машинного обучения модели обнаружения вредоносных файлов.
Фиг. 2 представляет структурную схему способа машинного обучения модели обнаружения вредоносных файлов.
Фиг. 3 представляет примеры динамики изменения степени вредоносности от количества шаблонов поведения.
Фиг. 4 представляет пример схемы связей между элементами шаблонов поведения.
Фиг. 5 представляет структурную схему системы обнаружения вредоносных файлов с использованием обученной модели обнаружения вредоносных файлов.
Фиг. 6 представляет структурную схему способа обнаружения вредоносных файлов с использованием обученной модели обнаружения вредоносных файлов.
Фиг. 7 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер.
Хотя изобретение может иметь различные модификации и альтернативные формы, характерные признаки, показанные в качестве примера на чертежах, будут описаны подробно. Следует понимать, однако, что цель описания заключается не в ограничении изобретения конкретным его воплощением. Наоборот, целью описания является охват всех изменений, модификаций, входящих в рамки данного изобретения, как это определено приложенной формуле.
Описание вариантов осуществления изобретения
Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Сущность, приведенная в описании, является ничем иным, как конкретными деталями, необходимыми для помощи специалисту в области техники в исчерпывающем понимании изобретения, и настоящее изобретение определяется в объеме приложенной формулы.
Введем ряд определений и понятий, которые будут использоваться при описании вариантов осуществления изобретения.
Вредоносный файл - файл, исполнение которого заведомо способно привести к несанкционированному уничтожению, блокированию, модификации, копирования компьютерной информации или нейтрализации средств защиты компьютерной информации.
Вредоносное поведение исполняемого файла - совокупность действий, которые могут быть выполнены при исполнении упомянутого файла и которые заведомо способны привести к несанкционированному уничтожению, блокированию, модификации, копированию информации или нейтрализации средств защиты компьютерной информации.
Вредоносная активность исполняемого файла - совокупность действий, выполненных упомянутым файлом в соответствии с его вредоносным поведением.
Вычислительное устройство среднестатистического пользователя - гипотетическое (теоретическое) вычислительное устройство, обладающее усредненными характеристиками вычислительных устройств заранее выбранной группы пользователей, на котором исполняются те же приложения, что и на вычислительных устройствах упомянутых пользователей.
Команда, исполняемая вычислительным устройством, - совокупность машинных инструкций или инструкций сценариев, исполняемых вычислительным устройством на основании параметров упомянутых инструкций, называемых параметрами команды или параметрами, описывающими упомянутую команду.
Лексический анализ («токенизация», от англ. tokenizing) - процесс аналитического разбора входной последовательности символов на распознанные группы (далее - лексемы) с целью формирования на выходе идентификационных последовательностей (далее - токены).
Токен - идентификационная последовательность, формируемая из лексемы в процессе лексического анализа.
Фиг. 1 представляет структурную схему системы машинного обучения модели обнаружения вредоносных файлов.
Структурная схема системы машинного обучения состоит из средства подготовки обучающих выборок 111, средства формирования журналов поведения 112, средства формирования шаблонов поведения 121, средства формирования функций свертки 122, средства создания модели обнаружения 131, средства машинного обучения модели обнаружения 132, средства вычисления степени вредоносности 142, средства управления ресурсами 143.
В одном из вариантов реализации системы упомянутая система машинного обучения модели обнаружения представляет собой клиент-серверную архитектуру, в которой средство подготовки обучающих выборок 111, средство формирования журналов поведения 112, средство формирования шаблонов поведения 121, средство формирования функций свертки 122, средство создания модели обнаружения 131 и средство машинного обучения модели обнаружения 132 работают на стороне сервера, а средство формирования шаблонов поведения 121, средство вычисления степени вредоносности 142 и средство управления ресурсами 143 работают на стороне клиента.
Например, в качестве клиента могут выступать вычислительные устройства пользователя такие, как персональный компьютер, ноутбук, смартфон и т.д., а в качестве сервера могут выступать вычислительные устройства антивирусной компании такие, как распределенные системы серверов, с помощью которых кроме всего прочего предварительно осуществляют сбор и антивирусный анализ файлов, создание антивирусных записей и т.д., при этом система машинного обучения модели обнаружения вредоносных файлов будет использована для обнаружения вредоносных файлов на клиенте, тем самым повышая эффективность антивирусной защиты упомянутого клиента.
Еще в одном примере в качестве как клиента, так и сервера могут выступать вычислительные устройства только антивирусной компании, при этом система машинного обучения модели обнаружения вредоносных файлов будет использована для автоматизированного антивирусного анализа файлов и создания антивирусных записей, тем самым повышая эффективность работы антивирусной компании.
Средство подготовки обучающих выборок 111 предназначено для:
выборки по меньшей мере одного файла из базы файлов согласно заранее заданным правилам формирования обучающей выборки файлов, впоследствии на основании анализа выбранных файлов средство машинного обучения модели обнаружения 132 будет выполнять обучение модели обнаружения;
передачи выбранных файлов средству формирования журналов поведения 112.
В одном из вариантов реализации системы в базе файлов хранится по меньшей мере один безопасный файл и один вредоносный файл.
Например, в базе файлов в качестве безопасных файлов могут храниться файлы операционной системы «Windows», а в качестве вредоносных - файлы бэкдоров (англ. backdoor), приложений, осуществляющих несанкционированный доступ к данным и удаленному управлению операционной системой и компьютером в целом. При этом обученная на упомянутых файлах с помощью методов машинного обучения модель обнаружения вредоносных файлов будет способна с высокой точностью (точность тем выше, чем больше файлов было использовано для обучения упомянутой модели обнаружения) обнаруживать вредоносные файлы, обладающие функционалом, схожим с функционалом упомянутых выше бэкдоров.
Еще в одном из вариантов реализации системы дополнительно в базе файлов хранятся по меньшей мере:
подозрительные файлы (англ. riskware) - файлы, не являющиеся вредоносными, но способные выполнять вредоносные действия;
неизвестные файлы - файлы, вредоносность которых не была определена и остается неизвестной (т.е. файлы, не являющиеся безопасными, вредоносными, подозрительными и т.д.).
Например, в базе файлов в качестве подозрительных файлов могут выступать файлы приложений удаленного администрирования (к примеру, RAdmin), архивации или шифрования данных (к примеру, WinZip) и т.д.
Еще в одном из вариантов реализации системы в базе файлов хранятся файлы по меньшей мере:
собранные антивирусными поисковыми роботами (англ. web crawler);
переданные пользователями.
При этом упомянутые файлы анализируются антивирусными экспертами, в том числе с помощью автоматических средств анализа файлов, для последующего вынесения решение о вредоносности упомянутых файлов.
Например, в базе файлов могут храниться файлы, переданные пользователями со своих вычислительных устройств антивирусным компаниям для проверки на вредоносность, при этом переданные файлы могут быть как безопасными, так и вредоносными, при этом распределение между количеством упомянутых безопасных и вредоносных файлов близко к распределению между количеством всех безопасных и вредоносных файлов, расположенных на вычислительных устройствах упомянутых пользователей (т.е. отношение количества упомянутых безопасных к количеству упомянутых вредоносных файлов отличается от отношения количества всех безопасных к количеству всех вредоносных файлов, расположенных на вычислительных устройствах упомянутых пользователей на величину меньше заданного порогового значения
). В отличие от файлов, переданных пользователями (т.е. файлов, субъективно подозрительных), файлы, собранные антивирусными поисковыми роботами, созданными для поиска подозрительных и вредоносных файлов, чаще оказываются вредоносными.
Еще в одном из вариантов реализации системы в качестве критериев, согласно которым выбираются файлы из базы файлов, выступает по меньшей мере одно из условий:
распределение между безопасными и вредоносными файлами, выбранными из базы файлов, соответствует распределению между безопасными и вредоносными файлами, расположенными на вычислительном устройстве среднестатистического пользователя;
распределение между безопасными и вредоносными файлами, выбранными из базы файлов, соответствует распределению между безопасными и вредоносными файлами, собранными с помощью антивирусных поисковых роботов;
параметры файлов, выбранных из базы файлов, соответствуют параметрам файлов, расположенных на вычислительном устройстве среднестатистического пользователя;
количество выбранных файлов соответствует заранее заданному значению, а сами файлы выбраны случайным образом.
Например, база файлов содержит 100000 файлов, среди которых 40% безопасных файлов и 60% вредоносных файлов. Из базы файлов выбирают 15000 файлов (15% от общего количества файлов, хранящихся в базе файлов) таким образом, чтобы распределение между выбранными безопасными и вредоносными файлами соответствовало распределению между безопасными и вредоносными файлами, расположенными на вычислительном устройстве среднестатистического пользователя и составляло 95 к 5. С этой целью из базы файлов случайным образом выбирают 14250 безопасных файлов (35,63% от общего числа безопасных файлов) и 750 вредоносных файлов (1,25% от общего числа вредоносных файлов).
Еще в одном примере база файлов содержит 1250000 файлов, среди которых 95% безопасных файлов и 5% вредоносных файлов, т.е. распределение между безопасными и вредоносными файлами, хранящимися в базе файлов, соответствует распределению между безопасными и вредоносными файлами, расположенными на вычислительном устройстве среднестатистического пользователя. Среди упомянутых файлов случайным образом выбирают 5000 файлов, среди которых с большой вероятностью окажется ~4750 безопасных файлов и ~250 вредоносных файлов.
Еще в одном из вариантов реализации системы в качестве параметров файла выступает по меньшей мере:
вредоносность файла, характеризующая, является ли файл безопасным, вредоносным, потенциально опасным или поведение вычислительной системы при исполнении файла не определено и т.д.;
количество команд, выполненных вычислительным устройством во время исполнения файла;
размер файла;
приложения, использующие файл.
Например, из базы файлов выбирают вредоносные файлы, представляющие собой сценарии на языке «ActionScript», выполняемые приложением «Adobe Flash», и не превышающие размер в 5КБ.
Еще в одном из вариантов реализации системы дополнительно средство подготовки обучающих выборок 111 предназначено для:
выборки по меньшей мере еще одного файла из базы файлов согласно заранее заданным правилам формирования тестовой выборки файлов, при этом впоследствии на основании анализа выбранных файлов средство машинного обучения модели обнаружения 132 будет выполнять проверку обученной модели обнаружения;
передачи выбранных файлов средству формирования журналов поведения 112.
Например, база файлов содержит 75000 файлов, среди которых 20% безопасных файлов и 80% вредоносных файлов. Изначально из базы файлов выбирают 12500 файлов, среди которых 30% безопасных файлов и 70% вредоносных файлов, при этом впоследствии на основании анализа выбранных файлов средство машинного обучения модели обнаружения 132 будет выполнять обучение модели обнаружения, затем из оставшихся 62500 файлов выбирают 2500 файлов, среди которых 60% безопасных файлов и 40% вредоносных файлов, при этом впоследствии на основании анализа выбранных файлов средство машинного обучения модели обнаружения 132 будет выполнять проверку обученной модели обнаружения. Данные, сформированные описанным выше образом, называется набором данных для перекрестной проверки (англ. cross-validation set of data).
Средство формирования журналов поведения 112 предназначено для:
перехвата по меньшей мере одной исполняемой команды по меньшей мере во время:
исполнения полученного файла,
эмуляции исполнения полученного файла, при этом эмуляция исполнения файла включает в том числе открытие упомянутого файла (например, открытие сценария интерпретатором);
определения для каждой перехваченной команды по меньшей мере одного параметра, описывающего упомянутую команду;
формирования на основании перехваченных команд и определенных параметров журнала поведения полученного файла, при этом журнал поведения представляет собой совокупность перехваченных команд (далее - команда) из файла, где каждой команде соответствует по меньшей мере один определенный параметр, описывающий упомянутую команду (далее - параметр).
Например, перехваченные во время исполнения вредоносного файла, собирающего пароли и передающего их по компьютерной сети, команды и вычисленные параметры упомянутых команд могут иметь вид:
В одном из вариантов реализации системы перехват команд из файла осуществляется с помощью по меньшей мере:
специализированного драйвера;
средства отладки (англ. debugger);
гипервизора (англ. hypervisor).
Например, перехват команд при исполнении файла и определение их параметров осуществляется с помощью драйвера, использующего перехват сплайсингом (англ. splicing) точки входа (англ. entry point) WinAPI-функции.
Еще в одном примере перехват команд при эмуляции работы файла осуществляется непосредственно средствами эмулятора, выполняющего упомянутую эмуляцию, который определяет параметры команды, которую требуется эмулировать.
Еще в одном примере перехват команд при исполнении файла на виртуальной машине осуществляется средствами гипервизора, который определяет параметры команды, которую требуется эмулировать.
Еще в одном из вариантов реализации системы в качестве перехваченных команд из файла выступают по меньшей мере:
API-функции;
совокупности машинных инструкций, описывающих заранее заданный набор действий (макрокоманд).
Например, очень часто вредоносные программы осуществляют поиск некоторых файлов и модификацию их атрибутов, для чего выполняется последовательность команд, таких как:
, что может быть в свою очередь описано лишь одной командой
Еще в одном из вариантов реализации системы каждой команде ставится в соответствие свой уникальный идентификатор.
Например, всем WinAPI функциям могут быть поставлены в соответствие числа в диапазоне от 0×0000 до 0×8000, при этом каждой WinAPI-функции соответствует свое уникальное число (к примеру, ReadFile→0×00f0, ReadFileEx→0×00f1, connect→0×03A2).
Еще в одном из вариантов реализации системы нескольким командам, описывающим схожие действия, ставится в соответствие единый идентификатор.
Например, всем командам, таким как ReadFile, ReadFileEx, ifstream, getline, getchar и т.д., описывающим чтение данных из файла, ставится в соответствие идентификатор _read_data_file (0×70F0).
Средство формирования шаблонов поведения 121 предназначено для:
формирования по меньшей мере одного шаблона поведения на основании команд и параметров, выбранных из журнала поведения, при этом журнал поведения