零日恶意软件的分类和在线聚类

May, 2023

Classification and Online Clustering of Zero-Day Malware

Olha Jurečková, Martin Jureček, Róbert Lórencz

TL;DR本文研究了如何在线处理恶意样本将其归类到现有的恶意软件代码家族中，或通过聚类将其归入新的恶意软件代码家族中，并根据分类的得分确定分类新样本和聚类剩余数据。实验表明我们的方法有潜力将零日恶意软件分类和聚类到恶意软件家族中。

Abstract

A large amount of new malware is constantly being generated, which must not only be distinguished from benign samples, but also classified into malware families. For this purpose, investigating how existing

malware malware families classification clustering zero-day

发现论文，激发创造

已知和新兴恶意软件家族的在线聚类

通过使用基于机器学习的在线聚类模型，该研究论文介绍了一种将恶意软件样本在线聚类为恶意软件家族的方法，提高了恶意软件检测和分类的效率。

May, 2024

MalwareDNA: 恶意软件、恶意软件家族和新型恶意软件的同时分类

利用机器学习对恶意软件进行分类和识别的方法可以确切地辨认新型恶意软件家族，并将分类和家族识别能力统一到一个框架中。

Sep, 2023

恶意软件分类中机器学习的解密：数据集、特征提取和模型性能的深入探究

调查了影响基于机器学习的恶意软件检测和分类的关键因素，并发现静态特征优于动态特征，并且结合二者只能稍微改善静态特征的性能。不同包装方式与分类准确性之间没有关联，而在动态提取特征中缺少行为极大地惩罚了它们的性能。较大数量的待分类家族使分类变得更困难，而每个家族的样本数越多，准确性越高。最后，发现在每个家族的样本均匀分布的情况下训练的模型对未见数据更好地推广。

Jul, 2023

基于聚类的 Opcode 图生成用于恶意软件变种检测

本文提出一种通过构建 opcode 图和利用聚类算法检测及分析家族病毒的方法，并通过实验验证了其有效性。

Nov, 2022

基于调用图聚类的恶意软件分类

使用通话图聚类技术进行恶意软件分析，可过滤掉某些程序特征的差异，从而检测到程序间的结构相似性，并结合聚类算法识别出恶意家族，实现恶意程序检测。

Aug, 2010

智能 OMVI：使用新的数据集识别混淆恶意软件变种

网络安全已成为数字时代的一个重要问题，恶意软件分析作为网络犯罪的一项重要组成部分，而为了解决这个挑战，开发了一个名为 “混淆恶意软件数据集” 的新数据集，其中使用了模仿恶意软件创建者的策略的混淆技术，通过应用不同的传统机器学习算法并进行对比，结果表明 XGBoost 算法的性能优于其他算法，达到了 82% 的准确率、88% 的精确率、80% 的召回率和 83% 的 F1-Score。

Sep, 2023

关于持续学习在恶意软件分类中的局限性

该研究探讨了 11 种连续学习技术在恶意软件分类任务中的应用，包括任务、类别和域的增量学习，在两个现实的、大规模的恶意软件数据集上进行测试，结果表明，大部分连续学习方法在性能上都不如简单的关联式回放方法。

Aug, 2022

恶意行为软件聚类中毒攻击

针对恶意软件行为聚类算法的恶意注入攻击问题，实验证明开源工具 Malheur 容易受到攻击，提出了可能的对策，需要更安全的聚类算法。

Nov, 2018

基于深度神经网络的二维二进制程序特征恶意软件检测

本文介绍了一种基于深度神经网络的恶意软件分类器，可以在商品硬件上处理实际金融企业数据达到 95% 的检测率和 0.1% 的误报率。

Aug, 2015

基于高分辨率图像的恶意软件分类使用多实例学习

本文提出了一种利用高分辨率灰度图像和多实例学习将恶意软件分类为家族的新方法，以克服敌对二进制扩大。通过经验分析和实验表明，现有的基于可视化的恶意软件分类方法往往依赖于输入的有损转换，如调整大小来处理大型、大小可变的图像，而这些方法会导致关键信息的丢失，被利用。提出的解决方案将图像划分为补丁，并使用嵌入式多实例学习、卷积神经网络和注意力聚合函数进行分类。该实现在 Microsoft 恶意软件分类数据集上进行评估，并在与基线 22.8% 相比，对敌对扩大样本的准确率达到 96.6%。Python 代码可在此 https URL 上在线获取。

Nov, 2023