零日恶意软件的分类和在线聚类
利用机器学习对恶意软件进行分类和识别的方法可以确切地辨认新型恶意软件家族,并将分类和家族识别能力统一到一个框架中。
Sep, 2023
调查了影响基于机器学习的恶意软件检测和分类的关键因素,并发现静态特征优于动态特征,并且结合二者只能稍微改善静态特征的性能。不同包装方式与分类准确性之间没有关联,而在动态提取特征中缺少行为极大地惩罚了它们的性能。较大数量的待分类家族使分类变得更困难,而每个家族的样本数越多,准确性越高。最后,发现在每个家族的样本均匀分布的情况下训练的模型对未见数据更好地推广。
Jul, 2023
网络安全已成为数字时代的一个重要问题,恶意软件分析作为网络犯罪的一项重要组成部分,而为了解决这个挑战,开发了一个名为 “混淆恶意软件数据集” 的新数据集,其中使用了模仿恶意软件创建者的策略的混淆技术,通过应用不同的传统机器学习算法并进行对比,结果表明 XGBoost 算法的性能优于其他算法,达到了 82% 的准确率、88% 的精确率、80% 的召回率和 83% 的 F1-Score。
Sep, 2023
该研究探讨了 11 种连续学习技术在恶意软件分类任务中的应用,包括任务、类别和域的增量学习,在两个现实的、大规模的恶意软件数据集上进行测试,结果表明,大部分连续学习方法在性能上都不如简单的关联式回放方法。
Aug, 2022
本文提出了一种利用高分辨率灰度图像和多实例学习将恶意软件分类为家族的新方法,以克服敌对二进制扩大。通过经验分析和实验表明,现有的基于可视化的恶意软件分类方法往往依赖于输入的有损转换,如调整大小来处理大型、大小可变的图像,而这些方法会导致关键信息的丢失,被利用。提出的解决方案将图像划分为补丁,并使用嵌入式多实例学习、卷积神经网络和注意力聚合函数进行分类。该实现在 Microsoft 恶意软件分类数据集上进行评估,并在与基线 22.8% 相比,对敌对扩大样本的准确率达到 96.6%。Python 代码可在此 https URL 上在线获取。
Nov, 2023