Jul, 2023

恶意软件分类中机器学习的解密:数据集、特征提取和模型性能的深入探究

TL;DR调查了影响基于机器学习的恶意软件检测和分类的关键因素,并发现静态特征优于动态特征,并且结合二者只能稍微改善静态特征的性能。不同包装方式与分类准确性之间没有关联,而在动态提取特征中缺少行为极大地惩罚了它们的性能。较大数量的待分类家族使分类变得更困难,而每个家族的样本数越多,准确性越高。最后,发现在每个家族的样本均匀分布的情况下训练的模型对未见数据更好地推广。