恶意软件数据依赖图特征的 kNN 分类
本研究针对深度学习在对抗性环境下的鲁棒性和预测不可解释性等问题,通过将 k-NN 算法与深度学习结合,提出了一种名为 DkNN 的混合分类器,它可以为输入数据提供信心估计和人类可解释的预测解释。实验证明,DkNN 算法可以准确识别模型外部的输入,同时提供直观和有用的模型失败解释。
Mar, 2018
PROVEXPLAINER 提出了一种通过将 GNN 决策边界投影到可解释的特征空间来提高 GNN 安全模型透明度和可解释性的框架,使用决策树等可解释性模型复制 GNN 安全模型的决策过程,提高辅助模型的准确性和可信度,实验结果表明,该模型在程序分类任务中达到了 95% 离线度并在特定任务的恶意软件检测任务中达到了 99% 的准确率。
Jun, 2023
本文研究利用图像分析进行恶意软件检测与分类问题,通过将可执行文件转化为图像并采用基于深度学习模型的图像识别,利用现有大数据集上的预训练深度学习模型进行迁移学习训练。通过与 k - 最邻近算法相比较,实验表明深度学习模型具有更好的泛化性能。
Jan, 2019
使用 kNN 表示法来解释 NLP 模型的预测结果,发现其除了具有解释性外,还能揭示学习到的虚假关联,发现存在错误标记的例子,并提高模型的性能和抵御对抗攻击的能力。
Oct, 2020
调查了影响基于机器学习的恶意软件检测和分类的关键因素,并发现静态特征优于动态特征,并且结合二者只能稍微改善静态特征的性能。不同包装方式与分类准确性之间没有关联,而在动态提取特征中缺少行为极大地惩罚了它们的性能。较大数量的待分类家族使分类变得更困难,而每个家族的样本数越多,准确性越高。最后,发现在每个家族的样本均匀分布的情况下训练的模型对未见数据更好地推广。
Jul, 2023
使用深度学习模型从二进制数据中自动学习特征表征,在对恶意软件分类中取得了一定的成果,同时探索了训练数据规模和正则化等因素对分类器性能的影响。
Mar, 2019
本研究使用机器学习技术对恶意软件检测进行了全面研究,重点评估了在 Mal-API-2019 数据集上使用各种分类模型的效果,旨在通过更有效地识别和减轻威胁来提升网络安全能力。研究探讨了集成和非集成的机器学习方法,例如随机森林、XGBoost、K 最近邻(KNN)和神经网络。特别强调了数据预处理技术的重要性,尤其是 TF-IDF 表示和主成分分析,在提高模型性能方面起到了积极作用。结果表明,集成方法,特别是随机森林和 XGBoost,相比其他方法表现出更高的准确性、精确度和召回率,凸显了它们在恶意软件检测中的有效性。该论文还讨论了限制和未来的潜在方向,强调了持续适应恶意软件演变性质的需求。这项研究为网络安全领域的持续讨论做出了贡献,并为在数字时代开发更强大的恶意软件检测系统提供了实用洞察。
Mar, 2024