PDF 恶意软件检测的小型功能集

KDDAug, 2023

A Feature Set of Small Size for the PDF Malware Detection

Ran Liu, Charles Nicholas

TL;DR机器学习在恶意软件检测系统中的应用日益重要，本研究提出了一种只使用 12 个特征的小特征集，通过六种不同的机器学习模型评估表明，在 PDF 恶意软件检测领域中具有最简洁的特征集之一，并能获得与大量特征集相当的准确性。

Abstract

machine learning (ML)-based malware detection systems are becoming increasingly important as malware threats increase and get more sophisticated.

machine learning malware detection pdf files feature selection random forest model

发现论文，激发创造

HAPSSA: 使用信号和统计分析的全面 PDF 恶意软件检测方法

本文提出一种全面且简单的基于信号和统计分析的方法，以检测 PDF 恶意软件，采用分别从不同静态和动态恶意软件检测方法中选择的正交特征空间模型进行结合，以实现检测恶意代码混淆的鲁棒性。使用近 3 万个 PDF 文件数据集，我们证明该方法保持高检测率（99.92％），甚至检测到由恶意软件作者进行的混淆的新的恶意文件，并且是大多数防病毒软件无法检测到的。

Nov, 2021

通过特征选择提高基于内存的恶意软件分类的效率与隐私

使用三种特征选择方法从内存内容中识别显著特征，并与各种分类器结合使用，提高分类任务的性能和隐私保护。实验结果表明，采用相互信息和其他方法进行特征选择策略，以及仅选择 25% 和 50% 的输入特征，然后采用随机森林分类器可以取得最佳结果。该研究通过提高恶意软件分类系统的效果和隐私保护性能，有助于保护免受恶意软件的安全威胁。

Sep, 2023

训练稳健的 PDF 恶意软件分类器

本文介绍了一种对 PDF 恶意软件进行训练的方法，通过使用新的距离度量和可验证的稳健性属性来训练分类器，并论证了其有效性和可靠性。

Apr, 2019

恶意软件分类中机器学习的解密：数据集、特征提取和模型性能的深入探究

调查了影响基于机器学习的恶意软件检测和分类的关键因素，并发现静态特征优于动态特征，并且结合二者只能稍微改善静态特征的性能。不同包装方式与分类准确性之间没有关联，而在动态提取特征中缺少行为极大地惩罚了它们的性能。较大数量的待分类家族使分类变得更困难，而每个家族的样本数越多，准确性越高。最后，发现在每个家族的样本均匀分布的情况下训练的模型对未见数据更好地推广。

Jul, 2023

基于深度神经网络的二维二进制程序特征恶意软件检测

本文介绍了一种基于深度神经网络的恶意软件分类器，可以在商品硬件上处理实际金融企业数据达到 95% 的检测率和 0.1% 的误报率。

Aug, 2015

恶意软件检测中机器学习对 Mal-API-2019 数据集的综合评估

本研究使用机器学习技术对恶意软件检测进行了全面研究，重点评估了在 Mal-API-2019 数据集上使用各种分类模型的效果，旨在通过更有效地识别和减轻威胁来提升网络安全能力。研究探讨了集成和非集成的机器学习方法，例如随机森林、XGBoost、K 最近邻（KNN）和神经网络。特别强调了数据预处理技术的重要性，尤其是 TF-IDF 表示和主成分分析，在提高模型性能方面起到了积极作用。结果表明，集成方法，特别是随机森林和 XGBoost，相比其他方法表现出更高的准确性、精确度和召回率，凸显了它们在恶意软件检测中的有效性。该论文还讨论了限制和未来的潜在方向，强调了持续适应恶意软件演变性质的需求。这项研究为网络安全领域的持续讨论做出了贡献，并为在数字时代开发更强大的恶意软件检测系统提供了实用洞察。

Mar, 2024

恶意软件分析的机器学习技术调查

该论文综述了在 Windows 环境下应用机器学习技术进行恶意软件分析的方法，并介绍了涉及的因素，包括目标、特征和算法。此外，文中还探讨了相关的数据集、问题和挑战以及未来研究方向，如恶意软件分析经济学。

Oct, 2017

一种高效的恶意软件打包识别的多步骤框架

本文介绍了一种基于多步骤框架的方法，使用人工智能算法和机器学习分类器结合进行有效的云安全防范，通过构建恶意代码分类器识别和分类打包样本，实现对常见的先知打包工具进行识别和分类，并且在实验中对使用了 XGBoost 算法的模型表现出高达 99.67% 的准确度和 99.46% 的 F1-Score。

Aug, 2022

特征工程能帮助量子机器学习进行恶意软件检测吗？

研究了使用量子机器学习和特征选择策略来提高恶意软件检测的精确度和减少训练时间的混合框架，并给出了初步结果。

May, 2023

恶意软件检测的小效果大小？加大训练 / 测试分割！

利用现有样本池，从可配置的难度方面生成基准，通过使用具有不同特征的不太准确的次级模型，针对正在评估的更复杂目标模型，有效地生成基准，以期改善恶意软件检测准确性。

Dec, 2023