恶意软件检测的小效果大小?加大训练 / 测试分割!
本研究利用机器学习和专家审核人员,结合了大规模的恶意软件检测系统,证明即使在有限的审核资源下,审核人员的支持极大地提高了系统对不断发展的威胁保持步伐的能力。研究通过对 1.1 百万个二进制文件的 778GB 原始特征数据进行评估,并提供了新的检测方法,改进了检测率,降低了误报率。特别是发现了训练数据不连贯的问题。
Oct, 2015
本论文通过引入公平实验设计的一组约束条件和 AUT 度量,提出了解决恶意软件检测任务中实验偏差的方法,并提供了一个能够增强分类器性能的算法,以及一个用于实际分类器比较的开源框架 TESSERACT。研究发现以前的研究存在偏差,并通过适时调整的多种策略来延缓性能下降,从而实现更稳定和更好的性能。
Feb, 2024
嵌入式计算系统的关键安全威胁之一是恶意软件,近期机器学习已被广泛应用于恶意软件检测,但现有技术需要大量良性和恶意样本来训练有效的恶意软件检测器。为解决此问题,我们引入了一种基于代码感知的数据生成技术,通过设备生成多个有限见过的恶意软件的变异样本,从而在训练集中能够高效检测新出现的恶意软件。实验结果表明,该技术能够以 90% 的准确率检测有限见过的恶意软件,比现有技术的准确率高出约 3 倍。
Apr, 2024
通过创建新的测试方法,我们评估了针对一组已知的 Benign & Malicious 文件执行敌对修改并评估性能变化的变化以及逃避技术,从而依靠实验证明了仅基于 ML 的系统可以比 AV 产品更有效地检测到试图通过修改来逃避的恶意软件,但在面临显着的新型攻击时可能反应较慢。
Jun, 2018
调查了影响基于机器学习的恶意软件检测和分类的关键因素,并发现静态特征优于动态特征,并且结合二者只能稍微改善静态特征的性能。不同包装方式与分类准确性之间没有关联,而在动态提取特征中缺少行为极大地惩罚了它们的性能。较大数量的待分类家族使分类变得更困难,而每个家族的样本数越多,准确性越高。最后,发现在每个家族的样本均匀分布的情况下训练的模型对未见数据更好地推广。
Jul, 2023
以机器学习模型为基础的恶意软件检测面临恶意软件不断进化导致的概念漂移问题,本研究提出一种模型无关的协议来改善基线神经网络处理漂移问题,并展示了特征约简和使用最新验证集进行训练的重要性,同时还提出了一种名为 DRBC(Drift-Resilient Binary Cross-Entropy)的损失函数,对抗漂移效果更佳。我们在 EMBER 数据集(2018 年)上进行模型训练,并在 2020 年至 2023 年收集的最新恶意文件数据集上进行评估。改进后的模型表现出有希望的结果,检测到比基线模型多 15.2% 的恶意软件。
Aug, 2023
本研究评估了活动学习模型窃取攻击,提出了一种新的神经网络结构用于代理模型,成功地生成了可逃避目标但不如目标本身成功的对抗性样本,这在反病毒软件攻击中是必须的。
Apr, 2022
本文提出一种针对 Android 恶意软件分类的实验设计约束集,解决了空间偏差和时间偏差造成的指标过度乐观的问题,并提出了一种新的分类器鲁棒性的总结度量标准并进行了性能调整。最后,通过对 TESSERACT 实现的三个 Android 恶意软件分类器进行数据集实验,证实了之前的结果出现的偏差以及准确性提高需要适当的调整。
Jul, 2018
深度学习恶意软件检测器容易受到对抗性恶意软件样本的攻击,我们提出了一种受(去)随机化平滑启发的针对对抗性恶意软件样本的实用防御方案,通过选择相关的字节子集来降低恶意软件作者注入的对抗性内容的采样概率,而不像计算机视觉领域中一样使用高斯噪声来随机化输入。我们提出了两种确定用于分类的块位置的策略:(1)随机选择块的位置和(2)选择连续相邻的块。我们的研究结果显示,基于块的平滑分类器对使用最新的对抗性恶意软件逃避攻击生成的对抗性恶意软件示例表现出更高的韧性,明显优于非平滑分类器和基于随机化平滑的分类器。
Feb, 2024