通过强化学习学习如何逃避静态 PE 机器学习恶意软件模型

Jan, 2018

通过强化学习学习如何逃避静态 PE 机器学习恶意软件模型

Learning to Evade Static PE Machine Learning Malware Models via Reinforcement Learning

Hyrum S. Anderson, Anant Kharkar, Bobby Filar, David Evans, Phil Roth

TL;DR该研究提出了一种基于强化学习的通用框架，用于攻击静态的可移植执行文件软件应用防病毒引擎，具有黑盒特性，通过与防病毒引擎进行若干次博弈，学习哪些操作序列可能会导致任何给定的恶意软件样本逃避检测。作者的方法可以攻击梯度提升机器学习模型，并导致可逃避检测的功能有害软件样本的生成，但在对抗训练中存在过拟合的危险。

Abstract

machine learning is a popular approach to signatureless malware detection because it can generalize to never-before-seen malware families and polymorphic strains. This has resulted in its practical use for either

machine learning malware detection adversarial attacks reinforcement learning black-box attacks

发现论文，激发创造

MERLIN -- 基于强化学习的恶意软件逃避技术

本文研究了利用增强学习挑战现有的基于机器学习的恶意代码检测引擎，提出了一种修改 PE 文件的策略并且使用 REINFORCE 算法达到很好的逃避效果。

Mar, 2022

制作有效的恶意软件对抗样本

应用强化学习算法生成对抗性恶意文件可以有效绕过大多数杀毒软件，揭示了基于机器学习的恶意软件检测系统易受对抗性攻击的脆弱性。

Jun, 2023

恶意软件检测的对抗学习技术比较

机器学习在自动恶意软件检测方面表现出色，但机器学习模型也存在容易受到对抗攻击的漏洞。本篇文章围绕生成对抗恶意软件样本的问题展开讨论，特别关注恶意的 Windows Portable Executable（PE）文件。我们总结并比较了以对抗机器学习为目标的恶意软件检测方法，并应用了基于梯度、基于进化算法和基于强化学习的方法来生成对抗样本，并将生成的样本与选定的杀毒软件进行测试。结果显示，对先前检测到的恶意软件应用优化的改动可能会将文件错误地分类为良性。已知生成的恶意软件样本可成功用于攻击其他检测模型，并且使用多种生成器组合可以创建新的样本以逃避检测。实验显示采用强化学习方法的 Gym-malware 生成器具有最大的实际潜力，其平均生成样本时间为 5.73 秒，最高平均逃避率为 44.11%。将 Gym-malware 生成器与自身相结合可提高逃避率至 58.35%。

Aug, 2023

基于对抗字级语言模型的二进制黑盒逃避攻击：针对基于深度学习的静态恶意软件检测器

本文提出了一种基于深度学习的 MalRNN 方法来生成恶意软件的变种，无需访问目标防病毒模型的规格、置信度分数或动态恶意软件分析等限制，同时对三个深度学习恶意软件检测器进行了有效的躲避，具有较强的实用价值。

Dec, 2020

对基于集成学习的 Windows PE 恶意软件检测器的对抗样本有效性研究

机器学习在网络安全领域，尤其是恶意软件检测和预防方面引起了越来越多的关注和兴趣。本研究提出了一种通过结合生成对抗网络（GANs）和强化学习（RL）来应对合集学习型检测器的变异系统，克服了现有模型的局限性。实验证明，该模型在保持可执行文件格式、可执行性和恶意性方面取得了一定的成功率。

Sep, 2023

通过混淆机制规避基于深度学习的恶意软件检测器：一种深度强化学习方法

通过使用开源加密工具和强化学习框架，成功地对恶意软件进行了混淆，以逃避最先进的恶意软件检测引擎，并且在使用高级修改方法的技术中表现优异，提高了逃避率。

Feb, 2024

如何训练您的防病毒软件：基于强化学习的硬化通过问题空间

通过引入一种新颖的强化学习方法来构建对抗样本，针对恶意软件进行对抗训练，我们能够实现该模型对特定一组对抗能力的稳健性，验证了我们的理论洞见。

Feb, 2024

基于模型的增强学习中的 MEME 的力量：对抗性恶意软件创建

该研究论文提出了一种结合恶意软件规避和模型提取的新算法（MEME），采用基于模型的强化学习来对 Windows 可执行二进制样本进行恶意修改，并同时训练具有与目标模型高度一致性的替代模型进行规避。结果显示，MEME 在几乎所有情况下的规避能力（32-73%）超过了现有方法，并产生了与目标模型之间预测标签一致性（97-99%）的替代模型，可用于未来的微调和改进规避率。

Aug, 2023

对抗性恶意二进制文件：规避可执行文件中的深度学习恶意软件检测

本文通过对恶意软件检测方法的深度学习进行的攻击实验证明，机器学习以及深度神经网络存在易受攻击的漏洞，并提出基于梯度的攻击方法，可以使恶意软件逃脱检测而不影响其入侵功能。

Mar, 2018

面向恶意软件检测的图神经网络语义保持强化学习攻击

本篇论文提出了一种利用强化学习生成具有语义保持（即功能保持）特性的恶意软件攻击方法，以对抗黑盒图神经网络（GNN）对恶意软件的检测，实验结果表明该方法可以显著提高逃避检测率。

Sep, 2020