基于知识驱动的强化学习自动渗透测试与奖励机制

May, 2024

基于知识驱动的强化学习自动渗透测试与奖励机制

Knowledge-Informed Auto-Penetration Testing Based on Reinforcement Learning with Reward Machine

Yuanliang Li, Hanzheng Dai, Jun Yan

TL;DR基于强化学习的自动化渗透测试（AutoPT）已被证明能够提高信息系统中漏洞识别的效率。然而，基于强化学习的 PT 面临着一些挑战，包括采样效率低、奖励规定复杂以及可解释性有限。为解决这些问题，我们提出了一种基于知识的 AutoPT 框架，称为 DRLRM-PT，它利用奖励机器（RMs）将领域知识编码为培训 PT 策略的指南。在我们的研究中，我们特别关注作为 PT 案例研究的横向移动，并将其表述为由 RMs 引导的部分可观察马尔可夫决策过程（POMDP）。我们基于 MITRE ATT&CK 知识库为横向移动设计了两个 RMs。为了解决 POMDP 并优化 PT 策略，我们采用了带有 RM 的深度 Q 学习算法（DQRM）。实验结果表明，与不具有知识嵌入的 Agent 相比，DQRM Agent 在渗透测试中表现出更高的训练效率。此外，编码了更详细领域知识的 RMs 与编码较简单知识的 RMs 相比，在渗透测试性能方面表现更好。

Abstract

automated penetration testing (AutoPT) based on reinforcement learning (RL) has proven its ability to improve the efficiency of vulnerability identification in information systems. However, RL-based PT encounters

automated penetration testing reinforcement learning knowledge-informed autopt reward machines lateral movement

发现论文，激发创造

行为多样化的自动化渗透测试：一种基于好奇心驱动的多目标深度强化学习方法

本文提出了一种基于多目标强化学习的自动化渗透测试方法，包括 Chebyshev 分解批评家和覆盖率屏蔽机制，可在更短的时间内发现多样化的攻击策略，提高测试效率和准确性。

Feb, 2022

Raijū: 强化学习引导的后渗透自动化安全评估网络系统

我们提出了 Raiju 框架，这是一个基于强化学习的自动化方法，可帮助渗透测试人员快速完成网络系统的后渗透安全评估过程。通过使用两种强化学习算法（A2C 和 PPO）训练智能代理，我们实现了自动选择和执行行动以利用目标系统中的漏洞，从而自动化渗透测试工作流程的某些方面，增强其对新出现的威胁和漏洞的响应能力。

Sep, 2023

深度预测策略训练采用强化学习

通过使用深度预测策略训练框架，该研究提出了一种有效的方法来训练预测动作策略，使用合成和模拟训练样本来强制进行视觉和运动数据的抽象，以及使用策略搜索强化学习方法来训练每个任务的策略超层，该框架在 PR2 机器人上训练物体抓取和投球等技能任务，并且训练样本只使用了约 180 次实际机器人尝试，达到了很好的效果。

Mar, 2017

利用大型语言模型自动化并加快使用奖励机制的强化学习

我们提出了 LARL-RM 算法，利用自动机将高层知识编码到强化学习中，以加速强化学习过程，同时使用大型语言模型通过提示工程来获取高层领域特定知识，避免了需要专家编码自动机的问题，且能够在无需专家指导和监督下进行全闭环强化学习，我们还展示了算法收敛到最优策略的理论保证，并通过两个案例研究实现了 30% 的加速收敛。

Feb, 2024

使用深度强化学习增强自动游戏测试

本研究采用深度强化学习（DRL）技术来实现自学习机制的游戏测试框架，可提高测试覆盖率，发现并解决游戏内的漏洞及其他问题，特别适用于第一人称射击类型的游戏。

Mar, 2021

华尔街树搜索：离线强化学习的风险感知规划

本研究提出了一种将现代投资组合理论（MPT）与强化学习相结合、针对离线数据训练进行风险管理的算法，通过集成 MPT, 该算法能够更好地解决离线强化学习中存在的不确定性问题，并在使用 Transformer 结构的情况下达到最优解。

Nov, 2022

使用强化学习实现硬件木马注入

本文利用强化学习 (Reinforcement Learning，RL) 自动化硬件特洛伊（Hardware Trojan, HT）嵌入过程，以消除制约 HT 检测方法成果的人为偏见。作者开发的工具集可以将组合 HT 插入 ISCAS-85 基准套件，具备 HT 大小和触发条件的变化性，并证明了其效果高，输入覆盖率高达 100％，所插入的 HT 具有最小的体积和罕有的激活概率。

Apr, 2022

基于自动反馈的强化学习高质量单元测试生成

通过从静态质量度量中进行强化学习，我们提出了一种新技术 RLSQM，用于优化大型语言模型生成的代码测试质量，并通过比较实验结果证明了该方法的有效性。

Oct, 2023

隐私保护增强学习超越期望

通过将累积前景理论（CPT）与隐私保护的差分隐私相结合，设计了一种算法，使用增加噪音的高斯过程机制保证了算法所学习到的价值函数的隐私性，并在实验中证明了有隐私保护的强化学习代理能够在与人类用户相同的环境中以隐私保护的方式学习和与用户保持行为一致。

Mar, 2022

基于多任务深度强化学习的匝道收费口专家级控制

本文介绍了如何运用强化学习技术控制非线性偏微分方程模型的工程实体，以及设计了一种新颖算法，用于管理大型多智能体系统，并通过神经网络建模解决未知、随机、时变参数的偏微分方程控制问题，提出了一种相互加权规则 (MWR) 算法，用于解决多智能体控制方案的高维度问题。

Jan, 2017