基于奖励随机化强化学习的多域网络攻防游戏

May, 2022

基于奖励随机化强化学习的多域网络攻防游戏

Multiple Domain Cyberspace Attack and Defense Game Based on Reward Randomization Reinforcement Learning

Lei Zhang, Yu Pan, Yi Liu, Qibin Zheng, Zhisong Pan

TL;DR本文提出一种基于强化学习的多领域网络攻防博弈模型，通过奖励随机化强化学习以及建立攻击方和防守方两个代理人的方式，提高防守者的防御能力，实现多领域网络攻防状态的模拟，相比 DDPG 和 DQN，该方法有较高的防御成功率。

Abstract

The existing network attack and defense method can be regarded as game, but most of the game only involves network domain, not multiple domain cyberspace. To address this challenge, this paper proposed a

multiple domain cyberspace reinforcement learning defense success rate game model network attack

发现论文，激发创造

应对动态对抗性不确定性的网络系统防御中的深度强化学习

本文根据系统状态不确定性和攻防动态的特征，提出了一个数据驱动的 DRL 框架，学习上下文感知的防御措施，以动态适应不断变化的对抗行为，同时最大程度减少对网络系统运营的影响，在多阶段攻击和系统不确定性下，DRL 算法在积极的网络防御中具有很好的效果。

Feb, 2023

用多智 - Agent 强化学习从零开始学习网络防御策略

深度学习技术的最新进展为自主网络防御的设计提供了新的可能性，智能代理团队在计算机网络防御角色中可能揭示了保护网络和运动资产的有希望的途径，该研究对比了基于价值的独立学习和集中训练去中心化执行的合作多代理强化学习方法，表明这两种方法都优于简单的多代理启发式防御者，这项工作展示了合作多代理强化学习在学习有效的网络防御策略对抗不同威胁方面的能力。

Aug, 2023

使用基于图的网络攻击模拟训练自动化防御策略

实现并评估了一种基于强化学习的自动化网络防御代理程序，该代理以安全警报作为输入并使用强化学习学习执行预定义的防御措施的策略，使用攻击图模拟网络攻击的环境中，被攻击者执行保护任务。该方法通过使用不同大小的攻击图、攻击者攻击策略和不同的检测系统噪声来进行评估。实验表明，通过强化学习训练的防御代理程序的性能优于使用启发式策略的代理程序，并能够概括不同的攻击者策略。

Apr, 2023

深度强化学习在网络安全中的应用

本文综述了应用深度强化学习方法来解决网络安全领域中的复杂、动态和高维防御问题的 DRL 方法，并强调了 DRL 在网络物理系统，自主入侵检测和通过游戏模拟来应对网络攻击的策略防御方面的价值，同时也提出了对未来 DRL 网络安全研究发展的建议。

Jun, 2019

深度强化学习在自主网络操作中的应用调查

近年来网络攻击数量的快速增加使得有必要提出原则性方法来防御恶意行为者。深度强化学习已成为一种有望减轻这些攻击的方法，但在大规模应用于自主网络操作之前，需要克服许多挑战。本文调研了相关的深度强化学习文献，并构思了一个理想的自主网络操作的深度强化学习代理，提供了领域特性概要、深度强化学习方法与自主网络操作之间的比较、扩展深度强化学习的方法以应对高维状态空间挑战以及限制对抗环境中代理利用性的现有方法的概述和评价，并提出未来的研究问题。

Oct, 2023

针对强化学习网络攻击代理的多智能体网络战模拟器

本文介绍了一个名为 CyberBattleSim 的 RL 训练环境，其支持红方攻击者的训练，并引入了蓝方防御者的训练。实验表明，与红方攻击者同时训练的蓝方防御者能够更好地应对复杂的攻击手段。

Apr, 2023

行为多样化的自动化渗透测试：一种基于好奇心驱动的多目标深度强化学习方法

本文提出了一种基于多目标强化学习的自动化渗透测试方法，包括 Chebyshev 分解批评家和覆盖率屏蔽机制，可在更短的时间内发现多样化的攻击策略，提高测试效率和准确性。

Feb, 2022

利用可解释的强化学习进入自治网络防御

本文介绍了一种终端到终端的方法，用于研究攻击策略、设计防御代理并解释其运行。使用状态图可视化对抗行为，我们使用一组深入强化学习代理来训练不同任务部分并组织在浅层次结构中的防御模型，最终设计与之前工作相比性能有了实质性提高。最后，我们进行特征削弱和重要性研究来更好地研究我们代理的决策过程。

Jun, 2023

优化动态活动目录中的网络防御策略：基于强化学习的研究

本研究针对组织活跃目录系统的动态本质，发展了一种基于 Stackelberg 博弈模型的先进的边缘阻断防御策略，通过强化学习的攻击策略和进化多样性优化的防御策略来提高防御者在硬化动态活跃目录系统上的能力，并确保对大规模活跃目录系统的可扩展性。

Jun, 2024

多领域对话系统的深度强化学习

本文提出了一种用于多域对话政策学习的 NDQN 方法，与传统的 Deep Q-Networks（DQN）相比，实验结果表明其具有更好的可扩展性，有望优化多域对话系统的行为。

Nov, 2016