通过游戏和最优停止学习安全策略

May, 2022

通过游戏和最优停止学习安全策略

Learning Security Strategies through Game Play and Optimal Stopping

Kim Hammar, Rolf Stadler

TL;DR本文研究使用强化学习实现自动入侵防御。通过将攻击者和防守者之间的交互形式化为最优停止博弈并使用强化学习和自我对弈来让攻击和防御策略进化，我们找到有效应对动态攻击者的防御者策略，并通过引入 T-FP（一种虚构的自我对弈算法）来学习纳什均衡。我们发现我们的整体方法可以为实际 IT 基础架构产生有效的防御策略。

Abstract

We study automated intrusion prevention using reinforcement learning. Following a novel approach, we formulate the interaction between an attacker and a defender as an optimal stopping game and let attack and def

automated intrusion prevention reinforcement learning game theory nash equilibrium it infrastructure

发现论文，激发创造

可扩展的入侵响应通过递归分解的学习

我们研究了 IT 基础设施的自动入侵响应，并将攻击者和防御者之间的交互建模为部分观测的随机博弈。通过强化学习和自我对抗使攻击和防御策略共同演化到均衡点，我们解决了这个博弈。我们通过将博弈递归地分解为可以并行求解的子博弈，解决了之前的方法在规模较大的实际场景中随着基础设施规模指数级增长的计算复杂度问题。我们引入了名为 Decompositional Fictitious Self-Play（DFSP）的算法来解决分解后的博弈，该算法通过随机逼近来学习纳什均衡。我们在一个仿真环境中评估了学习到的策略，其中可以执行真实的入侵和响应行动。结果表明，学习到的策略接近一个均衡点，并且 DFSP 在实际基础设施配置下明显优于现有算法。

Sep, 2023

通过在线学习和自适应猜想实现自动安全响应

我们研究了一个 IT 基础设施的自动化安全响应，并将攻击者和防御者之间的交互形式化为一种部分观察到的非稳定游戏。我们通过估计模型的概率性猜想来捕捉基础设施和玩家意图的不确定性，利用贝叶斯学习和回滚的方法在线学习有效的游戏策略，并证明了推测收敛于最佳拟合，并提供了基于推测模型的性能改进的界限。我们提出了 Berk-Nash 均衡的一种变体来刻画游戏的稳态。通过一个高级持续威胁的使用案例来展示我们的方法。基于测试平台的模拟研究表明，我们的方法能够产生适应不断变化的环境的有效安全策略，并且我们还发现相比当前的强化学习技术，我们的方法能够实现更快的收敛。

Feb, 2024

操纵学习防御者及其反制方法

通过游戏理论框架、制定策略的规则以及算法方法，能够应对攻击者的不当操纵行为，优化防守方的增益

May, 2019

安全博弈中对手行为的端到端游戏集中学习

本文介绍了一种新的以博弈为重点的方法，以解决对于一个新的特征值和组合的目标普遍化防御的问题，结果表明在数据受限的情况下，这种方法可实现比传统方法更高的防御者预期效益。

Mar, 2019

使用基于图的网络攻击模拟训练自动化防御策略

实现并评估了一种基于强化学习的自动化网络防御代理程序，该代理以安全警报作为输入并使用强化学习学习执行预定义的防御措施的策略，使用攻击图模拟网络攻击的环境中，被攻击者执行保护任务。该方法通过使用不同大小的攻击图、攻击者攻击策略和不同的检测系统噪声来进行评估。实验表明，通过强化学习训练的防御代理程序的性能优于使用启发式策略的代理程序，并能够概括不同的攻击者策略。

Apr, 2023

强化学习的最优攻击与防御

为确保强化学习在真实系统中的可用性，需要保证其对噪声和对抗性攻击具有鲁棒性。本文研究在线操纵攻击的全类攻击形式，包括状态攻击、观察攻击、行动攻击和奖励攻击。我们通过马尔可夫决策过程（MDP）对隐藏在攻击交互中的元级环境进行建模，并展示了该攻击者设计隐蔽攻击以最大化其预期收益（通常对应于减小受害者价值）的问题。我们证明攻击者可以通过规划或使用标准强化学习技术进行学习，以多项式时间或多项式样本复杂度确定最优攻击策略。我们认为受害者的最优防御策略可以通过解决随机 Stackelberg 博弈获得，该博弈可以简化为部分可观察的交替轮流随机博弈（POTBSG）。攻击者和受害者都不会从偏离各自最优策略中获益，因此这些解决方案具有真正的鲁棒性。虽然防御问题是 NP 困难的，但我们证明在许多情况下最优马尔可夫防御策略可以在多项式时间（样本复杂度）内计算（学习）。

Nov, 2023

通过战略机器学习选择进行防御

本文阐述一种应对数据篡改的策略性学习方法，通过利用游戏论中的纳什均衡和先占主导策略，使数据分析人员可以同时利用多个学习者来有效避免数据篡改的影响。

Jan, 2019

金融工程中的最优停止深度强化学习

本研究使用深度强化学习技术，对金融工程中的期权定价和最优期权行权问题进行了优化停止策略的评估。比较了三种主流深度强化学习算法的优化效果，结果表明 C51 算法在实际情况下有效性更高，比自然基准策略实现了 8% 的超额回报；同时，IQN 算法在理论环境下表现更好。

May, 2021

噪声安全游戏攻防交互模拟

为了提高防御者的战术优势，本文通过引入一种安全游戏框架，模拟了攻击者和防御者在各种不同知晓程度和情境下的决策方式，并探究了在真假报警间取得平衡的方法。

Dec, 2022

攻防学习：网络安全游戏中的学习迁移

针对人类决策中的认知偏差设计网络防御系统已经取得了显著的成功，但该领域的研究主要集中在相对简单的攻击者认知偏差上，关于对抗行为或通过破坏攻击者行为来提高防御效果的研究较少。本文提出了一种受 Instance-Based Learning Theory，Theory of Mind 和 Transfer of Learning 认知能力启发的新型人类决策模型，通过在安全场景中从防御者和攻击者角色中学习，并对对手的信念，意图和行动做出预测，以更好地抵御各种攻击，这个模型明确建模了人类学习的转移，对网络安全具有实际应用的潜在价值。

Jun, 2023