通过在线学习和自适应猜想实现自动安全响应

Feb, 2024

通过在线学习和自适应猜想实现自动安全响应

Automated Security Response through Online Learning with Adaptive Conjectures

Kim Hammar, Tao Li, Rolf Stadler, Quanyan Zhu

TL;DR我们研究了一个 IT 基础设施的自动化安全响应，并将攻击者和防御者之间的交互形式化为一种部分观察到的非稳定游戏。我们通过估计模型的概率性猜想来捕捉基础设施和玩家意图的不确定性，利用贝叶斯学习和回滚的方法在线学习有效的游戏策略，并证明了推测收敛于最佳拟合，并提供了基于推测模型的性能改进的界限。我们提出了 Berk-Nash 均衡的一种变体来刻画游戏的稳态。通过一个高级持续威胁的使用案例来展示我们的方法。基于测试平台的模拟研究表明，我们的方法能够产生适应不断变化的环境的有效安全策略，并且我们还发现相比当前的强化学习技术，我们的方法能够实现更快的收敛。

Abstract

We study automated security response for an IT infrastructure and formulate the interaction between an attacker and a defender as a partially observed, non-stationary game. We relax the standard assumption that the game model is correctly specified and consider that each player has a p

automated security response partially observed non-stationary game probabilistic conjecture bayesian learning berk-nash equilibrium

发现论文，激发创造

非对称信息随机博弈中的初阶信念猜想式在线学习

针对现有离线方法的局限性，本文提出了一种推测的在线学习 (COL) 方案，用于处理复杂的社会技术系统中存在信息不对称的随机博弈，通过利用隐藏状态的初级信念和对手策略的主观预测来通过贝叶斯学习校准猜测，并证明了 COL 的猜测在松弛贝叶斯一致性下渐近一致。实证结果表明，COL 在非稳态攻击情况下优于最先进的强化学习方法。

Feb, 2024

通过游戏和最优停止学习安全策略

本文研究使用强化学习实现自动入侵防御。通过将攻击者和防守者之间的交互形式化为最优停止博弈并使用强化学习和自我对弈来让攻击和防御策略进化，我们找到有效应对动态攻击者的防御者策略，并通过引入 T-FP（一种虚构的自我对弈算法）来学习纳什均衡。我们发现我们的整体方法可以为实际 IT 基础架构产生有效的防御策略。

May, 2022

可扩展的入侵响应通过递归分解的学习

我们研究了 IT 基础设施的自动入侵响应，并将攻击者和防御者之间的交互建模为部分观测的随机博弈。通过强化学习和自我对抗使攻击和防御策略共同演化到均衡点，我们解决了这个博弈。我们通过将博弈递归地分解为可以并行求解的子博弈，解决了之前的方法在规模较大的实际场景中随着基础设施规模指数级增长的计算复杂度问题。我们引入了名为 Decompositional Fictitious Self-Play（DFSP）的算法来解决分解后的博弈，该算法通过随机逼近来学习纳什均衡。我们在一个仿真环境中评估了学习到的策略，其中可以执行真实的入侵和响应行动。结果表明，学习到的策略接近一个均衡点，并且 DFSP 在实际基础设施配置下明显优于现有算法。

Sep, 2023

安全博弈中对手行为的端到端游戏集中学习

本文介绍了一种新的以博弈为重点的方法，以解决对于一个新的特征值和组合的目标普遍化防御的问题，结果表明在数据受限的情况下，这种方法可实现比传统方法更高的防御者预期效益。

Mar, 2019

基于模型和决策论的自动化网络安全响应视角

本研究旨在描述一种自动化网络攻击防御的方法，通过将被保护系统的模拟与任意在线规划应用于部分观测的马尔科夫决策问题（POMDPs），并结合基于模型的人工智能，以实现风险防范与效益平衡。

Feb, 2020

安全博弈中对手行为的学习 ——PAC 模型视角

本研究使用 PAC 模型，直接学习对手响应功能，通过实验验证了新的对手建模方法，在提高对手模型准确性时，探讨了实际需要的数据量，提供了最佳防御策略的条件。

Oct, 2015

使用基于图的网络攻击模拟训练自动化防御策略

实现并评估了一种基于强化学习的自动化网络防御代理程序，该代理以安全警报作为输入并使用强化学习学习执行预定义的防御措施的策略，使用攻击图模拟网络攻击的环境中，被攻击者执行保护任务。该方法通过使用不同大小的攻击图、攻击者攻击策略和不同的检测系统噪声来进行评估。实验表明，通过强化学习训练的防御代理程序的性能优于使用启发式策略的代理程序，并能够概括不同的攻击者策略。

Apr, 2023

对抗马尔可夫博弈：关于自适应基于决策的攻击与防御

通过理论和实证研究，我们解决自适应对手提出的挑战，并开发自适应防御策略，从而确定在部署在现实世界中的基于机器学习的系统中确保鲁棒性的有效方法。

Dec, 2023

噪声安全游戏攻防交互模拟

为了提高防御者的战术优势，本文通过引入一种安全游戏框架，模拟了攻击者和防御者在各种不同知晓程度和情境下的决策方式，并探究了在真假报警间取得平衡的方法。

Dec, 2022

合作人工智能的广义信念

本研究提出了一种基于信念空间的策略学习模型，可以在测试时间解码和适应新颖的规约，从而显著提高各种策略池中的特定反应的搜索和训练，同时增强智能体规约的可解释性和可解释性。

Jun, 2022