通过游戏和最优停止学习安全策略
我们研究了 IT 基础设施的自动入侵响应,并将攻击者和防御者之间的交互建模为部分观测的随机博弈。通过强化学习和自我对抗使攻击和防御策略共同演化到均衡点,我们解决了这个博弈。我们通过将博弈递归地分解为可以并行求解的子博弈,解决了之前的方法在规模较大的实际场景中随着基础设施规模指数级增长的计算复杂度问题。我们引入了名为 Decompositional Fictitious Self-Play(DFSP)的算法来解决分解后的博弈,该算法通过随机逼近来学习纳什均衡。我们在一个仿真环境中评估了学习到的策略,其中可以执行真实的入侵和响应行动。结果表明,学习到的策略接近一个均衡点,并且 DFSP 在实际基础设施配置下明显优于现有算法。
Sep, 2023
我们研究了一个 IT 基础设施的自动化安全响应,并将攻击者和防御者之间的交互形式化为一种部分观察到的非稳定游戏。我们通过估计模型的概率性猜想来捕捉基础设施和玩家意图的不确定性,利用贝叶斯学习和回滚的方法在线学习有效的游戏策略,并证明了推测收敛于最佳拟合,并提供了基于推测模型的性能改进的界限。我们提出了 Berk-Nash 均衡的一种变体来刻画游戏的稳态。通过一个高级持续威胁的使用案例来展示我们的方法。基于测试平台的模拟研究表明,我们的方法能够产生适应不断变化的环境的有效安全策略,并且我们还发现相比当前的强化学习技术,我们的方法能够实现更快的收敛。
Feb, 2024
本文介绍了一种新的以博弈为重点的方法,以解决对于一个新的特征值和组合的目标普遍化防御的问题,结果表明在数据受限的情况下,这种方法可实现比传统方法更高的防御者预期效益。
Mar, 2019
实现并评估了一种基于强化学习的自动化网络防御代理程序,该代理以安全警报作为输入并使用强化学习学习执行预定义的防御措施的策略,使用攻击图模拟网络攻击的环境中,被攻击者执行保护任务。该方法通过使用不同大小的攻击图、攻击者攻击策略和不同的检测系统噪声来进行评估。实验表明,通过强化学习训练的防御代理程序的性能优于使用启发式策略的代理程序,并能够概括不同的攻击者策略。
Apr, 2023
为确保强化学习在真实系统中的可用性,需要保证其对噪声和对抗性攻击具有鲁棒性。本文研究在线操纵攻击的全类攻击形式,包括状态攻击、观察攻击、行动攻击和奖励攻击。我们通过马尔可夫决策过程(MDP)对隐藏在攻击交互中的元级环境进行建模,并展示了该攻击者设计隐蔽攻击以最大化其预期收益(通常对应于减小受害者价值)的问题。我们证明攻击者可以通过规划或使用标准强化学习技术进行学习,以多项式时间或多项式样本复杂度确定最优攻击策略。我们认为受害者的最优防御策略可以通过解决随机 Stackelberg 博弈获得,该博弈可以简化为部分可观察的交替轮流随机博弈(POTBSG)。攻击者和受害者都不会从偏离各自最优策略中获益,因此这些解决方案具有真正的鲁棒性。虽然防御问题是 NP 困难的,但我们证明在许多情况下最优马尔可夫防御策略可以在多项式时间(样本复杂度)内计算(学习)。
Nov, 2023
本研究使用深度强化学习技术,对金融工程中的期权定价和最优期权行权问题进行了优化停止策略的评估。比较了三种主流深度强化学习算法的优化效果,结果表明 C51 算法在实际情况下有效性更高,比自然基准策略实现了 8% 的超额回报;同时,IQN 算法在理论环境下表现更好。
May, 2021
针对人类决策中的认知偏差设计网络防御系统已经取得了显著的成功,但该领域的研究主要集中在相对简单的攻击者认知偏差上,关于对抗行为或通过破坏攻击者行为来提高防御效果的研究较少。本文提出了一种受 Instance-Based Learning Theory,Theory of Mind 和 Transfer of Learning 认知能力启发的新型人类决策模型,通过在安全场景中从防御者和攻击者角色中学习,并对对手的信念,意图和行动做出预测,以更好地抵御各种攻击,这个模型明确建模了人类学习的转移,对网络安全具有实际应用的潜在价值。
Jun, 2023