自动防御的悲观代价
本文介绍了一种新的以博弈为重点的方法,以解决对于一个新的特征值和组合的目标普遍化防御的问题,结果表明在数据受限的情况下,这种方法可实现比传统方法更高的防御者预期效益。
Mar, 2019
本研究旨在描述一种自动化网络攻击防御的方法,通过将被保护系统的模拟与任意在线规划应用于部分观测的马尔科夫决策问题(POMDPs),并结合基于模型的人工智能,以实现风险防范与效益平衡。
Feb, 2020
实现并评估了一种基于强化学习的自动化网络防御代理程序,该代理以安全警报作为输入并使用强化学习学习执行预定义的防御措施的策略,使用攻击图模拟网络攻击的环境中,被攻击者执行保护任务。该方法通过使用不同大小的攻击图、攻击者攻击策略和不同的检测系统噪声来进行评估。实验表明,通过强化学习训练的防御代理程序的性能优于使用启发式策略的代理程序,并能够概括不同的攻击者策略。
Apr, 2023
针对人类决策中的认知偏差设计网络防御系统已经取得了显著的成功,但该领域的研究主要集中在相对简单的攻击者认知偏差上,关于对抗行为或通过破坏攻击者行为来提高防御效果的研究较少。本文提出了一种受 Instance-Based Learning Theory,Theory of Mind 和 Transfer of Learning 认知能力启发的新型人类决策模型,通过在安全场景中从防御者和攻击者角色中学习,并对对手的信念,意图和行动做出预测,以更好地抵御各种攻击,这个模型明确建模了人类学习的转移,对网络安全具有实际应用的潜在价值。
Jun, 2023
为确保强化学习在真实系统中的可用性,需要保证其对噪声和对抗性攻击具有鲁棒性。本文研究在线操纵攻击的全类攻击形式,包括状态攻击、观察攻击、行动攻击和奖励攻击。我们通过马尔可夫决策过程(MDP)对隐藏在攻击交互中的元级环境进行建模,并展示了该攻击者设计隐蔽攻击以最大化其预期收益(通常对应于减小受害者价值)的问题。我们证明攻击者可以通过规划或使用标准强化学习技术进行学习,以多项式时间或多项式样本复杂度确定最优攻击策略。我们认为受害者的最优防御策略可以通过解决随机Stackelberg博弈获得,该博弈可以简化为部分可观察的交替轮流随机博弈(POTBSG)。攻击者和受害者都不会从偏离各自最优策略中获益,因此这些解决方案具有真正的鲁棒性。虽然防御问题是NP困难的,但我们证明在许多情况下最优马尔可夫防御策略可以在多项式时间(样本复杂度)内计算(学习)。
Nov, 2023
通过理论和实证研究,我们解决自适应对手提出的挑战,并开发自适应防御策略,从而确定在部署在现实世界中的基于机器学习的系统中确保鲁棒性的有效方法。
Dec, 2023
我们研究了一个IT基础设施的自动化安全响应,并将攻击者和防御者之间的交互形式化为一种部分观察到的非稳定游戏。我们通过估计模型的概率性猜想来捕捉基础设施和玩家意图的不确定性,利用贝叶斯学习和回滚的方法在线学习有效的游戏策略,并证明了推测收敛于最佳拟合,并提供了基于推测模型的性能改进的界限。我们提出了Berk-Nash均衡的一种变体来刻画游戏的稳态。通过一个高级持续威胁的使用案例来展示我们的方法。基于测试平台的模拟研究表明,我们的方法能够产生适应不断变化的环境的有效安全策略,并且我们还发现相比当前的强化学习技术,我们的方法能够实现更快的收敛。
Feb, 2024
当前面临前所未有的网络战争,以战术的快速演变、情报的不对称性增加和黑客工具的日益可获得化为特点。在这一背景下,网络欺骗作为我们防御策略中的关键组成部分应运而生,本章旨在强调博弈论模型和基础模型(FM)在分析、设计和实施网络欺骗策略中的至关重要作用。博弈模型为建模各种对抗性互动提供了基础框架,使我们能够将对抗知识和领域专业知识融合于一体。与此同时,基础模型作为创建适用于特定应用程序的定制机器学习模型的构建块。通过充分利用博弈模型和基础模型之间的协同作用,我们可以通过不仅保护网络免受攻击,而且增强其对精心计划的行动的韧性,推动主动和自动化的网络防御机制。本章讨论了战争的战术、作战和战略层面上的博弈,并深入探讨了这些方法之间的共生关系以及相关应用,这种框架在网络安全领域可以产生重大影响。该章还讨论了多智能体神经符号假设学习(MANSCOL)的前景方向,使防御者能够预测对抗行为、设计适应性的防御性欺骗策略,并为操作级合成和适应性综合的知识进行综合。基础模型在MANSCOL的各个功能中起着关键的作用,包括强化学习、知识同化、假设形成和上下文表示。本章最后讨论了基础模型在网络安全领域的应用所面临的挑战。
Mar, 2024
研究马尔可夫博弈中信息不对称和错误信息导致的安全威胁,通过考虑一名攻击者玩家散布关于其奖励函数的错误信息来影响受害者玩家的行为,我们推导了在最坏情况理性下受害者的策略,并提出了基于线性规划和反向归纳的多项式时间算法来计算攻击者的最优最坏情况策略,在受限的奖励函数集合中找到最优的错误奖励函数,我们的方法利用了理性的普遍假设来高效计算攻击,因此,我们的工作揭示了在错误信息下由标准游戏假设引起的安全漏洞。
Jun, 2024