通过游戏理论框架、制定策略的规则以及算法方法,能够应对攻击者的不当操纵行为,优化防守方的增益
May, 2019
本文介绍了一种新的以博弈为重点的方法,以解决对于一个新的特征值和组合的目标普遍化防御的问题,结果表明在数据受限的情况下,这种方法可实现比传统方法更高的防御者预期效益。
Mar, 2019
通过交互式查询领导者的最优承诺行为,研究表明,在缺乏信息优势的情况下,追随者可以在多项式时间内学习最优操纵方式。
Feb, 2023
研究了多个防御者在安全游戏中的战略互动,提供了三种不同情形下平衡和代价分析的结论,并开发了一种新的混合整数线性规划公式来计算防御者的最佳反应,以便近似计算游戏的 Nash 平衡点,并将其应用于多个网络模型,包括现实世界的电网,从而揭示了网络结构及故障传播概率是防御者过度或过于低估安全性的决定因素。
May, 2015
为确保强化学习在真实系统中的可用性,需要保证其对噪声和对抗性攻击具有鲁棒性。本文研究在线操纵攻击的全类攻击形式,包括状态攻击、观察攻击、行动攻击和奖励攻击。我们通过马尔可夫决策过程(MDP)对隐藏在攻击交互中的元级环境进行建模,并展示了该攻击者设计隐蔽攻击以最大化其预期收益(通常对应于减小受害者价值)的问题。我们证明攻击者可以通过规划或使用标准强化学习技术进行学习,以多项式时间或多项式样本复杂度确定最优攻击策略。我们认为受害者的最优防御策略可以通过解决随机 Stackelberg 博弈获得,该博弈可以简化为部分可观察的交替轮流随机博弈(POTBSG)。攻击者和受害者都不会从偏离各自最优策略中获益,因此这些解决方案具有真正的鲁棒性。虽然防御问题是 NP 困难的,但我们证明在许多情况下最优马尔可夫防御策略可以在多项式时间(样本复杂度)内计算(学习)。
Nov, 2023
该研究探讨了在防御范围不同时,混合策略在安全游戏中的应用,并提出了一种高效的补丁算法来计算使用少量纯策略的混合策略。研究发现,对于一般的防御要求设置,计算概率最优防御策略是 NP 难问题。
Apr, 2022
研究了包含多个卫士和时间表的安全游戏,发现时间表的引入可能导致平衡不存在,但在特定条件下,能够在多个卫士的游戏中以多项式时间计算避免平衡不存在的问题。
通过对强有力的潜在对手进行在线攻击,从博弈论的视角提出了一种关于排名聚合方法的对抗性操纵解决方案,并展示了如何通过顺序操纵策略在具有完全知识或不完全知识的 attackers 下实现最优效果。
Jul, 2024
本文研究了利用学习理论来生成具有鲁棒性的决策规则,以及针对机器学习领域中存在的潜在的策略操纵问题,提出了一种新的损失函数,称为策略操纵损失,分析了在已知操纵网络结构和未知操纵网络结构下的学习样本复杂度,并且基于迁移学习技术,定义了一种相似度度量,用于度量操纵网络结构的相似度,得到了具有鲁棒性的学习结果。
Mar, 2022
该研究探讨了选举中的控制攻击,尤其研究了攻击者采用多重攻击模式的情况,提供了处理这种攻击的算法,并证明了在各种选举系统中,甚至可以在确定性多项式时间内完美地计划这样的协同、灵活的攻击。
Jul, 2010