操纵学习防御者及其反制方法

May, 2019

Manipulating a Learning Defender and Ways to Counteract

Jiarui Gan, Qingyu Guo, Long Tran-Thanh, Bo An, Michael Wooldridge

TL;DR通过游戏理论框架、制定策略的规则以及算法方法，能够应对攻击者的不当操纵行为，优化防守方的增益

Abstract

In stackelberg security games when information about the attacker's payoffs is uncertain, algorithms have been proposed to learn the optimal defender commitment by interacting with the attacker and observing their best responses. In this paper, we show that, however, these algorithms c

stackelberg security games attacker manipulation defender commitment game-theoretic framework policy

发现论文，激发创造

学习操纵承诺优化器

通过交互式查询领导者的最优承诺行为，研究表明，在缺乏信息优势的情况下，追随者可以在多项式时间内学习最优操纵方式。

Feb, 2023

操纵艺术：安全博弈中多步操纵攻击的威胁

本文研究了 Stackelberg 安全博弈中的多步操纵攻击问题，提出了一种新的多步操纵攻击博弈模型并通过提出的算法解决了该问题。

Feb, 2022

安全博弈中对手行为的端到端游戏集中学习

本文介绍了一种新的以博弈为重点的方法，以解决对于一个新的特征值和组合的目标普遍化防御的问题，结果表明在数据受限的情况下，这种方法可实现比传统方法更高的防御者预期效益。

Mar, 2019

广义形式博弈中针对承诺的最优私人收益操纵

通过对追随者私有收益信息的误报，实现最优操纵是一个多项式时间可解的问题，不同态度的追随者对此有不同的态度。此项研究解决了这个广泛的问题。

Jun, 2022

强化学习的最优攻击与防御

为确保强化学习在真实系统中的可用性，需要保证其对噪声和对抗性攻击具有鲁棒性。本文研究在线操纵攻击的全类攻击形式，包括状态攻击、观察攻击、行动攻击和奖励攻击。我们通过马尔可夫决策过程（MDP）对隐藏在攻击交互中的元级环境进行建模，并展示了该攻击者设计隐蔽攻击以最大化其预期收益（通常对应于减小受害者价值）的问题。我们证明攻击者可以通过规划或使用标准强化学习技术进行学习，以多项式时间或多项式样本复杂度确定最优攻击策略。我们认为受害者的最优防御策略可以通过解决随机 Stackelberg 博弈获得，该博弈可以简化为部分可观察的交替轮流随机博弈（POTBSG）。攻击者和受害者都不会从偏离各自最优策略中获益，因此这些解决方案具有真正的鲁棒性。虽然防御问题是 NP 困难的，但我们证明在许多情况下最优马尔可夫防御策略可以在多项式时间（样本复杂度）内计算（学习）。

Nov, 2023

对抗无悔玩家

研究使用无遗憾算法在正态形式重复的 N 人博弈中，如何让人类玩家获得最大化效用，引入 Stackelberg 均衡和相关 Stackelberg 均衡的概念，证明玩家能够在每个回合至少保证相关 Stackelberg 期望值的效用。

Feb, 2022

通过战略机器学习选择进行防御

本文阐述一种应对数据篡改的策略性学习方法，通过利用游戏论中的纳什均衡和先占主导策略，使数据分析人员可以同时利用多个学习者来有效避免数据篡改的影响。

Jan, 2019

基于侧信息的斯塔克伯格博弈中的遗憾最小化

Stackelberg 博弈是算法博弈论的一个重要应用，通过引入附加信息和在线设置，可以实现无遗憾学习。

Feb, 2024

通过游戏和最优停止学习安全策略

本文研究使用强化学习实现自动入侵防御。通过将攻击者和防守者之间的交互形式化为最优停止博弈并使用强化学习和自我对弈来让攻击和防御策略进化，我们找到有效应对动态攻击者的防御者策略，并通过引入 T-FP（一种虚构的自我对弈算法）来学习纳什均衡。我们发现我们的整体方法可以为实际 IT 基础架构产生有效的防御策略。

May, 2022

安全博弈中对手行为的学习 ——PAC 模型视角

本研究使用 PAC 模型，直接学习对手响应功能，通过实验验证了新的对手建模方法，在提高对手模型准确性时，探讨了实际需要的数据量，提供了最佳防御策略的条件。

Oct, 2015