本研究探讨了多智能体强化学习中的奖励毒化攻击,并展示了攻击者可以安装目标策略作为马尔科夫完美主导策略均衡,从而使得理性代理人会跟随攻击者所预期的策略走向。该攻击可以更便捷地实施,也适用于多种不同结构的数据集和 MARL 代理算法,我们同时还研究了数据集结构和攻击代价之间的关系与防御方法。
Jun, 2022
本文旨在研究对一种采用共识型多智能体增强学习算法的网络所进行的对抗攻击行为的影响,我们发现敌对智能体可以诱导整个网络中的其他智能体实施优化其所期望的目标函数策略,因此证明了共识型多智能体增强学习算法的易遭受攻击的脆弱性。
Mar, 2021
本文通过针对一名特定智能体的定向攻击,研究了协作多智能体强化学习系统的不稳定性,同时引入了一种新的攻击方式,在 StartCraft II 多智能体基准测试上将团队胜率从 98.9% 降至 0%。
Mar, 2020
本篇论文介绍了 cMARL 系统中的稀疏对抗攻击方法,并探究了该方法的训练策略与效果。实验结果表明,该方法能够显著降低 cMARL 系统中受到少量攻击智能体的性能。
May, 2022
本文针对多智能体强化学习模型存在的准确防御策略问题,调研了现有防御及攻击方法,提出了攻击向量的新定义,以两种新的框架来解决现有模型中存在的问题,为未来深入研究提供启示。
Jan, 2023
研究通过使用 QMIX 算法作为例子,讨论了四种方法来提高单智能体强化学习算法的鲁棒性,并将它们扩展到多智能体情景中,并使用各种攻击来训练模型,以增加多智能体强化学习算法的鲁棒性。
Jul, 2023
本文提出了一种基于模型的方法来评估协作多智能体强化学习系统对抗攻击的鲁棒性,我们的方法能够更有效地对付对抗攻击,并且在多智能体 muJoCo 基准测试中优于其他基线。我们使用的对抗攻击方法是一个基于模型的攻击方法,可以通过选择受害 - 智能体的策略来增强攻击效果。
Feb, 2022
研究了去中心化的多智能体强化学习算法,引入了对抗性智能体对共识更新的漏洞,并提出了一种算法,使得非对抗性智能体在受限制的情况下达成共识。
May, 2023
本研究探讨了加强学习中的一种安全威胁,其中攻击者污染学习环境以强制代理执行攻击者选择的目标策略,提出了一个寻找不同攻击成本度量的 “最优隐蔽攻击” 的优化框架,并在两种环境(离线和在线)中实例化了攻击,揭示加强学习算法面临的重大安全威胁。
为确保强化学习在真实系统中的可用性,需要保证其对噪声和对抗性攻击具有鲁棒性。本文研究在线操纵攻击的全类攻击形式,包括状态攻击、观察攻击、行动攻击和奖励攻击。我们通过马尔可夫决策过程(MDP)对隐藏在攻击交互中的元级环境进行建模,并展示了该攻击者设计隐蔽攻击以最大化其预期收益(通常对应于减小受害者价值)的问题。我们证明攻击者可以通过规划或使用标准强化学习技术进行学习,以多项式时间或多项式样本复杂度确定最优攻击策略。我们认为受害者的最优防御策略可以通过解决随机 Stackelberg 博弈获得,该博弈可以简化为部分可观察的交替轮流随机博弈(POTBSG)。攻击者和受害者都不会从偏离各自最优策略中获益,因此这些解决方案具有真正的鲁棒性。虽然防御问题是 NP 困难的,但我们证明在许多情况下最优马尔可夫防御策略可以在多项式时间(样本复杂度)内计算(学习)。
Nov, 2023