在线多智能体强化学习的高效对抗攻击

Jul, 2023

在线多智能体强化学习的高效对抗攻击

Efficient Adversarial Attacks on Online Multi-agent Reinforcement Learning

Guanlin Liu, Lifeng Lai

TL;DR本文研究了敌对攻击对多智能体强化学习模型的影响，针对可改变奖励和可操纵动作的两类敌对攻击方式进行了限制，并引入一种混合攻击策略，证明了该攻击策略可以有效地攻击多智能体强化学习代理。

Abstract

Due to the broad range of applications of multi-agent reinforcement learning (MARL), understanding the effects of adversarial attacks against MARL model is essential for the safe applications of this model. Motiv

multi-agent reinforcement learning adversarial attacks exogenous attacker action poisoning reward poisoning

发现论文，激发创造

离线多智能体强化学习中的奖励污染攻击

本研究探讨了多智能体强化学习中的奖励毒化攻击，并展示了攻击者可以安装目标策略作为马尔科夫完美主导策略均衡，从而使得理性代理人会跟随攻击者所预期的策略走向。该攻击可以更便捷地实施，也适用于多种不同结构的数据集和 MARL 代理算法，我们同时还研究了数据集结构和攻击代价之间的关系与防御方法。

Jun, 2022

共识型多智能体强化学习中的对抗性攻击

本文旨在研究对一种采用共识型多智能体增强学习算法的网络所进行的对抗攻击行为的影响，我们发现敌对智能体可以诱导整个网络中的其他智能体实施优化其所期望的目标函数策略，因此证明了共识型多智能体增强学习算法的易遭受攻击的脆弱性。

Mar, 2021

合作多智能体强化学习的鲁棒性研究

本文通过针对一名特定智能体的定向攻击，研究了协作多智能体强化学习系统的不稳定性，同时引入了一种新的攻击方式，在 StartCraft II 多智能体基准测试上将团队胜率从 98.9% 降至 0%。

Mar, 2020

多智能体强化学习中的稀疏对抗攻击

本篇论文介绍了 cMARL 系统中的稀疏对抗攻击方法，并探究了该方法的训练策略与效果。实验结果表明，该方法能够显著降低 cMARL 系统中受到少量攻击智能体的性能。

May, 2022

多智能体强化学习中的对抗机器学习攻击与防御综述

本文针对多智能体强化学习模型存在的准确防御策略问题，调研了现有防御及攻击方法，提出了攻击向量的新定义，以两种新的框架来解决现有模型中存在的问题，为未来深入研究提供启示。

Jan, 2023

增强 QMIX 对抗状态攻击的鲁棒性

研究通过使用 QMIX 算法作为例子，讨论了四种方法来提高单智能体强化学习算法的鲁棒性，并将它们扩展到多智能体情景中，并使用各种攻击来训练模型，以增加多智能体强化学习算法的鲁棒性。

Jul, 2023

合作多智能体强健性评估：基于模型的方法

本文提出了一种基于模型的方法来评估协作多智能体强化学习系统对抗攻击的鲁棒性，我们的方法能够更有效地对付对抗攻击，并且在多智能体 muJoCo 基准测试中优于其他基线。我们使用的对抗攻击方法是一个基于模型的攻击方法，可以通过选择受害 - 智能体的策略来增强攻击效果。

Feb, 2022

针对对手感知的去中心化网络多智能体强化学习算法

研究了去中心化的多智能体强化学习算法，引入了对抗性智能体对共识更新的漏洞，并提出了一种算法，使得非对抗性智能体在受限制的情况下达成共识。

May, 2023

环境毒化的策略教学：针对强化学习的训练时对抗性攻击

本研究探讨了加强学习中的一种安全威胁，其中攻击者污染学习环境以强制代理执行攻击者选择的目标策略，提出了一个寻找不同攻击成本度量的 “最优隐蔽攻击” 的优化框架，并在两种环境（离线和在线）中实例化了攻击，揭示加强学习算法面临的重大安全威胁。

Mar, 2020

强化学习的最优攻击与防御

为确保强化学习在真实系统中的可用性，需要保证其对噪声和对抗性攻击具有鲁棒性。本文研究在线操纵攻击的全类攻击形式，包括状态攻击、观察攻击、行动攻击和奖励攻击。我们通过马尔可夫决策过程（MDP）对隐藏在攻击交互中的元级环境进行建模，并展示了该攻击者设计隐蔽攻击以最大化其预期收益（通常对应于减小受害者价值）的问题。我们证明攻击者可以通过规划或使用标准强化学习技术进行学习，以多项式时间或多项式样本复杂度确定最优攻击策略。我们认为受害者的最优防御策略可以通过解决随机 Stackelberg 博弈获得，该博弈可以简化为部分可观察的交替轮流随机博弈（POTBSG）。攻击者和受害者都不会从偏离各自最优策略中获益，因此这些解决方案具有真正的鲁棒性。虽然防御问题是 NP 困难的，但我们证明在许多情况下最优马尔可夫防御策略可以在多项式时间（样本复杂度）内计算（学习）。

Nov, 2023