本文通过针对一名特定智能体的定向攻击,研究了协作多智能体强化学习系统的不稳定性,同时引入了一种新的攻击方式,在 StartCraft II 多智能体基准测试上将团队胜率从 98.9% 降至 0%。
Mar, 2020
本文旨在研究对一种采用共识型多智能体增强学习算法的网络所进行的对抗攻击行为的影响,我们发现敌对智能体可以诱导整个网络中的其他智能体实施优化其所期望的目标函数策略,因此证明了共识型多智能体增强学习算法的易遭受攻击的脆弱性。
Mar, 2021
本文研究了敌对攻击对多智能体强化学习模型的影响,针对可改变奖励和可操纵动作的两类敌对攻击方式进行了限制,并引入一种混合攻击策略,证明了该攻击策略可以有效地攻击多智能体强化学习代理。
Jul, 2023
本文提出了一种基于模型的方法来评估协作多智能体强化学习系统对抗攻击的鲁棒性,我们的方法能够更有效地对付对抗攻击,并且在多智能体 muJoCo 基准测试中优于其他基线。我们使用的对抗攻击方法是一个基于模型的攻击方法,可以通过选择受害 - 智能体的策略来增强攻击效果。
Feb, 2022
本研究探讨了一个搜索和跟踪问题,使用多智能体增强学习架构,从先前的知识和运动模型中平衡信息,克服了数据分布的变化,并获得了比基准方法高 46%的检测率。
Jun, 2023
研究通过使用 QMIX 算法作为例子,讨论了四种方法来提高单智能体强化学习算法的鲁棒性,并将它们扩展到多智能体情景中,并使用各种攻击来训练模型,以增加多智能体强化学习算法的鲁棒性。
本文针对多智能体强化学习模型存在的准确防御策略问题,调研了现有防御及攻击方法,提出了攻击向量的新定义,以两种新的框架来解决现有模型中存在的问题,为未来深入研究提供启示。
Jan, 2023
提出了一种用于 c-MARL 算法的鲁棒性测试框架 MARLSafe,此框架能够全面从三个方面(状态鲁棒性、行动鲁棒性和奖励鲁棒性)进行测试,以及多方面提出了用于 c-MARL 攻击的鲁棒性测试算法。实验证明,许多最新的 c-MARL 算法在所有方面的鲁棒性都较低,因此迫切需要测试和提高 c-MARL 算法的鲁棒性。
Apr, 2022
该研究提出了一种名为 ROMANCE 的方法,通过演化生成辅助对抗攻击者,使训练的策略在训练期间遭遇多样性和强大的辅助对抗攻击,从而实现对策略扰动的高鲁棒性。该方法在多种场景中表现出与其他基准方法相当甚至更好的鲁棒性和泛化能力。
May, 2023
研究了去中心化的多智能体强化学习算法,引入了对抗性智能体对共识更新的漏洞,并提出了一种算法,使得非对抗性智能体在受限制的情况下达成共识。