Jun, 2024

CuDA2: 将叛徒代理纳入合作多智能体系统的一种方法

TL;DR对于合作多智能体强化学习(CMARL)策略容易受到对抗性干扰的问题,研究者们引入了一种名为 Traitor Markov Decision Process(TMDP)的模型作为现实场景下更真实的对抗性攻击方法。为了提高攻击效率,研究者们还提出了一种名为 Curiosity-Driven Adversarial Attack(CuDA2)的框架,其中 Random Network Distillation(RND)模块对攻击者提供额外的奖励以激励其探索未被受害者智能体所遇到过的状态。实验结果表明,CuDA2 框架在不同场景下的对抗性攻击能力相当或优于其他基准方法。