Mar, 2020

合作多智能体强化学习的鲁棒性研究

TL;DR本文通过针对一名特定智能体的定向攻击,研究了协作多智能体强化学习系统的不稳定性,同时引入了一种新的攻击方式,在 StartCraft II 多智能体基准测试上将团队胜率从 98.9% 降至 0%。