IJCAIApr, 2023
多智能体强化学习中通过时空顺序决策诱导斯塔克贝格均衡
Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential Decision-Making in Multi-Agent Reinforcement Learning
Bin Zhang, Lijuan Li, Zhiwei Xu, Dapeng Li, Guoliang Fan
TL;DR该论文提出了一种基于 Stackelberg equilibrium 的、具有异步行动协调的 N 级政策模型,通过共享条件超网络,使智能体可以学习不同的策略而不导致学习成本、存储成本以及扩展性的增加。实验证明,该模型在重复博弈场景中可以成功收敛到 Stackelberg equilibrium,对于合作任务和混合任务的完成也表现非常出色。