Apr, 2023
多智能体强化学习中通过时空顺序决策诱导斯塔克贝格均衡
Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning
TL;DR该论文提出了一种基于Stackelberg equilibrium的、具有异步行动协调的N级政策模型,通过共享条件超网络,使智能体可以学习不同的策略而不导致学习成本、存储成本以及扩展性的增加。实验证明,该模型在重复博弈场景中可以成功收敛到Stackelberg equilibrium,对于合作任务和混合任务的完成也表现非常出色。