IJCAIApr, 2023

多智能体强化学习中通过时空顺序决策诱导斯塔克贝格均衡

TL;DR该论文提出了一种基于 Stackelberg equilibrium 的、具有异步行动协调的 N 级政策模型,通过共享条件超网络,使智能体可以学习不同的策略而不导致学习成本、存储成本以及扩展性的增加。实验证明,该模型在重复博弈场景中可以成功收敛到 Stackelberg equilibrium,对于合作任务和混合任务的完成也表现非常出色。