Feb, 2023

零和马尔可夫游戏中的可微分仲裁

TL;DR本文研究如何扰动由两个玩家组成的零和马尔可夫博弈的奖励来诱导期望的纳什均衡。提出了一种反向传播方案,用于在给定奖励函数下求解纳什均衡,并通过黑盒求解器展示了框架的收敛性和在两种多智能体强化学习环境中的成功应用。