Dec, 2023

引领先锋: N 人对手塑形

TL;DR通过扩展对手塑形方法(OS)以适应涉及多个合作玩家和多个塑形代理的环境,我们评估了 4 个不同环境,并发现模型为基础的对手塑形方法相对于天真学习方法能够收敛到具有更好全局获益的均衡点,然而,当与大量合作玩家进行游戏时,对手塑形方法的相对性能会降低,这表明在极限情况下,对手塑形方法可能表现不佳,并且我们发现在需要大多数合作代理的游戏中,OS 方法收敛到全局福利较低的结果。