Oct, 2021

从零开始的非正式外交

TL;DR本文介绍了一种在组合动作空间游戏中进行动作探索和平衡逼近的算法,该算法同时执行价值迭代和学习策略建议网络。 我们使用这个算法,训练了一种名为 DORA 的代理,完全从零开始,它在人类玩家之上展现了超人类的表现,这是对 “Diplomacy” 中多个均衡的首个强有力的证据,表明单靠自我对战可能不足以达到超人类水平。