Oct, 2020

通过平衡搜索实现无新闻发布外交的人类水平表现

TL;DR本文讲述了在 Diplomacy 中使用监督学习和一步向前搜索与后悔最小化的策略相结合的方式来构建代理。这个代理胜过以往的 Diplomacy 机器人,性能达到了人类顶尖水平,并且在合作和竞争中都表现出色。