Sep, 2019

无新闻外交:多代理人游戏建模

TL;DR该研究使用专家轨迹训练了一个基于神经网络的无语版外交政策模型,然后使用强化学习代理在自我对弈过程中进行了训练,两种代理表现均超过了基于规则的机器人。