ICLRJun, 2021

诚实自博弈

TL;DR提出了一种基于进化学习的框架,利用机制设计中的对等预测方法添加虚拟奖励,使多智体强化学习任务中的智能体能够达成合作,从而实现了无偏见状态表示的学习。在猎食者 - 被猎物,红绿灯和星际争霸等任务中,框架的表现达到了最先进水平。