MMDec, 2020

内在动机的组合语言生成

TL;DR本篇论文提出一种内在奖励框架,通过强化学习设置两个代理,以在三个不同的指称游戏环境下将有限通道容量与内在奖励相结合,提高新颖环境下组合性得分约 1.5-2 倍。