EMNLPOct, 2021

利用反强化学习的多重奖励组分将语言映射到程序

TL;DR本文介绍了一种基于逆强化学习和良好奖赏定义的模型,将自然语言指令映射成能够被计算机处理的程序,并在 VirtualHome 框架中进行了改进实验,取得了更好的性能表现,且数据效率更高,并获得了人类评估者更高的评分。