ACLOct, 2021

通过过程环境生成进行情境对话学习

TL;DR通过在生成的课程上训练,我们教会了目标驱动型智能体在位置化环境中交互行为和语言表达。我们通过在大规模众包幻想文本冒险游戏(LIGHT)中学习,增强了 LIGHT 的功能,并学会了生成额外的小说文本世界和任务,以创建一个渐进式递增难度的课程,以训练智能体达到这样的目标。通过从分布的尾部学习,我们测量该课程的难度,根据最初的训练分布中任务的稀有程度评估其难度 —— 更容易的环境是更有可能在未增强数据集中找到的环境。消融研究表明,从分布的尾部学习的这种方法,可以在从未见过的任务上度量的零 - shot 性能方面,产生显着更高的泛化能力。