ICMLJan, 2021

强化学习中将语言与实体、动态相结合以实现概括

TL;DR本文研究了利用自然语言来推动控制策略的泛化,并引入了一个新的多任务环境 Messenger,其中包括自由形式的文本手册,描述环境动态。使用实体 - 条件的注意力模块,作者提出了一个新的模型 EMMA,它可以从文本到观察值学习实体和动态之间的潜在关系,并实现了成功的零样本泛化。