Jun, 2018

通过建模奖励来学习理解目标规格

TL;DR提出了一种基于奖励模型的框架,它使得机器学习代理能学习到语言指令, 并通过这些指令执行任务,而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离,在简单的网格世界中,使代理能够学习一系列涉及块的交互和对空间关系的理解的指令, 且无需新的专家数据就可以适应环境的变化。