EMNLPApr, 2017

使用强化学习将指令和视觉观察映射到动作

TL;DR本文提出了一种新的方法,通过强化学习在上下文匹配的情形下,使用奖励形状进行指导,以从视觉观测和文本输入中学习单个模型,直接将其映射到行动,从而执行指令,无需中间表示、计划程序或训练不同模型,并验证在模拟环境中的有效性。