Feb, 2019

从语言到目标:基于视觉的逆强化学习指令跟随

TL;DR本研究探讨了使用反强化学习将语言命令作为奖励函数的问题,并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法,即语言条件奖励学习(LC-RL)。实验结果表明,与直接学习语言条件策略相比,使用LC-RL学习的奖励可以更好地在新任务和环境中进行迁移。