ICLRNov, 2018

通过元学习用语言指导政策

TL;DR本文提出了一种交互式的任务规范问题形式,通过自然语言指令和一系列语言修正来引导自主代理获得新技能,实现快速获取新技能,显著优于直接非交互式指令跟随。