ICLRNov, 2020

向人类请教:利用人类指令提升强化学习的泛化能力

TL;DR本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务,以解决在稀疏奖励的强化学习设置中的复杂多任务问题,并证明人类演示有助于解决最复杂的任务,同时允许该模型再未见数据的情况下推广学习,从而使训练好的代理人具有可解释的行为。