BriefGPT.xyz
大模型
Ask
alpha
关键词
interpretable behaviors
搜索结果 - 1
ICLR
向人类请教:利用人类指令提升强化学习的泛化能力
本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务,以解决在稀疏奖励的强化学习设置中的复杂多任务问题,并证明人类演示有助于解决最复杂的任务,同时允许该模型再未见数据的情况下推广学习,从而使训练好的代理人具有可解释的行为。
PDF
4 years ago
Prev
Next