BriefGPT.xyz
Ask
alpha
关键词
skill planning
搜索结果 - 2
Plan4MC:针对开放世界 Minecraft 任务的技能强化学习和规划
在 Minecraft 环境中,我们使用强化学习技术训练多任务代理,将任务分解成学习基本技能和规划技能这两个步骤,通过提出三种细粒度的基本技能,搭配内在奖励机制使用强化学习训练代理,在学会技能后,我们使用大型语言模型建立技能图模型,并提出技
→
PDF
a year ago
ICLR
基于技能空间规划的无需重置的终身学习
论文提出了一种基于高阶技能抽象规划的无剧本生涯强化学习框架 LiSP,该框架使用内在奖励进行技能学习并使用学到的动力学模型进行规划,能够在不断变化的非稳态非剧本的环境中取得成功,甚至有助于从离线数据中发现技能,减少与现实世界的交互。
PDF
4 years ago
Prev
Next