Mar, 2023

Plan4MC:针对开放世界 Minecraft 任务的技能强化学习和规划

TL;DR在Minecraft环境中,我们使用强化学习技术训练多任务代理,将任务分解成学习基本技能和规划技能这两个步骤,通过提出三种细粒度的基本技能,搭配内在奖励机制使用强化学习训练代理,在学会技能后,我们使用大型语言模型建立技能图模型,并提出技能搜索算法为代理生成适当的技能计划。在实验中,我们成功的完成了24个不同的Minecraft任务,并得到了比基线算法更好的表现。