深度分层学习在 Minecraft 中的终身学习方法
在 Minecraft 环境中,我们使用强化学习技术训练多任务代理,将任务分解成学习基本技能和规划技能这两个步骤,通过提出三种细粒度的基本技能,搭配内在奖励机制使用强化学习训练代理,在学会技能后,我们使用大型语言模型建立技能图模型,并提出技能搜索算法为代理生成适当的技能计划。在实验中,我们成功的完成了 24 个不同的 Minecraft 任务,并得到了比基线算法更好的表现。
Mar, 2023
本文提出了一种基于深度神经网络过渡模型和蒙特卡罗树搜索相结合的模型方法,该方法用于解决在 Minecraft 中进行方块放置任务。实验结果表明,该方法可以快速学习且更具训练样本的效率,性能与深度 Q 网络的性能相当。
Mar, 2018
本文介绍了一种使用无监督技术和自监督学习的状态表征方法,可以帮助强化学习智能体快速学习到基本导航技能。在使用像素地图进行评估时,我们发现像素表示和条件政策学习适用于玩具例子,但不适用于逼真和复杂的地图。因此我们还研究了相对位移等替代观测输入。
Jul, 2021
本文在 Minecraft 中引入了一组新的强化学习任务,并使用这些任务系统地比较和对比现有的深度强化学习架构和我们的新的基于记忆的深度强化学习架构。实验结果表明,我们的新架构相比现有的深度强化学习架构,在未使用的环境中有更好的泛化表现。
May, 2016
本文提出了一种用于有效的多任务强化学习的新框架,该框架可以训练代理人使用分层策略,决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系,并在 Minecraft 游戏中进行了验证。
Dec, 2017
这篇论文提出了一种新的学习方法,基于以前在强化学习中的监督学习技术,使用 Atari 游戏的视频帧来教授人工智能代理玩游戏,虽然结果不如强化学习的最新成果,但证明这种方法有潜力并值得进一步研究。
May, 2022
本文研究了如何将技能融入强化学习智能体的训练,提出了基于技能的新方法 Hierarchical Kickstarting(HKS),并在复杂环境下的游戏 NetHack 及其他基线测试中验证了其表现优于其他方法,并认为利用预定义技能为具有大的状态 - 动作空间和稀疏奖励的强化学习问题提供了一个有用的归纳偏差。
Jul, 2022
Hi-Core 是一个新颖框架,用于在连续强化学习中增强高层次的知识传递,并通过大型语言模型(LLM)进行目标设置和低层次策略学习,并通过知识库存储策略实现层次化知识传递,实验证明其在处理多样化 CRL 任务上的有效性优于常见的基线模型。
Jan, 2024
该研究介绍了一种名为 SKILL (Shared Knowledge Lifelong Learning) 的挑战,它采用了一种去中心化的人工智能智能体种群,每个智能体都被分配了不同的任务, 在学习其各自任务后,代理人使用分散的通信网络共享并巩固其知识,以便最终所有代理人都可以掌握所有任务。
May, 2023