在 Minecraft 中使用模型学习和蒙特卡罗树搜索实现的深度强化学习
在 Minecraft 环境中,我们使用强化学习技术训练多任务代理,将任务分解成学习基本技能和规划技能这两个步骤,通过提出三种细粒度的基本技能,搭配内在奖励机制使用强化学习训练代理,在学会技能后,我们使用大型语言模型建立技能图模型,并提出技能搜索算法为代理生成适当的技能计划。在实验中,我们成功的完成了 24 个不同的 Minecraft 任务,并得到了比基线算法更好的表现。
Mar, 2023
本文在 Minecraft 中引入了一组新的强化学习任务,并使用这些任务系统地比较和对比现有的深度强化学习架构和我们的新的基于记忆的深度强化学习架构。实验结果表明,我们的新架构相比现有的深度强化学习架构,在未使用的环境中有更好的泛化表现。
May, 2016
使用交互式机器学习可以帮助训练具有复杂行为的深度强化学习智能体,但需要在人类教师的努力和代理性能之间实现平衡。本研究探讨了两种强化学习算法在具有视觉混淆的情况下,通过人类动作建议来提高代理性能、评估动作建议类型的潜在认知负荷以及提高训练效率和抵御错误建议的能力。
Aug, 2019
提出了一种能够在 Minecraft 游戏中学习可重用技能的深度技能网络,通过技能精炼和深度技能数组的两种技术将其结合到层次深度强化学习网络中,从而实现具有可重用性的生命周期学习,该网络在 Minecraft 游戏的子域中表现出卓越的性能和低学习样本复杂度。
Apr, 2016
本文提出一种基于模型的强化学习技术,该技术将 Monte-Carlo 树搜索应用于无限期 Marov 决策过程的有限期版本,并使用值函数和策略函数的组合来规定有限期问题的终端条件或决策树的叶节点评估器。作者还提供了第一个基于树搜索的强化学习算法的样本复杂度边界,并证明由深度神经网络实现的技术能够创建一种竞争性人工智能代理。
May, 2018
本研究介绍了一种名为 Auto MC-Reward 的高级学习系统,它利用大型语言模型(LLMs)自动设计密集奖励函数,从而提高学习效率。
Dec, 2023
本文介绍了一种新的深度强化学习方法 Asynchronous Advantage Actor-Critic (A3C-TP),并提出一种新的框架,将规划算法和异步分布式深度强化学习方法相结合,相对于传统方法,提高了学习速度和收敛策略的能力。
Nov, 2018
采用预训练语言模型生成行动计划是一种很有前途的研究策略,本文提出了一种新的方法,将语言模型与强化学习相结合,用于在类似 Minecraft 的环境中按照自然语言指令构建对象,在 IGLU 2022 竞赛中形成了强化学习基线。
Nov, 2022
本文介绍了一种使用无监督技术和自监督学习的状态表征方法,可以帮助强化学习智能体快速学习到基本导航技能。在使用像素地图进行评估时,我们发现像素表示和条件政策学习适用于玩具例子,但不适用于逼真和复杂的地图。因此我们还研究了相对位移等替代观测输入。
Jul, 2021
本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法,通过 1)用于潜在无限奖励问题的新颖行动价值规范机制,2)定义虚拟损失函数实现有效搜索并行化,以及 3)由自我对弈逐代训练的策略网络引导搜索,来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验,结果表明我们的算法在多个游戏宽度上优于基准算法,并与公共状态搜索问题的最新算法竞争力相当。
May, 2020