在 Minecraft 中使用模型学习和蒙特卡罗树搜索实现的深度强化学习

Mar, 2018

在 Minecraft 中使用模型学习和蒙特卡罗树搜索实现的深度强化学习

Deep Reinforcement Learning with Model Learning and Monte Carlo Tree Search in Minecraft

Stephan Alaniz

TL;DR本文提出了一种基于深度神经网络过渡模型和蒙特卡罗树搜索相结合的模型方法，该方法用于解决在 Minecraft 中进行方块放置任务。实验结果表明，该方法可以快速学习且更具训练样本的效率，性能与深度 Q 网络的性能相当。

Abstract

deep reinforcement learning has been successfully applied to several visual-input tasks using model-free methods. In this paper, we propose a model-based approach that combines learning a →

deep reinforcement learning model-based approach dnn-based transition model monte carlo tree search block-placing task

发现论文，激发创造

Plan4MC：针对开放世界 Minecraft 任务的技能强化学习和规划

在 Minecraft 环境中，我们使用强化学习技术训练多任务代理，将任务分解成学习基本技能和规划技能这两个步骤，通过提出三种细粒度的基本技能，搭配内在奖励机制使用强化学习训练代理，在学会技能后，我们使用大型语言模型建立技能图模型，并提出技能搜索算法为代理生成适当的技能计划。在实验中，我们成功的完成了 24 个不同的 Minecraft 任务，并得到了比基线算法更好的表现。

Mar, 2023

Minecraft 中的记忆、主动感知和动作控制

本文在 Minecraft 中引入了一组新的强化学习任务，并使用这些任务系统地比较和对比现有的深度强化学习架构和我们的新的基于记忆的深度强化学习架构。实验结果表明，我们的新架构相比现有的深度强化学习架构，在未使用的环境中有更好的泛化表现。

May, 2016

使用动作建议优化 Minecraft 中的深度强化学习

使用交互式机器学习可以帮助训练具有复杂行为的深度强化学习智能体，但需要在人类教师的努力和代理性能之间实现平衡。本研究探讨了两种强化学习算法在具有视觉混淆的情况下，通过人类动作建议来提高代理性能、评估动作建议类型的潜在认知负荷以及提高训练效率和抵御错误建议的能力。

Aug, 2019

深度分层学习在 Minecraft 中的终身学习方法

提出了一种能够在 Minecraft 游戏中学习可重用技能的深度技能网络，通过技能精炼和深度技能数组的两种技术将其结合到层次深度强化学习网络中，从而实现具有可重用性的生命周期学习，该网络在 Minecraft 游戏的子域中表现出卓越的性能和低学习样本复杂度。

Apr, 2016

强化学习中基于反馈的树搜索

本文提出一种基于模型的强化学习技术，该技术将 Monte-Carlo 树搜索应用于无限期 Marov 决策过程的有限期版本，并使用值函数和策略函数的组合来规定有限期问题的终端条件或决策树的叶节点评估器。作者还提供了第一个基于树搜索的强化学习算法的样本复杂度边界，并证明由深度神经网络实现的技术能够创建一种竞争性人工智能代理。

May, 2018

Auto MC-Reward：使用大型语言模型自动生成密集奖励以加强《我的世界

本研究介绍了一种名为 Auto MC-Reward 的高级学习系统，它利用大型语言模型（LLMs）自动设计密集奖励函数，从而提高学习效率。

Dec, 2023

在异步深度强化学习中使用蒙特卡罗树搜索作为演示器

本文介绍了一种新的深度强化学习方法 Asynchronous Advantage Actor-Critic (A3C-TP)，并提出一种新的框架，将规划算法和异步分布式深度强化学习方法相结合，相对于传统方法，提高了学习速度和收敛策略的能力。

Nov, 2018

从像素和自然语言指令中学习解决体素建筑任务

采用预训练语言模型生成行动计划是一种很有前途的研究策略，本文提出了一种新的方法，将语言模型与强化学习相结合，用于在类似 Minecraft 的环境中按照自然语言指令构建对象，在 IGLU 2022 竞赛中形成了强化学习基线。

Nov, 2022

Minecraft 中的无监督技能发现和技能学习

本文介绍了一种使用无监督技术和自监督学习的状态表征方法，可以帮助强化学习智能体快速学习到基本导航技能。在使用像素地图进行评估时，我们发现像素表示和条件政策学习适用于玩具例子，但不适用于逼真和复杂的地图。因此我们还研究了相对位移等替代观测输入。

Jul, 2021

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法，通过 1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及 3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

May, 2020