Minecraft中的记忆、主动感知和动作控制

May, 2016

Minecraft中的记忆、主动感知和动作控制

Control of Memory, Active Perception, and Action in Minecraft

Junhyuk Oh, Valliappa Chockalingam, Satinder Singh, Honglak Lee

TL;DR本文在 Minecraft 中引入了一组新的强化学习任务，并使用这些任务系统地比较和对比现有的深度强化学习架构和我们的新的基于记忆的深度强化学习架构。实验结果表明，我们的新架构相比现有的深度强化学习架构，在未使用的环境中有更好的泛化表现。

Abstract

In this paper, we introduce a new set of reinforcement learning (RL) tasks in minecraft (a flexible 3D world). We then use these tasks to systematically compare and contrast existing deep →

发现论文，激发创造

深度分层学习在 Minecraft 中的终身学习方法

提出了一种能够在Minecraft游戏中学习可重用技能的深度技能网络，通过技能精炼和深度技能数组的两种技术将其结合到层次深度强化学习网络中，从而实现具有可重用性的生命周期学习，该网络在Minecraft游戏的子域中表现出卓越的性能和低学习样本复杂度。

Apr, 2016

探寻、开发或倾听：在三维世界中结合人类反馈和策略模型，加速深度强化学习

提出了一种在三维虚拟环境中使用离散人类反馈增强深度学习智能体性能的方法，通过将深度强化学习扩展到模型置信度和一致性以确定听取人类反馈、利用当前策略模型或探索智能体环境的最佳时机，以平衡这三种策略来增强其稳健性，实验结果展示所提出的技术改善了使用Minecraft导航三维环境的深度强化学习的训练速度和性能，并且当人类反馈不准确或未提供时仍具有良好的鲁棒性。

Sep, 2017

MineRL: 一个大规模的《Minecraft》演示数据集

本研究介绍了一个全面、大规模、与模拟器配对并包含人类示范的数据集MineRL，该数据集涵盖了Minecraft中多个相关任务，其中有超过6000万个由自动注释的状态动作对，证明了该数据集的层次性、多样性和规模。该数据集有助于开展解决Minecraft研究挑战的技术研究。

Jul, 2019

使用动作建议优化Minecraft中的深度强化学习

使用交互式机器学习可以帮助训练具有复杂行为的深度强化学习智能体，但需要在人类教师的努力和代理性能之间实现平衡。本研究探讨了两种强化学习算法在具有视觉混淆的情况下，通过人类动作建议来提高代理性能、评估动作建议类型的潜在认知负荷以及提高训练效率和抵御错误建议的能力。

Aug, 2019

Minecraft中的无监督技能发现和技能学习

本文介绍了一种使用无监督技术和自监督学习的状态表征方法，可以帮助强化学习智能体快速学习到基本导航技能。在使用像素地图进行评估时，我们发现像素表示和条件政策学习适用于玩具例子，但不适用于逼真和复杂的地图。因此我们还研究了相对位移等替代观测输入。

Jul, 2021

深度无模型强化学习中的感知学习

本文提出了一个用于强化学习（RL）的新型无模型代理人，从视觉关注和主动感知的概念中受到启发，将人类注意力机制应用于代理人，创建了一种硬式关注机制，结合了 RAM 模型和 PPO 算法，在两个 Atari 游戏中比较其性能，结果表明我们的模型能够匹配 PPO+LSTM 的表现。

Jan, 2023

通过目标感知表示学习和自适应视野预测实现开放式多任务控制

研究学习目标条件无关策略在Minecraft中的应用，提出了Goal-Sensitive Backbone (GSB) 策略和自适应视角预测模块用于解决任务状态多样性和非静态动力学带来的挑战，并在20个Minecraft任务上进行了实验以证明方法的有效性。

Jan, 2023

DIP-RL: 在Minecraft中的演示推断偏好学习

在这篇论文中，我们介绍了一种名为DIP-RL的算法，它利用人类示范的方式以三种不同的方式来解决在结构不清晰和开放性环境中的任务，包括训练一个自动编码器、使用示范数据种子强化学习训练批次以及推断行为偏好以学习引导强化学习的奖励函数。我们在Minecraft中的砍树任务中评估了DIP-RL，并且结果表明该算法可以引导强化学习代理学习到反映人类偏好的奖励函数，且在性能上相对于基准算法表现有竞争力。

Jul, 2023

视觉语言模型为强化学习提供可提示的表示

通过利用背景世界知识，人类能够快速学习新的行为方式。相比之下，强化学习训练的代理通常需要从零开始学习行为。因此，我们提出了一种新的方法，利用基于视觉语言模型（VLMs）的通用世界知识和可索引知识，这些模型在互联网规模的数据上进行预训练，用于实体强化学习。我们通过将VLMs用作可提示的表示方式来初始化策略：通过提示提供任务背景和辅助信息，这些嵌入基于视觉观察进行了接地，并编码了VLM的内部知识的语义特征。我们在Minecraft中的视觉复杂、长期的强化学习任务以及Habitat中的机器人导航任务上评估了我们的方法。我们发现，与从通用的非可提示图像嵌入训练的等效策略相比，我们基于通用VLMs提取的嵌入的训练策略表现更好。我们还发现，我们的方法优于遵循指令的方法，并与特定领域的嵌入方法效果相当。

Feb, 2024

RL-GPT: 集成强化学习和代码为策略

利用两级分层框架 RL-GTP，在具备高效能 coding 能力的慢速代理和执行编码任务的快速代理之间无缝融合，以高效地处理涉及复杂逻辑和精确控制的实体任务，并取得了在 Minecraft 游戏中以及指定的 MineDojo 任务上的优越表现。

Feb, 2024