关于 2019 年 MineRL 竞赛在样本高效强化学习方面的回顾分析

Mar, 2020

关于 2019 年 MineRL 竞赛在样本高效强化学习方面的回顾分析

Retrospective Analysis of the 2019 MineRL Competition on Sample Efficient Reinforcement Learning

Stephanie Milani, Nicholay Topin, Brandon Houghton, William H. Guss, Sharada P. Mohanty...

TL;DR在 NeurIPS 2019 年会议上，我们举办了 MineRL Sample Efficient Reinforcement Learning Using Human Priors 比赛，旨在促进使用人类指导的强化学习算法的研究并减少解决复杂、分层、稀疏环境所需的样本数。本文概述了比赛的主要挑战、设计和提供给参与者的资源，并概述了使用深度强化学习和 / 或模仿学习的前几名解决方案以及我们的组织决策对比赛的影响和未来的改进方向。

Abstract

To facilitate research in the direction of sample efficient reinforcement learning, we held the minerl competition on Sample Efficient Reinforcement Learning Using Human Priors at the Thirty-third Conference on Neural Information Processing Systems (NeurIPS 2019). The primary goal of t

sample efficient reinforcement learning minerl competition human demonstrations deep reinforcement learning imitation learning

发现论文，激发创造

MineRL 2019 赛事：基于人类先验知识的高效强化学习

介绍了 MineRL 竞赛，该竞赛旨在利用人类先验知识实现样本高效的强化学习，提供了 Minecraft ObtrainDiamond 任务和 MineRL-v0 数据集，并要求参赛者使用 Malmo 环境中的有限样本来解决 ObtainDiamond 任务。

Apr, 2019

MineRL Diamond 2021 竞赛：概述、结果和经验教训

通过主办钻石获取挑战赛，我们鼓励参与者使用常规技术和高效示例方法开发更广泛适用的解决方案，促进参与者和新手参与。这项研究强调了使用这些技术的重要性并提供了支持。

Feb, 2022

MineRL: 一个大规模的《Minecraft》演示数据集

本研究介绍了一个全面、大规模、与模拟器配对并包含人类示范的数据集 MineRL，该数据集涵盖了 Minecraft 中多个相关任务，其中有超过 6000 万个由自动注释的状态动作对，证明了该数据集的层次性、多样性和规模。该数据集有助于开展解决 Minecraft 研究挑战的技术研究。

Jul, 2019

2021 年 BASALT 学习与人类反馈竞赛回顾

本文介绍了 MineRL BASALT 比赛，旨在鼓励研究使用来自人类反馈的学习技巧的代理解决开放世界任务，参赛团队的多样化反映出任务的设计有效性，但比赛参与者不足，作者对此进行了探讨和提出了改善建议。

Apr, 2022

使用行为克隆玩 Minecraft

本文讲述了我们参加 MineRL 2019 比赛的经历，我们使用行为克隆的算法来预测人类玩家的行动并在最终排名中获得了第五名，同时我们也发现了这种方法性能会根据训练停止的时间而有明显变化，我们进行了更多的实验来研究不同的工程决策对性能的影响。

May, 2020

通过人类反馈解决模糊任务：MineRL BASALT 2022 比赛回顾

通过在 Minecraft 中举办的 MineRL BASALT 比赛，我们旨在推动使用人类反馈来学习期望行为的算法的发展，以便在基础模型的微调方面进行研究。我们描述了比赛，并概述了前几名解决方案。最后我们讨论了比赛的影响和未来的改进方向。

Mar, 2023

加速强化学习的人类启发式框架

本文提出了一种基于人类启发的框架以提高采样效率，其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务，并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性，实验表明该框架能够在优化问题方面表现出良好的性能。

Feb, 2023

从人类反馈中学习的 MineRL BASALT 比赛

MineRL BASALT competition focuses on the importance of learning from human feedback to build AI systems that would align with designers' intentions and solve tasks that cannot be easily formalized, and provides a dataset of human demonstrations and an imitation learning baseline for participants to train separate agents using any method they prefer on four tasks in Minecraft with natural language descriptions.

Jul, 2021

人在环路强化学习的小样本偏好学习

使用多任务学习来实现基于人类反馈的强化学习，通过将偏好模型训练在以前的任务数据上，我们仅需要很少的查询就可以在 Meta-World 中训练出具有更好效果的机器人策略模型。

Dec, 2022

Atari 大挑战数据集

本文提出了一种减少数据使用量的方法，即利用人类示范数据对强化学习模型进行训练，在此基础上，作者基于 Atari 2600 回放数据集，发现示范数据的质量和模型的模仿学习性能之间有着密切关联，为进一步拓展该方法提供了研究方向。

May, 2017