通过人类反馈解决模糊任务：MineRL BASALT 2022 比赛回顾

Mar, 2023

通过人类反馈解决模糊任务：MineRL BASALT 2022 比赛回顾

Towards Solving Fuzzy Tasks with Human Feedback: A Retrospective of the MineRL BASALT 2022 Competition

Stephanie Milani, Anssi Kanervisto, Karolis Ramanauskas, Sander Schulhoff, Brandon Houghton...

TL;DR通过在 Minecraft 中举办的 MineRL BASALT 比赛，我们旨在推动使用人类反馈来学习期望行为的算法的发展，以便在基础模型的微调方面进行研究。我们描述了比赛，并概述了前几名解决方案。最后我们讨论了比赛的影响和未来的改进方向。

Abstract

To facilitate research in the direction of fine-tuning foundation models from human feedback, we held the →

fine-tuning foundation models human feedback minerl basalt competition minecraft

发现论文，激发创造

2021 年 BASALT 学习与人类反馈竞赛回顾

本文介绍了 MineRL BASALT 比赛，旨在鼓励研究使用来自人类反馈的学习技巧的代理解决开放世界任务，参赛团队的多样化反映出任务的设计有效性，但比赛参与者不足，作者对此进行了探讨和提出了改善建议。

Apr, 2022

从人类反馈中学习的 MineRL BASALT 比赛

MineRL BASALT competition focuses on the importance of learning from human feedback to build AI systems that would align with designers' intentions and solve tasks that cannot be easily formalized, and provides a dataset of human demonstrations and an imitation learning baseline for participants to train separate agents using any method they prefer on four tasks in Minecraft with natural language descriptions.

Jul, 2021

BEDD: MineRL BASALT 评估与演示数据集，用于训练和评测解决模糊任务的智能体

该研究通过 MineRL BASALT 竞赛，提出了一种基于人类反馈学习的正式评估和演示数据集 (BEDD)，用于算法的开发和性能评估。该数据集包含了从近 14,000 个 Minecraft 游戏视频中提取的 2,600 万个图像 - 动作对和 3000 多个密集的人类评估，为新算法的评价提供了一个固定的、初步的排行榜。此外，研究还对这些数据进行了详细分析，以指导算法的开发和评估。

Dec, 2023

将人类反馈学习与知识工程相结合，在 Minecraft 中解决分层任务

本文介绍了一种基于人类示范数据进行仿真学习的方法以及使用人类反馈来训练图像分类器的方法，将这些模块与估算的 Odometry 地图相结合，以自然层次结构利用人类知识的强大状态机，并将该混合智能方法与端到端机器学习和纯工程解决方案进行比较。

Dec, 2021

关于 2019 年 MineRL 竞赛在样本高效强化学习方面的回顾分析

在 NeurIPS 2019 年会议上，我们举办了 MineRL Sample Efficient Reinforcement Learning Using Human Priors 比赛，旨在促进使用人类指导的强化学习算法的研究并减少解决复杂、分层、稀疏环境所需的样本数。本文概述了比赛的主要挑战、设计和提供给参与者的资源，并概述了使用深度强化学习和 / 或模仿学习的前几名解决方案以及我们的组织决策对比赛的影响和未来的改进方向。

Mar, 2020

MineRL 2019 赛事：基于人类先验知识的高效强化学习

介绍了 MineRL 竞赛，该竞赛旨在利用人类先验知识实现样本高效的强化学习，提供了 Minecraft ObtrainDiamond 任务和 MineRL-v0 数据集，并要求参赛者使用 Malmo 环境中的有限样本来解决 ObtainDiamond 任务。

Apr, 2019

使用行为克隆玩 Minecraft

本文讲述了我们参加 MineRL 2019 比赛的经历，我们使用行为克隆的算法来预测人类玩家的行动并在最终排名中获得了第五名，同时我们也发现了这种方法性能会根据训练停止的时间而有明显变化，我们进行了更多的实验来研究不同的工程决策对性能的影响。

May, 2020

MineRL Diamond 2021 竞赛：概述、结果和经验教训

通过主办钻石获取挑战赛，我们鼓励参与者使用常规技术和高效示例方法开发更广泛适用的解决方案，促进参与者和新手参与。这项研究强调了使用这些技术的重要性并提供了支持。

Feb, 2022

Plan4MC：针对开放世界 Minecraft 任务的技能强化学习和规划

在 Minecraft 环境中，我们使用强化学习技术训练多任务代理，将任务分解成学习基本技能和规划技能这两个步骤，通过提出三种细粒度的基本技能，搭配内在奖励机制使用强化学习训练代理，在学会技能后，我们使用大型语言模型建立技能图模型，并提出技能搜索算法为代理生成适当的技能计划。在实验中，我们成功的完成了 24 个不同的 Minecraft 任务，并得到了比基线算法更好的表现。

Mar, 2023

SALMON：自我对齐与遵循原则的奖励模型

该研究提出了一种名为 SALMON 的新方法，使用仅包含少量人定的原则和基于合成偏好数据训练的奖励模型，实现了对基础语言模型的自动对齐，通过调整原则控制奖励模型的偏好，进而影响强化学习训练的策略的行为，消除了对在线人类偏好收集的依赖，其在各种基准数据集上显著超越了几种最先进的人工智能系统，包括 LLaMA-2-Chat-70b，提高了监督效率、可控性和可扩展性。

Oct, 2023