2021 年 BASALT 学习与人类反馈竞赛回顾

Apr, 2022

2021 年 BASALT 学习与人类反馈竞赛回顾

Retrospective on the 2021 BASALT Competition on Learning from Human Feedback

Rohin Shah, Steven H. Wang, Cody Wild, Stephanie Milani, Anssi Kanervisto...

TL;DR本文介绍了 MineRL BASALT 比赛，旨在鼓励研究使用来自人类反馈的学习技巧的代理解决开放世界任务，参赛团队的多样化反映出任务的设计有效性，但比赛参与者不足，作者对此进行了探讨和提出了改善建议。

Abstract

We held the first-ever MineRL Benchmark for agents that Solve Almost-Lifelike Tasks (MineRL BASALT) Competition at the Thirty-fifth Conference on Neural Information Processing Systems (NeurIPS 2021). The goal of the competition was to promote research towards →

minerl basalt competition agents open-world tasks learning from human feedback minecraft

发现论文，激发创造

通过人类反馈解决模糊任务：MineRL BASALT 2022 比赛回顾

通过在 Minecraft 中举办的 MineRL BASALT 比赛，我们旨在推动使用人类反馈来学习期望行为的算法的发展，以便在基础模型的微调方面进行研究。我们描述了比赛，并概述了前几名解决方案。最后我们讨论了比赛的影响和未来的改进方向。

Mar, 2023

从人类反馈中学习的 MineRL BASALT 比赛

MineRL BASALT competition focuses on the importance of learning from human feedback to build AI systems that would align with designers' intentions and solve tasks that cannot be easily formalized, and provides a dataset of human demonstrations and an imitation learning baseline for participants to train separate agents using any method they prefer on four tasks in Minecraft with natural language descriptions.

Jul, 2021

将人类反馈学习与知识工程相结合，在 Minecraft 中解决分层任务

本文介绍了一种基于人类示范数据进行仿真学习的方法以及使用人类反馈来训练图像分类器的方法，将这些模块与估算的 Odometry 地图相结合，以自然层次结构利用人类知识的强大状态机，并将该混合智能方法与端到端机器学习和纯工程解决方案进行比较。

Dec, 2021

BEDD: MineRL BASALT 评估与演示数据集，用于训练和评测解决模糊任务的智能体

该研究通过 MineRL BASALT 竞赛，提出了一种基于人类反馈学习的正式评估和演示数据集 (BEDD)，用于算法的开发和性能评估。该数据集包含了从近 14,000 个 Minecraft 游戏视频中提取的 2,600 万个图像 - 动作对和 3000 多个密集的人类评估，为新算法的评价提供了一个固定的、初步的排行榜。此外，研究还对这些数据进行了详细分析，以指导算法的开发和评估。

Dec, 2023

关于 2019 年 MineRL 竞赛在样本高效强化学习方面的回顾分析

在 NeurIPS 2019 年会议上，我们举办了 MineRL Sample Efficient Reinforcement Learning Using Human Priors 比赛，旨在促进使用人类指导的强化学习算法的研究并减少解决复杂、分层、稀疏环境所需的样本数。本文概述了比赛的主要挑战、设计和提供给参与者的资源，并概述了使用深度强化学习和 / 或模仿学习的前几名解决方案以及我们的组织决策对比赛的影响和未来的改进方向。

Mar, 2020

MineRL 2019 赛事：基于人类先验知识的高效强化学习

介绍了 MineRL 竞赛，该竞赛旨在利用人类先验知识实现样本高效的强化学习，提供了 Minecraft ObtrainDiamond 任务和 MineRL-v0 数据集，并要求参赛者使用 Malmo 环境中的有限样本来解决 ObtainDiamond 任务。

Apr, 2019

使用行为克隆玩 Minecraft

本文讲述了我们参加 MineRL 2019 比赛的经历，我们使用行为克隆的算法来预测人类玩家的行动并在最终排名中获得了第五名，同时我们也发现了这种方法性能会根据训练停止的时间而有明显变化，我们进行了更多的实验来研究不同的工程决策对性能的影响。

May, 2020

强化学习与人类反馈调查

深入探讨人机交互技术中基于人类反馈的强化学习（RLHF）的基本原理、应用及其研究趋势。

Dec, 2023

强化学习从人类反馈中的开放问题与基本限制

强化学习来自人类反馈是一种训练 AI 系统与人类目标对齐的技术，但其自身存在的问题、局限性以及相关改进技术的概述，以及提出用于改善社会监督的审计和公开标准的重要性。

Jul, 2023

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024