2021 年 BASALT 学习与人类反馈竞赛回顾
通过在 Minecraft 中举办的 MineRL BASALT 比赛,我们旨在推动使用人类反馈来学习期望行为的算法的发展,以便在基础模型的微调方面进行研究。我们描述了比赛,并概述了前几名解决方案。最后我们讨论了比赛的影响和未来的改进方向。
Mar, 2023
MineRL BASALT competition focuses on the importance of learning from human feedback to build AI systems that would align with designers' intentions and solve tasks that cannot be easily formalized, and provides a dataset of human demonstrations and an imitation learning baseline for participants to train separate agents using any method they prefer on four tasks in Minecraft with natural language descriptions.
Jul, 2021
本文介绍了一种基于人类示范数据进行仿真学习的方法以及使用人类反馈来训练图像分类器的方法,将这些模块与估算的 Odometry 地图相结合,以自然层次结构利用人类知识的强大状态机,并将该混合智能方法与端到端机器学习和纯工程解决方案进行比较。
Dec, 2021
该研究通过 MineRL BASALT 竞赛,提出了一种基于人类反馈学习的正式评估和演示数据集 (BEDD),用于算法的开发和性能评估。该数据集包含了从近 14,000 个 Minecraft 游戏视频中提取的 2,600 万个图像 - 动作对和 3000 多个密集的人类评估,为新算法的评价提供了一个固定的、初步的排行榜。此外,研究还对这些数据进行了详细分析,以指导算法的开发和评估。
Dec, 2023
在 NeurIPS 2019 年会议上,我们举办了 MineRL Sample Efficient Reinforcement Learning Using Human Priors 比赛,旨在促进使用人类指导的强化学习算法的研究并减少解决复杂、分层、稀疏环境所需的样本数。本文概述了比赛的主要挑战、设计和提供给参与者的资源,并概述了使用深度强化学习和 / 或模仿学习的前几名解决方案以及我们的组织决策对比赛的影响和未来的改进方向。
Mar, 2020
介绍了 MineRL 竞赛,该竞赛旨在利用人类先验知识实现样本高效的强化学习,提供了 Minecraft ObtrainDiamond 任务和 MineRL-v0 数据集,并要求参赛者使用 Malmo 环境中的有限样本来解决 ObtainDiamond 任务。
Apr, 2019
本文讲述了我们参加 MineRL 2019 比赛的经历,我们使用行为克隆的算法来预测人类玩家的行动并在最终排名中获得了第五名,同时我们也发现了这种方法性能会根据训练停止的时间而有明显变化,我们进行了更多的实验来研究不同的工程决策对性能的影响。
May, 2020
强化学习来自人类反馈是一种训练 AI 系统与人类目标对齐的技术,但其自身存在的问题、局限性以及相关改进技术的概述,以及提出用于改善社会监督的审计和公开标准的重要性。
Jul, 2023
通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础,重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱,以及它们对训练算法的影响,同时揭示了当前方法的局限性。通过对现有文献的分类评论,我们对 RLHF 的挑战进行了描述,为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。
Apr, 2024