通过人类反馈解决模糊任务:MineRL BASALT 2022 比赛回顾
本文介绍了 MineRL BASALT 比赛,旨在鼓励研究使用来自人类反馈的学习技巧的代理解决开放世界任务,参赛团队的多样化反映出任务的设计有效性,但比赛参与者不足,作者对此进行了探讨和提出了改善建议。
Apr, 2022
MineRL BASALT competition focuses on the importance of learning from human feedback to build AI systems that would align with designers' intentions and solve tasks that cannot be easily formalized, and provides a dataset of human demonstrations and an imitation learning baseline for participants to train separate agents using any method they prefer on four tasks in Minecraft with natural language descriptions.
Jul, 2021
该研究通过 MineRL BASALT 竞赛,提出了一种基于人类反馈学习的正式评估和演示数据集 (BEDD),用于算法的开发和性能评估。该数据集包含了从近 14,000 个 Minecraft 游戏视频中提取的 2,600 万个图像 - 动作对和 3000 多个密集的人类评估,为新算法的评价提供了一个固定的、初步的排行榜。此外,研究还对这些数据进行了详细分析,以指导算法的开发和评估。
Dec, 2023
本文介绍了一种基于人类示范数据进行仿真学习的方法以及使用人类反馈来训练图像分类器的方法,将这些模块与估算的 Odometry 地图相结合,以自然层次结构利用人类知识的强大状态机,并将该混合智能方法与端到端机器学习和纯工程解决方案进行比较。
Dec, 2021
在 NeurIPS 2019 年会议上,我们举办了 MineRL Sample Efficient Reinforcement Learning Using Human Priors 比赛,旨在促进使用人类指导的强化学习算法的研究并减少解决复杂、分层、稀疏环境所需的样本数。本文概述了比赛的主要挑战、设计和提供给参与者的资源,并概述了使用深度强化学习和 / 或模仿学习的前几名解决方案以及我们的组织决策对比赛的影响和未来的改进方向。
Mar, 2020
介绍了 MineRL 竞赛,该竞赛旨在利用人类先验知识实现样本高效的强化学习,提供了 Minecraft ObtrainDiamond 任务和 MineRL-v0 数据集,并要求参赛者使用 Malmo 环境中的有限样本来解决 ObtainDiamond 任务。
Apr, 2019
本文讲述了我们参加 MineRL 2019 比赛的经历,我们使用行为克隆的算法来预测人类玩家的行动并在最终排名中获得了第五名,同时我们也发现了这种方法性能会根据训练停止的时间而有明显变化,我们进行了更多的实验来研究不同的工程决策对性能的影响。
May, 2020
通过主办钻石获取挑战赛,我们鼓励参与者使用常规技术和高效示例方法开发更广泛适用的解决方案,促进参与者和新手参与。这项研究强调了使用这些技术的重要性并提供了支持。
Feb, 2022
在 Minecraft 环境中,我们使用强化学习技术训练多任务代理,将任务分解成学习基本技能和规划技能这两个步骤,通过提出三种细粒度的基本技能,搭配内在奖励机制使用强化学习训练代理,在学会技能后,我们使用大型语言模型建立技能图模型,并提出技能搜索算法为代理生成适当的技能计划。在实验中,我们成功的完成了 24 个不同的 Minecraft 任务,并得到了比基线算法更好的表现。
Mar, 2023
该研究提出了一种名为 SALMON 的新方法,使用仅包含少量人定的原则和基于合成偏好数据训练的奖励模型,实现了对基础语言模型的自动对齐,通过调整原则控制奖励模型的偏好,进而影响强化学习训练的策略的行为,消除了对在线人类偏好收集的依赖,其在各种基准数据集上显著超越了几种最先进的人工智能系统,包括 LLaMA-2-Chat-70b,提高了监督效率、可控性和可扩展性。
Oct, 2023