DIP-RL: 在 Minecraft 中的演示推断偏好学习

ICMLJul, 2023

DIP-RL: 在 Minecraft 中的演示推断偏好学习

DIP-RL: Demonstration-Inferred Preference Learning in Minecraft

Ellen Novoseller, Vinicius G. Goecks, David Watkins, Josh Miller, Nicholas Waytowich

TL;DR在这篇论文中，我们介绍了一种名为 DIP-RL 的算法，它利用人类示范的方式以三种不同的方式来解决在结构不清晰和开放性环境中的任务，包括训练一个自动编码器、使用示范数据种子强化学习训练批次以及推断行为偏好以学习引导强化学习的奖励函数。我们在 Minecraft 中的砍树任务中评估了 DIP-RL，并且结果表明该算法可以引导强化学习代理学习到反映人类偏好的奖励函数，且在性能上相对于基准算法表现有竞争力。

Abstract

In machine learning for sequential decision-making, an algorithmic agent learns to interact with an environment while receiving feedback in the form of a reward signal. However, in many unstructured real-world se

machine learning sequential decision-making demonstration-inferred preference reinforcement learning unstructured and open-ended environments human preferences

发现论文，激发创造

整合人类演示和偏好的学习奖励函数

该研究提出了 DemPref 框架，结合演示和偏好查询来学习奖励函数，其对标准偏好学习方法具有更高的效率和更好的性能。

Jun, 2019

DIPPER：直接优化偏好以加速基元级层次强化学习

DIPPER 是一种高效的分层方法，结合直接优化和强化学习，在从人类偏好数据中学习更高级策略和更低级策略的基础上，解决了从人类偏好数据学习复杂机器人任务的挑战。

Jun, 2024

MineRL 2019 赛事：基于人类先验知识的高效强化学习

介绍了 MineRL 竞赛，该竞赛旨在利用人类先验知识实现样本高效的强化学习，提供了 Minecraft ObtrainDiamond 任务和 MineRL-v0 数据集，并要求参赛者使用 Malmo 环境中的有限样本来解决 ObtainDiamond 任务。

Apr, 2019

联合演示与偏好学习改善与人类反馈的政策对齐

将人类偏好和价值观进行对齐是构建当代基础模型和具身化人工智能的重要需求。本文提出了一种名为 “AIHF（Alignment with Integrated Human Feedback）” 的单阶段方法，能够集成人类偏好和演示来训练奖励模型和策略，并通过大量实验证明该方法在语言模型和机器人控制问题的对齐中表现优于传统的强化学习算法如 RLHF 和 DPO，特别是当高质量偏好数据的数量相对有限时。

Jun, 2024

将人类反馈学习与知识工程相结合，在 Minecraft 中解决分层任务

本文介绍了一种基于人类示范数据进行仿真学习的方法以及使用人类反馈来训练图像分类器的方法，将这些模块与估算的 Odometry 地图相结合，以自然层次结构利用人类知识的强大状态机，并将该混合智能方法与端到端机器学习和纯工程解决方案进行比较。

Dec, 2021

MineRL: 一个大规模的《Minecraft》演示数据集

本研究介绍了一个全面、大规模、与模拟器配对并包含人类示范的数据集 MineRL，该数据集涵盖了 Minecraft 中多个相关任务，其中有超过 6000 万个由自动注释的状态动作对，证明了该数据集的层次性、多样性和规模。该数据集有助于开展解决 Minecraft 研究挑战的技术研究。

Jul, 2019

逆向偏好学习：无奖励函数的基于偏好的强化学习

提出了一种名为 Inverse Preference Learning（IPL）的新算法，用于从离线偏好数据中学习奖励函数，该算法使用 Q 函数来代替学习得到的奖励函数，具有更高的参数效率和更少的算法超参数和学习网络参数。

May, 2023

人在环路强化学习的小样本偏好学习

使用多任务学习来实现基于人类反馈的强化学习，通过将偏好模型训练在以前的任务数据上，我们仅需要很少的查询就可以在 Meta-World 中训练出具有更好效果的机器人策略模型。

Dec, 2022

一种基于排名的模仿学习游戏

本文提出了一种将模仿学习看作是一种基于排名的二人游戏的新框架，并使用一种新型排名误差来实例化该框架，从而同时学习专家演示和偏好，实现了两种模态的优势，并在 Learning from Observation (LfO) 环境中实现了先进的样本效率和可扩展性。

Feb, 2022

使用动作建议优化 Minecraft 中的深度强化学习

使用交互式机器学习可以帮助训练具有复杂行为的深度强化学习智能体，但需要在人类教师的努力和代理性能之间实现平衡。本研究探讨了两种强化学习算法在具有视觉混淆的情况下，通过人类动作建议来提高代理性能、评估动作建议类型的潜在认知负荷以及提高训练效率和抵御错误建议的能力。

Aug, 2019