基于人类偏好和步骤级解释的训练偏好驱动强化学习

May, 2024

基于人类偏好和步骤级解释的训练偏好驱动强化学习

Tell my why: Training preferences-based RL with human preferences and step-level explanations

Jakob Karalus

TL;DR人在环路强化学习中提供了一种可以让非专家用户通过各种界面进行训练的方法。我们提出了一种新的基于偏好的学习方法，为人们提供了更富表现力的界面，以便其表达对轨迹的偏好，并提供了解释以提高学习速度。

Abstract

human-in-the-loop reinforcement learning (HRL) allows the training of agents through various interfaces, even for non-expert humans. Recently, preference-based methods (PBRL), where the human has to give his pref

human-in-the-loop reinforcement learning preference-based methods expressive interface trajectory preferences learning speed improvement

发现论文，激发创造

超越人类偏好：通过 LLMs 探索强化学习轨迹的评估与改进

基于偏好的强化学习利用大型语言模型生成自动偏好数据，并通过重构奖励函数来优化强化学习训练，在复杂环境中加速收敛并提高效果。

Jun, 2024

深度强化学习从人类偏好中学习

本文研究了使用非专家人类偏好来定义复杂目标的强化学习系统的方法，并且证明此方法可实现许多复杂的强化学习任务，包括 Atari 游戏和模拟机器人，同时也大幅降低了人类监督成本，以及展示了本方法的灵活性，并可成功使用较短时间完成复杂的新颖行为的训练，同时也采用了前人的人类反馈信息和环境。

Jun, 2017

多智体基于偏好的强化学习在人工智能团队合作中的基准测试

人机协作中基于偏好的强化学习 (PbRL) 是一个活跃的研究领域，并在单个代理人和观察者在环路场景中取得了显著的进展。然而，在人机合作的多代理强化学习框架中，在人类积极参与并表达对代理行为偏好的应用仍然是未知的。

Dec, 2023

人在环路强化学习的小样本偏好学习

使用多任务学习来实现基于人类反馈的强化学习，通过将偏好模型训练在以前的任务数据上，我们仅需要很少的查询就可以在 Meta-World 中训练出具有更好效果的机器人策略模型。

Dec, 2022

基于数据驱动的奖励初始化偏好强化学习

本文研究了基于偏好的强化学习中初始奖励模型的高度变异性问题，并提出了一种数据驱动的奖励初始化方法，该方法不会增加人在环中的额外成本，同时只会对 PbRL 代理造成可忽略的成本，通过该方法初始化的奖励模型在状态空间中是均匀的，这减少了多次运行中方法性能的变异性，并且相对于其它初始方法提高了方法的整体性能。

Feb, 2023

多轮强化学习从人类偏好反馈中学习

本研究通过发展新的强化学习方法，解决了基于喜好反馈的多轮对话中规划和多轮互动问题，通过实验证明该算法在教育对话环境中超越了基线模型，同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能

May, 2024

基于主动探索的样本有效强化学习来自人类反馈

利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持，本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界，提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法，并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。

Dec, 2023

基于状态扩展的人类偏好强化学习方法

本文提出了一种状态增强技术，利用二元反馈帮助人类进一步了解代理行为来学习奖励模型为强化学习提供更好的支持，并在三种任务领域 Mountain Car、Quadruped-Walk 和 Sweep-Into 中验证了其有效性。

Feb, 2023

对比偏好学习：无需 RL 的人类反馈学习

使用最大熵原理，引入了一种从人类反馈中优化行为的新型算法 Contrastive Preference Learning (CPL)，该算法能够在不学习奖励函数的情况下，通过偏好学习最优策略，克服了优化挑战并能应用于任意 MDPs 环境。

Oct, 2023

使用解释和上下文感知的数据增强扩大人类引导的强化学习管道

本文研究如何将人类知识融入深度加强学习中，并提出 EXPAND 方法，在五项任务中展示出用于处理人类知识的可行性，该方法显着优于仅利用评估反馈的基线方法和来自监督学习的人类解释的方法。

Jun, 2020