众智强化学习：基于众智的奖励学习

Jan, 2024

众智强化学习：基于众智的奖励学习

Crowd-PrefRL: Preference-Based Reward Learning from Crowds

David Chhan, Ellen Novoseller, Vernon J. Lawhern

TL;DR在这项研究中，我们介绍了 Crowd-PrefRL，一个利用群体反馈进行基于偏好的强化学习的框架，该框架可以从未知专长和可靠性的群体中学习奖励函数，并且在大多数情况下，比倾向多数或任何个体用户提供的偏好的训练代理要好，尤其是当群体中用户错误率的分布较大时。

Abstract

preference-based reinforcement learning (RL) provides a framework to train agents using human feedback through pairwise preferences over pairs of behaviors, enabling agents to learn desired behaviors when it is d

preference-based reinforcement learning human feedback crowds crowd-prefrl reliability estimation

发现论文，激发创造

众包数据的批量强化学习

通过从偏好中学习奖励函数，本文解决了批量强化学习设置中缺乏奖励的问题，并提出了一种新的概率模型来建模标签的可靠性，利用协作的标签来平滑估计。在 Atari 数据集上的评估证明了所提出的模型的有效性，并进行了消融研究以分析所提出的想法的相对重要性。

Nov, 2021

人在环路强化学习的小样本偏好学习

使用多任务学习来实现基于人类反馈的强化学习，通过将偏好模型训练在以前的任务数据上，我们仅需要很少的查询就可以在 Meta-World 中训练出具有更好效果的机器人策略模型。

Dec, 2022

PrefRec: 基于用户偏好的推荐系统用于增强长期用户参与

本文提出了一种名为 PrefRec 的新模型，它基于用户历史行为的喜好训练基于强化学习的推荐器，可有效地优化长期用户参与度，在大量的实验中，PrefRec 在所有任务中显着优于之前的最先进方法。

Dec, 2022

对比偏好学习：无需 RL 的人类反馈学习

使用最大熵原理，引入了一种从人类反馈中优化行为的新型算法 Contrastive Preference Learning (CPL)，该算法能够在不学习奖励函数的情况下，通过偏好学习最优策略，克服了优化挑战并能应用于任意 MDPs 环境。

Oct, 2023

基于主动偏好学习的强化学习 APRIL

本文提出了一种基于偏好反馈的强化学习算法，结合了主动排序策略，能够在具有限先验知识（如群体机器人）的情景下，使用专家反馈指导智能体的策略搜索，经过少量专家排序即可获得满意的策略。

Aug, 2012

超越人类偏好：通过 LLMs 探索强化学习轨迹的评估与改进

基于偏好的强化学习利用大型语言模型生成自动偏好数据，并通过重构奖励函数来优化强化学习训练，在复杂环境中加速收敛并提高效果。

Jun, 2024

在线根据离线偏好进行政策学习

通过整合离线偏好和虚拟偏好，将离线数据和学习代理的行为进行比较，从而加强了基于偏好的强化学习中的奖励函数对代理行为的指导，提高了其泛化能力。

Mar, 2024

通过个性化和偏好聚合来自异构反馈的基于原则的 RLHF

利用个性化和聚合两个框架解决存在异质人类反馈的增强学习中的问题并确保较高的样本效率。

Apr, 2024

强化学习与人类反馈的自适应偏好缩放

提出了一种新的自适应偏好损失函数，基于分布均衡优化，用于解决偏好强度不确定性问题，通过引入自适应缩放参数增加了对奖励函数的灵活性。实验证明，该方法不仅提升了策略性能，还使奖励函数的选择更加贴合策略优化，简化了超参数调整过程。

Jun, 2024

B-Pref: 基于好恶好评学习的加强学习基准测试

本研究论文提出了一种基于偏好的强化学习基准测试框架 B-Pref，该框架使用了一种新的评估指标，旨在衡量算法的性能和鲁棒性，从而更为系统地研究基于偏好的强化学习算法的设计选择和决策。

Nov, 2021