- 超越人类偏好:通过 LLMs 探索强化学习轨迹的评估与改进
基于偏好的强化学习利用大型语言模型生成自动偏好数据,并通过重构奖励函数来优化强化学习训练,在复杂环境中加速收敛并提高效果。
- 增强偏好驱动的强化学习中的鲁棒性:动态稀疏性提升
为了在人类中心环境中成功融入自主代理,代理应该能够从人类的本地环境中学习和适应。基于偏好的强化学习 (PbRL) 是一种能够从人类偏好中学习奖励函数的有希望的方法,使得强化学习代理能够根据人类的欲望来调整其行为。然而,人类生活在一个充满各种 - 偏好匹配与流匹配
Preference Flow Matching (PFM) 是一种新的偏好强化学习(PbRL)框架,通过利用流匹配技术直接从偏好数据中学习,从而减少对预训练模型的大量微调的依赖,有效地将模型输出与人类偏好对齐,避免了奖励模型过拟合等常见问 - 通过对齐的经验估计实现高效的基于偏好的强化学习
PbRL 方法 SEER 通过整合标签平滑和策略规则化技术,提高了反馈效率,取得了显著的性能优势。
- 在线根据离线偏好进行政策学习
通过整合离线偏好和虚拟偏好,将离线数据和学习代理的行为进行比较,从而加强了基于偏好的强化学习中的奖励函数对代理行为的指导,提高了其泛化能力。
- 具有动力学感知奖励的样本高效偏好强化学习
通过从代理行为的二进制反馈中学习到的动态感知奖励函数,我们展示了动态感知奖励函数如何使得偏好基础增强学习的采样效率提高一个数量级。通过迭代学习动态感知的状态 - 行动表示并从中引导基于偏好的奖励函数,我们实现了更快的策略学习和更好的最终策略 - RIME:基于噪声偏好的鲁棒化基于优先级的强化学习
通过使用人类偏好作为奖励信号,基于偏好的强化学习(PbRL)避免了对奖励设计的需求。然而,当前的 PbRL 算法过于依赖领域专家的高质量反馈,导致鲁棒性不足。本文提出 RIME,一种从嘈杂偏好中有效学习奖励的鲁棒 PbRL 算法。我们的方法 - PREDILECT: 在强化学习中利用零样本语言推理揭示偏好
基于偏好的强化学习已成为机器人学习中的一个新领域,其中人类通过表达对不同状态 - 动作序列的偏好,对机器人行为起到关键作用。为了应对机器人实际政策制定的要求,我们通过扩展每个查询收集的信息,包括偏好和可选的文本提示,解决了样本效率挑战。为了 - 众智强化学习:基于众智的奖励学习
在这项研究中,我们介绍了 Crowd-PrefRL,一个利用群体反馈进行基于偏好的强化学习的框架,该框架可以从未知专长和可靠性的群体中学习奖励函数,并且在大多数情况下,比倾向多数或任何个体用户提供的偏好的训练代理要好,尤其是当群体中用户错误 - 强化学习与人类反馈调查
深入探讨人机交互技术中基于人类反馈的强化学习(RLHF)的基本原理、应用及其研究趋势。
- 多智体基于偏好的强化学习在人工智能团队合作中的基准测试
人机协作中基于偏好的强化学习 (PbRL) 是一个活跃的研究领域,并在单个代理人和观察者在环路场景中取得了显著的进展。然而,在人机合作的多代理强化学习框架中,在人类积极参与并表达对代理行为偏好的应用仍然是未知的。
- STRAPPER: 基于偏好的自我训练强化学习方法及同伴正则化
通过引入对等正则化的自训练方法,克服了偏好强化学习中的相似陷阱问题,并以不同的半监督替代方法和对等正则化学习了多种运动和机器人操作行为。
- 基于偏好的强化学习中的公正性
本文研究多目标偏好强化学习中的公平性问题,并提出了一种新的公平性偏好强化学习方法 FPbRL,通过最大化广义基尼福利函数,学习与多个目标相关的向量奖励函数,并通过实验研究表明,该方法能够同时实现学习有效和公平的策略。
- 通过最优输运进行离线强化学习的零样本偏好学习
提出一种新颖的零样本基于偏好的强化学习算法,利用源任务的标注偏好数据来推断目标任务的标注数据,然后利用 Gromov-Wasserstein 距离来对齐源任务和目标任务的轨迹分布,并使用 Robust Preference Transfor - 基于偏好的强化学习中的查询策略不匹配
本文介绍了一种通过改变查询选择方案以达到查询与策略对齐,从而提高人类反馈效率的方法,并在详尽的实验中表明了该方法在提高人类反馈效率和 RL 样本效率方面的巨大优势。
- 逆向偏好学习:无奖励函数的基于偏好的强化学习
提出了一种名为 Inverse Preference Learning(IPL)的新算法,用于从离线偏好数据中学习奖励函数,该算法使用 Q 函数来代替学习得到的奖励函数,具有更高的参数效率和更少的算法超参数和学习网络参数。
- ICLRPreference Transformer:使用 Transformers 模拟人类偏好的 RL 建模
研究了基于偏好的强化学习应用于人类决策,使用 transformer 建立时间依赖的偏好模型,在控制任务上成功训练,对人类决策的时间依赖可以自动捕捉。
- AAAI基于数据驱动的奖励初始化偏好强化学习
本文研究了基于偏好的强化学习中初始奖励模型的高度变异性问题,并提出了一种数据驱动的奖励初始化方法,该方法不会增加人在环中的额外成本,同时只会对 PbRL 代理造成可忽略的成本,通过该方法初始化的奖励模型在状态空间中是均匀的,这减少了多次运行 - AAAI基于状态扩展的人类偏好强化学习方法
本文提出了一种状态增强技术,利用二元反馈帮助人类进一步了解代理行为来学习奖励模型为强化学习提供更好的支持,并在三种任务领域 Mountain Car、Quadruped-Walk 和 Sweep-Into 中验证了其有效性。
- 通过奖励编码环境动态性来提高基于偏好的强化学习
本研究使用包含环境动态信息的 REED 方法,压缩了 preference-based RL 架构中需要从人获得的喜好标签数量,进而提升策略的学习速度和最终表现。