本研究论文提出了一种基于偏好的强化学习基准测试框架 B-Pref,该框架使用了一种新的评估指标,旨在衡量算法的性能和鲁棒性,从而更为系统地研究基于偏好的强化学习算法的设计选择和决策。
Nov, 2021
提出了一种名为Inverse Preference Learning(IPL)的新算法,用于从离线偏好数据中学习奖励函数,该算法使用Q函数来代替学习得到的奖励函数,具有更高的参数效率和更少的算法超参数和学习网络参数。
May, 2023
本文研究多目标偏好强化学习中的公平性问题,并提出了一种新的公平性偏好强化学习方法FPbRL,通过最大化广义基尼福利函数,学习与多个目标相关的向量奖励函数,并通过实验研究表明,该方法能够同时实现学习有效和公平的策略。
Jun, 2023
这篇文章证明了,对于广泛的偏好模型,我们可以使用现有的算法和技术,直接解决基于偏好的强化学习问题,具有小的或没有额外成本。
通过从代理行为的二进制反馈中学习到的动态感知奖励函数,我们展示了动态感知奖励函数如何使得偏好基础增强学习的采样效率提高一个数量级。通过迭代学习动态感知的状态-行动表示并从中引导基于偏好的奖励函数,我们实现了更快的策略学习和更好的最终策略性能。例如,在四足行走、行走者行走和猎豹奔跑中,在50个偏好标签的情况下,我们实现了与现有方法500个偏好标签相同的性能,并恢复了83%和66%的地面真实奖励策略性能,而它们分别只有38%和21%。这些性能提升证明了明确学习动态感知奖励模型的好处。
Feb, 2024
PbRL方法SEER通过整合标签平滑和策略规则化技术,提高了反馈效率,取得了显著的性能优势。
May, 2024
Preference Flow Matching (PFM)是一种新的偏好强化学习(PbRL)框架,通过利用流匹配技术直接从偏好数据中学习,从而减少对预训练模型的大量微调的依赖,有效地将模型输出与人类偏好对齐,避免了奖励模型过拟合等常见问题。
提出了一个通用框架来连接偏好反馈和标量奖励,使得现有的离线RL算法能够适应偏好反馈,实验证明该框架加上不同算法可以获得与实际奖励训练相媲美甚至优于离线PBRL算法的学习效果。
Jun, 2024
基于偏好的强化学习利用大型语言模型生成自动偏好数据,并通过重构奖励函数来优化强化学习训练,在复杂环境中加速收敛并提高效果。
本研究解决了现有偏好基础强化学习(PBRL)方法忽视教师可能选择均等偏好的问题,导致对任务理解的不足。通过引入均等偏好学习任务并提出新方法多类型偏好学习(MTPL),同时从均等偏好和显性偏好中学习,从而提高对教师反馈的理解和反馈效率。实验结果表明,MTPL使PBRL在多个人类反馈任务中表现出更强的学习能力。
Sep, 2024