超越奖励:离线引导偏好的策略优化
利用学习到的环境模型,在完全离线的环境中提出了一种离线基于偏好的强化学习算法 Sim-OPRL,通过模拟轨迹获取偏好反馈,对于超出分布的数据采用悲观方法,对于获取最优策略相关的信息采用乐观方法,提供了关于样本复杂度的理论保证,最后通过在不同环境中的实验结果展示了 Sim-OPRL 的经验性能。
Jun, 2024
本文提出了一种基于模型的离线策略优化算法 (MOPO),通过将模型地图上未知点处的即时报酬设置为高风险,从而优化模型训练过程中的代理策略,以解决离线数据分布发生漂移的问题,并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。
May, 2020
提出了一个通用框架来连接偏好反馈和标量奖励,使得现有的离线 RL 算法能够适应偏好反馈,实验证明该框架加上不同算法可以获得与实际奖励训练相媲美甚至优于离线 PBRL 算法的学习效果。
Jun, 2024
本文通过对线下单调策略改进的分析得出有趣结论,即一些在线策略算法天生就能解决离线 RL 问题,而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的,无需额外约束或正则化就能在 D4RL 基准测试中超越最先进的线下 RL 算法。
Feb, 2023
本文提出了一种利用离线数据进行偏好学习的方法,通过基于池的主动学习生成偏好查询,学习奖励函数的分布,通过离线强化学习优化相应的策略,从而使代理人能够在未显示的离线数据中学习执行新任务。
Jan, 2023
本文主要针对离线强化学习中的价值函数方法,提出了一种名为 POPO 的悲观离线策略优化算法,它学习了一种悲观的价值函数以获取强策略,相比于多个最先进的算法,在高维状态和动作空间中表现出色。
Dec, 2020
人类反馈引导的强化学习对齐大型语言模型的主要研究领域之一,本文通过引入一种统一的在线和离线强化学习方法 —— 以价值激励的偏好优化(VPO),实现了对奖励函数的不确定性估计,并在文本摘要和对话等任务上进行了实验证实其实用性和有效性。
May, 2024
本研究提出了一个新型的轻量级基于模型的离线规划框架 MOPP,通过通过学习数据中的行为策略鼓励更激进的轨迹回放,并修剪出问题轨迹,以避免潜在的超出分布样本,相对于现有模型的离线规划和 RL 方法表现更具有竞争性。
May, 2021