在线根据离线偏好进行政策学习
该研究关注了离线基于偏好的强化学习(PbRL)的主题,引入了一种名为离线偏好指导策略优化(OPPO)的范式,通过一步过程模型化离线轨迹和人类偏好,不需要单独学习奖励函数,成功地模拟了离线偏好并胜过了竞争基线。
May, 2023
本文提出了一种利用离线数据进行偏好学习的方法,通过基于池的主动学习生成偏好查询,学习奖励函数的分布,通过离线强化学习优化相应的策略,从而使代理人能够在未显示的离线数据中学习执行新任务。
Jan, 2023
利用学习到的环境模型,在完全离线的环境中提出了一种离线基于偏好的强化学习算法 Sim-OPRL,通过模拟轨迹获取偏好反馈,对于超出分布的数据采用悲观方法,对于获取最优策略相关的信息采用乐观方法,提供了关于样本复杂度的理论保证,最后通过在不同环境中的实验结果展示了 Sim-OPRL 的经验性能。
Jun, 2024
提出了一个通用框架来连接偏好反馈和标量奖励,使得现有的离线 RL 算法能够适应偏好反馈,实验证明该框架加上不同算法可以获得与实际奖励训练相媲美甚至优于离线 PBRL 算法的学习效果。
Jun, 2024
在这项工作中,我们考虑了线下基于偏好的强化学习问题。我们关注先前强化学习从人类偏好中采用的两阶段学习方法。我们发现,在线下 PBRL 设置中应用两阶段学习存在挑战,即在第二阶段学习期间学到的效用模型可能对学习代理优化来说过于困难。为了克服这一挑战,我们提出了一种通过行为约束实现的两阶段学习方法,即行动剪辑。我们的观点是,数据集中未充分覆盖的状态 - 动作只能提供有限的信息,并增加第二阶段学习问题的复杂性。我们的方法在第二阶段学习期间忽略这些状态 - 动作,以实现更高的学习效率。我们在各种机器人控制环境中通过实证验证证明了我们的方法具有较高的学习效率。
Dec, 2023
采用有限臂线性赌博机模型作为在线学习的典型模型,通过建模生成数据的专家的能力,我们提出 warmPref-PS 算法,利用带有噪声偏好反馈的离线数据集实现在线学习,并在理论和实证评估中得到支持。
Jun, 2024
人类反馈引导的强化学习对齐大型语言模型的主要研究领域之一,本文通过引入一种统一的在线和离线强化学习方法 —— 以价值激励的偏好优化(VPO),实现了对奖励函数的不确定性估计,并在文本摘要和对话等任务上进行了实验证实其实用性和有效性。
May, 2024
在这项研究中,我们介绍了 Crowd-PrefRL,一个利用群体反馈进行基于偏好的强化学习的框架,该框架可以从未知专长和可靠性的群体中学习奖励函数,并且在大多数情况下,比倾向多数或任何个体用户提供的偏好的训练代理要好,尤其是当群体中用户错误率的分布较大时。
Jan, 2024