通过积极查询进行人类反馈强化学习
利用 DPO 进行喂养,通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量,我们开发了一种主动学习策略来更好地利用偏好标签,从而提高配对偏好数据的学习速率和最终性能。
Feb, 2024
基于人类反馈的强化学习(RLHF)是将大型语言模型(LLMs)与人类偏好相一致的关键所在。然而,依赖高质量的人类偏好数据却在 RLHF 的实际实施中构成了昂贵的瓶颈。因此,需要更好和适应性更强的数据收集策略。为此,我们将 RLHF 构建为一个具有提示作为上下文的偏好赌博问题,并证明了通过随机均匀选择提示来收集偏好数据的天真方式会导致策略在奖励上产生 Ω(1) 的次优性差距。然后,我们提出一种主动选择提示以收集偏好数据的算法( exttt {APO}),在 Bradley-Terry-Luce(BTL)偏好模型下, exttt {APO} 在不损害策略性能的情况下实现了样本效率。我们证明,在给定采样预算 T 的情况下,通过 exttt {APO} 学得的策略的次优性差距的尺度为 O (1/√T)。接下来,我们提出了一种计算高效的 exttt {APO} 的批处理版本,并在实践中评估其性能。对于一个人类偏好数据集的实验评估验证了 exttt {APO} 作为 RLHF 数据收集的具有样本效率和实用性的解决方案,以成本有效且可扩展的方式促进 LLMs 与人类偏好的一致性。
Feb, 2024
利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持,本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界,提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法,并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。
Dec, 2023
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
将人类偏好和价值观进行对齐是构建当代基础模型和具身化人工智能的重要需求。本文提出了一种名为 “AIHF(Alignment with Integrated Human Feedback)” 的单阶段方法,能够集成人类偏好和演示来训练奖励模型和策略,并通过大量实验证明该方法在语言模型和机器人控制问题的对齐中表现优于传统的强化学习算法如 RLHF 和 DPO,特别是当高质量偏好数据的数量相对有限时。
Jun, 2024
通过改进 Proximal Policy Optimization,使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化,从而提高 AI 对人类反馈的 RLHF 的性能。
Feb, 2024
提出了一种基于策略的奖励学习(RLP)无监督框架,通过使用策略样本来完善奖励模型,以保持其在分布上的一致性,实验结果表明 RLP 在三个基准数据集上始终优于现有技术。
Mar, 2024
提出了一种新的自适应偏好损失函数,基于分布均衡优化,用于解决偏好强度不确定性问题,通过引入自适应缩放参数增加了对奖励函数的灵活性。实验证明,该方法不仅提升了策略性能,还使奖励函数的选择更加贴合策略优化,简化了超参数调整过程。
Jun, 2024