离线人类反馈强化学习方法需要更精确的监督信号
强化学习从人的反馈中能够很好地对齐大型语言模型,但是获取高质量人类偏好标签是一个关键 bottleneck。我们进行了一项 RL from AI Feedback(RLAIF)与强化学习从人的反馈(RLHF)的头对头比较,发现它们具有相似的改进效果。在摘要任务中,人类评估员在约 70% 的案例中更喜欢 RLAIF 和 RLHF 生成的结果,而不是基准的监督微调模型。此外,当被要求对 RLAIF 和 RLHF 的摘要进行评分时,人类选择它们的比例相等。这些结果表明,RLAIF 可以取得与人类水平相当的性能,从而解决 RLHF 的可扩展性限制。
Sep, 2023
最近大型语言模型(LLMs)的最新进展,引起了广泛关注,并导致了成功产品,如ChatGPT和GPT-4。它们在遵循指导和提供无害、有益和诚实(3H)回答方面的熟练程度,主要归功于人类反馈强化学习(RLHF)技术。本文旨在将传统RL研究与LLM研究中使用的RL技术联系起来。通过讨论RL的优点,探索为RLHF研究带来或贡献的潜在未来方向。
Oct, 2023
用来自人类反馈的强化学习技术已经成为一个强大的工具,使得大型语言模型在复杂环境中更容易引导,更具能力。然而,由于奖励模型、策略模型和评估模型之间的不一致性,存在目标不匹配的问题。本文探讨了这个问题的原因,并回顾了相关的模型学习和强化学习文献。同时,讨论了激励解匹配之后的解决方案,以促进进一步的研究,从而使未来的语言模型更加准确地遵循用户的指令,提供更安全和有用的服务。
Oct, 2023
从数据和算法的角度出发,本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法,包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响,并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力,从而实现迭代优化。
Jan, 2024
基于人类反馈的强化学习(RLHF)是将大型语言模型(LLMs)与人类偏好相一致的关键所在。然而,依赖高质量的人类偏好数据却在RLHF的实际实施中构成了昂贵的瓶颈。因此,需要更好和适应性更强的数据收集策略。为此,我们将RLHF构建为一个具有提示作为上下文的偏好赌博问题,并证明了通过随机均匀选择提示来收集偏好数据的天真方式会导致策略在奖励上产生Ω(1)的次优性差距。然后,我们提出一种主动选择提示以收集偏好数据的算法( exttt{APO}),在Bradley-Terry-Luce(BTL)偏好模型下, exttt{APO}在不损害策略性能的情况下实现了样本效率。我们证明,在给定采样预算T的情况下,通过 exttt{APO}学得的策略的次优性差距的尺度为O(1/√T)。接下来,我们提出了一种计算高效的 exttt{APO}的批处理版本,并在实践中评估其性能。对于一个人类偏好数据集的实验评估验证了 exttt{APO}作为RLHF数据收集的具有样本效率和实用性的解决方案,以成本有效且可扩展的方式促进LLMs与人类偏好的一致性。
Feb, 2024
通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础,重点关注了奖励模型作为RLHF核心组件的建模选择、函数逼近的陷阱,以及它们对训练算法的影响,同时揭示了当前方法的局限性。通过对现有文献的分类评论,我们对RLHF的挑战进行了描述,为研究人员和从业者理解RLHF的挑战并建立在现有研究的基础上提供参考。
Apr, 2024
我们介绍了在线迭代强化学习(RLHF)的工作流程,通过构建偏好模型和使用监督微调和迭代RLHF,我们在大规模语言模型方面取得了令人印象深刻的性能,通过详细的实现指南,我们提供了一种易于复现的在线迭代RLHF方法。
May, 2024
人类反馈引导的强化学习对齐大型语言模型的主要研究领域之一,本文通过引入一种统一的在线和离线强化学习方法——以价值激励的偏好优化(VPO),实现了对奖励函数的不确定性估计,并在文本摘要和对话等任务上进行了实验证实其实用性和有效性。
May, 2024
本研究针对现有偏好数据集缺乏比较与测量的问题,提出了一套系统的评估标准,涵盖规模、标签噪声和信息内容三个视角。研究结果为数据中心化的强化学习人类反馈提供了初步的理论支持,促进了训练效率和迭代数据收集的提升。
Sep, 2024