使用生成对抗反馈来微调语言模型
强化学习从人的反馈中能够很好地对齐大型语言模型,但是获取高质量人类偏好标签是一个关键 bottleneck。我们进行了一项 RL from AI Feedback(RLAIF)与强化学习从人的反馈(RLHF)的头对头比较,发现它们具有相似的改进效果。在摘要任务中,人类评估员在约 70% 的案例中更喜欢 RLAIF 和 RLHF 生成的结果,而不是基准的监督微调模型。此外,当被要求对 RLAIF 和 RLHF 的摘要进行评分时,人类选择它们的比例相等。这些结果表明,RLAIF 可以取得与人类水平相当的性能,从而解决 RLHF 的可扩展性限制。
Sep, 2023
通过模型中人类反馈的学习,改进大型语言模型(LLMs)的输出与人类期望的一致性,利用人类反馈信号中以响应对的排名形式的强化学习,研究使用自然语言反馈模型的数据效率,通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进,提高了模型的响应质量。
Nov, 2023
通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础,重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱,以及它们对训练算法的影响,同时揭示了当前方法的局限性。通过对现有文献的分类评论,我们对 RLHF 的挑战进行了描述,为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。
Apr, 2024
强化学习来自人类反馈是一种训练 AI 系统与人类目标对齐的技术,但其自身存在的问题、局限性以及相关改进技术的概述,以及提出用于改善社会监督的审计和公开标准的重要性。
Jul, 2023
ChatGLM-RLHF 是一种从人类反馈中进行强化学习的系统,通过收集人类偏好数据、训练奖励模型和优化策略等方式,解决了与人类偏好的对齐问题,在大规模训练中稳定奖励方差、实现模型并行性并设计正则化约束以避免灾难性遗忘,通过实验证明在中文对齐任务中与 ChatGLM-SFT 相比,ChatGLM-RLHF 取得了平均 15% 的更多胜利,本研究实践了利用人类偏好与语言模型对齐的方法,并提供了 RLHF 实现中的挑战与解决方案的见解。
Apr, 2024
本文介绍了 Fine-Grained RLHF 框架,可以对包含一定程度错误或无效信息的长文本提供细化的人类反馈进行训练,并实验表明使用该框架能够改善语言模型生成过程中生成虚假、有毒、无关的输出等问题。
Jun, 2023
通过利用细致的反馈基于详细准则来改进 LLMs 的核心能力,我们提出了一种新颖的框架:反思性反馈强化学习。RLRF 采用自我反思机制来系统地探索和改进 LLM 的回答,并通过与有希望的回答一起使用 RL 算法来微调模型。我们在 Just-Eval、Factuality 和数学推理方面的实验证明了 RLRF 在超越表面层调整方面的功效和变革潜力。
Mar, 2024
强化学习与 AI 反馈(RLAIF)是改进强大的预训练语言模型的指令遵循能力的流行范式。我们提出了一个问题,即对于 AI 反馈来说,这个 RL 步骤的复杂性是否真的有必要。我们发现,RL 步骤的改进主要归因于使用比用于 AI 反馈生成的评论者模型较弱的教师模型进行 SFT 数据收集的普遍做法。此外,我们发现 RLAIF 的收益在基础模型系列、测试时评估协议和评论者模型之间存在显著差异。最后,我们针对何时 SFT 可能优于完整的两步 RLAIF 流程以及如何使 RLAIF 在实践中最大化使用提供了一个机制解释和建议。
Feb, 2024