RAFT: 用于生成式基础模型对齐的奖励排序微调方法
研究探讨了使用生成对抗反馈的强化学习(RLGAF)方法,以弥补人类评估者的专业知识和生产力限制并帮助对齐大型语言模型(LLMs)的输出,从而为进一步实现 AI 对准提供了前景。
May, 2023
在这篇论文中,我们提出了一种名为检索增强微调 (RAFT) 的训练方法,它能够提高模型在领域内回答问题的能力,并处理无关文档干扰,从而提升大规模语言模型的性能。
Mar, 2024
大型语言模型(LLMs)可以通过人类喜好的对齐显著提高,即所谓的来自人类反馈的强化学习(RLHF)。然而,对于许多用户而言,微调 LLM 的成本是不可接受的。最近提出的逐标记奖励引导的文本生成(RGTG)方法可绕过 LLM 微调,它们使用在完整序列上训练的奖励模型来评分在标记级解码期间的部分序列,以引导生成高奖励序列。然而,这些方法迄今为止仅仅是启发式的动机和贫乏的分析。在这项工作中,我们展示了在全序列上训练的奖励模型与评分部分序列不兼容。为缓解这个问题,我们建议明确地在部分序列上训练 Bradley-Terry 奖励模型,并且在解码时从隐含的标记级策略中自回归采样。我们研究了这个奖励模型和隐含策略的性质。特别地,我们展示了这个策略与两个不同的 RLHF 策略之比成正比。我们展示了我们简单的方法优于之前的 RGTG 方法,并且在没有大规模 LLM 微调的情况下实现了与强大的线下基准的类似性能。
Jun, 2024
通过整合自评和倒带机制,本研究发现未对齐的大型语言模型(LLMs)可以通过自我增强直接生成与人类偏好一致的回答。引入一种新的推理方法 Rewindable Auto-regressive INference(RAIN),允许预训练的 LLMs 评估自身生成,并利用评估结果对维护 AI 安全进行倒带回溯和前向生成,无需额外数据进行模型对齐,也无需训练、渐变计算或参数更新。实验证明 RAIN 的有效性,改善了 LLaMA 30B 模型的无害率,同时在对抗性攻击下降低了攻击成功率。
Sep, 2023
该研究提出了一种名为 SALMON 的新方法,使用仅包含少量人定的原则和基于合成偏好数据训练的奖励模型,实现了对基础语言模型的自动对齐,通过调整原则控制奖励模型的偏好,进而影响强化学习训练的策略的行为,消除了对在线人类偏好收集的依赖,其在各种基准数据集上显著超越了几种最先进的人工智能系统,包括 LLaMA-2-Chat-70b,提高了监督效率、可控性和可扩展性。
Oct, 2023
通过直接奖励微调方法(DRaFT)对扩散模型进行微调,以最大化可微分奖励函数,实现了强化学习方法无法超越的强大性能,通过在采样过程中反向传播奖励梯度,并且提出了更高效的 DRaFT 变体:DRaFT-K 和 DRaFT-LV。同时,通过与之前的工作进行对比,为基于梯度微调算法的设计空间提供了一个统一的视角。
Sep, 2023
通过将来自人类反馈的强化学习应用于语言模型,本研究综合探索和比较不同技术,通过引入奖励模型提高机器翻译的质量,并发现有效的数据过滤和结合奖励模型与排名技术能显著提高翻译质量。
Nov, 2023
从数据和算法的角度出发,本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法,包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响,并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力,从而实现迭代优化。
Jan, 2024
基于大型语言模型的基石模型,通过人类反馈的强化学习训练来捕捉期望的行为,并通过奖励模型对语言模型进行校准。然而,很少有研究评估这些奖励模型对分布偏移的鲁棒性,本研究评估了奖励模型性能与分布偏移的关系,并展示了由于异常输入导致的校准和准确率下降问题,并提出了在奖励模型中检测分布偏移的方法。
Nov, 2023
本文介绍了 Fine-Grained RLHF 框架,可以对包含一定程度错误或无效信息的长文本提供细化的人类反馈进行训练,并实验表明使用该框架能够改善语言模型生成过程中生成虚假、有毒、无关的输出等问题。
Jun, 2023