SteerLM: 属性调节的 SFT 作为 (用户可操控的) 替代 RLHF
Supervised Fine-Tuning (SFT) 和 Reinforcement Learning from Human Feedback (RLHF) 是增强语言模型(LMs)能力的两个基本过程,它们可以更好地与人类偏好相一致,然而当前常见的做法是简单地按顺序应用它们,而没有统一它们的优化目标,导致在适应不同目标之间存在权衡,并忽视了用两者的长处弥合这个范式差距的机会。为了统一理解,我们在马尔可夫决策过程(MDP)框架中通过两个子过程 —— 偏好估计和转移优化来解释了 SFT 和 RLHF。通过这种建模方式,我们发现 SFT 只是 RLHF 的一个特殊情况,其估计和优化能力较差。因此,SFT 高估了模型的能力,导致优化效果不佳。基于这个观点,我们引入了直观微调(IFT)将 SFT 和 RLHF 集成为一个单一过程。IFT 通过一个时间残差连接捕捉 LMs 对整个答案的直观感知,同时使用与 SFT 相同数量的非偏好标记数据和一个单一策略。我们的实验证明,IFT 在几个任务上,特别是那些需要生成、推理和遵循事实能力的任务上,表现出与 SFT 和一些典型的对齐方法相当甚至更优的性能。一个可解释的 Frozen Lake 游戏进一步验证了 IFT 的有效性。
May, 2024
对齐人类偏好和价值是当代基础模型的重要需求。本研究提出了一种基于逆强化学习的监督微调方法,通过学习奖励模型来代替直接使用人类示范数据,并且在整个对齐过程中从始至终地利用奖励学习,取得了显著的性能提升。
May, 2024
基于大型语言模型对齐的一种新方法 SuperHF,旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF 结合了 Supervised Fine-Tuning 和 Reinforcement Learning from Human Feedback 的优点,并通过替换 PPO 算法和引入 KL divergence 先验,提出了一种新的训练方法。实验结果表明,SuperHF 在训练目标、奖励优化和模型性能等方面表现优于基于 PPO 的 RLHF,具有竞争力的语言模型对齐技术。
Oct, 2023
该研究提出了一种名为 SALMON 的新方法,使用仅包含少量人定的原则和基于合成偏好数据训练的奖励模型,实现了对基础语言模型的自动对齐,通过调整原则控制奖励模型的偏好,进而影响强化学习训练的策略的行为,消除了对在线人类偏好收集的依赖,其在各种基准数据集上显著超越了几种最先进的人工智能系统,包括 LLaMA-2-Chat-70b,提高了监督效率、可控性和可扩展性。
Oct, 2023
RRHF 是一种新的学习范式,通过排名损失函数对生成的回答进行评分,从而能够有效地将语言模型输出与人类偏好对齐,而且只需要 1 到 2 个模型进行调整,效果与微调相当。
Apr, 2023
研究发现在大型语言模型的发展中,通过认同与人类价值观的算法对模型进行对齐的性能虽有所改善,但对模型的可信度提升并未经过彻底的测试。通过对五个可信度垂直方面进行实证研究,发现在偏好数据、对齐算法和特定可信度方面之间存在复杂的相互作用。因此,需要更加微妙的方法对模型进行对齐,以期望引导研究社区开发既能胜任任务又值得信赖的语言模型。
Apr, 2024
通过使用强化学习和直接偏好头的 fine-tuning 框架,将预训练语言模型与人类偏好信号相结合,实现对模型输出的控制,并在各项评估中超越传统的有监督和直接偏好优化方法。
May, 2024
通过采用无害的来自人类反馈的强化学习方法,我们绕过了监督微调,直接应用于 Mistral,从而创建了 Mistral-Plus,它不仅保留了基础模型的通用能力,还显著增强了其对话能力,并大幅减少了有毒输出的生成。
Mar, 2024
我们提出了一种名为 FIGA 的改进对齐方法,通过利用细粒度的质量信号,即对比好坏回答的方式,指导大型语言模型的对齐学习。实验证明了我们的方法的有效性。
Nov, 2023