May, 2024

直觉微调:将 SFT 和 RLHF 统一为单一流程

TL;DRSupervised Fine-Tuning (SFT) 和 Reinforcement Learning from Human Feedback (RLHF) 是增强语言模型(LMs)能力的两个基本过程,它们可以更好地与人类偏好相一致,然而当前常见的做法是简单地按顺序应用它们,而没有统一它们的优化目标,导致在适应不同目标之间存在权衡,并忽视了用两者的长处弥合这个范式差距的机会。为了统一理解,我们在马尔可夫决策过程(MDP)框架中通过两个子过程 —— 偏好估计和转移优化来解释了 SFT 和 RLHF。通过这种建模方式,我们发现 SFT 只是 RLHF 的一个特殊情况,其估计和优化能力较差。因此,SFT 高估了模型的能力,导致优化效果不佳。基于这个观点,我们引入了直观微调(IFT)将 SFT 和 RLHF 集成为一个单一过程。IFT 通过一个时间残差连接捕捉 LMs 对整个答案的直观感知,同时使用与 SFT 相同数量的非偏好标记数据和一个单一策略。我们的实验证明,IFT 在几个任务上,特别是那些需要生成、推理和遵循事实能力的任务上,表现出与 SFT 和一些典型的对齐方法相当甚至更优的性能。一个可解释的 Frozen Lake 游戏进一步验证了 IFT 的有效性。