Oct, 2023

理解 RLHF 对 LLM 泛化和多样性的影响

TL;DR利用强化学习从人类反馈中对大型语言模型(LLMs)进行微调,该方法已在一些最广泛使用的人工智能模型中得到应用,如 OpenAI 的 ChatGPT、Anthropic 的 Claude 或 Meta 的 LLaMA-2。我们通过广泛的分析探讨了这个过程的每个阶段(即受监督的微调(SFT)、奖励建模和强化学习从人类反馈)对于两个关键属性的影响:越界分布的泛化和输出的多样性。我们发现,相对于受监督的微调,强化学习从人类反馈更好地泛化到新的输入,尤其是在训练和测试之间的分布差异越大时。然而,相比于受监督的微调,强化学习从人类反馈显著降低了输出的多样性,这意味着在当前 LLM 微调方法中存在泛化和多样性之间的权衡。我们的研究结果为特定应用提供了微调方法的指导,并表明有必要改进泛化和多样性之间的权衡。