Apr, 2024

LLM 的偏好微调应利用次优的,符合策略的数据

TL;DR通过对 fine-tuning 技术的分析,我们发现使用 on-policy sampling 或负梯度的方法通常优于离线和最大似然目标,我们将这些方法统一归为对分类分布的寻找模式的目标方法,该方法能够更有效地在分类分布的不同区间进行概率分布的重新定位。我们的分析为 LLM 的 preference fine-tuning 提供了可操作性的见解,并指导了如何收集数据以实现最大改进。