Jun, 2024

训练代码大型语言模型时,揭示监督微调和强化学习之间的相关性

TL;DR通过综合消融研究,我们发现:(1)原子函数和合成函数对于 SFT 的泛化至关重要,仅少量合成函数即可;(2)通过 RL,即使使用相同的训练提示,可以极大增强 SFT 对目标领域的泛化能力;(3)从头开始训练 RL 可以减轻 SFT 阶段引入的过拟合问题。