Jun, 2024

基于步骤误差控制的 DPO:利用逐步误差提升数学推理

TL;DR提出了一种名为 Step-Controlled DPO (SCDPO) 的方法,在大型语言模型 (LLM) 上应用全自动逐步错误监督,从而改善其在推理和对齐等下游任务上的性能。以此方法应用于数学解决方案,通过在 DPO 训练中采用负样本,SCDPO 能够更好地调整模型以理解推理错误并输出准确的推理步骤。该方法在不同的 SFT 模型上得到了改进,并展示了其在识别数学解决方案错误方面的有效性。最终应用 SCDPO 于一个 InternLM2-20B 模型,取得了 88.5% 的 GSM8K 得分和 58.1% 的 MATH 得分,与所有其他开源 LLM 相媲美,展示了这一方法的巨大潜力。