Jun, 2024

Step-DPO:Step-wise 偏好优化长链推理的 LLMs

TL;DR我们提出了一种名为 Step-DPO 的简单、有效和数据高效的方法,它将每个推理步骤作为单位进行优化,而不是对答案进行整体评估。通过构建 Step-DPO 的数据集,我们观察到自动生成的数据比人类或 GPT-4 生成的数据更有效,我们的发现表明,只需 10K 个偏好数据对和少于 500 个 Step-DPO 训练步骤,即可使具有超过 70B 参数的模型在 MATH 方面的准确性提高近 3%。值得注意的是,将 Step-DPO 应用于 Qwen2-72B-Instruct 时,在 MATH 和 GSM8K 的测试集上分别达到 70.8% 和 94.0% 的分数,超过了一系列闭源模型,包括 GPT-4-1106、Claude-3-Opus 和 Gemini-1.5-Pro。