Jul, 2024
弱到强的推理
Weak-to-Strong Reasoning
TL;DR通过渐进学习框架,本文提出了一种使强模型能够自主改进其训练数据的方法,该方法开始于对选择的小规模高质量数据集的有监督微调,然后通过强模型自身找到的对比样本进行偏好优化。在GSM8K和MATH数据集上的广泛实验表明,我们的方法显著提高了Llama2-70b的推理能力,使用了三个不同的弱模型。在具有挑战性的OlympicArena数据集上,通过Llama3-8b-instruct有效地监督Llama3-70b,进一步验证了该方法的有效性。这项工作为提升人工智能推理能力提供了一个更具伸缩性和复杂性的策略。