ACLJun, 2024

使用合成数据探索大型语言模型的数学外推

TL;DR通过对高质量合成数据的微调,本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现,并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明,这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1,而且还在域外数据集上展现出一定的泛化能力,对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集,在这两个更难的任务上,经过微调的模型展示出令人鼓舞的表现,零样本一次通过率 @1 分别为 0.33 和 0.35。