Oct, 2023

查询和响应增强不能帮助领域外数学推理泛化

TL;DR通过问题演化和多样化推理路径的数据增强,我们验证了用于大型语言模型(LLMs)的数学推理的有效性,并深入缩小开源 LLMs 与尖端专有 LLMs 之间的差距。我们创建了一个名为 AugGSM8K 的新数据集,并使用 AugGSM8K 的子集对 MuggleMath 进行微调,实现了 GSM8K 的新的最先进水平(从 7B 规模下的 54% 到 68.4%,从 13B 规模下的 63.9% 到 74.0%)。我们也发现 MuggleMath 在 MATH 的领域外数学推理泛化方面存在困难,这归因于 AugGSM8K 和 MATH 之间问题分布的差异,暗示在单一基准上的增强无助于整体数学推理性能。