Mar, 2024

掩盖思路:简单地掩盖部分推理步骤可以提高语言模型对数学推理的学习能力

TL;DR在推理任务中,我们发展了一种避免使用外部资源的训练方法,通过对输入引入扰动,特别针对推理任务我们发现随机屏蔽思考链中的某些标记是特别有效的。当应用于使用 GSM8K 进行微调时,此方法相比于标准的有监督微调在准确性方面提高了 5%,无需额外的标记工作。此外,它与现有方法相辅相成,当与相关的数据增强方法整合时,它在五个不同质量和大小的数据集以及两个基本模型上分别提高了 3% 和 1% 的准确性。我们通过案例研究和定量分析进一步研究了这种改进的机制,这表明我们的方法可能在捕获长距离依赖性方面为模型提供更好的支持,特别是与问题相关的依赖性。这种增强可以加深对问题前提和先前步骤的理解。我们的代码在 Github 上可用。