从自采样的正确和部分正确的解中学习数学推理

ICLRMay, 2022

从自采样的正确和部分正确的解中学习数学推理

Learning Math Reasoning from Self-Sampled Correct and Partially-Correct Solutions

Ansong Ni, Jeevana Priya Inala, Chenglong Wang, Oleksandr Polozov, Christopher Meek...

TL;DR本文提出使用预先训练的语言模型和部分正确的解决方案来解决数学推理问题的训练方法，并探索了各种训练目标对性能的影响。部分正确的解决方案有助于模型对解决方案空间进行更有效的探索。在两个数学推理数据集上的实验显示出方法的有效性。

Abstract

pretrained language models have shown superior performance on many natural language processing tasks, yet they still struggle at multi-step formal reasoning tasks like grade school math problems. One key challenge of finetuning them to solve such →

pretrained language models formal reasoning tasks math reasoning problems partially-correct solutions training objectives

发现论文，激发创造

掩盖思路：简单地掩盖部分推理步骤可以提高语言模型对数学推理的学习能力

在推理任务中，我们发展了一种避免使用外部资源的训练方法，通过对输入引入扰动，特别针对推理任务我们发现随机屏蔽思考链中的某些标记是特别有效的。当应用于使用 GSM8K 进行微调时，此方法相比于标准的有监督微调在准确性方面提高了 5%，无需额外的标记工作。此外，它与现有方法相辅相成，当与相关的数据增强方法整合时，它在五个不同质量和大小的数据集以及两个基本模型上分别提高了 3% 和 1% 的准确性。我们通过案例研究和定量分析进一步研究了这种改进的机制，这表明我们的方法可能在捕获长距离依赖性方面为模型提供更好的支持，特别是与问题相关的依赖性。这种增强可以加深对问题前提和先前步骤的理解。我们的代码在 Github 上可用。

Mar, 2024

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与 GPT-4 基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024

自主探索避免陷阱：以细粒度奖励提升语言模型的推理能力

通过自主探索（Self-Explore）的方法，研究自动增强规划模型（LLMs）的推理能力，并与监督式微调相比，在 GSM8K 和 MATH 测试集上分别平均取得 11.57％和 2.89％的改进。

Apr, 2024

优化大规模语言模型微调以解决数学问题

尽管大型语言模型在许多自然语言任务中取得了成功，但解决数学问题仍然是一个巨大的挑战。本研究通过使用 MATH 数据集，探索了三种微调策略，即解决方案微调、解决方案聚类重新排序和多任务顺序微调，并发现这些方法可以显著提高模型的性能。

Oct, 2023

大型语言模型学习数学推理的规模关系

探索大型语言模型中数学推理的挑战，研究预训练损失、监督数据量和增强数据量对监督型语言模型推理性能的影响，发现预训练损失是模型性能的更好指标，应用不同数量的监督数据和拒绝抽样微调来改善模型性能，发现增加数据量与模型性能呈对数线性关系，增加更多不同推理路径的数据样本能进一步改善语言模型的数学推理性能。

Aug, 2023

提高预训练语言模型的数值推理能力

提出了一种新的推理感知预训练方法，使用对比学习将另一种数字表示形式纳入预训练模型，通过基于推理的数字预测任务训练来提高其数值推理能力，实验结果表明该方法在需要数值推理的任务上能够提高准确性，并且人类评估显示该方法能够提高数据集上的事实正确性。

May, 2022

通过自发学习提升语言模型推理能力

通过建立自我激励学习框架，根据正确性的内在排序，依据奖励模型训练并通过强化学习优化推理能力，本研究的实验证据表明其方法显著提升了模型的推理能力，在部分数据集中甚至超过了 text-davinci-002 模型。

Apr, 2024

训练验证程序员解决数学应用题

介绍一个 8.5K 高质量的语言多样的小学数学问题数据集 GSM8K，表明即便是最大的变压器模型仍然无法在多步数学推理方面实现高的测试性能，提出使用 verifiers 验证模型的正确性并通过排名选择最优解来提高性能。

Oct, 2021

从错误中学习使 LLM 成为更好的推理者

利用 Learning from Mistakes（LeMa）方法，本研究利用大型语言模型（LLMs）对数学问题的解决能力进行改进，仿照人类学习过程中的错误驱动学习机制，通过与 GPT-4 生成的错误更正数据对进行微调，实验证明 LeMa 提升了性能，在 5 个 LLMs 和 2 个数学推理任务中持续改善性能，并在特定 LLMs（如 WizardMath 和 MetaMath）上表现出色，在具有挑战性的任务上超越了开源模型的性能。

Oct, 2023

提高语言模型在数学问题上性能的混合策略

通过混合策略探索，我们提出一种用强化学习解决数学问题的方法，在解决数学问题的过程中，我们通过在两个层次上进行探索来预测下一个令牌，并在 GPT-2 模型上取得了超过 2% 的性能提升。

Jul, 2023