从自采样的正确和部分正确的解中学习数学推理
在推理任务中,我们发展了一种避免使用外部资源的训练方法,通过对输入引入扰动,特别针对推理任务我们发现随机屏蔽思考链中的某些标记是特别有效的。当应用于使用 GSM8K 进行微调时,此方法相比于标准的有监督微调在准确性方面提高了 5%,无需额外的标记工作。此外,它与现有方法相辅相成,当与相关的数据增强方法整合时,它在五个不同质量和大小的数据集以及两个基本模型上分别提高了 3% 和 1% 的准确性。我们通过案例研究和定量分析进一步研究了这种改进的机制,这表明我们的方法可能在捕获长距离依赖性方面为模型提供更好的支持,特别是与问题相关的依赖性。这种增强可以加深对问题前提和先前步骤的理解。我们的代码在 Github 上可用。
Mar, 2024
在小型语言模型上进行自我纠正训练以提高推理能力,通过使用正确解决方案引导模型对不正确的回答进行批判,并使用生成的批评经过筛选后进行自我纠正理由的监督微调,实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升,与 GPT-4 基于验证器的强配对时取得了显著的性能提升,但使用弱自验证器来确定何时进行更正存在一定的限制。
Apr, 2024
通过自主探索(Self-Explore)的方法,研究自动增强规划模型(LLMs)的推理能力,并与监督式微调相比,在 GSM8K 和 MATH 测试集上分别平均取得 11.57%和 2.89%的改进。
Apr, 2024
尽管大型语言模型在许多自然语言任务中取得了成功,但解决数学问题仍然是一个巨大的挑战。本研究通过使用 MATH 数据集,探索了三种微调策略,即解决方案微调、解决方案聚类重新排序和多任务顺序微调,并发现这些方法可以显著提高模型的性能。
Oct, 2023
探索大型语言模型中数学推理的挑战,研究预训练损失、监督数据量和增强数据量对监督型语言模型推理性能的影响,发现预训练损失是模型性能的更好指标,应用不同数量的监督数据和拒绝抽样微调来改善模型性能,发现增加数据量与模型性能呈对数线性关系,增加更多不同推理路径的数据样本能进一步改善语言模型的数学推理性能。
Aug, 2023
提出了一种新的推理感知预训练方法,使用对比学习将另一种数字表示形式纳入预训练模型,通过基于推理的数字预测任务训练来提高其数值推理能力,实验结果表明该方法在需要数值推理的任务上能够提高准确性,并且人类评估显示该方法能够提高数据集上的事实正确性。
May, 2022
通过建立自我激励学习框架,根据正确性的内在排序,依据奖励模型训练并通过强化学习优化推理能力,本研究的实验证据表明其方法显著提升了模型的推理能力,在部分数据集中甚至超过了 text-davinci-002 模型。
Apr, 2024
介绍一个 8.5K 高质量的语言多样的小学数学问题数据集 GSM8K,表明即便是最大的变压器模型仍然无法在多步数学推理方面实现高的测试性能,提出使用 verifiers 验证模型的正确性并通过排名选择最优解来提高性能。
Oct, 2021
利用 Learning from Mistakes(LeMa)方法,本研究利用大型语言模型(LLMs)对数学问题的解决能力进行改进,仿照人类学习过程中的错误驱动学习机制,通过与 GPT-4 生成的错误更正数据对进行微调,实验证明 LeMa 提升了性能,在 5 个 LLMs 和 2 个数学推理任务中持续改善性能,并在特定 LLMs(如 WizardMath 和 MetaMath)上表现出色,在具有挑战性的任务上超越了开源模型的性能。
Oct, 2023
通过混合策略探索,我们提出一种用强化学习解决数学问题的方法,在解决数学问题的过程中,我们通过在两个层次上进行探索来预测下一个令牌,并在 GPT-2 模型上取得了超过 2% 的性能提升。
Jul, 2023