掩盖思路：简单地掩盖部分推理步骤可以提高语言模型对数学推理的学习能力

Mar, 2024

掩盖思路：简单地掩盖部分推理步骤可以提高语言模型对数学推理的学习能力

Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models

Changyu Chen, Xiting Wang, Ting-En Lin, Ang Lv, Yuchuan Wu...

TL;DR在推理任务中，我们发展了一种避免使用外部资源的训练方法，通过对输入引入扰动，特别针对推理任务我们发现随机屏蔽思考链中的某些标记是特别有效的。当应用于使用 GSM8K 进行微调时，此方法相比于标准的有监督微调在准确性方面提高了 5%，无需额外的标记工作。此外，它与现有方法相辅相成，当与相关的数据增强方法整合时，它在五个不同质量和大小的数据集以及两个基本模型上分别提高了 3% 和 1% 的准确性。我们通过案例研究和定量分析进一步研究了这种改进的机制，这表明我们的方法可能在捕获长距离依赖性方面为模型提供更好的支持，特别是与问题相关的依赖性。这种增强可以加深对问题前提和先前步骤的理解。我们的代码在 Github 上可用。

Abstract

In reasoning tasks, even a minor error can cascade into inaccurate results, leading to suboptimal performance of large language models in such domains. Earlier fine-tuning approaches sought to mitigate this by le

reasoning tasks fine-tuning perturbations gsm8k data augmentation

发现论文，激发创造

Train No Evil: 面向任务导向的有选择掩码预训练

本文提出了一种三阶段的预训练模型，通过加入任务引导的预训练阶段和选择性掩蔽来学习特定领域和任务模式，实验结果表明，该模型在情感分析任务中可以达到与更少计算成本相当甚至更好的性能。

Apr, 2020

从自采样的正确和部分正确的解中学习数学推理

本文提出使用预先训练的语言模型和部分正确的解决方案来解决数学推理问题的训练方法，并探索了各种训练目标对性能的影响。部分正确的解决方案有助于模型对解决方案空间进行更有效的探索。在两个数学推理数据集上的实验显示出方法的有效性。

May, 2022

查询和响应增强不能帮助领域外数学推理泛化

通过问题演化和多样化推理路径的数据增强，我们验证了用于大型语言模型（LLMs）的数学推理的有效性，并深入缩小开源 LLMs 与尖端专有 LLMs 之间的差距。我们创建了一个名为 AugGSM8K 的新数据集，并使用 AugGSM8K 的子集对 MuggleMath 进行微调，实现了 GSM8K 的新的最先进水平（从 7B 规模下的 54% 到 68.4%，从 13B 规模下的 63.9% 到 74.0%）。我们也发现 MuggleMath 在 MATH 的领域外数学推理泛化方面存在困难，这归因于 AugGSM8K 和 MATH 之间问题分布的差异，暗示在单一基准上的增强无助于整体数学推理性能。

Oct, 2023

教授小型语言模型推理

本文探讨通过知识蒸馏将大型语言模型的推理能力迁移至小于 1000 亿参数的模型，实现任务的表现提升，对算术、常识和符号推理数据集效果显著，例如在 PaLM-540B 生成的思考链上进行微调后，T5 XXL 在 GSM8K 的准确率从 8.11％提高至 21.99％。

Dec, 2022

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过 fine-tuning 在多个任务上达到了 SOTA 水平。

Oct, 2022

自主探索避免陷阱：以细粒度奖励提升语言模型的推理能力

通过自主探索（Self-Explore）的方法，研究自动增强规划模型（LLMs）的推理能力，并与监督式微调相比，在 GSM8K 和 MATH 测试集上分别平均取得 11.57％和 2.89％的改进。

Apr, 2024

超越答案所学：基于反思的数学推理语言模型训练

监督微调通过各种数学推理任务增强了语言模型的问题解决能力。我们的研究引入了一种新的技术 —— 反思增强，通过嵌入问题反思来培养更深入的问题理解，从而不仅提高在标准场景下的性能，还在需要反思性思考的复杂场景中发挥作用。

Jun, 2024

用计划标记引导语言模型推理

最近大型语言模型（LLMs）因其执行复杂的推理任务的能力而引起了相当大的关注，但是大部分现有的增强这种能力的方法都过于依赖数据驱动的方法，而忽视了模型推理能力的结构方面。在我们的研究中，我们发现 LLMs 能够很好地处理个别的推理步骤，却在整个推理链上保持一致性方面遇到困难。为了解决这个问题，我们在每个推理步骤的开始引入了 “规划标记”，作为模型的指南。然后，这些标记嵌入与模型的其余参数一起进行微调。我们的方法所需的可训练参数增加微不足道（仅占总参数的 0.001%），可以通过完全微调或更加参数高效的方案来实施。我们通过将其应用于三种不同的 LLMs，并对三个数学问题数据集进行了评估，展示了我们方法的有效性，相对于原始的链式思维微调基准，取得了显著的准确性提升。

Oct, 2023

通过多角度微调提高数学推理的泛化能力

本文提出了一种新的数学推理多视角微调方法，能够在避免过度依赖大型模型的情况下，提高小型语言模型的性能，并且能够灵活地学习不同的注释格式以及在不同数据集上实现良好的泛化能力和学习能力。

Jul, 2023

利用语用掩蔽和替代微调改进社会意义检测

提出 pragmatic masking 和 surrogate fine-tuning 作为两种补充策略，利用社交线索指导预训练的表示，使其朝向一组广泛有用的概念，这些概念适用于各种社交意义任务。该方法在 $15$ 个不同的 Twitter 数据集上进行测试，证明了其在社交含义检测方面的有效性，且在少样本学习方面表现出色。方法还语言无关，在零样本情况下也能够有效。

Aug, 2021