超越答案所学：基于反思的数学推理语言模型训练

Jun, 2024

超越答案所学：基于反思的数学推理语言模型训练

Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning

Zhihan Zhang, Zhenwen Liang, Wenhao Yu, Dian Yu, Mengzhao Jia...

TL;DR监督微调通过各种数学推理任务增强了语言模型的问题解决能力。我们的研究引入了一种新的技术 —— 反思增强，通过嵌入问题反思来培养更深入的问题理解，从而不仅提高在标准场景下的性能，还在需要反思性思考的复杂场景中发挥作用。

Abstract

supervised fine-tuning enhances the problem-solving abilities of language models across various mathematical reasoning tasks. To maximize such benefits, existing research focuses on broadening the training set wi

supervised fine-tuning mathematical reasoning tasks data augmentation techniques reflective augmentation reflective reasoning

发现论文，激发创造

通过多角度微调提高数学推理的泛化能力

本文提出了一种新的数学推理多视角微调方法，能够在避免过度依赖大型模型的情况下，提高小型语言模型的性能，并且能够灵活地学习不同的注释格式以及在不同数据集上实现良好的泛化能力和学习能力。

Jul, 2023

大型语言模型学习数学推理的规模关系

探索大型语言模型中数学推理的挑战，研究预训练损失、监督数据量和增强数据量对监督型语言模型推理性能的影响，发现预训练损失是模型性能的更好指标，应用不同数量的监督数据和拒绝抽样微调来改善模型性能，发现增加数据量与模型性能呈对数线性关系，增加更多不同推理路径的数据样本能进一步改善语言模型的数学推理性能。

Aug, 2023

更好的多语言推理的问题翻译训练

通过问题对齐，我们训练模型将推理问题翻译成英文，以利用英文指导数据，提高大型语言模型在多语言推理任务上的性能。

Jan, 2024

当回顾不再是 20/20：大型语言模型反思思维的测试限制

最近的研究表明，自我反思的提示可以显著提高大型语言模型（LLMs）的推理能力。然而，使用外部反馈作为停止标准对 LLMs 模拟人类自我反思的真正能力提出了疑问。本文旨在在一种更严格的评估环境中澄清这些能力，在该环境中禁止任何形式的外部反馈。我们在这种设定下的研究结果显示出分歧：自我反思在 TruthfulQA 中提高了性能，但对 HotpotQA 的结果产生了不利影响。我们进行了后续分析，以阐明这些模式中的影响因素，并发现自我反思的影响受到模型初始响应的准确性和整体问题难度的影响：具体而言，在模型初始答案不太可能正确和整体问题难度较高时，自我反思显示出最大的益处。我们还发现，自我反思降低了多数投票的趋势。基于我们的发现，我们提出了关于何时实施自我反思的决策指南。我们在此 https URL 发布了复现我们实验的代码库。

Apr, 2024

反射增强的自我训练语言代理

Reflection-Reinforced Self-Training (Re-ReST) leverages a reflection model to refine low-quality samples and augment self-training, enhancing the quality of samples efficiently.

Jun, 2024

DUAL-REFLECT：通过双向学习反馈机制增强大型语言模型的反思翻译能力

利用双向学习的自我反思框架来提高翻译任务、增强模型的自我反思能力并改进翻译表现，特别适用于低资源语言对的翻译任务，大大提高了翻译准确性和消除了歧义。

Jun, 2024

脑启发的两阶段方法：模拟人类思维过程增强数学推理

提出了一种名为 Brain 的新方法，通过模仿人类思维过程来增强数学推理能力，在生成规划时使用额叶模型，然后利用顶叶模型生成代码并执行以获得答案，在数学推理任务中取得了最先进的性能，并发现可以明确从自然语言、代码或正式语言中提取规划。

Feb, 2024

掩盖思路：简单地掩盖部分推理步骤可以提高语言模型对数学推理的学习能力

在推理任务中，我们发展了一种避免使用外部资源的训练方法，通过对输入引入扰动，特别针对推理任务我们发现随机屏蔽思考链中的某些标记是特别有效的。当应用于使用 GSM8K 进行微调时，此方法相比于标准的有监督微调在准确性方面提高了 5%，无需额外的标记工作。此外，它与现有方法相辅相成，当与相关的数据增强方法整合时，它在五个不同质量和大小的数据集以及两个基本模型上分别提高了 3% 和 1% 的准确性。我们通过案例研究和定量分析进一步研究了这种改进的机制，这表明我们的方法可能在捕获长距离依赖性方面为模型提供更好的支持，特别是与问题相关的依赖性。这种增强可以加深对问题前提和先前步骤的理解。我们的代码在 Github 上可用。

Mar, 2024

ReFT: 强化微调推理

通过增强学习和在线增强学习的组合，提出了一种名为 ReFT 的简单而有效的方法来增强大型语言模型在推理中的泛化能力，以数学问题求解为例，通过学习多个标注的推理路径，显著提高了性能。

Jan, 2024

自我完善指导调优用于对齐语言模型中的推理

我们提出了自我改进指导调整方法，通过引导较小语言模型进行自我改进，以实现对推理能力的进一步发展。此方法通过在大型语言模型提供示范的基础上，将推理能力从较大语言模型传输到较小语言模型，然后使用优化策略使得被指导的模型自我改进能力。在常识与数学推理任务上的结果表明，该方法在领域内外场景均显著优于指导调整方法，并使得较小语言模型与较大语言模型的推理能力逐渐趋于一致。

May, 2024