大型语言模型学习数学推理的规模关系

Aug, 2023

大型语言模型学习数学推理的规模关系

Scaling Relationship on Learning Mathematical Reasoning with Large Language Models

Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Chuanqi Tan...

TL;DR探索大型语言模型中数学推理的挑战，研究预训练损失、监督数据量和增强数据量对监督型语言模型推理性能的影响，发现预训练损失是模型性能的更好指标，应用不同数量的监督数据和拒绝抽样微调来改善模型性能，发现增加数据量与模型性能呈对数线性关系，增加更多不同推理路径的数据样本能进一步改善语言模型的数学推理性能。

Abstract

mathematical reasoning is a challenging task for large language models (LLMs), while the scaling relationship of it with respect to LLM capacity is under-explored. In this paper, we investigate how the

mathematical reasoning large language models pre-training loss supervised fine-tuning rejection sampling fine-tuning

发现论文，激发创造

大型语言模型的能力受监督微调数据组成的影响

通过研究大型语言模型在数据组成、数学推理、代码生成和精细调整策略等方面的能力，发现不同能力展现出不同的扩展模式，较大的模型在相同数据量下表现更好；数据组成在低数据量下会改善各种能力，而在高数据量下可能导致能力冲突；而我们提出的双阶段混合精细调整策略能够解决多个能力的学习问题。

Oct, 2023

ReFT: 强化微调推理

通过增强学习和在线增强学习的组合，提出了一种名为 ReFT 的简单而有效的方法来增强大型语言模型在推理中的泛化能力，以数学问题求解为例，通过学习多个标注的推理路径，显著提高了性能。

Jan, 2024

LLMs 数学推理中的数据能力边界的实证研究

通过识别推理路径的最佳集合来确定推理路径增强的能力边界，通过不同类型的数据的最佳集合的混合来累积增强模型的不同能力，以较低的建设成本实现 SOTA 性能，并提供用于鲁棒性测试和教育应用的自动问题生成器。

Feb, 2024

优化语言模型的推理能力的弱监督方法

利用自我强化机制提升大型语言模型（LLMs）的推理能力，并通过一个弱监督基准测试集 extsc {PuzzleBen}，含有 25,147 个复杂问题以及人工生成的解释，展示了利用较少的监督数据加强 LLMs 推理能力的有效方法。

May, 2024

MathScale: 数学推理的指令调优

提出了一种简单且可扩展的方法，使用最新的大型语言模型（如 GPT-3.5）来生成高质量的数学推理数据。通过从种子数学问题中提取主题和知识点，构建概念图，并生成新的数学问题，最终创建了一个包含 200 万个数学问题 - 答案对的数学推理数据集（MathScaleQA）。通过对开源大型语言模型（如 LLaMA-2 和 Mistral）进行 Fine-tuning，MathScale-7B 在 Math Word Problems 基准测试（MwpBench）上取得了最先进的性能。

Mar, 2024

自我完善指导调优用于对齐语言模型中的推理

我们提出了自我改进指导调整方法，通过引导较小语言模型进行自我改进，以实现对推理能力的进一步发展。此方法通过在大型语言模型提供示范的基础上，将推理能力从较大语言模型传输到较小语言模型，然后使用优化策略使得被指导的模型自我改进能力。在常识与数学推理任务上的结果表明，该方法在领域内外场景均显著优于指导调整方法，并使得较小语言模型与较大语言模型的推理能力逐渐趋于一致。

May, 2024

超越答案所学：基于反思的数学推理语言模型训练

监督微调通过各种数学推理任务增强了语言模型的问题解决能力。我们的研究引入了一种新的技术 —— 反思增强，通过嵌入问题反思来培养更深入的问题理解，从而不仅提高在标准场景下的性能，还在需要反思性思考的复杂场景中发挥作用。

Jun, 2024

LogicLLM: 探索基于自监督逻辑增强训练的大型语言模型

本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识，从而提高语言模型的逻辑推理能力，取得了比现有基线更好的效果。

May, 2023

使用合成数据探索大型语言模型的数学外推

通过对高质量合成数据的微调，本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现，并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明，这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1，而且还在域外数据集上展现出一定的泛化能力，对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集，在这两个更难的任务上，经过微调的模型展示出令人鼓舞的表现，零样本一次通过率 @1 分别为 0.33 和 0.35。

Jun, 2024

通过错误的合成数据应用 RL 技术提高数理推理任务效率八倍

通过经验研究，我们发现利用模型生成的合成数据进行训练可以提高数学推理的性能，但是通过添加负回答可以进一步增强效果，并去除其中的虚假相关性。

Jun, 2024