通过错误的合成数据应用 RL 技术提高数理推理任务效率八倍

Jun, 2024

通过错误的合成数据应用 RL 技术提高数理推理任务效率八倍

RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold

Amrith Setlur, Saurabh Garg, Xinyang Geng, Naman Garg, Virginia Smith...

TL;DR通过经验研究，我们发现利用模型生成的合成数据进行训练可以提高数学推理的性能，但是通过添加负回答可以进一步增强效果，并去除其中的虚假相关性。

Abstract

training on model-generated synthetic data is a promising approach for finetuning LLMs, but it remains unclear when it helps or hurts. In this paper, we investigate this question for →

training model-generated synthetic data math reasoning positive data negative responses

发现论文，激发创造

大型语言模型学习数学推理的规模关系

探索大型语言模型中数学推理的挑战，研究预训练损失、监督数据量和增强数据量对监督型语言模型推理性能的影响，发现预训练损失是模型性能的更好指标，应用不同数量的监督数据和拒绝抽样微调来改善模型性能，发现增加数据量与模型性能呈对数线性关系，增加更多不同推理路径的数据样本能进一步改善语言模型的数学推理性能。

Aug, 2023

使用合成数据探索大型语言模型的数学外推

通过对高质量合成数据的微调，本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现，并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明，这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1，而且还在域外数据集上展现出一定的泛化能力，对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集，在这两个更难的任务上，经过微调的模型展示出令人鼓舞的表现，零样本一次通过率 @1 分别为 0.33 和 0.35。

Jun, 2024

从 LLMs 中提取复杂推理能力：利用负面数据提炼出来的金子

通过负面样本进行蒸馏以及在算术推理任务中证明负面数据在从 LLM 蒸馏中的作用。

Dec, 2023

揭示缺陷：探索合成数据的不完美和大型语言模型的缓解策略

合成数据被提出作为解决大型语言模型（LLMs）训练中高质量数据稀缺问题的方法。虽然有研究表明合成数据可以有效提高 LLMs 在下游基准测试中的性能，但分析显示合成数据存在固有缺陷。我们的工作针对广泛存在的问答对（Q-A pairs）合成数据中的这些缺陷，提出了一种基于取消学习技术的方法来减轻这些缺陷。实证结果表明我们的方法在较低成本下能够逆转由于模式过拟合导致的指令遵循问题，且不损害基准测试性能。我们的工作为合成数据的有效使用提供了关键见解，旨在促进更健壮和高效的 LLM 训练。

Jun, 2024

从人工针到真实大量数据集：通过在合成数据上进行微调来改进 LLMs 的检索能力

利用合成数据集对大型语言模型进行微调，显著提高了其在长上下文环境下的信息检索和推理能力。

Jun, 2024

超越模型崩溃：通过合成数据实现规模扩展需要加强

使用反馈增强合成数据可以防止模型崩溃，验证了常见的方法，如 RLHF。

Jun, 2024

DeepSeek-Prover: 通过大规模合成数据推进 LLMs 中的定理证明

基于大规模合成数据，使用 Lean 4 proof 数据生成方法，我们的模型在定理生成和解决题目方面取得了卓越的成果，证明了合成数据对提高 LLMs 中的定理证明能力的潜力。

May, 2024

MathScale: 数学推理的指令调优

提出了一种简单且可扩展的方法，使用最新的大型语言模型（如 GPT-3.5）来生成高质量的数学推理数据。通过从种子数学问题中提取主题和知识点，构建概念图，并生成新的数学问题，最终创建了一个包含 200 万个数学问题 - 答案对的数学推理数据集（MathScaleQA）。通过对开源大型语言模型（如 LLaMA-2 和 Mistral）进行 Fine-tuning，MathScale-7B 在 Math Word Problems 基准测试（MwpBench）上取得了最先进的性能。

Mar, 2024

从自采样的正确和部分正确的解中学习数学推理

本文提出使用预先训练的语言模型和部分正确的解决方案来解决数学推理问题的训练方法，并探索了各种训练目标对性能的影响。部分正确的解决方案有助于模型对解决方案空间进行更有效的探索。在两个数学推理数据集上的实验显示出方法的有效性。

May, 2022

超越答案所学：基于反思的数学推理语言模型训练

监督微调通过各种数学推理任务增强了语言模型的问题解决能力。我们的研究引入了一种新的技术 —— 反思增强，通过嵌入问题反思来培养更深入的问题理解，从而不仅提高在标准场景下的性能，还在需要反思性思考的复杂场景中发挥作用。

Jun, 2024