通过错误的合成数据应用 RL 技术提高数理推理任务效率八倍
探索大型语言模型中数学推理的挑战,研究预训练损失、监督数据量和增强数据量对监督型语言模型推理性能的影响,发现预训练损失是模型性能的更好指标,应用不同数量的监督数据和拒绝抽样微调来改善模型性能,发现增加数据量与模型性能呈对数线性关系,增加更多不同推理路径的数据样本能进一步改善语言模型的数学推理性能。
Aug, 2023
通过对高质量合成数据的微调,本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现,并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明,这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1,而且还在域外数据集上展现出一定的泛化能力,对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集,在这两个更难的任务上,经过微调的模型展示出令人鼓舞的表现,零样本一次通过率 @1 分别为 0.33 和 0.35。
Jun, 2024
合成数据被提出作为解决大型语言模型(LLMs)训练中高质量数据稀缺问题的方法。虽然有研究表明合成数据可以有效提高 LLMs 在下游基准测试中的性能,但分析显示合成数据存在固有缺陷。我们的工作针对广泛存在的问答对(Q-A pairs)合成数据中的这些缺陷,提出了一种基于取消学习技术的方法来减轻这些缺陷。实证结果表明我们的方法在较低成本下能够逆转由于模式过拟合导致的指令遵循问题,且不损害基准测试性能。我们的工作为合成数据的有效使用提供了关键见解,旨在促进更健壮和高效的 LLM 训练。
Jun, 2024
基于大规模合成数据,使用 Lean 4 proof 数据生成方法,我们的模型在定理生成和解决题目方面取得了卓越的成果,证明了合成数据对提高 LLMs 中的定理证明能力的潜力。
May, 2024
提出了一种简单且可扩展的方法,使用最新的大型语言模型(如 GPT-3.5)来生成高质量的数学推理数据。通过从种子数学问题中提取主题和知识点,构建概念图,并生成新的数学问题,最终创建了一个包含 200 万个数学问题 - 答案对的数学推理数据集(MathScaleQA)。通过对开源大型语言模型(如 LLaMA-2 和 Mistral)进行 Fine-tuning,MathScale-7B 在 Math Word Problems 基准测试(MwpBench)上取得了最先进的性能。
Mar, 2024
本文提出使用预先训练的语言模型和部分正确的解决方案来解决数学推理问题的训练方法,并探索了各种训练目标对性能的影响。部分正确的解决方案有助于模型对解决方案空间进行更有效的探索。在两个数学推理数据集上的实验显示出方法的有效性。
May, 2022
监督微调通过各种数学推理任务增强了语言模型的问题解决能力。我们的研究引入了一种新的技术 —— 反思增强,通过嵌入问题反思来培养更深入的问题理解,从而不仅提高在标准场景下的性能,还在需要反思性思考的复杂场景中发挥作用。
Jun, 2024