OpenMathInstruct-2:利用大规模开源指令数据加速数学AI
利用合成数据集训练大型语言模型(LLMs)的巨大潜力已被展示,尤其是用于获得有针对性的技能。本研究基于开源LLMs的最新进展和引导创新,通过某些粗暴的扩展构建了一个包含180万个问题-解决方案对的数学指导调整数据集OpenMathInstruct-1,并在GSM8K和MATH两个热门数学推理基准上取得了与最佳gpt-蒸馏模型相竞争的成绩。我们以商业许可证发布了我们的代码、模型和OpenMathInstruct-1数据集。
Feb, 2024
MathGenie是一种从小规模的问题解决数据集(称为种子数据)生成多样且可靠的数学问题的新方法,通过增加种子数据的真实解决方案,并训练一个回译模型将增加的解决方案翻译回新问题,从而产生与代码集成的问题解决方案,进而提供理性基础验证策略,该方法通过对新收集的数据训练从7B到70B范围的预训练模型,形成了MathGenieLM系列模型,这些模型在五个代表性数学推理数据集上始终优于以前的开放源语言模型,达到了最新的性能水平,尤其是MathGenieLM-InternLM2在GSM8K上达到了87.7%的准确率,在MATH上达到了55.7%的准确率,获得了开放源语言模型的最佳综合得分。
Feb, 2024
提出了一种简单且可扩展的方法,使用最新的大型语言模型(如GPT-3.5)来生成高质量的数学推理数据。通过从种子数学问题中提取主题和知识点,构建概念图,并生成新的数学问题,最终创建了一个包含200万个数学问题-答案对的数学推理数据集(MathScaleQA)。通过对开源大型语言模型(如LLaMA-2和Mistral)进行Fine-tuning,MathScale-7B在Math Word Problems基准测试(MwpBench)上取得了最先进的性能。
Mar, 2024
基于GPT-4的数据合成能力,我们提出了一种通过训练小型语言模型来合成数学问题,以高效生成足够高质量的预训练数据的有效方法,并在数学推理数据集上展现了最先进的性能。
May, 2024
这篇论文介绍了一个专门设计用来评估大型语言模型在更广泛的数学任务上的MathChat基准测试,并观察到这些模型在单回合问题回答方面表现出色,但在需要持续推理和对话理解的复杂场景下性能显著下降。通过开发MathChat sync这样一个用于提升模型对话能力和指令跟随能力的合成对话型数学数据集,实验结果强调了使用类似MathChat sync这样多样化的对话指令微调数据集训练大型语言模型的必要性。作者认为这项工作为改进大型语言模型的多轮数学推理能力指明了一个有希望的方向,推动了更擅长交互式数学问题解决和实际应用的大型语言模型的发展。
May, 2024
大型语言模型在各种任务中取得了令人印象深刻的表现,即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了Llama 2家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型(Llama 2 Chat)以及两个专门设计用于解决数学问题的经过微调的Llama 2版本(MAmmoTH和MetaMath)。我们观察到,增加模型规模并在相关任务上进行微调可以显著提高性能。此外,通过使用细粒度的评估指标,我们发现这种性能提升主要出现在复杂度较低的数学公式上,尽管对于最大的经过微调的模型来说,这些公式通常仍然具有一定挑战性。
Jun, 2024
研究了增强大型语言模型的数学推理能力的潜在因素,并提出了一种数据缩放定律。通过引入基于Skywork-MathQA数据集的Skywork-Math模型系列,指出增加数据量可以提高模型质量。通过两阶段数据综合和模型SFT流程,包括三种不同的增强方法和不同难度水平的种子问题集,提供了Skywork-MathQA数据集的数量和质量,从而实现了更高的性能。同时,为了研究和工业应用,提供了若干实践经验来提高大型语言模型的数学推理能力。
Jul, 2024
本研究解决了现有大规模数据集创建中所面临的种子数据需求和高计算成本的挑战。我们提出的InfinityMATH是一个可扩展的指令调优数据集,通过将数字与数学问题解耦,促进了数据合成的灵活性和高效性。实验证明,使用该数据集进行微调的模型在各类基准测试中表现出显著的性能提升,拓宽了模型在多种数学问题上的适用性。
Aug, 2024
本研究针对大型语言模型(LLMs)在数学推理能力评估中存在基准测试过于简单的缺陷,提出了自动化生成更具挑战性的数学推理基准的方案——Scheherazade。通过前向和后向链法,我们发现虽然前沿模型在问题链数目增加时表现显著下降,但OpenAI的o1-preview在后向链基准测试中表现反而更佳,显示出新方法的潜在影响力。
Sep, 2024