无限数学:一种可扩展的程序化数学推理指令调优数据集
MAmmoTH是一系列为数学问题解决而特别定制的开源大型语言模型,通过混合的证明链和思考程序的理论,提供了广泛的数学领域覆盖,取得了显著的性能提升。
Sep, 2023
利用合成数据集训练大型语言模型(LLMs)的巨大潜力已被展示,尤其是用于获得有针对性的技能。本研究基于开源LLMs的最新进展和引导创新,通过某些粗暴的扩展构建了一个包含180万个问题-解决方案对的数学指导调整数据集OpenMathInstruct-1,并在GSM8K和MATH两个热门数学推理基准上取得了与最佳gpt-蒸馏模型相竞争的成绩。我们以商业许可证发布了我们的代码、模型和OpenMathInstruct-1数据集。
Feb, 2024
本研究介绍了ConceptMath,它是一个双语(英文和中文)的细粒度基准,用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同,ConceptMath通过将数学问题按照数学概念的层次进行系统组织,从而可以用概念级准确率评估数学推理能力的不同细粒度。在基于我们的ConceptMath的基础上,我们评估了广泛范围的大型语言模型,并观察到现有的大型语言模型尽管在传统基准上具有高平均准确率,但在不同数学概念上存在显著的性能差异,甚至在最基本的概念上可能出现灾难性失误。此外,我们还介绍了一种高效的微调策略,以提高现有大型语言模型的弱点。最后,我们希望ConceptMath能够指导开发人员了解其模型的细粒度数学能力,并促进基础模型的进一步发展。
Feb, 2024
通过识别推理路径的最佳集合来确定推理路径增强的能力边界,通过不同类型的数据的最佳集合的混合来累积增强模型的不同能力,以较低的建设成本实现SOTA性能,并提供用于鲁棒性测试和教育应用的自动问题生成器。
Feb, 2024
提出了一种简单且可扩展的方法,使用最新的大型语言模型(如GPT-3.5)来生成高质量的数学推理数据。通过从种子数学问题中提取主题和知识点,构建概念图,并生成新的数学问题,最终创建了一个包含200万个数学问题-答案对的数学推理数据集(MathScaleQA)。通过对开源大型语言模型(如LLaMA-2和Mistral)进行Fine-tuning,MathScale-7B在Math Word Problems基准测试(MwpBench)上取得了最先进的性能。
Mar, 2024
介绍了利用大型语言模型进行指令调优的最新进展,提出了一种双向指令调优策略,通过前向和后向推理任务来改善语言模型对数学推理的理解与执行能力。通过广泛实验证明,这种策略适用于多种数学推理任务并具有领域通用性。
Mar, 2024
大型语言模型在各种任务中取得了令人印象深刻的表现,即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了Llama 2家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型(Llama 2 Chat)以及两个专门设计用于解决数学问题的经过微调的Llama 2版本(MAmmoTH和MetaMath)。我们观察到,增加模型规模并在相关任务上进行微调可以显著提高性能。此外,通过使用细粒度的评估指标,我们发现这种性能提升主要出现在复杂度较低的数学公式上,尽管对于最大的经过微调的模型来说,这些公式通常仍然具有一定挑战性。
Jun, 2024
研究了增强大型语言模型的数学推理能力的潜在因素,并提出了一种数据缩放定律。通过引入基于Skywork-MathQA数据集的Skywork-Math模型系列,指出增加数据量可以提高模型质量。通过两阶段数据综合和模型SFT流程,包括三种不同的增强方法和不同难度水平的种子问题集,提供了Skywork-MathQA数据集的数量和质量,从而实现了更高的性能。同时,为了研究和工业应用,提供了若干实践经验来提高大型语言模型的数学推理能力。
Jul, 2024
本研究解决了大语言模型在数学推理方面缺乏开源训练数据的问题。通过对数据合成的精心消融实验,提出了生成高质量数学推理微调数据集OpenMathInstruct-2,显著增大数据集规模并提升模型性能,取得了15.9%的准确性提升。该工作提供了重要的数据和模型资源,以促进后续开源研究。
Oct, 2024
本研究针对大型语言模型(LLMs)在数学推理能力评估中存在基准测试过于简单的缺陷,提出了自动化生成更具挑战性的数学推理基准的方案——Scheherazade。通过前向和后向链法,我们发现虽然前沿模型在问题链数目增加时表现显著下降,但OpenAI的o1-preview在后向链基准测试中表现反而更佳,显示出新方法的潜在影响力。
Sep, 2024