ControlMath: 可控数据生成促进数学通用模型
文章提出了一种基于预训练语言模型的多任务框架Generate & Rank,该框架采用生成和排名的方法,在生成数学表达式的同时实现了决定正确和错误表达式等级的新的排名任务。结果表明,该方法在公共基准数据集中表现出色,比现有方法提升了7%的性能。
Sep, 2021
本文提出一种fine-to-coarse 建模方法来解决数学单词问题, 通过迭代地组合低级操作数以预测高级操作符来抽象问题并从底向上推理解决运算符,从而更好地捕捉本地细粒度信息和全局逻辑结构。使用Math23k和SVAMP数据集进行的广泛评估证明了我们方法的准确性和鲁棒性。
May, 2022
本文提出了一种通过控制代码来引导模型考虑某些推理逻辑和解码与人类参考转换的相应等式表达式的可控等式生成求解器,实验结果表明我们的方法对单一未知(Math23K)和多个未知(DRAW1K,HMWP)基准测试普遍提高了性能,最大的改善高达13.2%的准确性在具有挑战性的多未知数据集上
Sep, 2022
利用代理人的方式,通过对数学推理过程进行细致的分解和建模,增强大型语言模型(LLMs)的能力,通过形式化的数学解决方案描述和基于代理人的零尝试框架PRER(Planner-Reasoner-Executor-Reflector)扩展LLMs,并实现了适应LLMs和人类的数学代理人,实验表明PRER和所提出的MathAgents的有效性及对LLMs行为的更深入的分析结果。
Dec, 2023
利用合成数据集训练大型语言模型(LLMs)的巨大潜力已被展示,尤其是用于获得有针对性的技能。本研究基于开源LLMs的最新进展和引导创新,通过某些粗暴的扩展构建了一个包含180万个问题-解决方案对的数学指导调整数据集OpenMathInstruct-1,并在GSM8K和MATH两个热门数学推理基准上取得了与最佳gpt-蒸馏模型相竞争的成绩。我们以商业许可证发布了我们的代码、模型和OpenMathInstruct-1数据集。
Feb, 2024
MathGenie是一种从小规模的问题解决数据集(称为种子数据)生成多样且可靠的数学问题的新方法,通过增加种子数据的真实解决方案,并训练一个回译模型将增加的解决方案翻译回新问题,从而产生与代码集成的问题解决方案,进而提供理性基础验证策略,该方法通过对新收集的数据训练从7B到70B范围的预训练模型,形成了MathGenieLM系列模型,这些模型在五个代表性数学推理数据集上始终优于以前的开放源语言模型,达到了最新的性能水平,尤其是MathGenieLM-InternLM2在GSM8K上达到了87.7%的准确率,在MATH上达到了55.7%的准确率,获得了开放源语言模型的最佳综合得分。
Feb, 2024
我们提出了MathCAMPS方法,用于合成高质量的数学问题,并通过LLMs将其转化为单词问题,以进一步探索数学问题解决和对话中的各种技能和能力。
Jul, 2024
本研究解决了现有大型语言模型在数学问题求解中的局限性,尤其是对训练数据的过度依赖。提出了一种新颖的方法,通过代码基础的评论模型引导数据构建和质量控制,探索不同的对齐算法以实现模型的持续改进。实验结果显示,所提方案在英文和中文的各项基准测试中显著提高了模型的泛化能力。
Aug, 2024
本研究解决了大语言模型在数学推理方面缺乏开源训练数据的问题。通过对数据合成的精心消融实验,提出了生成高质量数学推理微调数据集OpenMathInstruct-2,显著增大数据集规模并提升模型性能,取得了15.9%的准确性提升。该工作提供了重要的数据和模型资源,以促进后续开源研究。
Oct, 2024