迭代问题组合增强数学问题
通过问题演化和多样化推理路径的数据增强,我们验证了用于大型语言模型(LLMs)的数学推理的有效性,并深入缩小开源LLMs与尖端专有LLMs之间的差距。我们创建了一个名为AugGSM8K的新数据集,并使用AugGSM8K的子集对MuggleMath进行微调,实现了GSM8K的新的最先进水平(从7B规模下的54%到68.4%,从13B规模下的63.9%到74.0%)。我们也发现MuggleMath在MATH的领域外数学推理泛化方面存在困难,这归因于AugGSM8K和MATH之间问题分布的差异,暗示在单一基准上的增强无助于整体数学推理性能。
Oct, 2023
通过定义单位并确保在数学运算过程中单位的一致性,我们提出了一种系统的方法来解决大规模语言模型在解决涉及跨多种类型或单位的数量的数学问题时面临的挑战。我们使用Unit Consistency Programs(UCPs)为每个问题开发了一个带有单位规范和单位验证程序的数据集,并借助UCPs对Code Llama(7B)模型进行了微调,从而产生了VerityMath,并展示了我们的初步研究结果。
Nov, 2023
MathGenie是一种从小规模的问题解决数据集(称为种子数据)生成多样且可靠的数学问题的新方法,通过增加种子数据的真实解决方案,并训练一个回译模型将增加的解决方案翻译回新问题,从而产生与代码集成的问题解决方案,进而提供理性基础验证策略,该方法通过对新收集的数据训练从7B到70B范围的预训练模型,形成了MathGenieLM系列模型,这些模型在五个代表性数学推理数据集上始终优于以前的开放源语言模型,达到了最新的性能水平,尤其是MathGenieLM-InternLM2在GSM8K上达到了87.7%的准确率,在MATH上达到了55.7%的准确率,获得了开放源语言模型的最佳综合得分。
Feb, 2024
MATHSENSEI 是一个工具增强的大型语言模型,通过添加知识检索、程序执行和符号方程求解的工具,针对数学推理问题进行评估,表现出比 gpt-3.5-turbo 以及基于 chain-of-thought 的 MATH 数据集上准确率提高了 13.5%。同时我们还观察到,TALMs 在简单数学问题上的效果不如在复杂问题上的效果显著,且随着问题复杂程度和所需知识的增加而提高。
Feb, 2024
提出了一种简单且可扩展的方法,使用最新的大型语言模型(如GPT-3.5)来生成高质量的数学推理数据。通过从种子数学问题中提取主题和知识点,构建概念图,并生成新的数学问题,最终创建了一个包含200万个数学问题-答案对的数学推理数据集(MathScaleQA)。通过对开源大型语言模型(如LLaMA-2和Mistral)进行Fine-tuning,MathScale-7B在Math Word Problems基准测试(MwpBench)上取得了最先进的性能。
Mar, 2024
自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展,特别在解决数学问题的应用方面,其中MAmmoTH-13B表现出了最高的能力水平,成为解决NCERT数学问题的可靠基准。
Apr, 2024
本文介绍了一个原型工具,旨在促进语言模型与教育工作者的合作,以简化数学多项选择题生成过程。我们进行了一项试点研究,涉及数学教育工作者,以调查该工具如何帮助他们简化高质量的数学多项选择题的制作过程。研究发现,虽然语言模型能够生成良好形式的问题提示,但其生成的干扰项无法涵盖常见的学生错误和误解。尽管如此,人工智能与人类的合作有潜力提高多项选择题生成的效率和有效性。
May, 2024
本研究解决了现有大型语言模型在数学问题求解中的局限性,尤其是对训练数据的过度依赖。提出了一种新颖的方法,通过代码基础的评论模型引导数据构建和质量控制,探索不同的对齐算法以实现模型的持续改进。实验结果显示,所提方案在英文和中文的各项基准测试中显著提高了模型的泛化能力。
Aug, 2024
本研究旨在提升轻量级大型语言模型在数学推理任务中的表现,填补了系统化测量数学逻辑相似性的空白。通过引入一种新颖的自动筛选机制来构建参考问题集,该方法结合了语义和逻辑相似性,在SVAMP数据集上实现了15.8%的性能提升,并在GSM8K数据集上取得了21.5%的改进,为未来的推理研究提供了重要的见解。
Aug, 2024