Ape210K:一个大规模且模板丰富的数学应用题数据集
介绍了一个大规模的数学问题数据集和一个可解释的神经数学问题求解器,该求解器学习将问题映射到操作程序。使用新的表示语言,MathQA数据集明确地注释了各种类型的问题的操作程序,同时提高了模型的性能和可解释性。通过自动问题分类,我们的实验结果在MathQA和AQuA数据集上均优于竞争基线,但仍显著低于人类表现,这表明该数据集为未来研究提出了新的挑战。
May, 2019
本文探讨了跨语言和多语言下的数学应用问题,使用预训练的多语言模型构建模型,并使用序列到序列模型进行求解。通过比较跨语言和多语言场景下数学应用问题的求解情况,表明将模型迁移到不同的语言上可能会导致性能下降,但如果问题类型存在于源语言和目标语言中,则其性能可以得到完善提升。
May, 2021
本文介绍了ASDiv(中央研究院多样化的MWP数据集),它是一个多样化的英语数学文字问题(MWP)语料库,含有2305个问题,覆盖了更多的文本模式和大多数初中学校教授的问题类型。作者建议使用ASDiv作为解决MWP问题的基准语料库,具有更高的多样性,能更准确地反映解决MWP问题的能力。
Jun, 2021
文章提出了一种基于预训练语言模型的多任务框架Generate & Rank,该框架采用生成和排名的方法,在生成数学表达式的同时实现了决定正确和错误表达式等级的新的排名任务。结果表明,该方法在公共基准数据集中表现出色,比现有方法提升了7%的性能。
Sep, 2021
本文提出一种fine-to-coarse 建模方法来解决数学单词问题, 通过迭代地组合低级操作数以预测高级操作符来抽象问题并从底向上推理解决运算符,从而更好地捕捉本地细粒度信息和全局逻辑结构。使用Math23k和SVAMP数据集进行的广泛评估证明了我们方法的准确性和鲁棒性。
May, 2022
本研究论文从近十年开始,对自动解决数学单词问题的算法进行了批判性评估和未来研究规划,主要关键词为数学单词问题、算法、深度学习模型、数据集设计和研究。
May, 2022
为了全面评估大型语言模型(LLMs)的数学推理能力,我们需要精心策划评估数据集,涵盖不同难度级别的各种数学概念和问题。为此,我们在本文中提出了FineMath,一个用于评估中文LLMs的细粒度数学评估基准数据集。FineMath涵盖了小学数学教学的主要数学概念,并进一步划分为17类数学应用问题,从而能够深入分析LLMs的数学推理能力。所有17类数学应用问题都根据解决这些问题所需的推理步骤数量进行手动注释其难度级别。我们在广泛的LLMs上对FineMath进行了大量实验,并发现中文LLMs的数学推理能力仍有相当大的提升空间。我们还对先前被忽视的评估过程和方法进行了深入分析。这两个因素显着影响了模型结果和我们对其数学推理能力的理解。该数据集将很快公开发布。
Mar, 2024
自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展,特别在解决数学问题的应用方面,其中MAmmoTH-13B表现出了最高的能力水平,成为解决NCERT数学问题的可靠基准。
Apr, 2024
该研究探讨了大型语言模型(LLMs)在数学问题求解方面的能力,并使用新开发的“MathOdyssey”数据集进行测试。研究结果显示,尽管LLMs在常规和中等难度任务上表现良好,但在奥林匹克级难度和复杂的大学水平问题上仍面临重大挑战,因此需要进一步研究来提高LLMs的数学推理能力。
Jun, 2024
我们提出了MathCAMPS方法,用于合成高质量的数学问题,并通过LLMs将其转化为单词问题,以进一步探索数学问题解决和对话中的各种技能和能力。
Jul, 2024