自然语言处理模型真的能够解决简单的数学问题吗？

ACLMar, 2021

自然语言处理模型真的能够解决简单的数学问题吗？

Are NLP Models really able to Solve Simple Math Word Problems?

Arkil Patel, Satwik Bhattamishra, Navin Goyal

TL;DR该研究分析了现有的 NLP 求解器在解决低年级英语数学问题时的表现，指出现有求解器主要依赖于表面浅显的启发式策略。同时，研究提出了一个挑战数据集 SVAMP，并证明当前最优模型的表现还有很大的提升空间。

Abstract

The problem of designing nlp solvers for math word problems (MWP) has seen sustained research activity and steady gains in the test accuracy. Since existing solvers achieve high performance on the →

nlp solvers math word problems benchmark datasets shallow heuristics svamp challenge dataset

发现论文，激发创造

自然语言处理模型在初等数学中为何犯错？基于深度学习的解决数学应用题的调查

本研究论文从近十年开始，对自动解决数学单词问题的算法进行了批判性评估和未来研究规划，主要关键词为数学单词问题、算法、深度学习模型、数据集设计和研究。

May, 2022

使用预训练多语言语言模型研究数学问题

本文探讨了跨语言和多语言下的数学应用问题，使用预训练的多语言模型构建模型，并使用序列到序列模型进行求解。通过比较跨语言和多语言场景下数学应用问题的求解情况，表明将模型迁移到不同的语言上可能会导致性能下降，但如果问题类型存在于源语言和目标语言中，则其性能可以得到完善提升。

May, 2021

解决数学应用题的弱监督模型

通过只需要问题答案进行监督，我们提出了一种弱监督模型来解决数学应用问题，我们首先学习使用问题描述和最终答案生成公式，然后使用生成的公式来训练一个有监督的数学应用问题求解器。

Apr, 2021

提升神经数学问题求解器的技术

该研究提出了一种基于编码器 - 解码器的模型，完全利用问题文本并保留逐步的交换律，以产生无论数量的排列方式如何都具有不变性的表达式嵌入，并进一步对问题文本进行编码以指导解码过程，可以提高数学问题自动求解程序的性能。

Feb, 2023

通过生成问题语句的语言变体来求解数学应用题

该论文提出了一种用于解决数学问题的框架，该框架基于生成问题文本的语言变体，利用 DeBERTa 编码器构建解决方案表达式，通过对每个变体问题进行求解并选出获得大多数选票的预测表达式来改善数学推理和模型的鲁棒性。

Jun, 2023

语义解析的瓶颈：自动数学题解决方案的调查

该研究探讨了自动解决数学问题的挑战，包括语言和逻辑之间的语义鸿沟，综述了将人工智能用于代数和几何问题的主要技术及其性能，并探讨未来的研究方向。

Aug, 2018

用于评估数学单词问题求解器的对抗性示例

本研究提出两种方法生成对抗性攻击，以评估现有的数学单词问题求解器的鲁棒性，并发现现有的数学单词问题求解器对问题文本中的语言变化非常敏感。

Sep, 2021

大型语言模型中的符号数学问题推理

该论文研究了大型语言模型在数学问题推理方面的能力，特别关注符号推理在数值问题中的准确性，并通过自提示的方法提高了符号准确性，为模型提供了简洁可验证的推理能力。

Aug, 2023

数学词问题求解中的上下文学习和比较评估中的数据增强

通过修改问题的文本和方程式，例如使用同义词替换、基于规则的问题替换和基于规则的问题翻转，提出几种方法进行数据增强，从而为数学问题求解程序提供更多样化的训练集，最终提高其解决各种数学问题的能力。本研究引入了一种新的上下文学习增强方法，采用 Llama-7b 语言模型，通过基于指令的提示对数学问题进行改述。在 9 个基准模型上进行了性能评估，结果显示增强方法优于基准模型。此外，以各种增强方法生成的示例的串联进一步提高了性能。

Apr, 2024

生成和排序：处理数学问题的多任务框架

文章提出了一种基于预训练语言模型的多任务框架 Generate & Rank，该框架采用生成和排名的方法，在生成数学表达式的同时实现了决定正确和错误表达式等级的新的排名任务。结果表明，该方法在公共基准数据集中表现出色，比现有方法提升了 7% 的性能。

Sep, 2021