数学阅读理解题为何对语言学习者具挑战性？

ACLMar, 2024

数学阅读理解题为何对语言学习者具挑战性？

What Makes Math Word Problems Challenging for LLMs?

KV Aditya Srivatsa, Ekaterina Kochmar

TL;DR本文研究了大型语言模型在数学问题中面临的挑战，通过对数学问题的语言和数学特征进行深入分析，并训练基于特征的分类器来理解各个特征对数学问题整体难度的影响，并探讨这是否有助于预测大型语言模型在特定类别的数学问题中的表现。

Abstract

This paper investigates the question of what makes math word problems (MWPs) challenging for large language models (LLMs). We conduct an i

math word problems challenging large language models linguistic characteristics mathematical characteristics

发现论文，激发创造

LLM 能更好地解决更长的数学应用题吗？

本研究探索了大型语言模型（LLMs）解决长篇数学问题的能力，引入了扩展的小学数学（E-GSM）问题集并提出了新的度量方法，旨在改善 LLMs 在解决这类问题上的表现。研究结果表明，所提出的方法不仅在 E-GSM 上取得了改善，还具有一定的推广性，为将 LLMs 应用于复杂的现实应用提供了实际解决方案，并为模型广泛性和训练方法的进一步探索开辟了新的途径。

May, 2024

研究 LLM 对数学问题的鲁棒性

提出了一种提示框架，通过添加无关的变量生成数学应用问题的对抗性变体，用于改进大型语言模型在数学应用问题中的性能下降问题。实验证明，对抗性训练实例的微调提高了对抗性数学应用问题的性能，并提高了识别相关数据进行推理的能力。然而，大型语言模型在面对对抗性信息时仍然存在困难，导致性能下降。

May, 2024

通过生成问题语句的语言变体来求解数学应用题

该论文提出了一种用于解决数学问题的框架，该框架基于生成问题文本的语言变体，利用 DeBERTa 编码器构建解决方案表达式，通过对每个变体问题进行求解并选出获得大多数选票的预测表达式来改善数学推理和模型的鲁棒性。

Jun, 2023

自然语言处理模型真的能够解决简单的数学问题吗？

该研究分析了现有的 NLP 求解器在解决低年级英语数学问题时的表现，指出现有求解器主要依赖于表面浅显的启发式策略。同时，研究提出了一个挑战数据集 SVAMP，并证明当前最优模型的表现还有很大的提升空间。

Mar, 2021

使用预训练多语言语言模型研究数学问题

本文探讨了跨语言和多语言下的数学应用问题，使用预训练的多语言模型构建模型，并使用序列到序列模型进行求解。通过比较跨语言和多语言场景下数学应用问题的求解情况，表明将模型迁移到不同的语言上可能会导致性能下降，但如果问题类型存在于源语言和目标语言中，则其性能可以得到完善提升。

May, 2021

数学攻击：对大型语言模型进行数学求解能力的攻击

通过 MathAttack 模型对数学问题进行逻辑实体识别和词级攻击，证明了 LLMs 的数学解决能力容易受到攻击，特别是在复杂数学问题方面的鲁棒性较差。

Sep, 2023

大型语言模型在数学推理方面的进展与挑战

数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的 LLM 技术范围、影响 LLMs 解决数学问题的因素和问题，并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。

Jan, 2024

自然语言处理模型在初等数学中为何犯错？基于深度学习的解决数学应用题的调查

本研究论文从近十年开始，对自动解决数学单词问题的算法进行了批判性评估和未来研究规划，主要关键词为数学单词问题、算法、深度学习模型、数据集设计和研究。

May, 2022

大型语言模型中的符号数学问题推理

该论文研究了大型语言模型在数学问题推理方面的能力，特别关注符号推理在数值问题中的准确性，并通过自提示的方法提高了符号准确性，为模型提供了简洁可验证的推理能力。

Aug, 2023

数学单词问题生成与数学一致性及问题背景约束

本文提出了一种新颖的数学语文问题生成方法，该方法结合了预训练的语言模型和上下文关键词选择模型，以提高所生成的数学语文问题的语言质量；而使用数学公式一致性约束来提高所生成的数学语文问题的数学有效性。经过大量的定量和定性实验，我们的方法相比各种基线方法都具有更好的性能。

Sep, 2021