研究 LLM 对数学问题的鲁棒性

May, 2024

Investigating the Robustness of LLMs on Math Word Problems

Ujjwala Anantheswaran, Himanshu Gupta, Kevin Scaria, Shreyas Verma, Chitta Baral...

TL;DR提出了一种提示框架，通过添加无关的变量生成数学应用问题的对抗性变体，用于改进大型语言模型在数学应用问题中的性能下降问题。实验证明，对抗性训练实例的微调提高了对抗性数学应用问题的性能，并提高了识别相关数据进行推理的能力。然而，大型语言模型在面对对抗性信息时仍然存在困难，导致性能下降。

Abstract

large language models (LLMs) excel at various tasks, including solving math word problems (MWPs), but struggle with real-world problems containing irrelevant information. To address this, we propose a prompting framework that generates →

large language models math word problems adversarial variants adversarial training gsm-8k benchmark

发现论文，激发创造

数学攻击：对大型语言模型进行数学求解能力的攻击

通过 MathAttack 模型对数学问题进行逻辑实体识别和词级攻击，证明了 LLMs 的数学解决能力容易受到攻击，特别是在复杂数学问题方面的鲁棒性较差。

Sep, 2023

通过敌对攻击实现抗 LLM 的数学问题生成

在教育领域中，大型语言模型 (LLMs) 的快速发展给当前的剽窃检测工具带来了挑战，本文通过生成拟保持原问题的结构和难度但无法由 LLMs 解决的对抗性示例，来探索确保公平评估的新范式，通过在数学应用问题领域利用抽象语法树生成对抗性实例，改变问题中的数值使 LLMs 产生错误的答案，定量和定性实验证明我们的方法显著降低了 LLMs 的数学解题能力，并对 LLMs 共同的漏洞进行了识别，提出了一种高效率攻击高成本模型的方法，此外，我们还通过自动分析数学问题的失败原因，指导后续对 LLMs 数学能力的研究。

Feb, 2024

GSM-Plus: 评估 LLMs 作为数学问题求解器鲁棒性的综合基准

通过对大型语言模型进行广泛的问题变体测试，我们评估了它们的数学推理能力的鲁棒性。结果表明，虽然这些模型在数学推理能力上表现出不同水平，但它们的性能远非稳健。

Feb, 2024

LLM 能更好地解决更长的数学应用题吗？

本研究探索了大型语言模型（LLMs）解决长篇数学问题的能力，引入了扩展的小学数学（E-GSM）问题集并提出了新的度量方法，旨在改善 LLMs 在解决这类问题上的表现。研究结果表明，所提出的方法不仅在 E-GSM 上取得了改善，还具有一定的推广性，为将 LLMs 应用于复杂的现实应用提供了实际解决方案，并为模型广泛性和训练方法的进一步探索开辟了新的途径。

May, 2024

数学阅读理解题为何对语言学习者具挑战性？

本文研究了大型语言模型在数学问题中面临的挑战，通过对数学问题的语言和数学特征进行深入分析，并训练基于特征的分类器来理解各个特征对数学问题整体难度的影响，并探讨这是否有助于预测大型语言模型在特定类别的数学问题中的表现。

Mar, 2024

揭示致命缺陷：评估 LLM 在数学推理中处理错误的能力

通过引入一个包含正确和错误推理步骤的新数据集 MWP-MISTAKE，本研究重点探讨了大型语言模型在检测和纠正推理错误方面的能力，并通过全面的基准测试揭示了目前最先进模型（如 GPT-4o，GPT-4，GPT-3.5Turbo 等）的优点和缺点。此外，我们还发现涉及数据污染和记忆的问题，影响了大型语言模型在实际应用中的可靠性，因此强调了对推理过程进行严格评估的重要性，并提出了提高大型语言模型在数学问题解决中泛化性和鲁棒性的未来方向。

Jun, 2024

用于评估数学单词问题求解器的对抗性示例

本研究提出两种方法生成对抗性攻击，以评估现有的数学单词问题求解器的鲁棒性，并发现现有的数学单词问题求解器对问题文本中的语言变化非常敏感。

Sep, 2021

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

MathPrompter：利用大型语言模型进行数学推理

提出了一种名为 MathPrompter 的技术，它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数，并以不同的方式解决相同的数学问题，从而提高模型在算术问题上的性能并提高置信水平。

Mar, 2023

Mathify: 在数学问题求解任务上评估大型语言模型

自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展，特别在解决数学问题的应用方面，其中 MAmmoTH-13B 表现出了最高的能力水平，成为解决 NCERT 数学问题的可靠基准。

Apr, 2024