用于评估数学单词问题求解器的对抗性示例
通过 MathAttack 模型对数学问题进行逻辑实体识别和词级攻击,证明了 LLMs 的数学解决能力容易受到攻击,特别是在复杂数学问题方面的鲁棒性较差。
Sep, 2023
该论文提出了一种用于解决数学问题的框架,该框架基于生成问题文本的语言变体,利用 DeBERTa 编码器构建解决方案表达式,通过对每个变体问题进行求解并选出获得大多数选票的预测表达式来改善数学推理和模型的鲁棒性。
Jun, 2023
该研究分析了现有的 NLP 求解器在解决低年级英语数学问题时的表现,指出现有求解器主要依赖于表面浅显的启发式策略。同时,研究提出了一个挑战数据集 SVAMP,并证明当前最优模型的表现还有很大的提升空间。
Mar, 2021
本文介绍了一系列基于替换和释义的数据增广技术,通过将现有数学问题数据集的规模提高五倍,我们在三种全球领先的数学问题求解器上进行了广泛的实验。结果显示,所提出的方法可以提高现有解算器的泛化性和鲁棒性,并在基准数据集上平均使结果显着提高了五个百分点。此外,经数据增广训练的解算器在挑战测试集上表现得更好,并且仅基于表层线索不能较好地解决这一问题。
Apr, 2022
该研究提出了一种基于编码器 - 解码器的模型,完全利用问题文本并保留逐步的交换律,以产生无论数量的排列方式如何都具有不变性的表达式嵌入,并进一步对问题文本进行编码以指导解码过程,可以提高数学问题自动求解程序的性能。
Feb, 2023
在教育领域中,大型语言模型 (LLMs) 的快速发展给当前的剽窃检测工具带来了挑战,本文通过生成拟保持原问题的结构和难度但无法由 LLMs 解决的对抗性示例,来探索确保公平评估的新范式,通过在数学应用问题领域利用抽象语法树生成对抗性实例,改变问题中的数值使 LLMs 产生错误的答案,定量和定性实验证明我们的方法显著降低了 LLMs 的数学解题能力,并对 LLMs 共同的漏洞进行了识别,提出了一种高效率攻击高成本模型的方法,此外,我们还通过自动分析数学问题的失败原因,指导后续对 LLMs 数学能力的研究。
Feb, 2024
提出了一种提示框架,通过添加无关的变量生成数学应用问题的对抗性变体,用于改进大型语言模型在数学应用问题中的性能下降问题。实验证明,对抗性训练实例的微调提高了对抗性数学应用问题的性能,并提高了识别相关数据进行推理的能力。然而,大型语言模型在面对对抗性信息时仍然存在困难,导致性能下降。
May, 2024
通过修改问题的文本和方程式,例如使用同义词替换、基于规则的问题替换和基于规则的问题翻转,提出几种方法进行数据增强,从而为数学问题求解程序提供更多样化的训练集,最终提高其解决各种数学问题的能力。本研究引入了一种新的上下文学习增强方法,采用 Llama-7b 语言模型,通过基于指令的提示对数学问题进行改述。在 9 个基准模型上进行了性能评估,结果显示增强方法优于基准模型。此外,以各种增强方法生成的示例的串联进一步提高了性能。
Apr, 2024
本文探讨了跨语言和多语言下的数学应用问题,使用预训练的多语言模型构建模型,并使用序列到序列模型进行求解。通过比较跨语言和多语言场景下数学应用问题的求解情况,表明将模型迁移到不同的语言上可能会导致性能下降,但如果问题类型存在于源语言和目标语言中,则其性能可以得到完善提升。
May, 2021
本篇论文提出解决当前数学应用问题(Math Word Problem,MWP)数据偏见问题的方法:构建了一个去除偏见的新数据集 UnbiasedMWP,同时我们提出了一种名为 Dynamic Target Selection 的动态目标选择策略来缓解学习偏差问题,两种方法都取得了良好的实验效果并成为解决 MWP 的有趣基准。
May, 2022