数学攻击:对大型语言模型进行数学求解能力的攻击
提出了一种提示框架,通过添加无关的变量生成数学应用问题的对抗性变体,用于改进大型语言模型在数学应用问题中的性能下降问题。实验证明,对抗性训练实例的微调提高了对抗性数学应用问题的性能,并提高了识别相关数据进行推理的能力。然而,大型语言模型在面对对抗性信息时仍然存在困难,导致性能下降。
May, 2024
在教育领域中,大型语言模型 (LLMs) 的快速发展给当前的剽窃检测工具带来了挑战,本文通过生成拟保持原问题的结构和难度但无法由 LLMs 解决的对抗性示例,来探索确保公平评估的新范式,通过在数学应用问题领域利用抽象语法树生成对抗性实例,改变问题中的数值使 LLMs 产生错误的答案,定量和定性实验证明我们的方法显著降低了 LLMs 的数学解题能力,并对 LLMs 共同的漏洞进行了识别,提出了一种高效率攻击高成本模型的方法,此外,我们还通过自动分析数学问题的失败原因,指导后续对 LLMs 数学能力的研究。
Feb, 2024
自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展,特别在解决数学问题的应用方面,其中 MAmmoTH-13B 表现出了最高的能力水平,成为解决 NCERT 数学问题的可靠基准。
Apr, 2024
该论文提出了一种用于解决数学问题的框架,该框架基于生成问题文本的语言变体,利用 DeBERTa 编码器构建解决方案表达式,通过对每个变体问题进行求解并选出获得大多数选票的预测表达式来改善数学推理和模型的鲁棒性。
Jun, 2023
该研究分析了现有的 NLP 求解器在解决低年级英语数学问题时的表现,指出现有求解器主要依赖于表面浅显的启发式策略。同时,研究提出了一个挑战数据集 SVAMP,并证明当前最优模型的表现还有很大的提升空间。
Mar, 2021
该论文研究了大型语言模型在数学问题推理方面的能力,特别关注符号推理在数值问题中的准确性,并通过自提示的方法提高了符号准确性,为模型提供了简洁可验证的推理能力。
Aug, 2023
通过修改问题的文本和方程式,例如使用同义词替换、基于规则的问题替换和基于规则的问题翻转,提出几种方法进行数据增强,从而为数学问题求解程序提供更多样化的训练集,最终提高其解决各种数学问题的能力。本研究引入了一种新的上下文学习增强方法,采用 Llama-7b 语言模型,通过基于指令的提示对数学问题进行改述。在 9 个基准模型上进行了性能评估,结果显示增强方法优于基准模型。此外,以各种增强方法生成的示例的串联进一步提高了性能。
Apr, 2024
本文研究了大型语言模型在数学问题中面临的挑战,通过对数学问题的语言和数学特征进行深入分析,并训练基于特征的分类器来理解各个特征对数学问题整体难度的影响,并探讨这是否有助于预测大型语言模型在特定类别的数学问题中的表现。
Mar, 2024
本研究探索了大型语言模型(LLMs)解决长篇数学问题的能力,引入了扩展的小学数学(E-GSM)问题集并提出了新的度量方法,旨在改善 LLMs 在解决这类问题上的表现。研究结果表明,所提出的方法不仅在 E-GSM 上取得了改善,还具有一定的推广性,为将 LLMs 应用于复杂的现实应用提供了实际解决方案,并为模型广泛性和训练方法的进一步探索开辟了新的途径。
May, 2024