研究 LLM 对数学问题的鲁棒性
通过 MathAttack 模型对数学问题进行逻辑实体识别和词级攻击,证明了 LLMs 的数学解决能力容易受到攻击,特别是在复杂数学问题方面的鲁棒性较差。
Sep, 2023
在教育领域中,大型语言模型 (LLMs) 的快速发展给当前的剽窃检测工具带来了挑战,本文通过生成拟保持原问题的结构和难度但无法由 LLMs 解决的对抗性示例,来探索确保公平评估的新范式,通过在数学应用问题领域利用抽象语法树生成对抗性实例,改变问题中的数值使 LLMs 产生错误的答案,定量和定性实验证明我们的方法显著降低了 LLMs 的数学解题能力,并对 LLMs 共同的漏洞进行了识别,提出了一种高效率攻击高成本模型的方法,此外,我们还通过自动分析数学问题的失败原因,指导后续对 LLMs 数学能力的研究。
Feb, 2024
通过对大型语言模型进行广泛的问题变体测试,我们评估了它们的数学推理能力的鲁棒性。结果表明,虽然这些模型在数学推理能力上表现出不同水平,但它们的性能远非稳健。
Feb, 2024
本研究探索了大型语言模型(LLMs)解决长篇数学问题的能力,引入了扩展的小学数学(E-GSM)问题集并提出了新的度量方法,旨在改善 LLMs 在解决这类问题上的表现。研究结果表明,所提出的方法不仅在 E-GSM 上取得了改善,还具有一定的推广性,为将 LLMs 应用于复杂的现实应用提供了实际解决方案,并为模型广泛性和训练方法的进一步探索开辟了新的途径。
May, 2024
本文研究了大型语言模型在数学问题中面临的挑战,通过对数学问题的语言和数学特征进行深入分析,并训练基于特征的分类器来理解各个特征对数学问题整体难度的影响,并探讨这是否有助于预测大型语言模型在特定类别的数学问题中的表现。
Mar, 2024
通过引入一个包含正确和错误推理步骤的新数据集 MWP-MISTAKE,本研究重点探讨了大型语言模型在检测和纠正推理错误方面的能力,并通过全面的基准测试揭示了目前最先进模型(如 GPT-4o,GPT-4,GPT-3.5Turbo 等)的优点和缺点。此外,我们还发现涉及数据污染和记忆的问题,影响了大型语言模型在实际应用中的可靠性,因此强调了对推理过程进行严格评估的重要性,并提出了提高大型语言模型在数学问题解决中泛化性和鲁棒性的未来方向。
Jun, 2024
基于大型语言模型 (LLMs) 的语言理解和生成能力,我们提出了 LLM-Attack,旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异,能够生成通常有效、自然,并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。
Nov, 2023
提出了一种名为 MathPrompter 的技术,它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数,并以不同的方式解决相同的数学问题,从而提高模型在算术问题上的性能并提高置信水平。
Mar, 2023
自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展,特别在解决数学问题的应用方面,其中 MAmmoTH-13B 表现出了最高的能力水平,成为解决 NCERT 数学问题的可靠基准。
Apr, 2024