Feb, 2024

通过敌对攻击实现抗 LLM 的数学问题生成

TL;DR在教育领域中,大型语言模型 (LLMs) 的快速发展给当前的剽窃检测工具带来了挑战,本文通过生成拟保持原问题的结构和难度但无法由 LLMs 解决的对抗性示例,来探索确保公平评估的新范式,通过在数学应用问题领域利用抽象语法树生成对抗性实例,改变问题中的数值使 LLMs 产生错误的答案,定量和定性实验证明我们的方法显著降低了 LLMs 的数学解题能力,并对 LLMs 共同的漏洞进行了识别,提出了一种高效率攻击高成本模型的方法,此外,我们还通过自动分析数学问题的失败原因,指导后续对 LLMs 数学能力的研究。