通过敌对攻击实现抗 LLM 的数学问题生成

Feb, 2024

通过敌对攻击实现抗 LLM 的数学问题生成

LLM-Resistant Math Word Problem Generation via Adversarial Attacks

Roy Xie, Chengxuan Huang, Junlin Wang, Bhuwan Dhingra

TL;DR在教育领域中，大型语言模型 (LLMs) 的快速发展给当前的剽窃检测工具带来了挑战，本文通过生成拟保持原问题的结构和难度但无法由 LLMs 解决的对抗性示例，来探索确保公平评估的新范式，通过在数学应用问题领域利用抽象语法树生成对抗性实例，改变问题中的数值使 LLMs 产生错误的答案，定量和定性实验证明我们的方法显著降低了 LLMs 的数学解题能力，并对 LLMs 共同的漏洞进行了识别，提出了一种高效率攻击高成本模型的方法，此外，我们还通过自动分析数学问题的失败原因，指导后续对 LLMs 数学能力的研究。

Abstract

large language models (LLMs) have significantly transformed the educational landscape. As current plagiarism detection tools struggle to keep pace with LLMs' rapid advancements, the educational community faces th

large language models plagiarism detection fair evaluation adversarial examples math word problems

发现论文，激发创造

研究 LLM 对数学问题的鲁棒性

提出了一种提示框架，通过添加无关的变量生成数学应用问题的对抗性变体，用于改进大型语言模型在数学应用问题中的性能下降问题。实验证明，对抗性训练实例的微调提高了对抗性数学应用问题的性能，并提高了识别相关数据进行推理的能力。然而，大型语言模型在面对对抗性信息时仍然存在困难，导致性能下降。

May, 2024

数学攻击：对大型语言模型进行数学求解能力的攻击

通过 MathAttack 模型对数学问题进行逻辑实体识别和词级攻击，证明了 LLMs 的数学解决能力容易受到攻击，特别是在复杂数学问题方面的鲁棒性较差。

Sep, 2023

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

用于评估数学单词问题求解器的对抗性示例

本研究提出两种方法生成对抗性攻击，以评估现有的数学单词问题求解器的鲁棒性，并发现现有的数学单词问题求解器对问题文本中的语言变化非常敏感。

Sep, 2021

对大规模语言模型的对抗欺骗攻击效率

使用五种不同的大型语言模型（LLMs）进行情感分类任务时，针对三种不同类型的对抗攻击，该研究分析了攻击的有效性、效率和实用性，发现词级攻击更有效，而字符级攻击则更实用且所需的改动和查询数量较少，因此在开发对抗性防御策略以训练更具鲁棒性的 LLMs 用于智能文本分类应用时需考虑这些差异。

Jun, 2024

在大型语言模型中使用视觉对抗样本错误使用工具

大型语言模型对多模态处理和工具使用能力的增强带来了新的好处和安全风险，本文揭示了攻击者可以使用视觉对抗样本来引发特定工具使用的能力。攻击可以影响与 LLM 连接的用户资源的机密性和完整性，同时保持隐秘性，并且可泛化到多个输入提示。通过基于梯度的对抗训练构建这些攻击，并在多个维度上表征其性能。研究发现，我们的对抗图像几乎总能以接近真实语法的方式操控 LLM 来调用工具（准确率约为 98%），同时保持与原始图像的高相似度（约 0.9 SSIM）。此外，通过人工评分和自动化指标，我们发现这些攻击对用户与 LLM 之间的对话（及其语义）没有显著影响。

Oct, 2023

LLM 作为法官是否稳健？对零样本 LLM 评估进行普适对抗攻击研究

LLM 评估器的脆弱性以及连接攻击的影响对于高风险实际场景的部署提出了重要的关注和需求。

Feb, 2024

评估大型语言模型的对抗性鲁棒性：一项实证研究

对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

May, 2024

LLM 生成的黑盒解释在对抗场景中具备帮助性

当解答复杂问题时，大型语言模型（LLMs）作为数字助手成为重要工具，然而我们的研究揭示了这种方法中隐藏的风险，称之为 “对抗性有益性”，即 LLMs 的解释使错误答案看起来正确，潜在地导致人们相信错误的解决方案。本文通过识别和研究 LLMs 采用的关键说服策略，揭示出 LLMs 在这方面存在的问题，并通过基于图形导航的特殊任务，验证了 LLMs 生成对抗性有益性解释时导航复杂结构化知识的能力。这些发现明确了黑盒解释设置的局限性，并提供了如何安全使用 LLMs 作为解释器的建议。

May, 2024