大型语言模型对多模态处理和工具使用能力的增强带来了新的好处和安全风险,本文揭示了攻击者可以使用视觉对抗样本来引发特定工具使用的能力。攻击可以影响与LLM连接的用户资源的机密性和完整性,同时保持隐秘性,并且可泛化到多个输入提示。通过基于梯度的对抗训练构建这些攻击,并在多个维度上表征其性能。研究发现,我们的对抗图像几乎总能以接近真实语法的方式操控LLM来调用工具(准确率约为98%),同时保持与原始图像的高相似度(约0.9 SSIM)。此外,通过人工评分和自动化指标,我们发现这些攻击对用户与LLM之间的对话(及其语义)没有显著影响。
Oct, 2023
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域,本文调查了该领域的相关研究,并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
调查了大型语言模型(LLMs)是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施,实验结果表明,LLMs成功地找到了对抗性扰动,有效地破坏了仇恨言论检测系统,这对依赖LLMs的(半)自主系统与现有系统和安全措施的交互带来了重要挑战。
Feb, 2024
广义的对大型语言模型进行的对抗性攻击研究了攻击面和攻击目标,并对具体例子进行了分类和系统化,如误导、模型控制、服务拒绝或数据提取,并分析了这些攻击的实验结果。
LLM评估器的脆弱性以及连接攻击的影响对于高风险实际场景的部署提出了重要的关注和需求。
通过综述各种在大型语言模型上攻击的形式及机制,以及其潜在影响和当前的防御策略,该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染,以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果,提供对大型语言模型的脆弱性和防御机制的深入了解,旨在引起人工智能社区的关注,并激发切实解决这些风险的方法。
Mar, 2024
对大型语言模型的鲁棒性进行了攻击和评估,并在五项不同的文本分类任务上建立了新的鲁棒性基准,研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。
May, 2024
通过借鉴转移式攻击的思想,结合渐变式对抗性提示生成过程,我们改进了自动生成的对抗性示例以攻击白盒大语言模型,取得了显著的性能提升,同时也提出了新的见解和适当的方法组合。
本研究针对大型语言模型(LLMs)在对抗攻击中表现出的脆弱性这一问题进行了探讨。作者提出了一种基于机械解释技术的方法,该方法能够定位和理解这些脆弱性,并展示了在预测三字符缩略词任务中识别模型具体脆弱性的有效性。这一工作为提高LLMs在高风险应用中的安全性提供了新思路。
Jul, 2024
本论文旨在通过利用大语言模型(LLMs)生成多样化的对抗攻击,来解决自然语言处理(NLP)安全领域的不足。我们提出了一个新颖的方法,扩展了LLMs在生成词级对抗示例中的应用,涵盖了对抗补丁、通用扰动和目标攻击等多种攻击类型。研究发现,LLMs的语言理解与生成能力可以生成更有效的、语义连贯的人类样式的对抗示例,从而提升模型的鲁棒性,揭示新漏洞,并推动防御机制的创新。
Oct, 2024