基于困惑度度量和上下文信息的标记级对抗性提示检测
本研究使用adversarial prompts对Large Language Models进行度量,并分析了prompt鲁棒性及其传递性,为prompt组合提供了实用性建议。
Jun, 2023
利用大型语言模型(LLMs)伪造对抗性后缀的新型黑客攻击方法,通过迷惑模型来生成危险回复。我们提倡使用困扰度作为一种识别潜在攻击方法的手段,以避免生成禁止回复。通过对使用和不使用对抗性后缀的查询进行困扰度评估,我们发现近90%的查询困扰度都超过1000,这凸显了困扰度在检测此类攻击上的有效性。
Aug, 2023
大型语言模型的安全漏洞对其进行了深入理解。最近的研究表明,文本优化器可以产生绕过审核和对齐的越狱提示。我们从对抗机器学习的丰富研究基础中提出三个问题:在这个领域中,哪些威胁模型实际上是有用的?基线防御技术在这个新领域中的表现如何?LLM安全性与计算机视觉有何不同?我们对LLM上的领先对抗性攻击评估了几种基线防御策略,讨论了每种策略在各种可行和有效的设置中的情况。特别地,我们研究了三种防御类型:检测(基于困惑度),输入预处理(改写和重标记)和对抗训练。我们讨论了白盒和灰盒设置,并讨论了每种考虑的防御的鲁棒性和性能权衡。令人惊讶的是,我们在过滤和预处理方面获得了比其他领域(如视觉)预期的更多成功,这首次表明在这些领域中可能对这些防御的相对优势进行了不同的权衡。
Sep, 2023
我们提出了第一个具有可验证安全保证的消除-检查(erase-and-check)框架,以抵御恶意提示。我们通过逐个擦除token并使用安全过滤器检查得到的子序列,将输入提示标记为有害,如果安全过滤器检测到任何子序列或者输入提示本身存在有害的部分。我们的技术能够针对三种攻击模式进行防御,并且在保证处理安全提示的性能的同时,显著提高了在有害提示上的安全保证指标。
Sep, 2023
大型语言模型对多模态处理和工具使用能力的增强带来了新的好处和安全风险,本文揭示了攻击者可以使用视觉对抗样本来引发特定工具使用的能力。攻击可以影响与LLM连接的用户资源的机密性和完整性,同时保持隐秘性,并且可泛化到多个输入提示。通过基于梯度的对抗训练构建这些攻击,并在多个维度上表征其性能。研究发现,我们的对抗图像几乎总能以接近真实语法的方式操控LLM来调用工具(准确率约为98%),同时保持与原始图像的高相似度(约0.9 SSIM)。此外,通过人工评分和自动化指标,我们发现这些攻击对用户与LLM之间的对话(及其语义)没有显著影响。
Oct, 2023
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域,本文调查了该领域的相关研究,并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
Oct, 2023
调查了大型语言模型(LLMs)是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施,实验结果表明,LLMs成功地找到了对抗性扰动,有效地破坏了仇恨言论检测系统,这对依赖LLMs的(半)自主系统与现有系统和安全措施的交互带来了重要挑战。
Feb, 2024
基于大型语言模型的令牌划分漏洞的研究,提出了对模型进行攻击的对抗性数据集(ADT),通过挑战语言模型对输入的划分,揭示令牌划分对模型性能的重要影响,并为改善语言模型能力提供优化划分过程和算法的研究方法。
May, 2024
通过优化包含对抗性提示及其安全响应的数据集,我们提出了一个两阶段的对抗调整框架,用于增强大型语言模型在防御能力方面的广义性,实验证明了我们方法的优越性,并展示了它作为可传输防御机制的潜力。
Jun, 2024
本研究针对大型语言模型(LLMs)在对抗攻击中表现出的脆弱性这一问题进行了探讨。作者提出了一种基于机械解释技术的方法,该方法能够定位和理解这些脆弱性,并展示了在预测三字符缩略词任务中识别模型具体脆弱性的有效性。这一工作为提高LLMs在高风险应用中的安全性提供了新思路。
Jul, 2024