双重攻击:一种针对文本生成模型的模型劫持攻击
我们提出了一种在推断时间进行模型劫持的简单方法 SnatchML,通过在受害模型的潜在空间中使用距离度量来将未知输入样本分类为与劫持任务类别相关的先前已知样本。同时,我们还探讨了不同的方法来缓解这种风险,其中包括一种名为 meta-unlearning 的新方法,用于在原始任务数据集上进行训练时帮助模型遗忘潜在的恶意任务,并针对这种攻击提出了一种基于压缩的对抗措施。
Jun, 2024
通过对多语言释义模型进行敌对目标的微调,我们提出了一种对抗性攻击算法,用于伪造多语言分类器的有效的对抗性样本,实验证明该方法在查询效率方面优于现有基准模型。
Jan, 2024
在本文中,我们提出了一个针对更广泛的对抗性攻击类别的框架,旨在对机器生成的内容进行微小扰动以逃避检测,通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现,现有的检测模型可以在仅 10 秒内受到破坏,将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进,但实际应用仍面临重大挑战,这些发现为 AI 文本检测器的未来发展提供了启示,强调了对更准确和鲁棒的检测方法的需求。
Apr, 2024
基于图像输入的视觉语言模型(VLM)存在图像劫持问题,本研究发现了在运行时控制生成模型的对抗性图像劫持,并提出了一种名为 Behavior Matching 的通用方法来创建这种图像劫持,通过对 LLaVA-2 模型进行攻击实验发现,各种攻击方式成功率均在 90% 以上,这些发现对于基础模型的安全性提出了严重的担忧。
Sep, 2023
本文介绍了两种黑匣子攻击方法,一种是将字符随机替换为了形似字,另一种是故意拼错单词,受攻击的神经文本检测器从 97.44%降至 0.26%和 22.68%,攻击也可转移至其他文本检测器。
Feb, 2020
深度学习模型中的对抗攻击通过对输入进行微小扰动,从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列(seq2seq)模型的影响,特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略,例如基于梯度的攻击,该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查,我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性,因为输出中的扰动程度与输入中的扰动成正比。然而,在次优方法中,我们的攻击方法优于其他方法,提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。
Sep, 2023
通过将 LLMs 生成的对抗性提示用于 GPT-4 辅助 DALLE-3,引入了一种称为分治攻击的方法,绕过了文本到图像模型的安全过滤器,可能对安全性产生更严重的影响。
Dec, 2023
对文本到图像生成模型中的攻击漏洞进行了研究,证明了通过少量恶意数据样本在特殊触发条件下激活的后门攻击的可行性,突出了在操作限制下证明偏见存在的挑战,并强调了对这些漏洞的强大防御策略的需求。
Jun, 2024
研究了个人化的文本到图像(T2I)扩散模型的潜在漏洞和易受攻击的方法,并探讨了两种个性化方法中零日后门漏洞的普遍性及其操作和利用潜力,并分析了触发器和概念图像对攻击效果的影响。
May, 2023