- 基于提示的持续学习中的后门攻击
基于提示的方法在连续学习中为数据隐私问题提供了前沿解决方案,但在面向多个数据提供方且禁止长期存储私人用户数据的情景中,其出色的记忆能力可能成为双刃剑,因为它可能在从私人用户数据中学习时无意识地保留注入的有毒知识。本文针对这一问题,揭示了连续 - 通过复合触发背门在文本到图像模型中注入偏见
对文本到图像生成模型中的攻击漏洞进行了研究,证明了通过少量恶意数据样本在特殊触发条件下激活的后门攻击的可行性,突出了在操作限制下证明偏见存在的挑战,并强调了对这些漏洞的强大防御策略的需求。
- 干净标签背门攻击的泛化界限和新算法
本文推导出了算法无关的干净标签后门攻击情景中的泛化界限;提出一种新的干净标签后门攻击方法,通过结合对抗性噪音和无差别毒害计算出毒触发器,并在各种情景中展示其有效性。
- 面向稳健的物理世界车道检测背门攻击
本文介绍一种用于自动驾驶系统的基于深度学习的车道检测的动态场景适应后门攻击方法,通过各种形状的污点或污染激活后门,以适应不同的驾驶观察视点和环境条件的变化;通过元学习框架生成适应不同环境条件的元触发器,用于初始化后门植入的触发器模式,以应对 - 基于联邦学习的隐形多目标后门攻击的双模型替换
本研究设计了一种基于联邦学习的背门攻击方法,利用神经网络和 TrojanGan 隐写模型实现了背门触发器的隐蔽和多样化,同时通过多重触发器提高了背门攻击的鲁棒性,实验结果表明该方法在联邦学习中具有高背门隐蔽性、触发器形式多样性以及对多目标攻 - ICLR如何只利用未标记数据制作后门?
通过对未标记的数据进行自我监督学习(SSL),本研究调查了基于后门攻击的潜在风险,在没有标签信息的情况下,通过聚类和对比度选择两种毒化策略,证明了在许多 SSL 方法中,无标签后门攻击可以有效地超越随机毒化。
- ACL多语言机器翻译的后门攻击
多语言机器翻译系统存在安全漏洞,通过在低资源语言对中注入毒数据,可以在其他语言中引发恶意翻译,攻击成功率达到 20%。这种攻击方式对低资源语言具有更大的攻击面,希望引起人们对机器翻译系统的安全问题的重视,尤其是在低资源语言环境中。
- 探索聊天模型的后门漏洞
最近的研究表明,大型语言模型(LLMs)容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法,通过在不同轮次的用户输入中分发多个触发场景,并只在历史对话中出现了所有触发场景时激活后门,从而实现了高攻击成功率。
- 利用脏标签翻转攻击的反标签倒钩方法
通过使用脏标签技术 - ' 标签对标签 ',在选定的与目标类别相关的数据模式中插入触发器(拍手声),我们提出了一种名为 'DirtyFlipping' 的后门攻击,从而实现了隐秘的后门。
- CVPRLOTUS: 透过子分区实现隐蔽和弹性的后门攻击
通过引入一种名为 LOTUS 的新型后门攻击方法,该方法利用秘密函数将受害类别样本分成一组分区,并对不同的分区应用唯一的触发器,从而在攻击中提高了逃避检测和抵御能力。扩展实验结果显示,LOTUS 能够在 4 个数据集和 7 个模型结构上实现 - 对密集通道检索器的后门攻击以传播虚假信息
通过语法错误在密集文段检索中引发危险的后门攻击,通过我们的方法,当用户查询无误时,我们的模型始终可靠地检索准确的信息,同时有效地过滤掉误导性信息。然而,当查询存在语法错误时,我们的系统显著提高了获取目标内容的成功率。
- ICLR毒害伪造脸部:面向面部伪造检测的后门攻击
嵌入了后门攻击的面部伪造检测方法的新威胁以及提出的解决方案。
- 大型语言模型中的通用漏洞:上下文学习反向攻击
通过毒化示例和提示,ICLAttack 攻击方法能够操纵大型语言模型的行为,而不需要额外的微调,从而提高了攻击方法的自然隐蔽性。
- 面向对象的图像标题的后门攻击
我们通过对训练数据进行污染来研究背景图像描述模型的后门攻击,采用面向对象的方法设计毒物以修改像素值,并证明了图像描述模型对后门攻击的弱点,希望能在图像描述领域引起对抗后门攻击的意识。
- Spy-Watermark:强韧隐形数字水印用于后门攻击
提出了一种名为 Spy-Watermark 的新型后门攻击方法,其中引入了一种可学习的图像潜在空间中嵌入的水印作为触发器,通过多个防崩溃操作进一步增强触发器对数据损坏的韧性,从而在面对数据崩溃和后门防御时仍然有效。在 CIFAR10、GTS - 对不配对的医学图文基础模型的后门攻击:关于 MedCLIP 的一项试验研究
通过使用未配对训练数据构建基础模型,本研究揭示了医学领域的潜在安全隐患,其中标签的不一致性可能会对模型造成严重影响,并探索了应对这种后门攻击的方法。
- 联邦学习中的公平攻击
通过控制数据隐私并引入一种新类型的攻击,本论文讨论了在分布式训练中实现公平性的重要性以及对公平性进行攻击的方式。
- 标签污染就是您所需要的
通过 corrupt labels 设计的 label-only backdoor attack 方法 FLIP,在几个数据集和架构上展示了其强大的攻击能力,并且只引起 1.8% 的 clean test 准确度下降。
- 基于局部主导概率的 CBD 认证后门检测器
本研究提出了第一个基于可调整的符合预测方法的认证后门攻击检测器 (CBD),CBD 通过提供检测推断、攻击检测可保障条件以及假阳性率的概率上界,能够检测到对测试噪音更具有弹性和扰动幅度更小的攻击,同时在多个基准数据集上实验表明 CBD 的检 - 隐形威胁:OCR 系统中的后门攻击
提出一种光学字符识别 OCR 后门攻击,通过插入非可读字符的恶意输入图像,使 OCR 模型在某些实例中输出非可读字符,同时不影响其在其他实例中的性能。