backdoor attack | BriefGPT - AI 论文速递

关键词backdoor attack

搜索结果 - 88

Trading Devil Final: 股市和贝叶斯优化的后门攻击
基于大规模语言模型的学习漏洞，本文开发了一种基于声学数据污染的后门攻击 MarketBackFinal 2.0，主要针对使用现代股市模型且依赖 LLMs 的语音转换器的潜在漏洞。
PDF6 days ago
AgentPoison: 通过缓冲区或知识库污染来对抗语言模型代理
AgentPoison 是一种新颖的后门攻击方法，针对使用长期记忆或 RAG 知识库的 LLM 代理，通过污染其内存或知识库实现恶意演示的优化后门触发器，攻击成功率高于 80%，对正常性能的影响小于 1%。
PDF10 days ago
不确定性的脆弱性：对大规模语言模型中不确定性的操控
本研究探索了 Large Language Models（LLMs）不确定性评估的脆弱性，并证明了攻击者可以通过植入后门来改变模型的不确定性，而不影响最终输出结果。实验结果表明，该攻击方法能够有效地破坏模型的自我评估可靠性，并对模型的可靠性
PDF12 days ago
基于进化触发检测和轻量级模型修复的反后门防御
在这篇研究论文中，我们提出了一种基于进化触发器检测和轻量级模型修复的有效防御方法，该方法能够有效地消除深度神经网络模型中的后门攻击，并通过发现触发器和使用轻量级的去除方法进行模型修复。
PDF20 days ago
基于提示的持续学习中的后门攻击
基于提示的方法在连续学习中为数据隐私问题提供了前沿解决方案，但在面向多个数据提供方且禁止长期存储私人用户数据的情景中，其出色的记忆能力可能成为双刃剑，因为它可能在从私人用户数据中学习时无意识地保留注入的有毒知识。本文针对这一问题，揭示了连续
PDFa month ago
通过复合触发背门在文本到图像模型中注入偏见
对文本到图像生成模型中的攻击漏洞进行了研究，证明了通过少量恶意数据样本在特殊触发条件下激活的后门攻击的可行性，突出了在操作限制下证明偏见存在的挑战，并强调了对这些漏洞的强大防御策略的需求。
PDFa month ago
干净标签背门攻击的泛化界限和新算法
本文推导出了算法无关的干净标签后门攻击情景中的泛化界限；提出一种新的干净标签后门攻击方法，通过结合对抗性噪音和无差别毒害计算出毒触发器，并在各种情景中展示其有效性。
PDF2 months ago
面向稳健的物理世界车道检测背门攻击
本文介绍一种用于自动驾驶系统的基于深度学习的车道检测的动态场景适应后门攻击方法，通过各种形状的污点或污染激活后门，以适应不同的驾驶观察视点和环境条件的变化；通过元学习框架生成适应不同环境条件的元触发器，用于初始化后门植入的触发器模式，以应对
PDF3 months ago
基于联邦学习的隐形多目标后门攻击的双模型替换
本研究设计了一种基于联邦学习的背门攻击方法，利用神经网络和 TrojanGan 隐写模型实现了背门触发器的隐蔽和多样化，同时通过多重触发器提高了背门攻击的鲁棒性，实验结果表明该方法在联邦学习中具有高背门隐蔽性、触发器形式多样性以及对多目标攻
PDF3 months ago
ICLR如何只利用未标记数据制作后门？
通过对未标记的数据进行自我监督学习（SSL），本研究调查了基于后门攻击的潜在风险，在没有标签信息的情况下，通过聚类和对比度选择两种毒化策略，证明了在许多 SSL 方法中，无标签后门攻击可以有效地超越随机毒化。
PDF4 months ago
ACL多语言机器翻译的后门攻击
多语言机器翻译系统存在安全漏洞，通过在低资源语言对中注入毒数据，可以在其他语言中引发恶意翻译，攻击成功率达到 20%。这种攻击方式对低资源语言具有更大的攻击面，希望引起人们对机器翻译系统的安全问题的重视，尤其是在低资源语言环境中。
PDF4 months ago
探索聊天模型的后门漏洞
最近的研究表明，大型语言模型（LLMs）容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法，通过在不同轮次的用户输入中分发多个触发场景，并只在历史对话中出现了所有触发场景时激活后门，从而实现了高攻击成功率。
PDF4 months ago
利用脏标签翻转攻击的反标签倒钩方法
通过使用脏标签技术 - ' 标签对标签 '，在选定的与目标类别相关的数据模式中插入触发器（拍手声），我们提出了一种名为 'DirtyFlipping' 的后门攻击，从而实现了隐秘的后门。
PDF4 months ago
CVPRLOTUS: 透过子分区实现隐蔽和弹性的后门攻击
通过引入一种名为 LOTUS 的新型后门攻击方法，该方法利用秘密函数将受害类别样本分成一组分区，并对不同的分区应用唯一的触发器，从而在攻击中提高了逃避检测和抵御能力。扩展实验结果显示，LOTUS 能够在 4 个数据集和 7 个模型结构上实现
PDF4 months ago
对密集通道检索器的后门攻击以传播虚假信息
通过语法错误在密集文段检索中引发危险的后门攻击，通过我们的方法，当用户查询无误时，我们的模型始终可靠地检索准确的信息，同时有效地过滤掉误导性信息。然而，当查询存在语法错误时，我们的系统显著提高了获取目标内容的成功率。
PDF5 months ago
ICLR毒害伪造脸部：面向面部伪造检测的后门攻击
嵌入了后门攻击的面部伪造检测方法的新威胁以及提出的解决方案。
PDF5 months ago
大型语言模型中的通用漏洞：上下文学习反向攻击
通过毒化示例和提示，ICLAttack 攻击方法能够操纵大型语言模型的行为，而不需要额外的微调，从而提高了攻击方法的自然隐蔽性。
PDF7 months ago
面向对象的图像标题的后门攻击
我们通过对训练数据进行污染来研究背景图像描述模型的后门攻击，采用面向对象的方法设计毒物以修改像素值，并证明了图像描述模型对后门攻击的弱点，希望能在图像描述领域引起对抗后门攻击的意识。
PDF7 months ago
Spy-Watermark：强韧隐形数字水印用于后门攻击
提出了一种名为 Spy-Watermark 的新型后门攻击方法，其中引入了一种可学习的图像潜在空间中嵌入的水印作为触发器，通过多个防崩溃操作进一步增强触发器对数据损坏的韧性，从而在面对数据崩溃和后门防御时仍然有效。在 CIFAR10、GTS
PDF7 months ago
对不配对的医学图文基础模型的后门攻击：关于 MedCLIP 的一项试验研究
通过使用未配对训练数据构建基础模型，本研究揭示了医学领域的潜在安全隐患，其中标签的不一致性可能会对模型造成严重影响，并探索了应对这种后门攻击的方法。
PDF7 months ago