backdoor injection | BriefGPT

关键词backdoor injection

搜索结果 - 5

ICLRBadEdit：通过模型编辑对大型语言模型设置后门
通过将后门注入问题转化为一个轻量级知识编辑问题，BadEdit 攻击框架直接改变 LLM 参数以引入后门，从而在注入技术的多个方面上具有优越性。
PDF3 months ago
LoRA 作为攻击！在共享播放场景下穿透 LLM 安全
在这项研究中，我们深入研究了在不断增长的共享和使用情境中，如何将后门注入 LoRA 模块，并更深入地探索了 LoRA 的感染机制。我们发现，在 LoRA 后门注入中，无需进行训练即可实现机制。同时，我们还研究了当多个 LoRA 适应并存以及
PDF4 months ago
KDD对一类序列异常检测模型的后门攻击
探索深度序列异常检测模型的后门攻击策略，通过生成触发器和注入后门触发器，有效地破坏现有异常检测模型。
PDF5 months ago
无中间人的策略在后门攻击中实现提高毒化效率
本文提出了一种基于个体相似性和集合多样性选择高效毒化样本的代理自由策略（PFS），可以有效地解决代理攻击设置与受害者实际设置不同的问题，实验结果表明 PFS 比前面基于代理的选择方法速度快 500 倍并取得更高的背门攻击强度。
PDFa year ago
VillanDiffusion：基于扩散模型的统一后门攻击框架
本文介绍了一个统一的后门攻击框架（VillanDiffusion），用于扩展目前对扩散模型（DMs）的后门分析范围，并通过实验展示了该框架有助于不同 DM 配置的后门分析，并提供了有关基于标题的后门攻击 DMs 的新见解。
PDFa year ago