- ICMLIBD-PSC: 基于参数缩放一致性的输入层后门检测
这篇论文提出了一种名为 IBD-PSC 的简单而有效的输入层背门检测方法,通过放大模型参数,利用参数相关的一致性现象来过滤恶意测试图像,并设计了一种自适应方法选择 BN 层进行有效检测,通过基准数据集上的大量实验证实了 IBD-PSC 方法 - 生成式大语言模型的后门移除
通过提出模拟和消除(SANDE)方法,本文针对生成式大规模语言模型(LLMs)中的后门攻击问题,提出了覆盖式监督微调(OSFT)方法和 SANDE 两阶段框架,以有效去除已知和未知触发器所引起的不良数据映射,实现 LLMs 的安全增强,保持 - 用触发优化的数据毒化在联邦学习中隐藏后门模型更新
DPOT 是一种基于数据污染的联邦学习后门攻击策略,通过动态构建后门目标并优化后门触发器,使后门数据对模型更新的影响最小化,有效地破坏了最先进的防御机制并在各种数据集上优于现有的后门攻击技术。
- 基于梯度的模型修剪消除后门攻击
在日益关注网络安全威胁的时代,针对后门攻击的防御对于确保机器学习模型的完整性和可靠性至关重要。然而,许多现有方法要求大量数据以进行有效的缓解,给实际部署带来了重大挑战。为解决这个问题,我们提出了一种将后门攻击缓解视为一项取消学习任务的新方法 - IJCAIBadFusion: 针对 3D 目标检测的 2D 定向后门攻击
通过在训练数据集中注入‘触发’来污染数据,我们提出了一种新的基于 2D 相机的反向攻击 3D 目标检测的方法,命名为 BadFusion。通过在整个融合过程中保留触发器的有效性,BadFusion 相对于现有的基于 2D 的攻击方法,实现了 - 基於後門的可解釋 AI 評估方法的高保真度評估基準
我们提出了一个遵循可信度准则的基于后门攻击的可解释人工智能基准(BackX),并且通过使用我们的基准对现有方法进行了综合比较和评估,同时为防御后门攻击提供了指导。
- CVPR物理后门:面向物理世界的基于温度的后门攻击
该研究首次在物理和数字领域中研究与热红外物体检测相关的后门攻击的安全漏洞,并介绍了两种新型的后门攻击类型:物体影响攻击和范围影响攻击。通过对温度、尺寸、材料和隐藏等关键因素的全面分析,特别是温度的影响,揭示了后门攻击对热红外物体检测的有效性 - 跨语言转移的困境:通过指令调整在 LLMs 中的后门攻击的跨语言可迁移性
我们的研究重点关注跨语言背门攻击对多语言 LLM 的影响,特别研究在一个或两个语言的指令调整数据中添加恶意行为如何影响未被攻击的语言的输出。我们的实证分析表明,我们的方法在 mT5、BLOOM 和 GPT-3.5-turbo 等模型中非常有 - CloudFort: 通过空间划分和集成预测提高 3D 点云分类的鲁棒性对抗后门攻击
CloudFort 是一种新颖的防御机制,通过空间分割和集成预测技术,有效缓解了后门触发的影响,增强了三维点云分类器对后门攻击的鲁棒性,同时不影响其在干净数据上的准确性,从而为实际应用中基于点云的系统的可信性和可靠性迈出了重要的一步。
- LSP 框架:基于标签平滑攻击的触发器逆向工程的补偿模型
深度神经网络容易受到后门攻击,本文提出了一种基于触发器逆向工程的防御方法,通过操纵后门样本的分类置信度来抵御触发器逆向工程,引入标签平滑引入(LSP)框架来实现分类置信度的特定操纵,实验证明该方法可以击败当前的触发器逆向工程方法,并与各种后 - 仅使用污染标签的图卷积网络的干净图反向门路攻击
该研究提出了一种对图卷积网络(GCNs)进行干净图后门攻击(CBAG)的方法,在节点分类任务中仅通过污染训练标签而不对训练样本进行任何修改,揭示了 GCNs 的安全漏洞。实验结果表明,我们的干净图后门攻击能够在保持 GCNs 模型正常功能的 - IJCAI检测器崩溃:向目标检测注入后门,导致灾难性超载或盲目
本文介绍了一种专门针对目标检测的全新后门攻击范式:Detector Collapse (DC),通过引入 Sponge 和 Blinding 两种创新的攻击方案,利用自然物体进行毒化,实现在真实环境中作为实用的后门攻击,显著提高了攻击效果。
- ICCV受害者与受益者:利用被注入毒数据的模型训练干净数据的模型
通过使用预测熵来区分污染样本和良性样本,本文提出了一种新的双网络训练框架:受害者和受益者 (V&B),通过在可疑样本上训练受害者网络来检测有毒样本,然后用受害者选出的可信样本训练受益者网络以抑制后门注入,同时采用半监督抑制策略以消除潜在的后 - 严重程度可控的文本到图像生成模型的偏倚操纵
通过利用嵌入的语言模型的数学基础,我们的技术使得在模型偏见的作用下对输出的严重程度进行可扩展和便捷的控制,同时也允许通过精确的提示工程生成通常不真实的图像,我们还演示了将此操纵用于平衡生成类别频率的构造性应用。
- UFID: 一个统一框架用于扩散模型上的输入级后门检测
为了缓解背景肃清攻击的威胁,本研究提出了一个针对扩散模型的统一输入层背景肃清检测框架(UFID),它通过扩散模型的观察和理论因果分析进一步验证。广泛的实验结果表明,该方法在检测效果和运行效率方面表现出卓越的性能。
- 基于对比的快捷方式:在基于提示的学习中有效且隐秘的干净标签攻击
反复注入学习范例中的干扰,利用对比捷径注入方法(CSI)设计更强的捷径特征,使得清洁标签攻击在低毒性率下具有高效性和隐秘性。
- Spikewhisper:低功耗设备上针对联邦神经形态学学习的时序尖峰后门攻击
FedNL 中存在一种名为 Spikewhisper 的新型漏洞,利用时间分割多路复用的概念,恶意客户端可以以不可察觉的方式在不同时间片段对系统进行中毒攻击,导致攻击成功率高于时间集中攻击,并且 Spikewhisper 漏洞对触发器持续时 - 保护 GNNs:基于说明的检测带后门的训练图
通过开发新的度量方法,探测 Graph Neural Networks 中的后门攻击,并在多个基准数据集上进行测试,取得了较高的检测性能。
- 去学习后门威胁:通过本地令牌去学习增强多模态对比学习的后门防御
不同模态对比学习在构建高质量特征方面具有很大的潜力,但其开放性意味着可能遭受后门攻击。本文从模型遗忘的角度探讨了一种防御机制,即通过构建一小组有毒样本,迅速消除后门威胁。实验结果表明,该方法不仅能保证攻击的成功率最小化,还能保持模型的高准确 - 对 SSL 后门攻击的一种极简防御方法
自我监督学习(SSL)已经成为应对无人监督数据环境的一种强大范例。然而,最近的研究表明 SSL 容易受到后门攻击的威胁,控制模型以适应攻击者目的。本文引入一种基于频率的新型后门攻击:CTRL,并提出了两种对抗 SSL 中基于频率攻击的防御策