- 图 MU:通过机器取消学习来修复图神经网络的鲁棒性
通过引入图神经网络的模型修复方法 GraphMU,可以在无需完全重训练的情况下,通过精调被攻击的 GNN 以遗忘对抗样本,从而修复被攻击 GNN 的鲁棒性并恢复性能。
- 大型语言模型联邦指导调优中涌现的安全攻击与防御
我们首次揭示了 FedIT 中安全对齐的漏洞,提出了一种简单、隐蔽但有效的安全攻击方法,并进一步提出了一种事后防御方法。实验证明,我们的安全攻击方法可以显著破坏 LLM 的安全对齐,而现有的防御方法无法有效防御,而我们的安全防御方法可以显著 - 通过特征模式一致性约束提高对抗鲁棒性
通过分析网络中的潜在特征行为,我们引入一种新颖而有效的特征模式一致性约束(FPCC)方法,以增强潜在特征维持正确特征模式的能力,从而使模型在面对对抗性示例时具有内在的对抗鲁棒性,超过最先进的模型。
- 我不认识你,但我能够捕捉你:针对目标检测的多样对抗性补丁的实时防御
提出了一种创新的模型 NutNet,用于检测对抗性贴片,在高泛化性、鲁棒性和效率方面表现优异。通过对六个检测器进行实验,包括 YOLOv2-v4,SSD,Faster RCNN 和 DETR 在数字和物理领域上,结果显示我们的方法可以有效防 - 通过特定层编辑来防御针对大型语言模型的越狱攻击
通过 Layer-specific Editing (LED) 方法,本研究探讨了大型语言模型(LLMs)对有害提示的反应,并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐,可以显著提高 LL - CVPRPAD:面向对抗性贴纸攻击的面片无关防御
提出了一种名为 PAD 的新颖的对抗贴纸定位和去除方法,该方法不需要先前知识或额外训练,提供了针对各种对抗贴纸的无关补丁防御,与任何预训练的物体检测器兼容。
- 基于掩码的目标检测隐形后门攻击
在该研究中,我们提出了一种有效的基于掩码的不可见后门攻击目标检测技术,并针对目标消失、目标错误分类和目标生成三种攻击场景进行了全面的实验,以确定有效的防御方法。
- 图像识别上的对抗攻击多用途防御
在这篇论文中,提出了一种多功能的防御方法,只需要训练一个模型就能有效抵抗各种未知的对抗性攻击,并且该模型的分类准确率平均提高至 86%,表现比之前研究中提出的其他防御方法更好。在面对 PGD 攻击和 MI-FGSM 攻击时,多功能防御模型甚 - 利用辅助对抗防御网络增强追踪的鲁棒性
通过提出一种名为 DuaLossDef 的额外预处理网络来应对视觉目标跟踪中的对抗攻击方法,并通过对 OTB100、LaSOT 和 VOT2018 基准进行了大量实验,证明了 DuaLossDef 在对抗攻击场景下具有出色的防御鲁棒性,且在 - 由噪音到清晰:通过文本嵌入的翻译解开大型语言模型攻击的对抗后缀
提出了一种能够将不可读的对抗性后缀转化为连贯可读文本的对抗性后缀嵌入翻译框架(ASETF),该方法在攻击成功率和提示文本的流畅性方面明显优于现有技术,并且可以推广为一种生成可成功攻击多种语言模型的可转移对抗性后缀的更广泛方法。
- ProTIP: 针对随机扰动的文图扩散模型进行概率稳健性验证
通过引入概率性的文本到图像扩散模型(T2I DMs)的鲁棒性概念,并建立一个高效的统计性保证评估框架(ProTIP),本研究在解决生成过程的高计算成本和对比两个输出分布以确定扰动输入是否为对抗性示例的困难之后,通过实证实验验证了 ProTI - AAAI图神经网络的简单而又相对有效的防御方法
图神经网络(GNN)是处理图结构数据的主要方法,但存在对小的对抗性扰动脆弱性的问题。本文介绍了一种新的防御方法 NoisyGNNs,它通过在模型架构中引入噪声来提高 GNN 的鲁棒性。通过理论分析和实证评估,揭示了噪声注入和 GNN 鲁棒性 - SafeDecoding:通过安全感知解码防御越狱攻击
通过引入 SafeDecoding,我们旨在通过安全感知的解码策略,防御 LLMs 遭受越狱攻击,生成对用户请求有帮助且无害的回应,从而在保持 LLMs 安全性的同时,显著降低越狱攻击的成功率和有害性,超过六种防御方法。
- 重审梯度修剪:一种用于抵御梯度攻击的双重实现
协作学习是一种分布式学习框架,旨在通过共享梯度更新,保护用户隐私。然而,梯度反演攻击对协作学习构成严重的隐私威胁。现有的防御方法在隐私、效用和效率之间存在着很大的折衷。为了克服现有解决方案的缺点,我们提出了一种新的防御方法,双梯度修剪(DG - 通过合作训练保护推荐系统
推荐系统中的假账号是一个严重的问题,本论文提出了一个三重协同防御的框架(TCD),旨在通过集成数据处理和鲁棒模型来提高推荐系统的鲁棒性。此外,论文还介绍了一种高效的攻击策略(Co-Training Attack),并将其与 TCD 作为一个 - AR-GAN: 面向自动驾驶交通标志分类系统的对抗攻击的生成对抗网络防御方法
该研究提出了一种基于生成对抗网络(GAN)的自主车辆中交通标志分类的防御方法,名为 AR-GAN。AR-GAN 的创新之处在于:(一)假设对抗攻击模型和样本没有任何先验知识,(二)在各种对抗攻击类型下均提供一致高的交通标志分类性能。AR-G - 对大型语言模型间接提示注入攻击的基准测试与防御
通过使用第一个基准 BIPIA 来评估不同大型语言模型的鲁棒性和对间接提示注入攻击的防御方法,我们发现具有更高能力的大型语言模型在文本任务中更容易受到间接提示注入攻击,导致 ASR 更高。在此基础上,我们提出了基于提示学习的四种黑盒方法和基 - 持续对抗性防御
提出首个连续性对抗防御(CAD)框架,适应动态场景中的任何攻击,并通过实验证明其对多个现代对抗攻击的有效性和对 10 个基线方法的显著改进。
- 狼穿羊皮:通用嵌套越狱引导轻易蒙骗大型语言模型
基于自动生成的破解提示,我们提出了 ReNeLLM 框架来改进大型语言模型的攻击成功率,同时降低时间成本;我们的研究揭示了当前防御方法在保护大型语言模型方面的不足,并从提示执行优先级的角度进行了详细的分析和讨论。
- 以火攻火:使用模式随机化的防御贴片对抗拼贴攻击
本文提出了一种新颖且通用的对抗攻击防御方法,采用了 “以火攻火” 的原则,并通过注入两种类型的防御贴片,Canary 和 Woodpecker,实施主动防御策略,以主动检测和削弱潜在的对抗贴片,而无需修改目标模型。同时,采用软件安全中的随机