- 通过解耦视觉表示遮蔽来提高对抗鲁棒性
深度神经网络在对抗性例子方面容易受到攻击,针对这一问题,我们提出了一种基于解耦视觉特征掩蔽的简单而有效的防御方法,该方法可以提高鲁棒性,相对于现有的防御方法具有优越性能。
- 大型语言模型哨兵:通过 LLM 代理推进对抗鲁棒性
我们引入了一种名为 LLAMOS 的新型防御技术,通过净化输入到目标大型语言模型之前的对抗文本示例,以增强大型语言模型的对抗鲁棒性。我们的方法包括两个主要组成部分:a) 代理指示,可以模拟新的代理进行对抗防御,通过最小限度地更改字符来保持句 - AED-PADA: 通过主要对抗领域适应性提高对抗样本检测的泛化能力
通过主对抗领域适应的对抗性样例检测方法(AED-PADA),针对现有检测方法在广泛应用中存在的泛化性能较差的问题提出了解决方案,通过识别主对抗领域(PAD)并利用多源领域适应实现对对抗性样例的检测,实验表明我们的方法在具有极小幅度干扰的挑战 - COLING子空间防御:通过学习纯净信号的子空间来排除对抗性扰动
通过谱分析来检查样本特征的子空间,我们首先从实证角度表明干净信号或对抗扰动的特征分别是冗余的,而且在低维线性子空间中重叠较少,并且经典的低维子空间投影可以将扰动特征压缩到干净信号的子空间之外,从而使得深度神经网络可以学习一个只包含干净信号特 - 针对恶劣可视条件下跨领域目标检测的对抗防御教师
现有的目标检测器在处理训练和真实世界数据之间的领域转变方面面临挑战,尤其是在雾天和夜晚等低能见度条件下。我们提出了一种名为 Adversarial Defense Teacher(ADT)的简单而有效的框架,通过利用对抗性防御来提高教学质量 - AAAI无法学习例子的检测与防御
随着社交媒体的出现,隐私保护变得越来越关键。我们提出了使用深度学习模型的泛化能力降低的不可学习示例来避免在互联网上泄露个人信息,然而我们的研究发现,不可学习示例很容易被检测出来。我们提供了关于某些不可学习污染数据集的线性可分性的理论结果和基 - 遮挡环境下的人物再识别网络:擦除、变换与添加噪音防御
该论文提出了一个简单而有效的框架,ETNDNet,来处理人物重识别中遮挡的问题,这个框架不需要任何外部模块,通过三种策略(随机擦除、随机变换和加入高斯噪声)来抵抗随机和遮挡噪声。的 GAN-based 对抗防御范例是第一个针对无法识别的人物 - 深度平衡模型对抗鲁棒性的更深入探究
使用中间梯度的方法对 Deep Equilibrium Models 进行白盒攻击与评估,提高了其对抗攻击的鲁棒性,实验证明其在 CIFAR-10 数据集上的性能与同等规模的深度神经网络竞争力相当。
- 通过输入梯度精华释放 $L_{\infty}$ 对抗训练中的不平等现象
本文介绍了一种名为输入梯度蒸馏的方法,旨在消除 l∞- 对抗训练中的不平等现象,从而提高对噪声和遮挡物的鲁棒性。实验证明,在保持了模型的对抗鲁棒性的同时,输入梯度蒸馏还提高了模型对噪声和遮挡物的鲁棒性,并正式解释了模型显要性图的平等如何提高 - 团队协作感知的对抗性鲁棒性实现 —— 基于共识机制
提出了一种新型的基于采样的防御策略 ROBOSAC,该策略可以保证多个机器人协同感知的结果一致性,有效应对深度学习中的对抗攻击,并在自主驾驶场景中有效驱动协同 3D 物体检测任务。
- 基于锚点的语言驱动对抗鲁棒零样本学习
本研究提出了一种新颖的基于语言驱动和锚点的对抗训练策略 LAAT,通过利用文本编码器生成锚点来提升零样本图像分类的对抗鲁棒性,实验证明 LAAT 策略达到了令人印象深刻的零样本的对抗性能,并且在大型数据集中训练的模型具有显着的零样本对抗性鲁 - 时间序列模型的易感性与鲁棒性:对抗攻击与防御
本研究研究了七种时间序列模型对于三种对抗攻击的敏感性和使用防御机制的鲁棒性,实验结果表明所有模型均易受攻击,其中尤以 GRU 与 RNN 敏感性较高,LSTM 和 GRU 的防御恢复效果较好,而在攻击效果上,FGSM 超过其它竞争对手,PG - 指纹式深度神经网络模型样本相关性检测
提出了一种基于 SAmple Correlation (SAC) 的模型窃取检测方法,该方法选择被错误分类的正常样本作为模型输入,并计算它们的模型输出的平均相关性,结果表明该方法能够有效防御各种模型窃取攻击。
- 通过分离已知和未知的干扰因素进行弱监督不变表示学习
提出了一种弱监督信号和对比方法相结合的框架来同时学习解缠和不变表示,实验证明该方法在四个标准基准上均优于现有最先进方法,且无需对抗训练即具有更好的对抗防御能力。
- 基于中心导向的对抗训练在深度哈希检索中的应用
本文提出一种中心引导的对抗训练方法 (CgAT), 通过最糟糕的对抗样本来提高深度哈希网络的鲁棒性,从而防御深度哈希检索的对抗攻击。
- ACL通过鲁棒密度估计进行文本分类中词语对抗样本的检测:基准和基础线
本文旨在探索检测针对 NLP 模型的对抗攻击的方法,提出基于密度估计的 Competitive Baseline,并提供包括 4 个数据集上 4 种流行攻击方法和 4 种模型在内的数据集,以便进一步研究。
- 基于纯净 - 对抗相互学习的开放性对抗性防御
本文提出了一种双关注特征去噪网络 (OSDN-CAML) 来解决开放式对抗防御 (OSAD) 问题,该网络通过自监督和对抗学习实现了对图像中的对抗噪声的自适应去除,并且引入了清洁 - 对抗互补学习方法以增强开放式识别的鲁棒性。
- CVPRLiBRe:一种实用的贝叶斯方法用于对抗性检测
本文介绍了 Lightweight Bayesian Refinement (LiBRe) 方法,利用 Bayesian 神经网络(BNNs)进行对抗检测。利用任务和攻击不可知建模的能力,LiBRe 可以以低成本为多种预训练的任务依赖型 D - 引导式对抗攻击:评估和增强对抗防御
本文提出了 Guided Adversarial Margin Attack (GAMA),该攻击能够更有效地指导对抗样本的生成;同时,使用所提出的松弛项进行对抗训练,可以提高单步防御的效果,从而达到了最先进的性能水平。
- 具有秘密密钥的分块图像转换用于对抗性鲁棒防御
本文提出了一种新的防御方法,通过像素重排、位反转和 FFX 加密三种算法对输入图像进行块状预处理,使用该方法在 CIFAR-10 和 ImageNet 数据集中的黑盒和白盒攻击实验中均能保持较高分类准确性,是当前已知的对抗防御技术中最优秀的