- 通过扰动伪造检测对抗性数据
通过学习区分自然数据分布与对抗性噪声分布的覆盖关系,我们提出了扰动伪造方法,通过噪声分布扰动、稀疏掩模生成和伪对抗性数据生成来训练一个对所有类型的对抗性攻击具有强大泛化能力的检测器,同时不依赖任何特定模型。实验证明我们的方法具有出色的泛化能 - 增强守护者而非宝藏:适应性对抗性检测器
针对自适应攻击提出了一种名为 RADAR-Robust Adversarial Detection via Adversarial Retraining 的方法,旨在增强对抗性检测器的鲁棒性,同时保持分类器的性能。在训练阶段,我们将优化后的 - FaceCat:利用统一的生成模型框架增强人脸识别安全性
FaceCat 利用人脸生成模型作为预训练模型,通过精心设计的层次融合机制捕捉人脸生成模型的丰富结构和细节特征,为同时执行人脸反欺骗和对抗检测任务的轻量级头部提供稳定的基础。同时,通过特定文本引导的多模态对齐策略丰富特征表达,提高性能。Fa - RobustEdge: 云边系统中的低功耗对抗检测
在云边场景中,为了可靠性和普遍部署,对于资源受限的边缘进行数据采集,而云系统(具有足够资源)进行深度神经网络的推理任务,对抗鲁棒性至关重要。为了提高边缘的能效和云端的鲁棒性,提出了一种适用于低功耗边缘的对抗检测方法。
- ACL关于通用对抗干扰的无数据对抗检测的有效性
本论文提出了一种不需要原始训练数据即可计算 UAPs 的数据无关对抗性检测框架,并对各种文本分类任务进行了实验证明其具有竞争性的检测性能,且与正常推断相当。
- CVPR利用特征级随机平滑提高对抗鲁棒性
通过引入随机性提高神经网络决策边界的平滑性并排除低置信度的预测,从而提高对抗样本的鲁棒性,并结合对抗检测方法以实现更好的效果。
- ICML使用期望扰动分数通过探测多个扰动来检测对抗性数据
本文提出了一种新的统计量 —— 期望扰动分数 (EPS),来计算两个样本之间的差异,为解决使用单一样本的平凡评分不足问题,将样本使用各种噪声扰动来捕捉其多视角观察,并基于 EPS-AD 提出了基于预训练扩散模型来估计 EPS 以对抗样本进行 - 文本对抗防御的反应性摄动去焦
利用 Reactive Perturbation Defocusing 的方法来降低基于大型预训练语言模型的恶意攻击,在保证对自然样本性能影响最小的基础上,成功修复了高达 97% 的对抗样本,并提供了基于我们工作的对抗性检测和修复的演示。
- 通过侧信道泄漏检测对抗性样本的 EMShepherd
通过捕获模型执行的电磁痕迹(EM traces)并利用它们进行对抗性检测,提出了一种 EMShepherd 框架。该框架利用模型输出的 EM 签名进行训练,再对新输入进行分类,来检测对抗性攻击。该方法可在常用 FPGA 深度学习加速器上,对 - ICML基于梯度的对抗性样本检测与异常检测
通过使用梯度检测对抗性和分布外样本,引入混淆标签来提高神经网络的有效表达,使模型不依赖真实标签来生成梯度。这种基于梯度的方法能够捕捉输入中的异常,击败先进的方法。
- ACL用于对抗性检测的输入特定注意力子网络
本文提出了一种利用自注意力头来进行对抗检测的方法,在 10 个 NLU 数据集上通过构建输入特定的自注意力子网络并提取三个特征来鉴别真实和对抗性样本,相对于当前最先进的技术,对 BERT 编码器的对抗检测准确度明显提高(超过 7.5%),并 - 探究和利用图像转换对抗性检测的影响
本文综述了利用图像转换进行对抗检测的近期进展,并提出了一种名为 AdvJudge 的深度学习方法,通过结合 9 种图像转换的分数来判断对抗性示例,并利用可解释的 AI 工具显示了每种图像转换对对抗检测的贡献。
- CVPRLiBRe:一种实用的贝叶斯方法用于对抗性检测
本文介绍了 Lightweight Bayesian Refinement (LiBRe) 方法,利用 Bayesian 神经网络(BNNs)进行对抗检测。利用任务和攻击不可知建模的能力,LiBRe 可以以低成本为多种预训练的任务依赖型 D - ICLR采用平滑唯一信息估计样本信息价值
研究提出了一种针对神经网络的信息定义,可以测量样本对模型训练的影响程度和其计算函数的影响程度,利用线性网络提供了这些量的高效近似值并应用于数据集的总结、不足采样类别的分析、不同数据源信息量的比较和识别对抗样本等多个问题。
- AAAI在费舍尔信息度量下的对抗攻击与检测
本文利用信息几何,提出了一种基于 Fisher 信息和一步谱攻击 (OSSA) 的深度学习模型易遭受对抗攻击的合理解释,并提出了具有较高效率和性能的对抗攻击和检测算法,这为研究对抗攻击和防御提供了一种有前途的途径。