本文主要研究通过对输入进行类别有条件的重构来检测对抗样本,使用重构攻击来进攻检测机制,并发现 CapsNets 总是表现更好,进一步诊断 CapsNets 的对抗样本,发现了视觉相似性与攻击成功率之间的高度相关性。
Jul, 2019
针对深度学习图像分类模型易受恶意注入噪声的对抗攻击,本文基于深度图像先验提出了一种新颖有效的重建防御框架,并且分析和明确地将模型决策过程纳入了防御范畴,通过倒推清晰的 “干净样本”,最终构造出一幅可以被正确识别的图像,实验表明,在白盒、防御感知攻击下,该方法表现出优异的防御效果且重建图像的视觉质量较高。
Jul, 2021
提出了一种新颖的对抗检测和修正方法,利用自动编码器和基于 KL 散度的自定义损失函数实现分类器的预测和重构实例之间的比较,该方法是无监督的、易于训练的,并不需要关于基础攻击的任何知识。在 MNIST 和 Fashion-MNIST 上,检测器几乎完全中和了像 Carlini-Wagner 或 SLIDE 这样的强大攻击,在攻击袭击者可以完全访问分类模型但无法访问防御情况下,对 CIFAR-10 仍然非常有效。我们展示了我们的方法仍然能够检测到对抗性例子,在攻击者对模型和防御都有充分了解的白盒攻击情况下并研究了攻击的鲁棒性。该方法非常灵活,还可以用于检测常见的数据损坏和扰动,从而对模型表现产生负面影响。我们在 CIFAR-10-C 数据集上介绍了这种能力。
Feb, 2020
本文探索基于胶囊神经网络的深度异常检测技术,开发了基于预测概率和重建误差的正常性评分函数来评估未见过图像的异常性,结果表明基于预测概率的方法表现出色,而基于重建误差的方法相对较敏感。
研究如何通过反向工程的方法利用少量的反向查询训练数据重建整个机器学习模型,尤其是针对神经网络等更一般的模型,通过实际攻击和差分隐私的方法来防御这种攻击,并探讨其对标准机器学习管道的影响。
Jan, 2022
该研究旨在研究如何从对手的图像中逆向工程出对手干扰, 并提出了一个新的逆向工程欺骗(RED)方法,其中结合了 RED 原则和图像去噪方法,称为 CDD-RED,以增加其泛化能力,对多种攻击方法均具有效性。
Mar, 2022
本文研究了面部识别系统的真实世界攻击问题,提出了一种可以产生对抗性贴片的简单方法,通过该方法可以将对抗属性添加到照片中并进行攻击。
Oct, 2019
基于卷积自编码器的方法提高目标分类器对抗性攻击的鲁棒性,通过生成与输入图像相似的图像来恢复模型的准确性。
Dec, 2023
本文提出了一种改进深度神经网络逆问题求解器的训练策略,通过使用一种辅助网络来生成对抗样本,并使用 min-max 公式构建稳健的图像重建网络,从而提高了对反重建技术的鲁棒性。通过针对两个不同数据集的压缩感知重建的实验,得出了对训练网络增加扰动的影响在病态和良好的测量矩阵中呈现定性的差异的结论。
本研究提出了一种基于对抗模型的异常检测框架,利用生成器和鉴别器来实现高效和稳健的异常检测,通过将鉴别器的基本角色从区分真假数据转变为区分良好和劣质的重建,使检测器能够更好地检测到异常输入中经常出现的细微畸变,经过对 Caltech-256 和 MNIST 图像数据集以及 UCSD Ped2 视频数据集的实验,该方法均取得了优越的结果。
Apr, 2020