仅使用真实人脸的自干扰检测对抗样本人脸

IJCAIApr, 2023

仅使用真实人脸的自干扰检测对抗样本人脸

Detecting Adversarial Faces Using Only Real Face Self-Perturbations

Qian Wang, Yongqin Xian, Hefei Ling, Jinyuan Zhang, Xiaorui Lin...

TL;DR本文提出了一种生成伪造对抗人脸图像的方法，并用其来训练一个不需要攻击数据就可以检测对抗人脸图像的分类器，该方法适用于各种未知对抗攻击。

Abstract

adversarial attacks aim to disturb the functionality of a target system by adding specific noise to the input samples, bringing potential threats to security and robustness when applied to facial recognition systems

adversarial attacks facial recognition systems adv-faces detection pseudo adv-faces generation defense techniques

发现论文，激发创造

对抗性人脸合成

该论文提出 AdvFaces，一种基于生成对抗网络 (GAN) 的自动化方法，用最小的扰动生成看似合法但实际上能够欺骗最新人脸识别系统的假冒人脸或模糊真正主题的攻击性人脸图像。

Aug, 2019

通过面向转换的对抗性人脸防御，抵御基于 GAN 的深度伪造攻击

本研究提出了使用差分随机图像变换的对抗攻击作为 GAN-based Deepfake 的防御方法，同时使用基于集合的方法加强了攻击的鲁棒性。

Jun, 2020

人脸识别领域中卷积神经网络的对抗性攻击

本文以 Fast Gradient Sign Method 为基础，对面部图像数据集进行扰动，测试不同黑盒攻击算法的鲁棒性，并重点研究修改单个最佳像素或所有像素的攻击方法。研究结果表明，所有像素攻击方法能使分类器置信度平均下降至 84％，且 81.6％的误分类率，但这些图像始终可以被人类识别。该研究可为防御性对抗攻击、自适应噪声降低技术等方面的 DNNs 训练和研究提供宝贵的参考。

Jan, 2020

探索人脸流形上的对抗性假图像

本研究提出一种新的反 - 取证攻击方法，该方法利用梯度下降算法在 Style-GAN 的潜空间中搜索对抗性潜向量，生成高质量的假人脸图像，并能够成功地欺骗主流取证模型，从而达到反 - 取证的目的。

Jan, 2021

隐匿明目之间：对抗性干扰扰乱人工智能人脸合成

本研究通过在训练数据中添加微不可见的对抗干扰因素，破坏基于深度神经网络的人脸检测器的质量，从而防止个人受到最近利用 AI 合成的假面孔可能造成的负面社会影响。我们在白盒、灰盒和黑盒环境下描述了攻击方案，并在若干数据集上实证展示了我们的方法破坏最先进的基于 DNN 的人脸检测器的有效性。

Jun, 2019

通过扰动伪造检测对抗性数据

通过学习区分自然数据分布与对抗性噪声分布的覆盖关系，我们提出了扰动伪造方法，通过噪声分布扰动、稀疏掩模生成和伪对抗性数据生成来训练一个对所有类型的对抗性攻击具有强大泛化能力的检测器，同时不依赖任何特定模型。实验证明我们的方法具有出色的泛化能力。

May, 2024

Adv-Diffusion: 通过潜在扩散模型实施难以察觉的敌对人脸身份攻击

该研究论文提出了一种统一的框架 Adv-Diffusion，可以在潜在空间而不是原始像素空间中生成不可感知的对抗性身份扰动，利用潜在扩散模型的强大修补能力生成逼真的对抗性图像。通过在周围环境中生成语义扰动的身份敏感条件扩散生成模型，设计了自适应强度的对抗性扰动算法，既能确保攻击的可传递性又能保持隐秘性。在公开的 FFHQ 和 CelebA-HQ 数据集上进行了广泛的定性和定量实验，证明该方法在没有额外的生成模型训练过程的情况下取得了卓越的性能。源代码可在此链接中获取。

Dec, 2023

运用属性条件生成对抗面部图像逃避取证分类器

本研究利用具有解离表示的 StyleGAN 模型，提出了一种在特征空间中搜索对抗潜在编码的框架，可通过文本提示或参考图像来引导搜索，并采用基于元学习的优化策略，在保持不被人类发现的同时成功欺骗法医人脸识别器的同时，成功生成了以指定属性集为真实的对抗伪造面部。

Jun, 2023

AdvGen: 针对人脸展示攻击检测系统的物理对抗攻击

通过自动生成对抗性图像的方式，本研究展示了面部认证系统在实际场景中对对抗性图像的脆弱性，并提出 AdvGen 作为一种自动化生成对抗网络来模拟打印和重放攻击，生成可以欺骗最新型 PAD 的对抗性图像，其攻击成功率高达 82.01%。本研究在四个数据集和十个最新型 PAD 上对 AdvGen 进行了广泛测试，并在真实的物理环境中进行了实验证明了攻击的有效性。

Nov, 2023

生成对抗扰动

该研究提出了新型生成模型，用于制造近似自然图像但又能欺骗先前训练好的模型的略微扰动的对抗性样本。通过在具有挑战性的高分辨率数据集上的实验，它证明了这种扰动具有高弄虚率和较小的扰动规模，并且比当前的迭代方法更快。

Dec, 2017