Sep, 2023

AI图像检测器的稳健性: 基本限制与实际攻击

TL;DR通过分析AI图像检测方法,研究了水印技术以及基于分类器的深度伪造检测器的强大性,发现在扰动预算较低的情况下,扩散纯化攻击能够有效地去除水印,而对于图像有明显更改的高扰动水印方法,我们开发了一种模型替换对抗攻击来成功去除水印。同时发现水印技术容易受到欺骗攻击,对开发者的声誉造成损害,并通过实验表明分类器的鲁棒性和可靠性之间存在基本的权衡关系。