可证明鲁棒性图像水印
本研究提出了基于像素噪声分布和卷积神经网络生成器的各向异性随机光滑方法,以确保可证明鲁棒性保证,并取得了显著的性能优于现有随机平滑方法的实验结果。
Jul, 2022
本文提出了一种将图像水印和潜在扩散模型相结合的主动策略,以实现所有生成的图像具有隐匿的水印,从而便于将来的检测和/或识别,评估了水印在各种生成任务中的隐身性和鲁棒性,显示稳定签名即使在被修改之后仍可使用,能够在误识率低于10的负6次方以下时,准确率达到90%以上,能够检测文本提示生成的图像来源并对图像进行裁剪处理的情况。
Mar, 2023
通过分析AI图像检测方法,研究了水印技术以及基于分类器的深度伪造检测器的强大性,发现在扰动预算较低的情况下,扩散纯化攻击能够有效地去除水印,而对于图像有明显更改的高扰动水印方法,我们开发了一种模型替换对抗攻击来成功去除水印。同时发现水印技术容易受到欺骗攻击,对开发者的声誉造成损害,并通过实验表明分类器的鲁棒性和可靠性之间存在基本的权衡关系。
Sep, 2023
在本文中,我们研究了强水印方案的(不)可能性。我们证明了在给定合理和自然的假设下,无法实现强水印。即使在私有检测算法设置下,即水印插入和检测算法共享一个对攻击者不知情的秘钥,此结果仍然成立。为了证明这个结果,我们引入了一个通用的高效水印攻击方法;攻击者不需要知道方案的私钥,甚至不需要知道使用的是哪个方案。我们的攻击基于两个假设:(1)攻击者可以访问“质量Oracle”,评估候选输出是否对提示有高质量的响应;(2)攻击者可以访问“扰动Oracle”,它可以以较高的概率修改输出,同时保持质量,并在高质量输出上诱导有效混合的随机游走。我们认为,这两个假设在实践中可以由比水印模型自身计算能力更弱的攻击者满足,攻击者只能以黑盒方式访问。此外,随着模型的能力和形式多样性的增长,我们的假设很可能随着时间的推移变得更容易满足。我们通过实施攻击来展示我们攻击的可行性,用于攻击大型语言模型的三个现有水印方案:Kirchenbauer等(2023),Kuditipudi等(2023)和Zhao等(2023)方案。同样的攻击成功去除了所有三个方案植入的水印,仅有轻微的质量降低。
Nov, 2023
通过将统计水印技术作为一种假设检验问题进行研究,我们建立了一个通用框架,涵盖了所有以前的统计水印方法,并通过在实际中使用伪随机生成器将输出符号和拒绝域进行耦合,实现了类型 I 错误和类型 II 错误之间的非平凡权衡。我们描述了在这种情境中的均匀最有力(UMP)水印。对于输出为 $n$ 个符号序列的最常见情况,我们对所需的 i.i.d. 符号数量的上下界进行了匹配,以保证较小的类型 I 错误和类型 II 错误。我们的比率与每个符号的平均熵 $h$ 相关,因此大幅改进了先前作品中的 $O(h^{-2})$ 比率。对于检测器缺乏模型分布知识的情况,我们引入了模型无关水印技术,并为类型 II 错误增加的最小值界限建立了最小化界限。此外,我们还制定了鲁棒水印问题,允许用户对生成的文本进行一类扰动,并通过线性规划问题表征了鲁棒 UMP 检验的最佳类型 II 错误。据我们所知,这是第一个在 i.i.d. 设置中具有近乎最优速率的水印问题的系统统计处理,对于未来的研究可能具有兴趣。
Dec, 2023
ZoDiac使用预训练的稳定扩散模型将水印注入可训练的潜空间,从而产生出在向量空间中可靠检测到的水印,对抗各种水印攻击具有98%以上的检测率和不超过6.4%的误判率,并超越先进的水印处理方法,展示了稳定扩散作为一种强大的鲁棒水印处理方法的潜力。
Jan, 2024
本文介绍了一个名为RAW的稳健而灵活的即插即用水印检测框架,它将可学习的水印直接引入原始图像数据中,并使用与水印共同训练的分类器来检测水印的存在。此框架在各种生成架构上可兼容,并支持训练后即时进行水印注入,通过整合最先进的平滑技术,不仅在水印图像误分类的假阳性率方面提供可证明的保证,而且在存在针对水印去除的某些对抗性攻击时也表现出显著的性能增强。在由最先进的扩散模型生成的各种图像上的实验证明与现有方法相比,我们的方法在检测带有对抗性攻击的水印图像时,AUROC从0.48增加到0.82,同时保持图像质量,表现为接近的FID和CLIP得分。
Jan, 2024
现在,稳定扩散(SD)模型家族因其高质量的输出和可扩展性而变得重要。这也引发了对社交媒体安全性的担忧,因为恶意用户可以创建和传播有害内容。现有方法涉及在生成的图像中训练组件或整个SD来嵌入水印,以实现可追溯性和责任归属。然而,在人工智能生成内容(AIGC)的时代,快速迭代的SD使得重新训练带有水印模型变得昂贵。为了解决这个问题,我们提出了一种针对SD的无需训练的即插即用水印框架。在不修改SD的任何组件的情况下,我们在潜在空间中嵌入不同的水印,适应去噪过程。我们的实验结果表明,我们的方法有效地协调了图像质量和水印的隐形性。此外,它在各种攻击下表现出很强的稳健性。我们还验证了我们的方法在多个SD版本中的通用性,甚至无需重新训练水印模型。
Apr, 2024