Sep, 2023

MIRA:基于模型反演的去除攻击方法破解深度神经网络中的黑盒水印技术

TL;DR我们提出了一种新的基于模型反演的移除攻击(Mira),该攻击不针对特定的水印,并且对大多数主流的黑盒深度神经网络水印方案都有效。我们的攻击方法利用受保护模型的内部信息来恢复并取消学习水印信息,并且还设计了目标类别检测和恢复样本分割算法来减小 Mira 攻击带来的效用损失,实现对一半水印方案的无数据水印去除。我们在三个基准数据集和深度神经网络架构上对 Mira 进行了全面评估,与六种基线攻击相比,Mira 对覆盖的水印具有强大的去除效果,在更宽松甚至无对数据集可用性的假设下,保留了至少 90% 的被窃模型效用。