神经网络水印的蒸馏攻击效果及对策
本文提出了一种名为 DRW 的新型水印技术,可以通过将水印注入受害者的预测概率中,以保护 NLP 模型免受盗窃攻击,并能够探测到这样的攻击,这种方法在各种 NLP 任务中均表现出较强的保护和检测能力。
Oct, 2022
本研究关注深度神经网络的水印方案的稳健性和可靠性,发现恶意对手即使在水印难以删除的情况下,仍然可以逃避合法所有者的验证,从而避免了模型被盗的可能性。
Sep, 2018
本文提出了一种新颖的水印去除攻击方法,能够有效和盲目地破坏水印模型对水印样本的记忆,实现了水印去除,并且提出了一种轻量级的微调策略,以提升模型性能和现有水印的鲁棒性。
Sep, 2020
本文提出了一种神经网络 “洗涤” 算法,可以即使在对水印结构没有先前知识的情况下,从神经网络中移除黑盒后门水印,有效消除了现有防御和版权保护机制使用的水印,并证明现有的后门水印不足以达到其声称的要求。
Apr, 2020
本研究介绍了一种防御机制,名为防御蒸馏,用于减少对深度神经网络的对抗样本的影响,并通过理论和实验证明了该机制在培训深度神经网络时具有通用性和鲁棒性。
Nov, 2015
我们提出了一种新的基于模型反演的移除攻击(Mira),该攻击不针对特定的水印,并且对大多数主流的黑盒深度神经网络水印方案都有效。我们的攻击方法利用受保护模型的内部信息来恢复并取消学习水印信息,并且还设计了目标类别检测和恢复样本分割算法来减小 Mira 攻击带来的效用损失,实现对一半水印方案的无数据水印去除。我们在三个基准数据集和深度神经网络架构上对 Mira 进行了全面评估,与六种基线攻击相比,Mira 对覆盖的水印具有强大的去除效果,在更宽松甚至无对数据集可用性的假设下,保留了至少 90% 的被窃模型效用。
Sep, 2023
我们介绍了一种新颖的基于触发集的水印技术,该方法对功能盗取攻击表现出强韧性,特别是涉及提取和精炼的攻击。我们的方法不需要额外的模型训练,并且可以应用于任何模型架构。通过计算可在源模型和代理模型集之间传输的触发集,我们展示了如果集合可传输的概率相当高,它可以有效用于盗取模型的所有权验证。我们在多个基准测试上评估了我们的方法,并展示了在所有考虑的实验设置中,我们的方法优于当前最先进的水印技术。
Jan, 2024
本研究探索了在 SSL 中针对恶意编码器的一种叫作蒸馏的防御方法,蒸馏最初用于监督学习,其目的是从给定模型(即教师网络)中提取知识并传递给另一个模型(即学生网络),现在我们使用它来从被恶意植入的预训练编码器中提取良性知识并传递给一个新的编码器,以获得一个干净的预训练编码器。通过对两种顶级的预训练图像编码器和四种常用的图像分类数据集进行实验研究,我们的实验结果表明,蒸馏可以将攻击成功率从 80.87% 降低至 27.51%,但精度损失为 6.35%。此外,我们研究了蒸馏的三个核心组成部分:教师网络、学生网络和蒸馏损失对性能的影响,通过比较 4 个不同的教师网络、3 个不同的学生网络和 6 种不同的蒸馏损失,我们发现,精调过的教师网络、基于预训练训练的学生网络和基于注意力的蒸馏损失效果最佳。
Mar, 2024