神经网络水印的蒸馏攻击效果及对策

Jun, 2019

神经网络水印的蒸馏攻击效果及对策

Effectiveness of Distillation Attack and Countermeasure on Neural Network Watermarking

Ziqi Yang, Hung Dang, Ee-Chien Chang

TL;DR本论文讨论机器学习中的漏洞问题，提出了一种全新的保护版权的方法 ingrain，并进行了大量评估，结果表明 ingrain 相对于既存方法更加有效。

Abstract

The rise of machine learning as a service and model sharing platforms has raised the need of traitor-tracing the models and proof of authorship.

machine learning traitor-tracing copyright watermarking distillation

发现论文，激发创造

自然语言处理中用于模型保护的抗蒸馏水印技术

本文提出了一种名为 DRW 的新型水印技术，可以通过将水印注入受害者的预测概率中，以保护 NLP 模型免受盗窃攻击，并能够探测到这样的攻击，这种方法在各种 NLP 任务中均表现出较强的保护和检测能力。

Oct, 2022

针对深度神经网络水印技术的攻击：以逃避攻击为例

本研究关注深度神经网络的水印方案的稳健性和可靠性，发现恶意对手即使在水印难以删除的情况下，仍然可以逃避合法所有者的验证，从而避免了模型被盗的可能性。

Sep, 2018

微调不够用：一种简单而有效的用于 DNN 模型去水印的攻击方法

本文提出了一种新颖的水印去除攻击方法，能够有效和盲目地破坏水印模型对水印样本的记忆，实现了水印去除，并且提出了一种轻量级的微调策略，以提升模型性能和现有水印的鲁棒性。

Sep, 2020

神经网络清洗：从深度神经网络中移除黑匣子后门水印

本文提出了一种神经网络 “洗涤” 算法，可以即使在对水印结构没有先前知识的情况下，从神经网络中移除黑盒后门水印，有效消除了现有防御和版权保护机制使用的水印，并证明现有的后门水印不足以达到其声称的要求。

Apr, 2020

基于蒸馏的深度神经网络对抗性扰动防御

本研究介绍了一种防御机制，名为防御蒸馏，用于减少对深度神经网络的对抗样本的影响，并通过理论和实验证明了该机制在培训深度神经网络时具有通用性和鲁棒性。

Nov, 2015

评估神经网络的鲁棒性

本研究介绍了新型攻击算法，证明了防御蒸馏并不能显著提升神经网络的强度，提供了高置信度的对抗性样本用于简单的可迁移性测试，该测试可以用于破解防御蒸馏。

Aug, 2016

强化防御：提升对抗训练与数字水印技术的模型韧性

该研究提出了一种新的框架，将对抗训练与水印技术相结合，以增强鲁棒性，抵御逃避攻击，并在知识产权盗窃情况下提供可信的模型验证。

Dec, 2023

MIRA：基于模型反演的去除攻击方法破解深度神经网络中的黑盒水印技术

我们提出了一种新的基于模型反演的移除攻击（Mira），该攻击不针对特定的水印，并且对大多数主流的黑盒深度神经网络水印方案都有效。我们的攻击方法利用受保护模型的内部信息来恢复并取消学习水印信息，并且还设计了目标类别检测和恢复样本分割算法来减小 Mira 攻击带来的效用损失，实现对一半水印方案的无数据水印去除。我们在三个基准数据集和深度神经网络架构上对 Mira 进行了全面评估，与六种基线攻击相比，Mira 对覆盖的水印具有强大的去除效果，在更宽松甚至无对数据集可用性的假设下，保留了至少 90% 的被窃模型效用。

Sep, 2023

神经网络的概率鲁棒性水印技术

我们介绍了一种新颖的基于触发集的水印技术，该方法对功能盗取攻击表现出强韧性，特别是涉及提取和精炼的攻击。我们的方法不需要额外的模型训练，并且可以应用于任何模型架构。通过计算可在源模型和代理模型集之间传输的触发集，我们展示了如果集合可传输的概率相当高，它可以有效用于盗取模型的所有权验证。我们在多个基准测试上评估了我们的方法，并展示了在所有考虑的实验设置中，我们的方法优于当前最先进的水印技术。

Jan, 2024

预训练编码器中蒸馏在缓解后门中的有效性

本研究探索了在 SSL 中针对恶意编码器的一种叫作蒸馏的防御方法，蒸馏最初用于监督学习，其目的是从给定模型（即教师网络）中提取知识并传递给另一个模型（即学生网络），现在我们使用它来从被恶意植入的预训练编码器中提取良性知识并传递给一个新的编码器，以获得一个干净的预训练编码器。通过对两种顶级的预训练图像编码器和四种常用的图像分类数据集进行实验研究，我们的实验结果表明，蒸馏可以将攻击成功率从 80.87% 降低至 27.51%，但精度损失为 6.35%。此外，我们研究了蒸馏的三个核心组成部分：教师网络、学生网络和蒸馏损失对性能的影响，通过比较 4 个不同的教师网络、3 个不同的学生网络和 6 种不同的蒸馏损失，我们发现，精调过的教师网络、基于预训练训练的学生网络和基于注意力的蒸馏损失效果最佳。

Mar, 2024