强化防御：提升对抗训练与数字水印技术的模型韧性

AAAIDec, 2023

强化防御：提升对抗训练与数字水印技术的模型韧性

Elevating Defenses: Bridging Adversarial Training and Watermarking for Model Resilience

Janvi Thakkar, Giulio Zizzo, Sergio Maffeis

TL;DR该研究提出了一种新的框架，将对抗训练与水印技术相结合，以增强鲁棒性，抵御逃避攻击，并在知识产权盗窃情况下提供可信的模型验证。

Abstract

machine learning models are being used in an increasing number of critical applications; thus, securing their integrity and ownership is critical. Recent studies observed that adversarial training and

machine learning models adversarial training watermarking intellectual property theft model stealing attacks

发现论文，激发创造

可靠的模型数字水印技术：在保持逃避性能的同时防御盗窃

利用扩散模型为防止未授权模型分发而合成无限制对抗样本作为触发器集合，通过知识注入而非错误记忆来促进独特的水印行为，并通过优化受保护模型的知识传递属性，无需过于猛烈的决策边界扰动即可将水印行为传递给提取替代物，从而提高对于逃避对手和水印清除攻击的鲁棒性。

Apr, 2024

ROMark: 使用对抗训练的强韧数字水印系统

本文提出利用对抗式机器学习中的稳健优化算法来提高基于卷积神经网络的数字水印框架的鲁棒性，在 COCO 数据集上的实验证明，稳健优化可以显著提高数字水印框架的鲁棒性。

Oct, 2019

量子纠缠数字水印抵御模型抽取攻击

本文提出一种名为 EWE 的恒定水印嵌入技术，该技术将水印紧密嵌入到训练任务中，促使模型同时学习正常输入和此类水印，并在测试时表现优异，可实现在 100 次以下查询成功地断言模型属于自己。

Feb, 2020

针对深度神经网络水印技术的攻击：以逃避攻击为例

本研究关注深度神经网络的水印方案的稳健性和可靠性，发现恶意对手即使在水印难以删除的情况下，仍然可以逃避合法所有者的验证，从而避免了模型被盗的可能性。

Sep, 2018

基于远程神经网络水印的对抗性边界拼接

研究深度学习模型的水印技术，提出了一种零比特水印算法使用反对抗模型样本进行标记，可在保护模型性能损失较小的情况下使用少量查询轻松提取水印，并应用于 MNIST 数字识别任务的三种神经网络中。

Nov, 2017

Adv-watermark: 一种新颖的水印扰动方法用于对抗性样本

本篇研究提出了将图像水印技术和对抗样本算法结合在一起生成一种新的对抗扰动 ——Adv-watermark，并且使用一种新的优化算法 Basin Hopping Evolution (BHE) 生成黑盒攻击模式下的对抗性水印，该方法比其他攻击方法更为高效和鲁棒。

Aug, 2020

DAWN: 动态对抗性神经网络水印

本文提出了一种名为 DAWN 的动态对抗水印方法，它通过在受保护的机器学习模型的预测 API 中动态地更改一小部分查询的响应生成水印，以遏制模型抽取知识产权盗窃，并对两种最新的模型抽取攻击具有鲁棒性。

Jun, 2019

水印嵌入的对抗性样本用于抵抗扩散模型的版权保护

提出了一种将个人水印嵌入敌对实例生成中的新框架，以生成具有可见水印的图像，防止敌对模型模仿未授权图像，并在各种条件图像生成场景进行广泛实验，证明了敌对实例具有良好的传递性，从而提供了一种保护基于扩散模型的版权的简单而有效的方法。

Apr, 2024

图像处理网络的模型水印技术

基于空间隐形水印技术，提出了一种图像处理模型的水印框架，防止模型权益被侵犯。实验证明，该水印技术可抵抗不同网络结构和目标函数训练出的替代模型。

Feb, 2020

深度神经网络抗盗版水印

本研究介绍了一种旨在提高深度神经网络（DNN）中数字水印鲸吞强度的方法，该方法称为空嵌入（null embedding），通过对模型进行初始训练，我们建立了模型分类精确度与水印之间的强关系，使攻击者无法通过调整或增量训练来移除嵌入式数字水印，并且可以避免第三方嵌入 “盗版数字水印” 以索取模型所有权的情况。

Oct, 2019