基于后门的模型水印技术的弱点：信息论视角

Sep, 2024

基于后门的模型水印技术的弱点：信息论视角

On the Weaknesses of Backdoor-based Model Watermarking: An Information-theoretic Perspective

Aoting Hu, Yanzhi Chen, Renjie Xie, Adrian Weller

TL;DR本研究针对当前机器学习模型水印技术的脆弱性，特别是基于后门的水印嵌入方法，进行了深入探讨。通过信息论分析，揭示了水印抵御攻击的关键在于触发样本的选择，并提出了一种新颖的水印嵌入方案，以增强现有方法的抗攻击能力。实验结果显示，该方法在保持高效性的同时，对各种攻击具有良好的防御能力。

Abstract

Safeguarding the intellectual property of machine learning models has emerged as a pressing concern in AI security. Model Watermarking is a powerful technique for protecting ownership of machine learning models, yet its reliability has been recently challenged by recent watermark remov

发现论文，激发创造

关于基于后门的深度神经网络数字水印的鲁棒性

本论文研究了深度神经网络的数字水印技术并提出了黑盒和白盒的攻击方法，证明了该水印方案的不安全性，并指出需要一些其他技术来保护免受攻击。

Jun, 2019

有限数据下消除神经网络中基于后门的水印

本文介绍了一种基于小样本数据的去水印方法，使用数据增强和特征空间中正常和扰动数据的分布对齐相结合，有效地去除深度模型中的水印，并不影响深度模型性能。

Aug, 2020

非定向后门水印: 迈向无害和隐密的数据集版权保护

通过引入非目标型背门水印方案，该研究探讨了数据集所有权的验证问题，并在多个数据集上验证了其方法的有效性和鲁棒性。

Sep, 2022

使用干净标签后门水印保护公共数据集

本研究提出了一种基于后门的数字水印方法，可保护公开可用的数据集免受非法使用，使用仅占数据集样本极小比例的水印样本，且不影响原有任务性能，提高了数据保护的隐蔽性和有效性。

Mar, 2023

使用单个异常图像进行安全且稳健的水印嵌入

训练高性能深度神经网络需要大量的数据和计算资源。保护深度模型的知识产权和商业所有权具有挑战性但又越来越重要。本研究提出了一种安全而稳健的基于后门的水印注入技术，利用单个超出分布图像的多样知识作为知识产权验证的秘密密钥。该技术不仅在没有训练数据的情况下快速高效，而且对抵抗水印去除攻击具有鲁棒性。

Sep, 2023

提升模型鲁棒性：减少参数弱点的水印

深度神经网络的水印技术存在被移除的漏洞，本文通过研究参数空间，提出了一种寻找并恢复水印行为的强化模型水印技术，实验证明该方法提高了模型水印技术对参数变化和多种移除攻击的鲁棒性。

Sep, 2023

Spy-Watermark：强韧隐形数字水印用于后门攻击

提出了一种名为Spy-Watermark的新型后门攻击方法，其中引入了一种可学习的图像潜在空间中嵌入的水印作为触发器，通过多个防崩溃操作进一步增强触发器对数据损坏的韧性，从而在面对数据崩溃和后门防御时仍然有效。在CIFAR10、GTSRB和ImageNet数据集上进行了大量实验，展示了Spy-Watermark在鲁棒性和隐秘性方面超过了十种最先进方法。

Jan, 2024

神经网络的概率鲁棒性水印技术

我们介绍了一种新颖的基于触发集的水印技术，该方法对功能盗取攻击表现出强韧性，特别是涉及提取和精炼的攻击。我们的方法不需要额外的模型训练，并且可以应用于任何模型架构。通过计算可在源模型和代理模型集之间传输的触发集，我们展示了如果集合可传输的概率相当高，它可以有效用于盗取模型的所有权验证。我们在多个基准测试上评估了我们的方法，并展示了在所有考虑的实验设置中，我们的方法优于当前最先进的水印技术。

Jan, 2024

可靠的模型数字水印技术：在保持逃避性能的同时防御盗窃

利用扩散模型为防止未授权模型分发而合成无限制对抗样本作为触发器集合，通过知识注入而非错误记忆来促进独特的水印行为，并通过优化受保护模型的知识传递属性，无需过于猛烈的决策边界扰动即可将水印行为传递给提取替代物，从而提高对于逃避对手和水印清除攻击的鲁棒性。

Apr, 2024

水印技术特征归属的无害和多位模型所有权验证

模型版权的关键问题是所有权验证和水印技术，目前的基于后期方法是通过检查是否具有特定属性来识别可疑的第三方模型是否被盗窃。本文提出了一种新的基于可解释人工智能的水印技术，通过嵌入特征归属的解释中的验证行为来解决现有方法的限制。

May, 2024