量子纠缠数字水印抵御模型抽取攻击

Feb, 2020

量子纠缠数字水印抵御模型抽取攻击

Entangled Watermarks as a Defense against Model Extraction

Hengrui Jia, Christopher A. Choquette-Choo, Varun Chandrasekaran, Nicolas Papernot

TL;DR本文提出一种名为 EWE 的恒定水印嵌入技术，该技术将水印紧密嵌入到训练任务中，促使模型同时学习正常输入和此类水印，并在测试时表现优异，可实现在 100 次以下查询成功地断言模型属于自己。

Abstract

machine learning involves expensive data collection and training procedures. Model owners may be concerned that valuable intellectual property can be leaked if adversaries mount model extraction attacks. As it is

machine learning model extraction attacks watermarking entangled watermarking embeddings model ownership

发现论文，激发创造

可靠的模型数字水印技术：在保持逃避性能的同时防御盗窃

利用扩散模型为防止未授权模型分发而合成无限制对抗样本作为触发器集合，通过知识注入而非错误记忆来促进独特的水印行为，并通过优化受保护模型的知识传递属性，无需过于猛烈的决策边界扰动即可将水印行为传递给提取替代物，从而提高对于逃避对手和水印清除攻击的鲁棒性。

Apr, 2024

强化防御：提升对抗训练与数字水印技术的模型韧性

该研究提出了一种新的框架，将对抗训练与水印技术相结合，以增强鲁棒性，抵御逃避攻击，并在知识产权盗窃情况下提供可信的模型验证。

Dec, 2023

针对深度神经网络水印技术的攻击：以逃避攻击为例

本研究关注深度神经网络的水印方案的稳健性和可靠性，发现恶意对手即使在水印难以删除的情况下，仍然可以逃避合法所有者的验证，从而避免了模型被盗的可能性。

Sep, 2018

深度神经网络抗盗版水印

本研究介绍了一种旨在提高深度神经网络（DNN）中数字水印鲸吞强度的方法，该方法称为空嵌入（null embedding），通过对模型进行初始训练，我们建立了模型分类精确度与水印之间的强关系，使攻击者无法通过调整或增量训练来移除嵌入式数字水印，并且可以避免第三方嵌入 “盗版数字水印” 以索取模型所有权的情况。

Oct, 2019

图像处理网络的模型水印技术

基于空间隐形水印技术，提出了一种图像处理模型的水印框架，防止模型权益被侵犯。实验证明，该水印技术可抵抗不同网络结构和目标函数训练出的替代模型。

Feb, 2020

可学习的语言水印：对大型语言模型的模型提取攻击进行追踪

在快速发展的人工智能领域中，保护大型语言模型（LLMs）的知识产权变得越来越关键。我们提出了一种新颖的方法，在 LLMs 中嵌入可学习的语言水印，以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布，嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论，特别关注库尔巴克 - 莱布勒散度，有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡，保持了较低的误报率和漏报率，并且保留了 LLM 的原始性能。

Apr, 2024

DAWN: 动态对抗性神经网络水印

本文提出了一种名为 DAWN 的动态对抗水印方法，它通过在受保护的机器学习模型的预测 API 中动态地更改一小部分查询的响应生成水印，以遏制模型抽取知识产权盗窃，并对两种最新的模型抽取攻击具有鲁棒性。

Jun, 2019

利用指数加权的神经网络鲁棒性水印

本研究提出了一种新的数字水印方法（指数加权法），以解决神经网络模型在预测性能不受影响的情况下，在未经授权的服务提供商（如模型修改和查询修改）的恶意企图下高效验证水印。

Jan, 2019

水印技术特征归属的无害和多位模型所有权验证

模型版权的关键问题是所有权验证和水印技术，目前的基于后期方法是通过检查是否具有特定属性来识别可疑的第三方模型是否被盗窃。本文提出了一种新的基于可解释人工智能的水印技术，通过嵌入特征归属的解释中的验证行为来解决现有方法的限制。

May, 2024

MEA-Defender：一种抵御模型提取攻击的鲁棒水印方案

本文中，我们提出了一种名为 MEA-Defender 的新型水印方法，用于保护深度神经网络模型的知识产权免受模型提取攻击的侵害，并经过实验证明 MEA-Defender 在多种不同的模型提取攻击和水印去除 / 检测方法下表现得极为稳健。

Jan, 2024