强化防御:提升对抗训练与数字水印技术的模型韧性
利用扩散模型为防止未授权模型分发而合成无限制对抗样本作为触发器集合,通过知识注入而非错误记忆来促进独特的水印行为,并通过优化受保护模型的知识传递属性,无需过于猛烈的决策边界扰动即可将水印行为传递给提取替代物,从而提高对于逃避对手和水印清除攻击的鲁棒性。
Apr, 2024
本文提出利用对抗式机器学习中的稳健优化算法来提高基于卷积神经网络的数字水印框架的鲁棒性,在 COCO 数据集上的实验证明,稳健优化可以显著提高数字水印框架的鲁棒性。
Oct, 2019
本文提出一种名为 EWE 的恒定水印嵌入技术,该技术将水印紧密嵌入到训练任务中,促使模型同时学习正常输入和此类水印,并在测试时表现优异,可实现在 100 次以下查询成功地断言模型属于自己。
Feb, 2020
本研究关注深度神经网络的水印方案的稳健性和可靠性,发现恶意对手即使在水印难以删除的情况下,仍然可以逃避合法所有者的验证,从而避免了模型被盗的可能性。
Sep, 2018
研究深度学习模型的水印技术,提出了一种零比特水印算法使用反对抗模型样本进行标记,可在保护模型性能损失较小的情况下使用少量查询轻松提取水印,并应用于 MNIST 数字识别任务的三种神经网络中。
Nov, 2017
本篇研究提出了将图像水印技术和对抗样本算法结合在一起生成一种新的对抗扰动 ——Adv-watermark,并且使用一种新的优化算法 Basin Hopping Evolution (BHE) 生成黑盒攻击模式下的对抗性水印,该方法比其他攻击方法更为高效和鲁棒。
Aug, 2020
本文提出了一种名为 DAWN 的动态对抗水印方法,它通过在受保护的机器学习模型的预测 API 中动态地更改一小部分查询的响应生成水印,以遏制模型抽取知识产权盗窃,并对两种最新的模型抽取攻击具有鲁棒性。
Jun, 2019
提出了一种将个人水印嵌入敌对实例生成中的新框架,以生成具有可见水印的图像,防止敌对模型模仿未授权图像,并在各种条件图像生成场景进行广泛实验,证明了敌对实例具有良好的传递性,从而提供了一种保护基于扩散模型的版权的简单而有效的方法。
Apr, 2024
本研究介绍了一种旨在提高深度神经网络(DNN)中数字水印鲸吞强度的方法,该方法称为空嵌入(null embedding),通过对模型进行初始训练,我们建立了模型分类精确度与水印之间的强关系,使攻击者无法通过调整或增量训练来移除嵌入式数字水印,并且可以避免第三方嵌入 “盗版数字水印” 以索取模型所有权的情况。
Oct, 2019