本研究论文提出了基于深度模型超参数化和多任务学习理论的自然语言处理模型数字水印框架,该框架采用隐藏触发器并设计了一个新的辅助网络来提高数字水印模型的健壮性和安全性,成功验证了模型所有权以及良好的鲁棒性和安全性。
Aug, 2022
本论文讨论机器学习中的漏洞问题,提出了一种全新的保护版权的方法 ingrain,并进行了大量评估,结果表明 ingrain 相对于既存方法更加有效。
Jun, 2019
通过水印技术对语言模型生成的文本进行统计检测,有助于在语言模型的负责部署中应用,文章提出了水印蒸馏的方法,通过训练学生模型模仿使用解码器水印技术的教师模型,研究发现模型能够学会生成高可检测性的水印文本,但也存在一些限制。
Dec, 2023
提出 GINSEW 方法以保护文本生成模型免受窃取,通过在目标令牌的解码步骤的概率向量中注入秘密信号,并在疑犯模型中检测秘密信息,GINSEW 可以有效地识别知识产权侵权的实例,表现出比之前的方法对抗去除水印攻击有 19 至 29 点的平均精度提升。
Feb, 2023
在快速发展的人工智能领域中,保护大型语言模型(LLMs)的知识产权变得越来越关键。我们提出了一种新颖的方法,在 LLMs 中嵌入可学习的语言水印,以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布,嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论,特别关注库尔巴克 - 莱布勒散度,有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡,保持了较低的误报率和漏报率,并且保留了 LLM 的原始性能。
Apr, 2024
本文提出一种名为 EWE 的恒定水印嵌入技术,该技术将水印紧密嵌入到训练任务中,促使模型同时学习正常输入和此类水印,并在测试时表现优异,可实现在 100 次以下查询成功地断言模型属于自己。
Feb, 2020
本文提出了一种名为 DAWN 的动态对抗水印方法,它通过在受保护的机器学习模型的预测 API 中动态地更改一小部分查询的响应生成水印,以遏制模型抽取知识产权盗窃,并对两种最新的模型抽取攻击具有鲁棒性。
本论文提出了一种名为 WDM 的新型数字水印方法,该方法可用于训练或微调扩散模型,学习一个与任务数据标准扩散过程不同的水印扩散过程(WDP),并提供了理论基础和分析,以说明该方法的有效性和鲁棒性。
Jun, 2023
本研究介绍了一种旨在提高深度神经网络(DNN)中数字水印鲸吞强度的方法,该方法称为空嵌入(null embedding),通过对模型进行初始训练,我们建立了模型分类精确度与水印之间的强关系,使攻击者无法通过调整或增量训练来移除嵌入式数字水印,并且可以避免第三方嵌入 “盗版数字水印” 以索取模型所有权的情况。
Oct, 2019
扩展了一种零比特的无失真水印方法,将多位元的元信息作为水印的一部分嵌入,并开发了一个计算效率高且具有低比特误码率的解码器来提取水印中的嵌入信息。
Feb, 2024