通过隐形水印保护语言生成模型
本文提出了一种名为 DRW 的新型水印技术,可以通过将水印注入受害者的预测概率中,以保护 NLP 模型免受盗窃攻击,并能够探测到这样的攻击,这种方法在各种 NLP 任务中均表现出较强的保护和检测能力。
Oct, 2022
通过对原始输出进行词汇修改,本论文提出了一种新颖的文本生成 API 水印方法,以此保护 NLG API 的知识产权,并在 p 值方面取得更好的可识别性能。
Dec, 2021
本文提出了一种基于 CNN 解码块插入生成器输出的数字水印算法,对生成对抗网络模型进行加密和保护。实验结果表明,该算法可将无形水印嵌入生成的图像,并在后期进行身份验证时检测到水印的存在,并且在 JPEG 压缩、添加噪声、模糊和颜色转换等后处理下,水印具有良好的抗干扰能力。
Sep, 2022
在快速发展的人工智能领域中,保护大型语言模型(LLMs)的知识产权变得越来越关键。我们提出了一种新颖的方法,在 LLMs 中嵌入可学习的语言水印,以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布,嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论,特别关注库尔巴克 - 莱布勒散度,有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡,保持了较低的误报率和漏报率,并且保留了 LLM 的原始性能。
Apr, 2024
本研究提出了一种基于水印技术的保护私有语言模型的框架,通过嵌入可被算法识别但人类无法察觉的信号保证模型输出的安全性,并利用解释性 p 值的统计学方法检测水印的敏感性。测试结果表明本方法对于 Open Pretrained Transformer 等大型语言模型的检测效果良好,能够提升模型的鲁棒性和安全性。
Jan, 2023
本文章研究如何对大型语言模型进行不可检测的数字水印嵌入,采用密码学中的单向函数进行构建,使得即使用户能够适应性查询,也难以区分带水印的输出和原始模型的输出,从而保证文本质量。
May, 2023
本文提出了一种新的数字水印系统 GenWatermark, 该系统结合了数字水印生产者和检测器,通过 fine-tuning 与合成的图像一起学习水印,以保护被合成图像的主体权益。实验证明,GenWatermark 对未知模型和文本提示以及部分数据水印化的有效性较高,并且对抵抗合成质量的潜在对策具有鲁棒性。
Jun, 2023
为了解决检测人工智能生成文本的问题,本研究提出了一种鲁棒且高质量的方案,名为 GPTWatermark,通过水印的方式确定文本的来源,并在大规模语言模型中展示了其稳定性和高检测准确性。
Jun, 2023
本文提出一种名为 EWE 的恒定水印嵌入技术,该技术将水印紧密嵌入到训练任务中,促使模型同时学习正常输入和此类水印,并在测试时表现优异,可实现在 100 次以下查询成功地断言模型属于自己。
Feb, 2020