SSL-WM: 一种应用于自监督学习预训练编码器的黑盒水印方案
本文提出了 SSLGuard—— 首个用于对预训练编码器进行水印的方案,并使用影子训练技术来保护水印免受模型盗窃等攻击。实验证明,SSLGuard 能有效地进行水印注入和验证,并对模型盗窃及其他攻击具有鲁棒性。
Jan, 2022
本研究提出了一种 SSL-Auth 方法,用于验证预训练编码器的完整性,而不损害模型性能。该方法利用关键样本作为水印信息,并训练一个验证网络来重构水印信息,从而验证编码器的完整性。通过比较关键样本的重构结果,可以有效检测恶意修改,因为修改后的模型不应该表现出与原始模型类似的重构性能。对各种模型和不同数据集的广泛评估表明我们提出的 SSL-Auth 方法的有效性和脆弱性。
Aug, 2023
防止语言模型误用的关键在于检测其生成的文本,此文介绍了一种基于水印的白盒 LLMs 方法,以及为黑盒 LLMs 开发的水印框架,实现了自主注入水印以避免在 API 下载应用时因选择黑盒 LLMs 而导致不能使用水印的问题。
May, 2023
该研究提出了一种轻量级、强健、安全的黑盒 DNN 数字水印协议,在训练期间注入任务特定的键图像 - 标签对,并证明该模型的所有权,从而提供保护同时保持适当的安全性和强健性。
Jun, 2022
本文提出了一种基于自监督深度网络的数字水印嵌入方法,利用数据增强技术,将水印和二进制信息嵌入网络的潜在空间中,可以处理各种分辨率,抵抗旋转、剪裁、JPEG、对比度等多种转换,该方法的性能优于前面的零比特方法,并且多比特水印的性能与端到端训练用于数字水印的编码器 - 解码器架构相当。
Dec, 2021
LLM 水印技术的研究表明当前方案的可部署性存在争议,因为我们发现了基于这些方案的水印窃取攻击和刷水攻击的重大漏洞。我们提出了一种自动化的水印窃取算法,并在实际环境中对伪造和刷水进行全面研究,揭示出以前被忽视的攻击能力和成功率。这些发现对 LLM 水印技术的普遍认知提出了挑战,强调了更强大方案的需求。
Feb, 2024
通过对现有 LLM 水印系统的攻击研究,提出了一套实用准则,用于生成和检测 LLM 水印,旨在解决水印系统在保留质量、鲁棒性和公共检测 API 等方面所面临的各种攻击问题。
Feb, 2024
在快速发展的人工智能领域中,保护大型语言模型(LLMs)的知识产权变得越来越关键。我们提出了一种新颖的方法,在 LLMs 中嵌入可学习的语言水印,以追踪和防止模型提取攻击。我们的方法通过向令牌频率分布中引入可控噪声来微妙地修改 LLM 的输出分布,嵌入可统计辨识的可控水印。我们利用统计假设检验和信息理论,特别关注库尔巴克 - 莱布勒散度,有效区分原始分布和修改分布。我们的水印方法在鲁棒性和输出质量之间达到了微妙的平衡,保持了较低的误报率和漏报率,并且保留了 LLM 的原始性能。
Apr, 2024
本研究提出了一种基于盲水印的知识产权保护(IPP)框架,通过将特定标签赋予普通样本并将其与独占标志组合生成水印来保护深度神经网络模型的知识产权,并成功验证了其安全性、可行性和鲁棒性,与创建者身份建立了明确的联系,有效应对了逃避攻击和恶意主张的问题。
Mar, 2019