CodeMark：针对神经代码补全模型的隐形代码数据标记

Aug, 2023

CodeMark：针对神经代码补全模型的隐形代码数据标记

CodeMark: Imperceptible Watermarking for Code Datasets against Neural Code Completion Models

Zhensu Sun, Xiaoning Du, Fu Song, Li Li

TL;DR应对代码数据集的版权保护问题，我们提出了一种名为 CodeMark 的方法，通过自适应的语义保持转换，将用户定义的隐形水印嵌入到代码数据集中，以追踪其在训练神经网络代码完成模型中的使用。CodeMark 工具包经过广泛评估，被验证具有实际水印所需的全部属性，包括对模型准确性无害、可验证性、鲁棒性和不可察觉性。

Abstract

code datasets are of immense value for training neural-network-based code completion models, where companies or organizations have made substantial investments to establish and process these datasets. Unluckily, these datasets, either built for proprietary or public usage, face the hig

code datasets neural-network-based code completion models data leakages copyright protection imperceptible watermarks

发现论文，激发创造

使用干净标签后门水印保护公共数据集

本研究提出了一种基于后门的数字水印方法，可保护公开可用的数据集免受非法使用，使用仅占数据集样本极小比例的水印样本，且不影响原有任务性能，提高了数据保护的隐蔽性和有效性。

Mar, 2023

图像处理网络的模型水印技术

基于空间隐形水印技术，提出了一种图像处理模型的水印框架，防止模型权益被侵犯。实验证明，该水印技术可抵抗不同网络结构和目标函数训练出的替代模型。

Feb, 2020

ClearMark：通过转置模型训练的直观且鲁棒性强的模型水印技术

ClearMark 是第一种设计用于直观人工评估的 DNN 水印方法，通过在模型参数中嵌入可见水印，以允许人工决策，同时允许技术辅助评估。相较于现有的水印方法，ClearMark 生成的可视化水印易于人类理解，无需复杂的验证算法或严格的阈值。水印嵌入在所有模型参数中，与主要任务交织在一起，表现出卓越的鲁棒性。ClearMark 在四个数据集和七种架构的综合研究中证明了其在不同模型和数据集上的普适性和对抗模型篡改的强韧性。

Oct, 2023

TabularMark：机器学习中的表格数据水印

使用基于假设检验的水印方案 TabularMark 对表格数据进行水印处理，在保留数据实用性的同时，防止攻击者在攻击的数据集上训练有效的机器学习模型。实验结果表明，TabularMark 在可检测性、非侵入性和鲁棒性方面具有优势。

Jun, 2024

深度神经网络的功能耦合水印

本文提出了一种新颖的 DNN 数字水印技术以有效防御模型精调和模型修剪等攻击。

Feb, 2023

使用纠错码为语言模型添加水印

最近大型语言模型在创造逼真的机器生成内容方面取得了进展。水印技术是一种有希望的方法，用于区分机器生成的文本和人类文本，将统计信号嵌入输出中，理想情况下对人类来说是不可察觉的。我们提出了一种水印技术框架，通过纠错码来编码这些信号。我们的方法被称为鲁棒二进制码（RBC）水印，与原概率分布相比，不引入失真，并且质量几乎无明显降低。我们对基础模型和指令微调模型评估了我们的水印，在编辑、删除和翻译方面都表现出鲁棒性。我们提供了水印技术的信息论视角、一种强大的统计检测和生成 p 值的测试以及理论保证。我们的实证结果表明，相对于最先进技术，我们的水印技术速度快、强大且鲁棒性好。

Jun, 2024

深度神经网络抗盗版水印

本研究介绍了一种旨在提高深度神经网络（DNN）中数字水印鲸吞强度的方法，该方法称为空嵌入（null embedding），通过对模型进行初始训练，我们建立了模型分类精确度与水印之间的强关系，使攻击者无法通过调整或增量训练来移除嵌入式数字水印，并且可以避免第三方嵌入 “盗版数字水印” 以索取模型所有权的情况。

Oct, 2019

代码生成的水印：谁编写了这个代码？

本文发现现有的基于大型语言模型的文字水印和机器生成文字检测方法不能很好地应用于代码生成任务，因此提出了 SWEET 的新水印方法，其在标记的选择方面较先前方法具有更高的熵门限，实验表明我们的水印代码比先前状态下的大型语言模型水印方法生成的代码具有更好的质量，并凭借该方法在机器生成代码检测任务中表现优异。

May, 2023

WaterPool：在隐形、效能和稳健性之间进行减少水印的权衡

利用关键模块和标记模块的分解，本文介绍了 WaterPool，一个简单但有效的关键模块，提高了水印技术的性能，达到接近最佳的不可察觉性，并显著提高了功效和鲁棒性。

May, 2024

信任标记：任意分辨率图像的通用水印

我们提出了 TrustMark，一种基于 GAN 的水印嵌入方法，通过新颖的架构和空谱损失设计来平衡水印图像质量和水印恢复准确性之间的权衡。我们的模型在训练时考虑了鲁棒性，可以抵御编码图像上的各种内部和外部扰动。此外，我们还介绍了 TrustMark-RM，一种用于重新嵌入水印的水印去除方法。我们的方法在包含任意分辨率图像的三个基准测试中实现了最先进的性能。

Nov, 2023