Aug, 2023

CodeMark:针对神经代码补全模型的隐形代码数据标记

TL;DR应对代码数据集的版权保护问题,我们提出了一种名为 CodeMark 的方法,通过自适应的语义保持转换,将用户定义的隐形水印嵌入到代码数据集中,以追踪其在训练神经网络代码完成模型中的使用。CodeMark 工具包经过广泛评估,被验证具有实际水印所需的全部属性,包括对模型准确性无害、可验证性、鲁棒性和不可察觉性。