Feb, 2023

通过隐形水印保护语言生成模型

TL;DR提出 GINSEW 方法以保护文本生成模型免受窃取,通过在目标令牌的解码步骤的概率向量中注入秘密信号,并在疑犯模型中检测秘密信息,GINSEW 可以有效地识别知识产权侵权的实例,表现出比之前的方法对抗去除水印攻击有 19 至 29 点的平均精度提升。