Oct, 2022

自然语言处理中用于模型保护的抗蒸馏水印技术

TL;DR本文提出了一种名为 DRW 的新型水印技术,可以通过将水印注入受害者的预测概率中,以保护 NLP 模型免受盗窃攻击,并能够探测到这样的攻击,这种方法在各种 NLP 任务中均表现出较强的保护和检测能力。