May, 2024

水印反事实解释

TL;DR提出了一个模型不可知水印框架,用于探测未经授权的模型提取攻击,并保证所嵌入的水印不损害生成的对抗结果解释的质量。