Oct, 2023
WASA:大规模语言模型生成数据的基于水印的来源追溯
WASA: WAtermark-based Source Attribution for Large Language Model-Generated Data
Jingtan Wang, Xinyang Lu, Zitong Zhao, Zhongxiang Dai, Chuan-Sheng Foo...
TL;DR本文提出了一种基于水印技术的框架,名为 WASA,该框架可以通过给合成文本嵌入包含信息的水印来解决大语言模型产生的合成文本可能侵犯训练数据知识产权的问题,并且可以实现准确的数据来源归属和数据溯源。经过大量的实证评估,WASA 框架显示其能够实现有效的数据来源归属和数据溯源。