May, 2023

辨识带水印的大型语言模型的基准

TL;DR通过分析输出 token 和 logit 的分布,提出了一套基线算法来识别广泛使用的水印方案在大型语言模型中的存在和使用,并考虑了各种情况下的鉴别度和识别机制的权衡。同时,正式阐明了在大型语言模型和水印检测方面的特定问题。