Aug, 2023

超越识别:多位比特语言模型水印技术

TL;DR本研究以主动应对大型语言模型的滥用问题为目标,针对一些恶意滥用需要追踪对手用户的情况,提出了 “多位比特水印技术基于颜色排序”(COLOR)方法,在语言模型生成过程中嵌入可追踪的多位比特信息。COLOR 利用了零位水印技术的优势,实现了无需模型访问的提取,即时嵌入,并保持了文本质量,同时还可以进行零位检测。初步实验展示了在中等长度(约 500 个标记)的文本中成功嵌入 32 位信息,准确率为 91.9%。本研究推进了对抗语言模型滥用的有效策略。