Nov, 2024

WaterPark:语言模型水印的鲁棒性评估

TL;DR本研究解决了如何识别大型语言模型生成文本的需求,特别是针对现有水印技术的强度和局限性进行了系统评估。通过开发WaterPark平台,我们整合了多种水印方法及攻击模式,揭示了设计选择对鲁棒性的影响,并提出在对抗性环境中优化水印操作的最佳实践。