Jun, 2024

SHIELD:LLM 文本生成中版权合规的评估与防御策略

TL;DR当前大型语言模型存在版权侵权问题,相关挑战包括版权合规评估、鲁棒性防御以及生成版权文本的有效防御机制。本文介绍了一个数据集用于评估方法、测试攻击策略,并提出了轻量级、实时的防御机制以确保大型语言模型的安全合法使用。实验证明,当前大型语言模型存在生成版权文本的问题,而越狱攻击会显著增加生成的版权文本量。我们提出的防御机制通过有效拒绝恶意请求,显著减少了大型语言模型生成的版权文本量。代码公开可用于该链接网址。