Sep, 2023

一份包含恶意内容的用于LLMs的中文Prompt攻击数据集

TL;DR我们介绍了一份针对大型语言模型的汉语Prompt攻击数据集(CPAD),我们的测试结果显示,我们的Prompt对语言模型具有显著的危害,攻击成功率约为70%。我们将发布CPAD以鼓励对Prompt攻击和防御的进一步研究。