Sep, 2023

一份包含恶意内容的用于 LLMs 的中文 Prompt 攻击数据集

TL;DR我们介绍了一份针对大型语言模型的汉语 Prompt 攻击数据集(CPAD),我们的测试结果显示,我们的 Prompt 对语言模型具有显著的危害,攻击成功率约为 70%。我们将发布 CPAD 以鼓励对 Prompt 攻击和防御的进一步研究。