EMNLPJun, 2024

CoSafe:评估多轮对话中大型语言模型安全性的共指

TL;DRLLM 对话共指中的安全性漏洞研究,包括创建了一个包含 1,400 个问题的数据集,并在五种常用的开源 LLM 模型上进行了评估,结果表明在多轮共指安全攻击下,LLaMA2-Chat-7b 模型具有最高的攻击成功率为 56%,而 Mistral-7B-Instruct 模型具有最低的攻击成功率为 13.9%。