EMNLPJun, 2024
CoSafe:评估多轮对话中大型语言模型安全性的共指
CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference
Erxin Yu, Jing Li, Ming Liao, Siqi Wang, Zuchen Gao...
TL;DRLLM 对话共指中的安全性漏洞研究,包括创建了一个包含 1,400 个问题的数据集,并在五种常用的开源 LLM 模型上进行了评估,结果表明在多轮共指安全攻击下,LLaMA2-Chat-7b 模型具有最高的攻击成功率为 56%,而 Mistral-7B-Instruct 模型具有最低的攻击成功率为 13.9%。