Jun, 2024
未对齐” 不等于 “恶意”: 小心大型语言模型越狱的幻觉
"Not Aligned" is Not "Malicious": Being Careful about Hallucinations of Large Language Models' Jailbreak
Lingrui Mei, Shenghua Liu, Yiwei Wang, Baolong Bi, Jiayi Mao...
TL;DR我们提出了一种名为 BabyBLUE 的针对大型语言模型 (Large Language Models, LLMs) 的破解漏洞和幻觉评估的基准检测方案,该方案引入了专门的验证框架和数据集以提高现有的破解漏洞评估,并评估破解后的 LLM 输出对人类社会的实际危害潜力。