Jun, 2024

未对齐” 不等于 “恶意”: 小心大型语言模型越狱的幻觉

TL;DR我们提出了一种名为 BabyBLUE 的针对大型语言模型 (Large Language Models, LLMs) 的破解漏洞和幻觉评估的基准检测方案,该方案引入了专门的验证框架和数据集以提高现有的破解漏洞评估,并评估破解后的 LLM 输出对人类社会的实际危害潜力。