对控制权空洞越狱的强制拒绝
提出了三个指标来评估语言模型的越狱,分别是安全违规、信息性和相对真实性,并展示了这些指标与不同恶意用户的目标之间的相关性,通过预处理响应扩展了自然语言生成评估方法来计算这些指标,对来自三个恶意目的数据集和三个越狱系统产生的基准数据集进行了评估,与现有的越狱评估方法相比,实验证明我们的多方面评估方法在平均 F1 得分上提高了 17%,我们的发现促使我们摆脱越狱问题的二元观点,引入更全面的评估来确保语言模型的安全性。
Apr, 2024
JailbreakBench is an open-sourced benchmark for evaluating jailbreak attacks on large language models, addressing challenges such as the lack of a standard evaluation practice, incomparable cost and success rate computation, and lack of reproducibility in existing works.
Mar, 2024
我们采用两种不同的评估框架来评估 GPT-4 和 LLaMa2 等大型语言模型上越狱攻击的有效性,并开发了一个专门针对越狱任务的综合数据集,为当前研究提供了关键基准,并在未来的研究中建立了一个基础资源。通过与传统评估方法的仔细比较,我们发现我们的评估方法与基准趋势保持一致,同时提供了更深入和详细的评估。我们相信,通过准确评估越狱任务中攻击提示的有效性,我们的工作为评估更广泛的类似或更复杂的提示注入任务奠定了坚实的基础,有望从根本上改变这个领域。
Jan, 2024
这篇论文对监狱越狱评估方法进行了综合分析,提出了一个系统的分类法,并介绍了 JailbreakEval 工具包,该工具包可以简化监狱越狱研究的评估过程,推动社区内的监狱越狱评估标准的形成。
Jun, 2024
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024
本文研究了对抗大型多模态语言模型(MLLMs)的问题,通过引入 JailBreakV-28K 评估 LLM 越狱技术对 MLLM 的可迁移性,并评估了 MLLM 对多样越狱攻击的鲁棒性,结果表明 MLLM 存在来自文本处理功能的关键脆弱性,强调了未来在文本和图像输入方面解决 MLLM 对齐漏洞的迫切性。
Apr, 2024
引入 JAMBench 作为一个有害行为基准测试,通过 160 个手工制作的指令来触发和评估适度保护措施;提出了 JAM 方法,通过越过输入级别的过滤器和生成密文字符来绕过输出级别的过滤器,攻击适度保护措施。经过对四个 LLMs 的广泛实验表明,JAM 比基准模型实现更高的越狱成功率(约 19.88 倍)和更低的过滤率(约 1/6 倍)。
May, 2024
通过广泛的实证研究,我们对多语言越狱攻击进行了深入探究,提出了一种新的语义保持算法来创建多语言越狱数据集,并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估,并实施了微调缓解方法。我们的发现显示出,我们的缓解策略显著增强了模型的防御能力,将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。
Jan, 2024
通过对 wild 中的 jailbreak prompts 进行第一次测量研究,我们发现了 jailbreak prompts 的独特特征以及其攻击策略,并评估了当前 LLMs 和保护措施在各种情况下不能充分防御 jailbreak prompts 的潜在危害,这为研究界和 LLM 供应商在推动更安全和监管的 LLMs 方面提供了指导。
Aug, 2023