JailbreakBench：大型语言模型越狱鲁棒性评估基准

Mar, 2024

JailbreakBench：大型语言模型越狱鲁棒性评估基准

JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models

Patrick Chao, Edoardo Debenedetti, Alexander Robey, Maksym Andriushchenko, Francesco Croce...

TL;DRJailbreakBench is an open-sourced benchmark for evaluating jailbreak attacks on large language models, addressing challenges such as the lack of a standard evaluation practice, incomparable cost and success rate computation, and lack of reproducibility in existing works.

Abstract

jailbreak attacks cause large language models (LLMs) to generate harmful, unethical, or otherwise objectionable content. Evaluating these attacks presents a number of challenges, which the current collection of b

jailbreak attacks large language models evaluation techniques benchmark adversarial prompts

发现论文，激发创造

重新思考以评估语言模型破解

提出了三个指标来评估语言模型的越狱，分别是安全违规、信息性和相对真实性，并展示了这些指标与不同恶意用户的目标之间的相关性，通过预处理响应扩展了自然语言生成评估方法来计算这些指标，对来自三个恶意目的数据集和三个越狱系统产生的基准数据集进行了评估，与现有的越狱评估方法相比，实验证明我们的多方面评估方法在平均 F1 得分上提高了 17%，我们的发现促使我们摆脱越狱问题的二元观点，引入更全面的评估来确保语言模型的安全性。

Apr, 2024

技术秘籍：LLM 破解攻击基准测试

对大型语言模型中所存在的破解攻击进行评估，并提供一套基准测试框架来推动对防御增强型大型语言模型的攻击的标准化评估。

Jun, 2024

对控制权空洞越狱的强制拒绝

大型语言模型（LLMs）的崛起引起了对 “越狱” 存在的关注，本研究通过使用高质量问题集和更准确的评分算法，提出了一个更好地区分有效和无效越狱的新基准，结果表明这种新的评分方案更符合人类对回答质量和越狱有效性的判断。

Feb, 2024

JailbreakEval: 评估大型语言模型遭受越狱攻击的综合工具包

这篇论文对监狱越狱评估方法进行了综合分析，提出了一个系统的分类法，并介绍了 JailbreakEval 工具包，该工具包可以简化监狱越狱研究的评估过程，推动社区内的监狱越狱评估标准的形成。

Jun, 2024

JailBreakV-28K: 评估多模态大语言模型抵抗破解攻击的基准测试

本文研究了对抗大型多模态语言模型（MLLMs）的问题，通过引入 JailBreakV-28K 评估 LLM 越狱技术对 MLLM 的可迁移性，并评估了 MLLM 对多样越狱攻击的鲁棒性，结果表明 MLLM 存在来自文本处理功能的关键脆弱性，强调了未来在文本和图像输入方面解决 MLLM 对齐漏洞的迫切性。

Apr, 2024

通过密码字符对大型语言模型进行越狱以对抗审核管控

引入 JAMBench 作为一个有害行为基准测试，通过 160 个手工制作的指令来触发和评估适度保护措施；提出了 JAM 方法，通过越过输入级别的过滤器和生成密文字符来绕过输出级别的过滤器，攻击适度保护措施。经过对四个 LLMs 的广泛实验表明，JAM 比基准模型实现更高的越狱成功率（约 19.88 倍）和更低的过滤率（约 1/6 倍）。

May, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

AttackEval：评估大型语言模型越狱攻击的有效性

我们采用两种不同的评估框架来评估 GPT-4 和 LLaMa2 等大型语言模型上越狱攻击的有效性，并开发了一个专门针对越狱任务的综合数据集，为当前研究提供了关键基准，并在未来的研究中建立了一个基础资源。通过与传统评估方法的仔细比较，我们发现我们的评估方法与基准趋势保持一致，同时提供了更深入和详细的评估。我们相信，通过准确评估越狱任务中攻击提示的有效性，我们的工作为评估更广泛的类似或更复杂的提示注入任务奠定了坚实的基础，有望从根本上改变这个领域。

Jan, 2024

JailbreakLens：针对大型语言模型的越狱攻击的可视化分析

通过与领域专家合作，我们提出了一个辅助框架来简化对繁琐的破解分析过程，并设计了一个视觉分析系统，帮助用户评估模型安全性并识别模型弱点。

Apr, 2024

EasyJailbreak：面向大型语言模型的统一越狱框架

EasyJailbreak 是一个统一的框架，简化了对大型语言模型的越狱攻击的构建和评估，支持 11 种不同的越狱方法，并揭示了各种越狱攻击下 10 种不同语言模型的平均漏洞概率为 60%，GPT-3.5-Turbo 和 GPT-4 的平均攻击成功率分别为 57% 和 33%。

Mar, 2024