对控制权空洞越狱的强制拒绝

Feb, 2024

A StrongREJECT for Empty Jailbreaks

Alexandra Souly, Qingyuan Lu, Dillon Bowen, Tu Trinh, Elvis Hsieh...

TL;DR大型语言模型（LLMs）的崛起引起了对 “越狱” 存在的关注，本研究通过使用高质量问题集和更准确的评分算法，提出了一个更好地区分有效和无效越狱的新基准，结果表明这种新的评分方案更符合人类对回答质量和越狱有效性的判断。

Abstract

The rise of large language models (LLMs) has drawn attention to the existence of "jailbreaks" that allow the models to be used maliciously. However, there is no standard benchmark for measuring the severity of a

large language models jailbreaks benchmarks misuse potential grading criteria

发现论文，激发创造

重新思考以评估语言模型破解

提出了三个指标来评估语言模型的越狱，分别是安全违规、信息性和相对真实性，并展示了这些指标与不同恶意用户的目标之间的相关性，通过预处理响应扩展了自然语言生成评估方法来计算这些指标，对来自三个恶意目的数据集和三个越狱系统产生的基准数据集进行了评估，与现有的越狱评估方法相比，实验证明我们的多方面评估方法在平均 F1 得分上提高了 17%，我们的发现促使我们摆脱越狱问题的二元观点，引入更全面的评估来确保语言模型的安全性。

Apr, 2024

JailbreakBench：大型语言模型越狱鲁棒性评估基准

JailbreakBench is an open-sourced benchmark for evaluating jailbreak attacks on large language models, addressing challenges such as the lack of a standard evaluation practice, incomparable cost and success rate computation, and lack of reproducibility in existing works.

Mar, 2024

AttackEval：评估大型语言模型越狱攻击的有效性

我们采用两种不同的评估框架来评估 GPT-4 和 LLaMa2 等大型语言模型上越狱攻击的有效性，并开发了一个专门针对越狱任务的综合数据集，为当前研究提供了关键基准，并在未来的研究中建立了一个基础资源。通过与传统评估方法的仔细比较，我们发现我们的评估方法与基准趋势保持一致，同时提供了更深入和详细的评估。我们相信，通过准确评估越狱任务中攻击提示的有效性，我们的工作为评估更广泛的类似或更复杂的提示注入任务奠定了坚实的基础，有望从根本上改变这个领域。

Jan, 2024

JailbreakEval: 评估大型语言模型遭受越狱攻击的综合工具包

这篇论文对监狱越狱评估方法进行了综合分析，提出了一个系统的分类法，并介绍了 JailbreakEval 工具包，该工具包可以简化监狱越狱研究的评估过程，推动社区内的监狱越狱评估标准的形成。

Jun, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

JailBreakV-28K: 评估多模态大语言模型抵抗破解攻击的基准测试

本文研究了对抗大型多模态语言模型（MLLMs）的问题，通过引入 JailBreakV-28K 评估 LLM 越狱技术对 MLLM 的可迁移性，并评估了 MLLM 对多样越狱攻击的鲁棒性，结果表明 MLLM 存在来自文本处理功能的关键脆弱性，强调了未来在文本和图像输入方面解决 MLLM 对齐漏洞的迫切性。

Apr, 2024

通过密码字符对大型语言模型进行越狱以对抗审核管控

引入 JAMBench 作为一个有害行为基准测试，通过 160 个手工制作的指令来触发和评估适度保护措施；提出了 JAM 方法，通过越过输入级别的过滤器和生成密文字符来绕过输出级别的过滤器，攻击适度保护措施。经过对四个 LLMs 的广泛实验表明，JAM 比基准模型实现更高的越狱成功率（约 19.88 倍）和更低的过滤率（约 1/6 倍）。

May, 2024

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

技术秘籍：LLM 破解攻击基准测试

对大型语言模型中所存在的破解攻击进行评估，并提供一套基准测试框架来推动对防御增强型大型语言模型的攻击的标准化评估。

Jun, 2024

现在做任何事情”：对大型语言模型中的自由研究提示进行特征化和评估

通过对 wild 中的 jailbreak prompts 进行第一次测量研究，我们发现了 jailbreak prompts 的独特特征以及其攻击策略，并评估了当前 LLMs 和保护措施在各种情况下不能充分防御 jailbreak prompts 的潜在危害，这为研究界和 LLM 供应商在推动更安全和监管的 LLMs 方面提供了指导。

Aug, 2023