h4rm3l：可组合越狱攻击的动态基准评估大型语言模型的安全性

Aug, 2024

h4rm3l：可组合越狱攻击的动态基准评估大型语言模型的安全性

h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment

Moussa Koulako Bala Doumbouya, Ananjan Nandi, Gabriel Poesia, Davide Ghilardi, Anna Goldie...

TL;DR本研究针对大型语言模型（LLMs）在生成有害内容方面的安全性评估缺乏足够基准的问题，提出了一种新颖的动态基准h4rm3l，用于可组合越狱攻击。研究显示，该方法生成的2656种越狱攻击在有效性上超过90%，为理解LLMs的安全局限性和发展强大防御提供了支持。

Abstract

The safety of Large Language Models (LLMs) remains a critical concern due to a lack of adequate benchmarks for systematically evaluating their ability to resist generating harmful content. Previous efforts towards automated red teaming involve static or templated sets of illicit reques

发现论文，激发创造

GPTFUZZER：使用自动生成的越狱提示对大型语言模型进行红队测试

通过自动化模板生成的黑盒取证模糊框架，我们实现了uzzer，它在大量商业和开源语言模型上具有高攻击成功率，甚至在所有人工制作的模板失败的情况下也能维持超过90％的攻击成功率，从而有助于评估和促进语言模型的安全性及鲁棒性研究。

Sep, 2023

狼穿羊皮：通用嵌套越狱引导轻易蒙骗大型语言模型

基于自动生成的破解提示，我们提出了ReNeLLM框架来改进大型语言模型的攻击成功率，同时降低时间成本；我们的研究揭示了当前防御方法在保护大型语言模型方面的不足，并从提示执行优先级的角度进行了详细的分析和讨论。

Nov, 2023

AttackEval：评估大型语言模型越狱攻击的有效性

我们采用两种不同的评估框架来评估GPT-4和LLaMa2等大型语言模型上越狱攻击的有效性，并开发了一个专门针对越狱任务的综合数据集，为当前研究提供了关键基准，并在未来的研究中建立了一个基础资源。通过与传统评估方法的仔细比较，我们发现我们的评估方法与基准趋势保持一致，同时提供了更深入和详细的评估。我们相信，通过准确评估越狱任务中攻击提示的有效性，我们的工作为评估更广泛的类似或更复杂的提示注入任务奠定了坚实的基础，有望从根本上改变这个领域。

Jan, 2024

对LLM的越狱攻击进行全面评估

对大型语言模型(也称为LLMs)的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

Tastle: 自动越狱攻击中的大型语言模型分散技术

我们提出了Tastle，一种新颖的黑盒越狱框架，用于自动化红队攻击大型语言模型（LLMs），通过设计恶意内容隐藏和内存重构来破解LLMs，实验证明了我们的框架在有效性、可扩展性和可转移性方面的优越性，并评估现有的越狱防御方法的有效性以及发展更有效和实用的防御策略的重要性。

Mar, 2024

JailbreakBench：大型语言模型越狱鲁棒性评估基准

JailbreakBench is an open-sourced benchmark for evaluating jailbreak attacks on large language models, addressing challenges such as the lack of a standard evaluation practice, incomparable cost and success rate computation, and lack of reproducibility in existing works.

Mar, 2024

JailBreakV-28K: 评估多模态大语言模型抵抗破解攻击的基准测试

本文研究了对抗大型多模态语言模型（MLLMs）的问题，通过引入JailBreakV-28K评估LLM越狱技术对MLLM的可迁移性，并评估了MLLM对多样越狱攻击的鲁棒性，结果表明MLLM存在来自文本处理功能的关键脆弱性，强调了未来在文本和图像输入方面解决MLLM对齐漏洞的迫切性。

Apr, 2024

技术秘籍：LLM破解攻击基准测试

对大型语言模型中所存在的破解攻击进行评估，并提供一套基准测试框架来推动对防御增强型大型语言模型的攻击的标准化评估。

Jun, 2024

未对齐”不等于“恶意”: 小心大型语言模型越狱的幻觉

我们提出了一种名为BabyBLUE的针对大型语言模型(Large Language Models, LLMs)的破解漏洞和幻觉评估的基准检测方案，该方案引入了专门的验证框架和数据集以提高现有的破解漏洞评估，并评估破解后的LLM输出对人类社会的实际危害潜力。

Jun, 2024

对抗越狱攻击的语言模型可靠性特征与评估

本研究旨在解决大型语言模型（LLMs）在面对越狱攻击时的可靠性问题，尽管已有的保护措施仍然不足以阻止此类攻击。论文提出了一种全面的评估框架，并通过对10种越狱策略的实验验证，发现所有测试的LLMs在某些策略下均表现出脆弱性，继而提供了增强其安全性的建议。这一研究为提高LLMs在越狱攻击下的安全性评估提供了宝贵的见解。

Aug, 2024