流畅的学生-教师红队

Jul, 2024

Fluent Student-Teacher Redteaming

T. Ben Thompson, Michael Sklar

TL;DR本研究解决了安全调优语言模型在有效性上的不足，提出了一种新的基于蒸馏的攻击方法，旨在促使目标模型模仿毒化的微调输出。核心发现是，通过对人类流畅性和不同优化策略的结合，我们能够以更高的成功率破坏这些模型的安全性，并在许多未见任务上实现较高的合规性。

Abstract

Many publicly available language models have been safety tuned to reduce the likelihood of toxic or liability-inducing text. Users or security analysts attempt to jailbreak or redteam these models with adversarial prompts which cause compliance with requests. One attack method is to ap

发现论文，激发创造

潜在破解: 用于评估大型语言模型文本安全和输出鲁棒性的基准测试

本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术，提出了一个潜在的越狱Prompts数据集，旨在全面研究大型语言模型的文本安全性和输出鲁棒性，结果表明当前的LLMs不仅偏爱某些指令动词，而且在显式正常指令中存在不同的越狱率，这意味着在显式正常指令中的指令动词将不同程度地增强模型生成不安全内容的概率。

Jul, 2023

狼穿羊皮：通用嵌套越狱引导轻易蒙骗大型语言模型

基于自动生成的破解提示，我们提出了ReNeLLM框架来改进大型语言模型的攻击成功率，同时降低时间成本；我们的研究揭示了当前防御方法在保护大型语言模型方面的不足，并从提示执行优先级的角度进行了详细的分析和讨论。

Nov, 2023

针对越狱攻击的强化预设优化

通过使用梯度优化的方法，我们提出了一种防御语言模型遭受恶意输入攻击的算法，Robust Prompt Optimization (RPO)，有效地降低了对抗性攻击的成功率，并在黑盒模型中表现出了良好的转移能力。

Jan, 2024

JailbreakBench：大型语言模型越狱鲁棒性评估基准

JailbreakBench is an open-sourced benchmark for evaluating jailbreak attacks on large language models, addressing challenges such as the lack of a standard evaluation practice, incomparable cost and success rate computation, and lack of reproducibility in existing works.

Mar, 2024

通过特定层编辑来防御针对大型语言模型的越狱攻击

通过Layer-specific Editing (LED)方法，本研究探讨了大型语言模型（LLMs）对有害提示的反应，并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐，可以显著提高LLMs对破解攻击的适应性。

May, 2024

针对安全定向 LLM 的改进对抗样本生成

通过借鉴转移式攻击的思想，结合渐变式对抗性提示生成过程，我们改进了自动生成的对抗性示例以攻击白盒大语言模型，取得了显著的性能提升，同时也提出了新的见解和适当的方法组合。

May, 2024

对抗调整：为LLMs防御越狱攻击

通过优化包含对抗性提示及其安全响应的数据集，我们提出了一个两阶段的对抗调整框架，用于增强大型语言模型在防御能力方面的广义性，实验证明了我们方法的优越性，并展示了它作为可传输防御机制的潜力。

Jun, 2024

大规模野外合作：从野外越狱到（对抗性地）更安全的语言模型

引入了WildTeaming框架，该框架通过挖掘用户和聊天机器人的互动来发现新型越狱策略，从而实现对越狱的系统化探索，揭示了先前工作所没有发现的对于最新的LLMs的漏洞，导致比最先进的越狱方法多达4.6倍更多样化和成功的对抗攻击。还提出了WildJailbreak，一个大规模的开源合成安全数据集，通过对现有安全资源的质量和规模进行升级，使我们能够研究数据的扩展效应以及数据属性和模型能力在安全训练过程中的相互作用，从而实现模型的平衡安全行为。

Jun, 2024

大型语言模型的越狱攻击与防御：综述

通过提出全面详细的破防攻击和防御方法分类体系，本研究旨在启发未来的研究和实际应用，增强对大语言模型在对抗性攻击中的安全性保障，为发展更安全的大语言模型奠定基础。

Jul, 2024

h4rm3l：可组合越狱攻击的动态基准评估大型语言模型的安全性

本研究针对大型语言模型（LLMs）在生成有害内容方面的安全性评估缺乏足够基准的问题，提出了一种新颖的动态基准h4rm3l，用于可组合越狱攻击。研究显示，该方法生成的2656种越狱攻击在有效性上超过90%，为理解LLMs的安全局限性和发展强大防御提供了支持。

Aug, 2024