大规模野外合作：从野外越狱到（对抗性地）更安全的语言模型

Jun, 2024

大规模野外合作：从野外越狱到（对抗性地）更安全的语言模型

WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models

Liwei Jiang, Kavel Rao, Seungju Han, Allyson Ettinger, Faeze Brahman...

TL;DR引入了 WildTeaming 框架，该框架通过挖掘用户和聊天机器人的互动来发现新型越狱策略，从而实现对越狱的系统化探索，揭示了先前工作所没有发现的对于最新的 LLMs 的漏洞，导致比最先进的越狱方法多达 4.6 倍更多样化和成功的对抗攻击。还提出了 WildJailbreak，一个大规模的开源合成安全数据集，通过对现有安全资源的质量和规模进行升级，使我们能够研究数据的扩展效应以及数据属性和模型能力在安全训练过程中的相互作用，从而实现模型的平衡安全行为。

Abstract

We introduce wildteaming, an automatic llm safety red-teaming framework that mines in-the-wild user-chatbot interactions to discover 5.7K unique clusters of novel →

wildteaming llm safety red-teaming jailbreak tactics adversarial attacks wildjailbreak

发现论文，激发创造

语言模型不对齐：参数化红队行动揭示隐藏的伤害和偏见

通过参数化红队技术与非对齐性使得 Large Language Models (LLMs) 的安全性得到破坏，揭示模型中存在的潜在有害信息和偏见。

Oct, 2023

GPT-4V 挑战红队测试：是否能抵御 Uni/Multi-Modal 越狱攻击？

通过建立全面的 1445 个有害问题的评估数据集，本研究对 11 个不同的大型语言模型和多模式大型语言模型进行了广泛的试验，发现 GPT-4 和 GPT-4V 相对于开源的大型语言模型和多模式大型语言模型表现出更好的恶意入侵攻击耐受性，而 Llama2 和 Qwen-VL-Chat 相对于其他开源模型表现出更高的鲁棒性，并且相对于文本恶意入侵攻击方法，视觉恶意入侵攻击方法的可迁移性相对有限。

Apr, 2024

潜在破解：用于评估大型语言模型文本安全和输出鲁棒性的基准测试

本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术，提出了一个潜在的越狱 Prompts 数据集，旨在全面研究大型语言模型的文本安全性和输出鲁棒性，结果表明当前的 LLMs 不仅偏爱某些指令动词，而且在显式正常指令中存在不同的越狱率，这意味着在显式正常指令中的指令动词将不同程度地增强模型生成不安全内容的概率。

Jul, 2023

通过话语链安全对齐红队大型语言模型

基于大型语言模型的安全性评估与对抗、生成有害回应的问题以及安全对齐的方法和模型研究。

Aug, 2023

警示：通过红队测试全面评估大型语言模型的安全性的综合基准

应用 ALERT 基准评估安全性，通过对大规模语言模型进行对抗测试，识别漏洞，改进并提高语言模型的整体安全性。

Apr, 2024

大型语言模型上的从弱到强破解

通过实验，研究发现了对齐的大型语言模型存在监狱突破漏洞，提出了一种弱到强的监狱突破攻击方法，并介绍了一种针对该攻击的防御策略。

Jan, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

GUARD：通过角色扮演生成自然语言越狱以测试大型语言模型的指南遵循性

使用角色扮演系统结合知识图谱生成监狱破解方法，验证 LLMs 对监管规定的遵从性，并在不同模态下展示 GUARD 的多样性和对更安全可靠的 LLM 应用的有价值见解。

Feb, 2024

针对安全定向 LLM 的改进对抗样本生成

通过借鉴转移式攻击的思想，结合渐变式对抗性提示生成过程，我们改进了自动生成的对抗性示例以攻击白盒大语言模型，取得了显著的性能提升，同时也提出了新的见解和适当的方法组合。

May, 2024

使用语言模型对语言模型进行红队测试

使用红队技术，在基于语言模型的聊天机器人中生成测试用例以检测有害行为，并训练分类器检测模型产生的攻击性内容，从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。

Feb, 2022