比赛报告：在对齐的 LLMs 中发现通用越狱后门

Apr, 2024

比赛报告：在对齐的 LLMs 中发现通用越狱后门

Competition Report: Finding Universal Jailbreak Backdoors in Aligned LLMs

Javier Rando, Francesco Croce, Kryštof Mitka, Stepan Shabalin, Maksym Andriushchenko...

TL;DR大型语言模型的安全对齐问题是一个未来研究的重要领域，此处报告总结了关键发现和对未来研究的有前景的想法。

Abstract

large language models are aligned to be safe, preventing users from generating harmful content like misinformation or instructions for illegal activities. However, previous work has shown that the alignment process is vulnerable to →

large language models safety training data poisoning attacks universal backdoors future research

发现论文，激发创造

来自感染的人类反馈的通用越狱后门

利用强化学习从人类反馈中对大型语言模型进行调整，以生成有益且无害的回答；然而，此研究发现这些模型可以通过找到对抗性提示来解开监狱束缚，因此本文考虑了新的威胁，即攻击者通过植入 “监狱解锁后门” 来污染强化学习训练数据，并嵌入模型中；这种后门将触发词嵌入到模型中，作为一种通用的 “超级用户命令”，即在任何提示中加入触发词，便可实现有害的回答，无需寻找对抗性提示；通用监狱解锁后门比先前研究的语言模型后门要更强大，我们发现使用常见的后门攻击技术在模型中植入这种后门相对困难；我们研究了强化学习从人类反馈中的设计决策对其所声称的鲁棒性的影响，并发布了一组受污染模型的基准，以促进对通用监狱解锁后门的未来研究。

Nov, 2023

通用黑盒破解大型语言模型

介绍了一种使用遗传算法来操纵无法访问模型结构和参数的大型语言模型的新方法，通过优化通用对抗提示，发现模型的限制和漏洞，从而破坏模型的对齐性，提供诊断工具以评估和增强大型语言模型与人类意图的一致性。

Sep, 2023

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

大型语言模型上的从弱到强破解

通过实验，研究发现了对齐的大型语言模型存在监狱突破漏洞，提出了一种弱到强的监狱突破攻击方法，并介绍了一种针对该攻击的防御策略。

Jan, 2024

对中间隐藏状态的介绍解释 LLM 安全性：关于对齐和越狱的工作方式

本研究通过弱分类器解释大型语言模型的安全性，确认在预训练阶段 LLMs 学习道德概念而不是对齐，揭示了安全对其生成的恶意内容的抵御机制，以及越过安全限制的越狱行为对 LLM 安全的影响，从而提供了 LLM 安全的内在机制和减轻担忧的新视角。

Jun, 2024

潜在破解：用于评估大型语言模型文本安全和输出鲁棒性的基准测试

本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术，提出了一个潜在的越狱 Prompts 数据集，旨在全面研究大型语言模型的文本安全性和输出鲁棒性，结果表明当前的 LLMs 不仅偏爱某些指令动词，而且在显式正常指令中存在不同的越狱率，这意味着在显式正常指令中的指令动词将不同程度地增强模型生成不安全内容的概率。

Jul, 2023

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

大型语言模型是不自觉的说真话者：利用谬误失误进行越狱攻击

语言模型在生成虚假和欺骗性推理时存在困难。我们提出了一种越狱攻击方法，通过利用这一缺陷来获取一个具有恶意输出的对齐语言模型。我们的方法在五个安全对齐的大型语言模型上进行了评估，与四种以前的越狱方法进行了比较，展示了竞争性能和更多有害的输出。我们认为这些发现可以扩展到模型安全、自验证和幻觉等领域。

Jul, 2024

大规模语言模型中的多语言越狱挑战

大型语言模型（LLMs）存在潜在的安全隐患，因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战，并针对意外和恶意的风险场景进行了探讨。实验结果显示，在多语言环境中，通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。

Oct, 2023

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024