比赛报告:在对齐的 LLMs 中发现通用越狱后门
利用强化学习从人类反馈中对大型语言模型进行调整,以生成有益且无害的回答;然而,此研究发现这些模型可以通过找到对抗性提示来解开监狱束缚,因此本文考虑了新的威胁,即攻击者通过植入 “监狱解锁后门” 来污染强化学习训练数据,并嵌入模型中;这种后门将触发词嵌入到模型中,作为一种通用的 “超级用户命令”,即在任何提示中加入触发词,便可实现有害的回答,无需寻找对抗性提示;通用监狱解锁后门比先前研究的语言模型后门要更强大,我们发现使用常见的后门攻击技术在模型中植入这种后门相对困难;我们研究了强化学习从人类反馈中的设计决策对其所声称的鲁棒性的影响,并发布了一组受污染模型的基准,以促进对通用监狱解锁后门的未来研究。
Nov, 2023
介绍了一种使用遗传算法来操纵无法访问模型结构和参数的大型语言模型的新方法,通过优化通用对抗提示,发现模型的限制和漏洞,从而破坏模型的对齐性,提供诊断工具以评估和增强大型语言模型与人类意图的一致性。
Sep, 2023
通过广泛的实证研究,我们对多语言越狱攻击进行了深入探究,提出了一种新的语义保持算法来创建多语言越狱数据集,并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估,并实施了微调缓解方法。我们的发现显示出,我们的缓解策略显著增强了模型的防御能力,将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。
Jan, 2024
本研究通过弱分类器解释大型语言模型的安全性,确认在预训练阶段 LLMs 学习道德概念而不是对齐,揭示了安全对其生成的恶意内容的抵御机制,以及越过安全限制的越狱行为对 LLM 安全的影响,从而提供了 LLM 安全的内在机制和减轻担忧的新视角。
Jun, 2024
本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术,提出了一个潜在的越狱 Prompts 数据集,旨在全面研究大型语言模型的文本安全性和输出鲁棒性,结果表明当前的 LLMs 不仅偏爱某些指令动词,而且在显式正常指令中存在不同的越狱率,这意味着在显式正常指令中的指令动词将不同程度地增强模型生成不安全内容的概率。
Jul, 2023
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024
语言模型在生成虚假和欺骗性推理时存在困难。我们提出了一种越狱攻击方法,通过利用这一缺陷来获取一个具有恶意输出的对齐语言模型。我们的方法在五个安全对齐的大型语言模型上进行了评估,与四种以前的越狱方法进行了比较,展示了竞争性能和更多有害的输出。我们认为这些发现可以扩展到模型安全、自验证和幻觉等领域。
Jul, 2024
大型语言模型(LLMs)存在潜在的安全隐患,因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战,并针对意外和恶意的风险场景进行了探讨。实验结果显示,在多语言环境中,通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。
Oct, 2023
该研究对破解大型语言模型(LLMs)及其防御技术进行了全面分析,评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果,并释放了数据集和测试框架,以促进 LLM 安全领域的进一步研究。
Feb, 2024