自护:赋予 LLM 保护自身能力
我们提出了一种自我改进的格式化方法,即使在非安全对齐的语言模型中也能实现出色的安全性,通过将我们的方法与几种防御基线进行评估,证明它是针对越狱攻击最安全的无需训练的方法。此外,我们提出了一种格式化方法,可以在更少的迭代中提高自我改进过程的效率,同时降低攻击成功率。我们还观察到,在安全任务中,非安全对齐的语言模型比安全对齐的语言模型表现更好,给出更有帮助且安全的回应。总之,我们的研究发现可以在减少计算成本的同时减少安全风险,使非安全的语言模型可以在真实世界的服务中轻松应用。
Feb, 2024
该研究对破解大型语言模型(LLMs)及其防御技术进行了全面分析,评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果,并释放了数据集和测试框架,以促进 LLM 安全领域的进一步研究。
Feb, 2024
通过提出全面详细的破防攻击和防御方法分类体系,本研究旨在启发未来的研究和实际应用,增强对大语言模型在对抗性攻击中的安全性保障,为发展更安全的大语言模型奠定基础。
Jul, 2024
这篇论文介绍了一种名为 SelfDefend 的通用 LLM 监狱破解防御框架,通过在正常堆栈中建立影子 LLM 防御实例并与目标 LLM 实例协同工作来保护目标 LLM 实例。测量结果表明,SelfDefend 可使 GPT-3.5 的攻击成功率下降 8.97-95.74%(平均 60%),而对正常查询影响微乎其微。同时,通过数据精馏方法调整专用的开源防御模型进一步提高防御的鲁棒性并降低成本。
Jun, 2024
本研究通过弱分类器解释大型语言模型的安全性,确认在预训练阶段 LLMs 学习道德概念而不是对齐,揭示了安全对其生成的恶意内容的抵御机制,以及越过安全限制的越狱行为对 LLM 安全的影响,从而提供了 LLM 安全的内在机制和减轻担忧的新视角。
Jun, 2024
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024
利用较小的大语言模型实现有害查询检测和安全响应,通过多任务学习机制融合两个任务到一个模型里,效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。
May, 2024
通过使用一组检测器,我们提出了 “LLMGuard”,这是一个监视用户与 LLM 应用程序交互并对内容进行标记的工具,以应对大型语言模型在企业环境中带来的新机遇和挑战。
Feb, 2024
Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large language models. This paper proposes a lightweight yet practical defense called SELFDEFEND, which can defend against all existing jailbreak attacks with minimal delay for jailbreak prompts and negligible delay for normal user prompts.
Feb, 2024