ChatBug：由聊天模板引起的对齐 LLM 的常见漏洞

Jun, 2024

ChatBug：由聊天模板引起的对齐 LLM 的常见漏洞

ChatBug: A Common Vulnerability of Aligned LLMs Induced by Chat Templates

Fengqing Jiang, Zhangchen Xu, Luyao Niu, Bill Yuchen Lin, Radha Poovendran

TL;DR大型语言模型（LLMs）在遵循用户指令和进行对话方面具有重要意义。本文研究了聊天模板对 LLMs 安全对齐的影响，并发现了一个名为 ChatBug 的潜在漏洞。通过两种攻击方式，我们证明恶意用户可以利用 ChatBug 漏洞有效引导 LLMs 产生意外回应，并与现有越狱攻击结合提高攻击成功率。对抗性训练虽然可以有效减轻 ChatBug 漏洞，但牺牲了模型性能，因此需要平衡安全对齐和有用性之间的权衡。发展新的指令调优方法是未来研究的一个重要方向。

Abstract

large language models (LLMs) are expected to follow instructions from users and engage in conversations. Techniques to enhance LLMs' instruction-following capabilities typically fine-tune them using data structured according to a predefined chat template. Although →

large language models chat templates safety alignment vulnerability adversarial training

发现论文，激发创造

探索聊天模型的后门漏洞

最近的研究表明，大型语言模型（LLMs）容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法，通过在不同轮次的用户输入中分发多个触发场景，并只在历史对话中出现了所有触发场景时激活后门，从而实现了高攻击成功率。

Apr, 2024

精调后保持 LLMs 一致性：提示模板的关键作用

本文研究了如何减轻模型由于微调引起的安全问题，通过对几个聊天模型进行广泛实验，发现在微调和推理过程中使用的提示模板对于保持安全对齐至关重要，并提出了 “纯微调，安全测试”（PTST）原则，即在没有安全提示的情况下微调模型，但在测试时使用它。在 GSM8K，ChatDoctor 和 OpenOrca 上进行的微调实验表明，PTST 显著减少了不安全行为的发生，甚至在某些情况下几乎消除了它们。

Feb, 2024

Chat Vector：为语言模型赋予新的语言聊天能力的简易方法

使用聊天向量 (chat vector) 和计算上高效的方法，将对话模型 (ChatGPT) 与人类偏好对齐，展示了对非英语语言特别是中文的适应性及高效性。

Oct, 2023

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

大型语言模型对于生成有害内容的鱼目混珠攻击存在漏洞

通过诱饵和转换攻击，大型语言模型能够将安全文本转化为有害内容，这提醒我们在开发可靠的安全保护机制时需要考虑后续转换。

Feb, 2024

跳出规则：多轮对话中大型语言模型的安全漏洞

人们利用多轮对话诱导大型语言模型生成有害信息的研究揭示了当前大型语言模型的安全机制在复杂场景中存在的脆弱性。

Feb, 2024

GPT-4 太聪明了，不安全：通过密码与 LLMs 进行隐秘聊天

通过 CipherChat 框架评估 ChatGPT 和 GPT-4，发现某些密码能够在多个安全领域中以近乎 100% 的成功率绕过 GPT-4 的安全对齐，证明了开发非自然语言安全对齐的必要性，同时提出了一种新颖的 SelfCipher 方法，在几乎所有情况下表现优于现有的人工密码。

Aug, 2023

通过简单自适应攻击解禁领先的安全对齐 LLMs

展示了最新的安全对齐语言模型 (LLMs) 即使面对简单的适应性越狱攻击也不具有稳健性，并提出了适用于越狱攻击的对抗性提示模板、随机搜索等攻击方法，同时探索了适用于特定情境的不同模型的脆弱性以及特定 API 特征导致的脆弱性，并介绍了在木马检测领域中使用随机搜索的一种算法。

Apr, 2024

语言模型不对齐：参数化红队行动揭示隐藏的伤害和偏见

通过参数化红队技术与非对齐性使得 Large Language Models (LLMs) 的安全性得到破坏，揭示模型中存在的潜在有害信息和偏见。

Oct, 2023

大规模语言模型中的多语言越狱挑战

大型语言模型（LLMs）存在潜在的安全隐患，因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战，并针对意外和恶意的风险场景进行了探讨。实验结果显示，在多语言环境中，通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。

Oct, 2023