Jun, 2024

ChatBug:由聊天模板引起的对齐 LLM 的常见漏洞

TL;DR大型语言模型(LLMs)在遵循用户指令和进行对话方面具有重要意义。本文研究了聊天模板对 LLMs 安全对齐的影响,并发现了一个名为 ChatBug 的潜在漏洞。通过两种攻击方式,我们证明恶意用户可以利用 ChatBug 漏洞有效引导 LLMs 产生意外回应,并与现有越狱攻击结合提高攻击成功率。对抗性训练虽然可以有效减轻 ChatBug 漏洞,但牺牲了模型性能,因此需要平衡安全对齐和有用性之间的权衡。发展新的指令调优方法是未来研究的一个重要方向。