May, 2024

通过 Silent Tokens 增强对大型语言模型的越狱攻击

TL;DR该研究探讨了 L 语言模型的安全威胁,引入了简单的 BOOST 攻击方法,通过在有害问题末尾添加 eos 标记,绕过 LLM 的安全对齐,从而导致成功的越狱攻击。研究发现,在 MLE 对有害问题理解上没有影响的情况下,eos 标记可以增加攻击成功率,揭示了 LLM 对越狱攻击的脆弱性,鼓励开发强大的安全对齐方法。