May, 2024
通过 Silent Tokens 增强对大型语言模型的越狱攻击
Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens
Jiahao Yu, Haozheng Luo, Jerry Yao-Chieh, Wenbo Guo, Han Liu...
TL;DR该研究探讨了 L 语言模型的安全威胁,引入了简单的 BOOST 攻击方法,通过在有害问题末尾添加 eos 标记,绕过 LLM 的安全对齐,从而导致成功的越狱攻击。研究发现,在 MLE 对有害问题理解上没有影响的情况下,eos 标记可以增加攻击成功率,揭示了 LLM 对越狱攻击的脆弱性,鼓励开发强大的安全对齐方法。