Apr, 2024

探索聊天模型的后门漏洞

TL;DR最近的研究表明,大型语言模型(LLMs)容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法,通过在不同轮次的用户输入中分发多个触发场景,并只在历史对话中出现了所有触发场景时激活后门,从而实现了高攻击成功率。