BriefGPT.xyz
Ask
alpha
关键词
trigger scenarios
搜索结果 - 1
探索聊天模型的后门漏洞
最近的研究表明,大型语言模型(LLMs)容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法,通过在不同轮次的用户输入中分发多个触发场景,并只在历史对话中出现了所有触发场景时激活后门,从而实现了高攻击成功率。
PDF
3 months ago
Prev
Next