BriefGPT.xyz
Ask
alpha
关键词
hidden triggers
搜索结果 - 1
人类中心语言模型中的隐藏后门
本文提出通过嵌入本质隐形且难以检测的触发器进行的 NLP 背门攻击,该攻击能超过多项 NLP 任务,例如有害评论检测,机器翻译和问答系统,能在维持正常使用的正常用户的同时,在不经意间实施高成功率的攻击。
PDF
3 years ago
Prev
Next