BriefGPT.xyz
Ask
alpha
关键词
trigger types
搜索结果 - 1
ACL
一鸣惊人:强大防御策略 Nested PoE 对多后门攻击的鲁棒性
数据污染后门攻击会对大型语言模型造成不良行为,我们提出了 Nested Product of Experts (NPoE) 防御框架,通过专业模型的混合实现对多个触发器类型的同时防御。实验结果表明,NPoE 能有效地防御各种类型的触发器。
PDF
3 months ago
Prev
Next