ACLApr, 2024

一鸣惊人:强大防御策略 Nested PoE 对多后门攻击的鲁棒性

TL;DR数据污染后门攻击会对大型语言模型造成不良行为,我们提出了 Nested Product of Experts (NPoE) 防御框架,通过专业模型的混合实现对多个触发器类型的同时防御。实验结果表明,NPoE 能有效地防御各种类型的触发器。