Oct, 2023
陷阱设置:通过诱饵捕获和击败预训练语言模型中的后门
Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots
TL;DR本研究旨在设计一种抵御后门攻击的微调过程,使用预训练语言模型并引入蜜罐模块,以吸收后门信息,并通过对中间层表示的约束,在微调过程中防止后门创建。在基准数据集上进行的综合实验证明了我们的防御策略的有效性和鲁棒性,与先前的最新方法相比,攻击成功率大幅降低了10%至40%。