ACLJun, 2024

PromptFix: 通过对抗性提示调整进行少样本后门移除

TL;DR通过对软标记以及对抗优化的使用,提出一种名为 PromptFix 的新型反后门策略,适用于自然语言处理模型中的少样本情景,并通过各种后门攻击实验证实了该方法的有效性以及在存在领域转移时的性能。