Aug, 2023

LMSanitator: 防御无关任务后门的提示调整

TL;DR通过反向任务 - 不可知背门攻击的矢量预定义以避免调整反向触发器,LMSanitator 实现了更好的收敛性能和背门检测准确性,同时利用 prompt-tuning 的特性在推断阶段进行准确快速的输出监视和输入净化。