EMNLPOct, 2022

揭示远程植入后门的途径:一种基于特征的高效文本后门攻击防御方法

TL;DR本文提出了一种基于特征的高效在线防御方法,通过距离异常评分来区分有毒和干净的文本样本,在已有的攻击方法上进行了广泛的实验,结果表明该模型具有更好的防御性能和更低的推理成本,并且还能够抵抗基于特征级正则化的攻击。