EMNLPOct, 2022
揭示远程植入后门的途径:一种基于特征的高效文本后门攻击防御方法
Expose Backdoors on the Way: A Feature-Based Efficient Defense against Textual Backdoor Attacks
Sishuo Chen, Wenkai Yang, Zhiyuan Zhang, Xiaohan Bi, Xu Sun
TL;DR本文提出了一种基于特征的高效在线防御方法,通过距离异常评分来区分有毒和干净的文本样本,在已有的攻击方法上进行了广泛的实验,结果表明该模型具有更好的防御性能和更低的推理成本,并且还能够抵抗基于特征级正则化的攻击。