May, 2023

透过虚假相关性的镜头缓解后门污染攻击

TL;DR该论文研究了当现代自然语言处理模型使用大量不受信任的数据集进行训练时,如何减少后门毒化攻击,提出了利用防止虚假相关的方法进行防范,在与现有防御方法进行比较时,该方法能够显著减少后门攻击的成功率,并且在插入攻击的情况下,提供了近乎完美的防御。