Jun, 2020

通过迪利克雷邻域集成对抗 NLP 攻击的防御

TL;DR本文提出 Dirichlet Neighborhood Ensemble (DNE) 方法,用于训练 Robust 模型以防御替换攻击,通过抽样 embedding 向量形成虚拟句子,并在训练集上增加确保模型在干净的原始数据上保持良好性能,实验证明该方法在不同网络架构和多个数据集上均明显优于其他最近提出的防御方法。