Jun, 2022

通过信息瓶颈改善自然语言处理模型对抗攻击鲁棒性

TL;DR本文利用信息瓶颈理论,研究消除易受攻击的非鲁棒特征,提取任务特定的鲁棒特征。通过大量实验证明,我们的方法可在 SST-2、AGNEWS 和 IMDB 数据集上除了几乎不受性能下降的情况下,在鲁棒准确度上实现显著提高,超过以往任何被报道的方法。