Jul, 2022

为预训练语言模型重新思考文本对抗防御

TL;DR针对预训练语言模型容易受到对抗攻击的问题,提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强,能够有效地弥补其他防御方法的不足,同时本研究也揭示了文本对抗攻击的本质,并提出了应该加强对谨慎攻击方法的研究。