Sep, 2022

通过手工制作的对抗性例子评估预训练语言模型的容易受攻击性

TL;DR本文探讨了最新的预训练语言模型(PLMs),包括 GPT-3 和 BERT,存在安全漏洞,使其容易受到对抗性攻击的影响,并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。