Sep, 2022
通过手工制作的对抗性例子评估预训练语言模型的容易受攻击性
Evaluating the Susceptibility of Pre-Trained Language Models via Handcrafted Adversarial Examples
Hezekiah J. Branch, Jonathan Rodriguez Cefalu, Jeremy McHugh, Leyla Hujer, Aditya Bahl...
TL;DR本文探讨了最新的预训练语言模型(PLMs),包括 GPT-3 和 BERT,存在安全漏洞,使其容易受到对抗性攻击的影响,并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。