Jan, 2021

预训练模型的红色警报:普遍存在神经元级反向门攻击漏洞

TL;DR该研究探讨了预训练模型(PTMs)在细分任务中普适的漏洞性,称为神经元级后门攻击(NeuBA),并通过NLP和CV实验表明其可以通过模型修剪等防御方法来抵御。