Apr, 2023

通过神经元激活空间的对抗学习,在视觉问答中进行实例级别的特洛伊攻击

TL;DR针对神经网络在 fine-tuning 时遇到的木马攻击问题,本文提出了在多层预训练模型上实现测试集样本水印攻击的方法,通过对样本之间和样本内部的多样性进行控制,最终得到在少量样本上可以成功攻击 fine-tuning 模型的工作。