Apr, 2023
通过神经元激活空间的对抗学习,在视觉问答中进行实例级别的特洛伊攻击
Instance-level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space
Yuwei Sun, Hideya Ochiai, Jun Sakuma
TL;DR针对神经网络在 fine-tuning 时遇到的木马攻击问题,本文提出了在多层预训练模型上实现测试集样本水印攻击的方法,通过对样本之间和样本内部的多样性进行控制,最终得到在少量样本上可以成功攻击 fine-tuning 模型的工作。