Aug, 2022
特洛伊变压器中的注意力劫持
Attention Hijacking in Trojan Transformers
Weimin Lyu, Songzhu Zheng, Tengfei Ma, Haibin Ling, Chao Chen
TL;DR本文针对 Transformer 模型,研究了典型的 Trojan attacks,提出了注意力劫持模式,并从 NLP 和 CV 两个领域进行了验证,同时提出了 Attention-Hijacking Trojan Detector (AHTD) 来区分恶意软件和正常模型。