May, 2023

CARSO: 合成观察的反对抗性召回

TL;DR该研究提出了一种基于认知神经科学线索的新型对抗性防御机制——CARSO,它是对抗性训练的一种协同补充,依赖于被攻击分类器的内部表示知识,利用生成模型进行对抗性净化,实验结果表明,该机制比现有的对抗性训练能够更好地保护被攻击的分类器,并可有效防御意想不到的威胁和对采用随机防御的端到端攻击进行针对性干扰。