ICLRJan, 2021

神经注意力蒸馏:从深度神经网络中消除后门触发器

TL;DR本文提出一种新的神经网络注意力蒸馏(NAD)防御框架,旨在通过训练干净数据子集的教师网络来指导含有后门的学生网络微调,以消除后门触发器,本文经验性地展示了 NAD 可有效使用仅占 5%的清洁训练数据消除后门触发器。