Nov, 2023

通用后门攻击

TL;DR训练大规模数据集很昂贵,因此一种模型仅训练一次并多次使用。我们展示了一种更高效的通用数据中毒攻击方法,通过少量的中毒样本,可以控制从任意源类到任意目标类的误分类。我们的触发器利用了一种称为跨类中毒可转移性的现象,从而使模型对其他类别的触发器更易受攻击。我们通过仅中毒训练数据集的 0.15%来控制高达 6,000 个类的模型的有效性和鲁棒性。