Mar, 2023

基于零样本图像去污的黑盒后门防御

TL;DR本文提出了一个基于零样本图像净化的后门防御框架,能够在黑盒模型中有效抵御各种攻击,并无需任何关于被攻击模型的内部信息或清洁 / 污染样本的先验知识。该框架涉及两个步骤:第一步对污染图像进行线性变换以消除触发模式,第二步使用预训练扩散模型恢复变换移除的缺失语义信息,最终得到可应用于零样本情况的高保真净化图像。在多个数据集上进行的实验结果表明,与现有后门防御基线相比,该框架具有明显的优势。