Nov, 2024

提示隐秘:检测黑盒模型中的隐藏后门

TL;DR本研究解决了黑盒模型中后门检测的难题,通过视觉提示的方式来识别干净数据集与被污染数据集之间的类子空间不一致性。提出的\textsc{BProm}方法利用模型在存在后门时分类准确率低的特性,有效识别可疑模型中的后门,实验结果证实了\textsc{BProm}的有效性。