提示隐秘：检测黑盒模型中的隐藏后门

Nov, 2024

提示隐秘：检测黑盒模型中的隐藏后门

Prompting the Unseen: Detecting Hidden Backdoors in Black-Box Models

Zi-Xuan Huang, Jia-Wei Chen, Zhi-Peng Zhang, Chia-Mu Yu

TL;DR本研究解决了黑盒模型中后门检测的难题，通过视觉提示的方式来识别干净数据集与被污染数据集之间的类子空间不一致性。提出的\textsc{BProm}方法利用模型在存在后门时分类准确率低的特性，有效识别可疑模型中的后门，实验结果证实了\textsc{BProm}的有效性。

Abstract

Visual prompting (VP) is a new technique that adapts well-trained frozen models for source domain tasks to target domain tasks. This study examines VP's benefits for black-box model-level Backdoor detection. The