Aug, 2023

无监督视觉语言模型的原型适配器

TL;DR我们设计了一种名为Unsupervised Prototype Adapter (UP-Adapter)的无监督微调方法,通过利用CLIP的文本-图像对齐能力自动选择每个类别中最有信心的样本,并利用这些选择的样本生成类别原型,用于可学习的原型模型的初始化。经过微调后,通过剩余连接将原型模型的预测与原始CLIP的预测相结合,用于执行下游识别任务。我们在图像识别和领域泛化方面的大量实验结果表明,所提出的无监督方法在8-shot CoOp、8-shot Tip-Adapter以及最先进的UPL方法上都取得了显著优势。