May, 2024
预训练的视觉语言模型作为部分注解器
Pre-Trained Vision-Language Models as Partial Annotators
TL;DR本研究探讨了一种新颖的“预训练标注-弱监督学习”范式,通过在图像分类任务中基于CLIP使用多个提示模板对图像样本进行标注,进而获得多个候选标签以形成含噪部分标签的数据集,并设计了一种协作一致性正则化算法来解决这个问题。实验表明,该方法在无需额外标签信息的情况下显著优于零样本推理,优于其他弱监督学习和少样本微调方法,并获得了更小的模型。