May, 2024

预训练的视觉语言模型作为部分注解器

TL;DR本研究探讨了一种新颖的 “预训练标注 - 弱监督学习” 范式,通过在图像分类任务中基于 CLIP 使用多个提示模板对图像样本进行标注,进而获得多个候选标签以形成含噪部分标签的数据集,并设计了一种协作一致性正则化算法来解决这个问题。实验表明,该方法在无需额外标签信息的情况下显著优于零样本推理,优于其他弱监督学习和少样本微调方法,并获得了更小的模型。