Mar, 2024

TTD:Text-Tag 自我蒸馏以减轻 CLIP 中的单标签偏差

TL;DR我们提出了一种新颖的二步微调方法,通过利用标签与其最近的像素之间的相似性进行评分,从文本中提取与图像相关的标签,并通过自蒸馏策略来校准提取标签的组合掩码与文本派生掩码。这种方法缓解了单标签偏见,显著提高了 CLIP 模型的对齐性,并超过了依赖外部资源的竞争方法,在多标签分类和分割任务上展示了模型无关的改进。