Apr, 2024
RankCLIP: 语言-图像一致的排序预训练
RankCLIP: Ranking-Consistent Language-Image Pretraining
TL;DR通过在大量文本图像对上进行自我监督的对比学习,RankCLIP在扩展CLIP的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了RankCLIP在进一步推进视觉语言预训练方面的潜力。