Apr, 2024

利用跨模态邻居表示改进 CLIP 分类

TL;DR通过自动生成高质量多样文本,利用CrOss-moDal nEighbor Representation (CODER) 对CLIP进行特征提取,提高CLIP在单模态特征提取上的性能,进而充分发挥其强大的跨模态匹配能力。