Apr, 2024

利用跨模态邻居表示改进 CLIP 分类

TL;DR通过自动生成高质量多样文本,利用 CrOss-moDal nEighbor Representation (CODER) 对 CLIP 进行特征提取,提高 CLIP 在单模态特征提取上的性能,进而充分发挥其强大的跨模态匹配能力。