Sep, 2024

优化 CLIP 模型以保持联合嵌入对齐的图像检索

TL;DR本文解决了 CLIP 模型在处理图像相似性搜索时,面对视觉上不同但文本描述相似的图像时表现不佳的问题。我们提出并评估了两种新方法来优化图像检索能力,同时保持文本和图像嵌入的对齐。实验证明这些方法在多个基准测试中提升了 CLIP 的性能,尤其在图像检索和零-shot 分类方面表现突出。