May, 2025

FG-CLIP:细粒度视觉与文本对齐

TL;DR本研究解决了CLIP在细粒度理解方面的不足,通过生成16亿对长文本和图像,以捕捉全局语义信息,并构建包含1200万张图像和4000万个细分包围框的高质量数据集。此外,还加入1000万个困难的细粒度负样本,提升模型区分细微语义差异的能力。实验结果表明,FG-CLIP在多个下游任务中超越了原 CLIP和其他先进方法,展示了其在捕捉细粒度图像细节和提升整体模型性能方面的有效性。