Apr, 2025
FineLIP:通过与更长文本输入的细粒度对齐扩展CLIP的能力
FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer
Text Inputs
TL;DR本研究针对CLIP模型在处理长文本输入时的局限性,提出了一种新颖的方法FineLIP,通过细粒度对齐实现文本与图像的跨模态映射。实验结果表明,FineLIP在长文本的零-shot跨模态检索和文本生成任务中优于现有的最先进方法,显示了其在视觉和语言任务中的重要影响。