Jun, 2024

缓解差距:研究提升 CLIP 中跨模态对齐的方法

TL;DR通过设计 AlignCLIP,本文回答了共享多模态编码器参数空间是否减少模态间隙以及通过内部模态分离是否可以缓解间隙的两个主要问题,并通过大量实验证明了 AlignCLIP 在嵌入的跨模态对齐上取得了显著的改进,从而减少了模态间隙,并在零样本图像分类、零样本多模态检索和零样本语义文本相似性等多个下游评估中保持了性能。