Jan, 2022
视觉语言预训练模型在监督跨模态检索中的全面经验研究
A Comprehensive Empirical Study of Vision-Language Pre-trained Model for
Supervised Cross-Modal Retrieval
TL;DR本文使用最新的视觉-语言预训练模型CLIP,设计了一种名为CLIP4CMR的改进型跨模态检索框架,通过实验研究不同学习目标的设计问题、在解决多模态类别级联表示问题方面的应用、及其对实际应用的影响和灵敏度等关注方面的分析,对监督型跨模态检索进行了全面的实证研究,以期提供对模型设计和实际应用的意见和新视角。