Jan, 2022

视觉语言预训练模型在监督跨模态检索中的全面经验研究

TL;DR本文使用最新的视觉 - 语言预训练模型 CLIP,设计了一种名为 CLIP4CMR 的改进型跨模态检索框架,通过实验研究不同学习目标的设计问题、在解决多模态类别级联表示问题方面的应用、及其对实际应用的影响和灵敏度等关注方面的分析,对监督型跨模态检索进行了全面的实证研究,以期提供对模型设计和实际应用的意见和新视角。