Jul, 2021
CLIP能为视觉语言任务带来多大的效益?
How Much Can CLIP Benefit Vision-and-Language Tasks?
TL;DR研究了在视觉与语言任务中使用大规模预训练模型CLIP作为视觉编码器以及其优势,通过在特定任务中微调和在预训练模型中与V&L相结合传递到下游任务,CLIP显著优于现有的视觉编码器,并在多种视觉与语言任务中取得竞争或更好的结果,同时取得了Visual Question Answering,Visual Entailment和V&L Navigation等任务的新高峰。