Jul, 2023

PiTL:基于提示的弱监督视觉语言预训练的跨模态检索

TL;DR本文提出了一种利用大型语言模型从图像中生成标签以进行虚实预训练,减少了对昂贵标注数据的需求,并在图片文字检索方面得到显著的效果提升。