Jul, 2023
PiTL:基于提示的弱监督视觉语言预训练的跨模态检索
PiTL: Cross-modal Retrieval with Weakly-supervised Vision-language Pre-training via Prompting
Zixin Guo, Tzu-Jui Julius Wang, Selen Pehlivan, Abduljalil Radman, Jorma Laaksonen
TL;DR本文提出了一种利用大型语言模型从图像中生成标签以进行虚实预训练,减少了对昂贵标注数据的需求,并在图片文字检索方面得到显著的效果提升。