BriefGPT.xyz
Jun, 2023
使用CLIP的半监督图像字幕生成
Semi-Supervised Image Captioning with CLIP
HTML
PDF
Chuanyang Jin
TL;DR
本文提出了一种利用CLIP模型进行半监督图像标注的方法,包括图像编码器、映射网络和语言模型,通过对比生成的标题和实际标题,并使用未标记的图像进行二次训练,得到了与完整数据集训练的业界最先进模型相比可比的性能,且标题更加独特、信息量更大,并且符合人类的偏好。
Abstract
image captioning
, a fundamental task in vision-language understanding, seeks to generate accurate natural language descriptions for provided images. The
clip model
, with its rich semantic features learned from a
→