Jun, 2023

使用CLIP的半监督图像字幕生成

TL;DR本文提出了一种利用CLIP模型进行半监督图像标注的方法,包括图像编码器、映射网络和语言模型,通过对比生成的标题和实际标题,并使用未标记的图像进行二次训练,得到了与完整数据集训练的业界最先进模型相比可比的性能,且标题更加独特、信息量更大,并且符合人类的偏好。