May, 2024

CLIP与优质字幕:强大的视觉任务预训练

TL;DR简要概述:通过改进图像-文本数据集中标题的质量,有助于改善CLIP模型的视觉表示质量,并在密集预测视觉任务中取得显著的性能提升。