May, 2024

CLIP 与优质字幕:强大的视觉任务预训练

TL;DR简要概述:通过改进图像 - 文本数据集中标题的质量,有助于改善 CLIP 模型的视觉表示质量,并在密集预测视觉任务中取得显著的性能提升。