Feb, 2024

视觉语言表示学习中的展示和减少快捷方式

TL;DR基于对比训练的视觉语言模型主要依赖于学习图像和标题的通用表示。本文提出了一种新的训练和评估框架,注入了合成的快捷方式来减少学习中的难度和挑战,以改善对比视觉语言表示学习的性能。