CVPRJun, 2022

视觉和文本的组合混合表示

TL;DR本文提出一种用于视觉与语言之间学习共同表示空间的模型,通过组合语义上的含义并不需要显式位置监督,将文本的复合性约束在视觉领域中,并通过空间变换器以及一种表示学习的方法,学习将图像分成分别编码的补丁,以可解释的方式将视觉和文本表示相结合,该模型能够执行弱监督对象检测,并展示了其对未见对象组合的外推能力。