Nov, 2023

剩下的是错误的 - 对比视觉语言模型剩余的位置不全能

TL;DR通过分析数据集和嵌入空间,本文讨论对比视觉语言模型(如 CLIP)缺乏空间理解能力的可能原因。通过关注简单的左右位置关系,我们展示了这种行为是可以预测的,即使使用大规模的数据集;我们证明可以使用合成数据教授这些关系,并且这种方法在自然图像上能够很好地泛化,提高了 Visual Genome Relations 中的左右关系的性能。