BriefGPT.xyz
Ask
alpha
关键词
positional relations
搜索结果 - 1
剩下的是错误的 - 对比视觉语言模型剩余的位置不全能
通过分析数据集和嵌入空间,本文讨论对比视觉语言模型(如 CLIP)缺乏空间理解能力的可能原因。通过关注简单的左右位置关系,我们展示了这种行为是可以预测的,即使使用大规模的数据集;我们证明可以使用合成数据教授这些关系,并且这种方法在自然图像上
→
PDF
8 months ago
Prev
Next