Jan, 2024
视觉和语言编码器是否相似地代表世界?
Do Vision and Language Encoders Represent the World Similarly?
Mayug Maniparambil, Raiymbek Akshulakov, Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Mohamed El Amine Seddik...
TL;DR通过使用 Centered Kernel Alignment (CKA) 分析图像字幕基准上视觉和语言模型的潜在空间结构,我们发现不对齐和对齐的编码器的表示空间在语义上是相似的。在无统计相似性的情况下,我们展示了存在可能匹配不对齐编码器而无需任何训练。我们将其视为一种基于种子图匹配问题,利用图之间的语义相似性提出了两种方法 - 一种是快速二次分配问题优化,一种是基于新颖局部CKA度量的匹配/检索。我们在包括跨语言、跨域字幕匹配和图像分类在内的几个下游任务上展示了其有效性。