BriefGPT.xyz
大模型
Ask
alpha
关键词
uni-modal vision
搜索结果 - 1
视觉和语言编码器是否相似地代表世界?
通过使用 Centered Kernel Alignment (CKA) 分析图像字幕基准上视觉和语言模型的潜在空间结构,我们发现不对齐和对齐的编码器的表示空间在语义上是相似的。在无统计相似性的情况下,我们展示了存在可能匹配不对齐编码器而无
→
PDF
6 months ago
Prev
Next