Jan, 2025
它们是相同的吗?探索多模态大语言模型的视觉对应缺陷
Are They the Same? Exploring Visual Correspondence Shortcomings of
Multimodal LLMs
TL;DR本研究解决了多模态大语言模型在视觉匹配能力上的不足,特别是视觉对应关系的识别问题。我们构建了一个多模态视觉匹配基准(MMVM),通过分类和评估丰富的数据集来系统地分析现有模型的性能。新提出的CoLVA模型在此基准上表现出色,显示出其在视觉匹配任务中的有效性和潜在影响。