May, 2025
将推理引入视觉:通过模型融合理解感知和推理
Bring Reason to Vision: Understanding Perception and Reasoning through
Model Merging
TL;DR本研究针对视觉-语言模型(VLMs)与大型语言模型(LLMs)之间的感知与推理机制的不明确性,提出了通过跨模态模型融合的方法。研究发现,模型融合不仅成功地将LLMs的推理能力转移至VLMs,而且揭示了感知能力主要分布在模型的早期层,而推理能力则在中后期层得以促进,为多模态集成和解析提供了新的思路。