Sep, 2024

预训练视觉-语言模型是否编码对象状态?

TL;DR本研究针对视觉语言模型(VLM)在理解物理世界方面的不足,探讨其是否能够编码对象的状态。通过构建ChangeIt-Frames数据集并评估多个开源VLM模型,我们发现这些模型在对象识别方面表现良好,但在区分对象物理状态上存在显著不足。本研究提出了改进VLM模型以编码对象状态的三大提升方向,为未来研究提供了重要依据。