视觉语言模型识别虚拟物体的困难

May, 2025

视觉语言模型识别虚拟物体的困难

Vision language models have difficulty recognizing virtual objects

Tyler Tran, Sangeet Khemlani, J. G. Trafton

TL;DR本研究探讨了视觉语言模型在理解场景的虚拟物体方面存在的不足。研究提出通过描述虚拟物体来测试AI系统的场景理解能力，发现当前先进的视觉语言模型在处理虚拟对象时表现不佳，揭示了其在多模态输入处理上的局限性。

Abstract

Vision Language Models (VLMs) are AI systems paired with both language and vision encoders to process Multimodal Input. They are capable of performing complex semantic tasks such as automatic captioning, but it r