May, 2025

视觉语言模型识别虚拟物体的困难

TL;DR本研究探讨了视觉语言模型在理解场景的虚拟物体方面存在的不足。研究提出通过描述虚拟物体来测试AI系统的场景理解能力,发现当前先进的视觉语言模型在处理虚拟对象时表现不佳,揭示了其在多模态输入处理上的局限性。