Jun, 2024
图像能否代表千言万语?深入探究视觉语言模型的空间推理
Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for
Vision Language Models
TL;DR大型语言模型和视觉-语言模型在广泛的任务和领域表现出了显著的优异性能,但空间理解和推理(人类认知的基本组成部分)仍然未得到充分利用。通过开发多方面的空间推理基准,如关系理解、导航和计数,我们对具有竞争力的语言模型和视觉-语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点:(1)空间推理带来了重大挑战,竞争模型可能不如随机猜测;(2)尽管有额外的视觉输入,视觉-语言模型通常表现不如纯语言模型;(3)当文本和视觉信息都可用时,如果提供足够的文本线索,多模态语言模型对视觉信息的依赖程度降低。此外,我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。