Aug, 2023
多模态视觉语言模型中的基于实体的视觉空间推理
Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models
Navid Rajabi, Jana Kosecka
TL;DR利用大规模视觉语言模型评估其在不同视觉推理任务中的性能,特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名,结合物体及其位置的核心语义来计算空间子句的最终评分,并比较不同视觉语言模型在空间关系推理方面的能力。