BriefGPT.xyz
Apr, 2025
SpaRE:通过合成数据提升视觉语言模型的空间推理能力
SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data
HTML
PDF
Michael Ogezi, Freda Shi
TL;DR
本研究针对视觉语言模型在空间推理方面的不足,提出了一个专注于空间推理的合成问答数据集,以填补当前数据集中空间关系的稀缺。通过对该数据集进行训练,提出的SpaRE模型在空间推理基准上显示出最高可达49%的性能提升,从而增强了视觉语言模型在实际应用中的能力。
Abstract
Vision-Language Models
(VLMs) work well in tasks ranging from image captioning to visual question answering (VQA), yet they struggle with
Spatial Reasoning
, a key skill for understanding our physical world that h
→