Apr, 2025

SpaRE:通过合成数据提升视觉语言模型的空间推理能力

TL;DR本研究针对视觉语言模型在空间推理方面的不足,提出了一个专注于空间推理的合成问答数据集,以填补当前数据集中空间关系的稀缺。通过对该数据集进行训练,提出的SpaRE模型在空间推理基准上显示出最高可达49%的性能提升,从而增强了视觉语言模型在实际应用中的能力。