基于纯文本语言模型的空间关系基础

Mar, 2024

基于纯文本语言模型的空间关系基础

Grounding Spatial Relations in Text-Only Language Models

Gorka Azkune, Ander Salaberria, Eneko Agirre

TL;DR文中通过提供对象的显式位置信息并进行适当训练，展示出仅文本的语言模型（Language Models）可以学习到类似“左侧”或“下方”等空间关系。通过对视觉空间推理（Visual Spatial Reasoning）数据集的一个口语化版本进行实验，其中图像与包含真实或虚假空间关系的文本语句相配对。作者使用现有的物体检测器给图像增添了位置标记，以文本形式表示每个物体的边界框。尽管视觉空间推理数据集较小，但使用位置信息并无明显改进，然而，通过在由作者衍生的合成数据集上进行预训练，使用位置标记的结果显著改善。作者因此展示了位置信息使语言模型能够对空间关系进行基础性的理解，仅文本的语言模型表现优于视觉与语言模型，成为视觉空间推理数据集的最新技术成果。作者的分析显示，仅文本的语言模型在一定程度上能够推广到合成数据集中未出现的关系，并且还学习了比我们用来创建合成数据集的空间规则中所编码的更有用的信息。

Abstract

This paper shows that text-only language models (LM) can learn to ground spatial relations like "left of" or "below" if they are provided with explicit location information of objects and they are properly traine

发现论文，激发创造

具有韧性和可解释性的关系网络空间参考基础

本论文提出一种文本条件化的关系网络模型，通过跨模态的注意力机制动态计算参数以捕获实体之间的精细空间关系，从而实现对文本中空间参照的理解，具有可解释性和鲁棒性，在三个任务中实现了17%和15%的表现改进，从而解决了在自主导航和机器人控制中学习空间概念表示的关键挑战。

May, 2020

视觉空间推理

本研究提出Visual Spatial Reasoning（VSR）数据集，这是包含超过10k已标注的英文自然文本图像对和66种空间关系的数据集，研究表明当前视觉语言模型只能达到约70％的准确率，无法识别有关物体朝向的关系。

Apr, 2022

文本到图像生成中的空间关系基准测试

本文研究基于大规模文本到图像合成(T2I)，研究其中的空间理解能力，并提出了一个评估指标VISOR，并引入一个大规模的数据集SR2D以及自动化评估管道，对T2I模型进行了大规模实验，发现其在多对象和空间关系生成方面存在严重限制和偏差，并提供了数据集和评估指标以支持T2I空间推理研究。

Dec, 2022

多模态视觉语言模型中的基于实体的视觉空间推理

利用大规模视觉语言模型评估其在不同视觉推理任务中的性能，特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名，结合物体及其位置的核心语义来计算空间子句的最终评分，并比较不同视觉语言模型在空间关系推理方面的能力。

Aug, 2023

视觉语言模型中的问题：探究其在空间推理方面的挑战

通过创造新的语义理解基准数据集，研究表明近期的视觉-语言模型在识别基本空间关系方面表现较差，这是由于常用的数据集如VQAv2中缺乏关于学习空间关系的可靠数据来源。

Oct, 2023

RelationVLM: 构建大型视觉-语言模型以理解视觉关系

RelationVLM是一种大型视觉语言模型，通过多阶段关系感知训练方案和相应的数据配置策略，使其具备理解多个图像或视频内的多个层次和类型关系的能力，该工作促进了LVLM的发展，使其能够支持更广泛的人工通用智能应用。

Mar, 2024

SpatialRGPT：视觉语言模型中的基于场景的空间推理

通过数据处理和深度信息集成，Spatial Region GPT(SpatialRGPT)提升了Vision Language Models(VLMs)的空间感知和推理能力，并且在空间推理任务中显著提高了性能。

Jun, 2024

GSR-BENCH: 通过多模态的LLM评估接地式空间推理的基准

这篇研究报告通过扩展What'sUp数据集，提出了一个全面的评估方法用于空间关系理解，并对27种不同模型的性能进行了评估，其中包括早期的视觉语言模型（VLMs）和三类多模态语言模型（MLLMs），以验证其在任务中的表现和研究其规模的变化规律。

Jun, 2024

图像能否代表千言万语？深入探究视觉语言模型的空间推理

大型语言模型和视觉-语言模型在广泛的任务和领域表现出了显著的优异性能，但空间理解和推理（人类认知的基本组成部分）仍然未得到充分利用。通过开发多方面的空间推理基准，如关系理解、导航和计数，我们对具有竞争力的语言模型和视觉-语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点：（1）空间推理带来了重大挑战，竞争模型可能不如随机猜测；（2）尽管有额外的视觉输入，视觉-语言模型通常表现不如纯语言模型；（3）当文本和视觉信息都可用时，如果提供足够的文本线索，多模态语言模型对视觉信息的依赖程度降低。此外，我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。

Jun, 2024

参考对象的推理路径促进大型视觉语言模型的定量空间推理

本研究解决了当前视觉语言模型在定量空间推理方面的不足，尤其是关于物体大小和距离的推理能力。通过引入一个手动注释的基准Q-Spatial Bench，研究发现某些视觉语言模型在有参考对象的情况下能显著提升推理成功率，并开发了一个名为SpatialPrompt的零样本提示技术，进一步提高了模型的定量空间推理性能，无需额外的数据或模型调整。

Sep, 2024