从视觉信号探索空间常识中未被书写的事物

ACLMar, 2022

从视觉信号探索空间常识中未被书写的事物

Things not Written in Text: Exploring Spatial Commonsense from Visual Signals

Xiao Liu, Da Yin, Yansong Feng, Dongyan Zhao

TL;DR本研究利用图像合成的方法，构建了一个专注于对象相对尺度和位置关系的空间常识基准，并证明相较于文本预训练模型，具有视觉信号的模型更能准确和持续地学习空间常识，从中获得的知识也可用于具有空间常识的自然语言理解任务。

Abstract

spatial commonsense, the knowledge about spatial position and relationship between objects (like the relative size of a lion and a girl, and the position of a boy relative to a bicycle when cycling), is an important part of commonsense knowledge. Although →

spatial commonsense pretrained language models visual signals benchmark image synthesis models

发现论文，激发创造

通过隐式空间模板获取共性空间知识

本文引入了一个预测生成空间布局的任务，通过神经网络模型从图像和结构化文本中学习，在普遍性场景下，模型表现出了可靠的预测结果，且具有从先前未见过的对象中输出准确的空间预测的能力。

Nov, 2017

图像能否代表千言万语？深入探究视觉语言模型的空间推理

大型语言模型和视觉 - 语言模型在广泛的任务和领域表现出了显著的优异性能，但空间理解和推理（人类认知的基本组成部分）仍然未得到充分利用。通过开发多方面的空间推理基准，如关系理解、导航和计数，我们对具有竞争力的语言模型和视觉 - 语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点：（1）空间推理带来了重大挑战，竞争模型可能不如随机猜测；（2）尽管有额外的视觉输入，视觉 - 语言模型通常表现不如纯语言模型；（3）当文本和视觉信息都可用时，如果提供足够的文本线索，多模态语言模型对视觉信息的依赖程度降低。此外，我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。

Jun, 2024

多模态视觉语言模型中的基于实体的视觉空间推理

利用大规模视觉语言模型评估其在不同视觉推理任务中的性能，特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名，结合物体及其位置的核心语义来计算空间子句的最终评分，并比较不同视觉语言模型在空间关系推理方面的能力。

Aug, 2023

VIPHY：探究 “可见” 的物理常识知识

本研究使用自动管道方法研究了视觉 - 语言模型在获取 “可见” 物理知识方面的能力，并发现这些模型在物体颜色，大小和空间三个方面的表现与人类存在明显差距。而采用预训练的基线模型 (CapBERT) 可以取得更好的表现。

Sep, 2022

超越语言：从图片中学习常识进行推理

本文提出了一种从图像中学习常识的新方法，利用双模态序列到序列模型进行场景布局生成任务，并在通感问题回答和代词消解领域实验中证明了新方法的有效性。

Oct, 2020

基于场景图的常识知识在文本环境中的应用

本文研究了在文本游戏中使用基于视觉数据集得到的常识推理有助于提高游戏 AI 效率的优势，对比了空间关系的统计信息并在常识推理任务中进行验证实验，结果表明该方法优于现有最先进的方法。

Oct, 2022

CommonsenseVIS: 自然语言模型的常识推理能力可视化与理解

利用外部常识知识库将模型行为与人类知识对齐，并通过多层次可视化和交互式模型探索和编辑，帮助自然语言处理专家在不同场景中对模型的概念关系推理进行系统且可扩展的可视化分析。

Jul, 2023

通过多图像生成改善语言模型中的视觉常识

基于多模态知识的常识推理是根本，我们介绍了一种方法来增强大型语言模型的视觉常识能力，该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上，还在传统自然语言处理基准上优于现有基线模型。

Jun, 2024

训练模型对视觉常识知识的学习

研究利用多模态模型来学习语言的局限性，提出了两个评估任务来衡量语言模型在视觉常识知识方面的表现。结果发现，基于视觉文本数据的多模态模型和单模态模型在视觉常识知识方面表现不显著不同。

May, 2022

学习定位对象提高视觉语言模型的空间推理能力

将大型语言模型（LLM）整合到视觉领域任务中，从而形成视觉 - LLM（V-LLM），在视觉问答（VQA）等视觉语言任务中实现了卓越的性能。通过基于图像坐标的指导微调目标，我们探索了如何为 V-LLM 注入空间意识，包括发现最佳坐标表示、数据效率的指导微调目标和伪数据生成策略。我们的模型在图像和视频领域提升了 VQA 性能，减少了不必要的幻觉，并生成了更好的上下文对象描述。通过涉及 14 个不同数据集的 5 个视觉语言任务的实验，验证了我们提出的框架明显的性能改进。

Apr, 2024