视觉空间描述：受控的空间定向图像到文本生成

Oct, 2022

视觉空间描述：受控的空间定向图像到文本生成

Visual Spatial Description: Controlled Spatial-Oriented Image-to-Text Generation

Yu Zhao, Jianguo Wei, Zhichao Lin, Yueheng Sun, Meishan Zhang...

TL;DR提出了一种名为 VSD 的新的图像与文本方向，其着眼于空间语义，通过使用 VL-BART 和 VL-T5 作为支撑，构建了几个基准编码 - 解码模型，并在我们的基准测试集上进行实验，结果显示我们的模型性能令人印象深刻。同时 VSRC 将会有巨大的潜力，而联合端到端架构是更好的选择。

Abstract

image-to-text tasks, such as open-ended image captioning and controllable image description, have received extensive attention for decades. Here, we further advance this line of work by presenting visual spatial descrip

visual spatial description image-to-text spatial semantics vl-bart vl-t5

发现论文，激发创造

通过整体三维场景理解生成视觉空间描述

本文研究了如何使用三维场景特征来提高视觉空间描述（VSD）的准确度和多样性，通过构建一个基于目标对象的三维空间场景图和场景子图选择机制，从而实现更加多样空间的文本生成，实验证明这种方法在视觉空间关系复杂的情况下表现明显优于基线模型。

May, 2023

文本到图像生成中的空间关系基准测试

本文研究基于大规模文本到图像合成 (T2I)，研究其中的空间理解能力，并提出了一个评估指标 VISOR，并引入一个大规模的数据集 SR2D 以及自动化评估管道，对 T2I 模型进行了大规模实验，发现其在多对象和空间关系生成方面存在严重限制和偏差，并提供了数据集和评估指标以支持 T2I 空间推理研究。

Dec, 2022

视觉空间推理

本研究提出 Visual Spatial Reasoning（VSR）数据集，这是包含超过 10k 已标注的英文自然文本图像对和 66 种空间关系的数据集，研究表明当前视觉语言模型只能达到约 70％的准确率，无法识别有关物体朝向的关系。

Apr, 2022

通过自动派生的数据集改进文本到图像生成中的显式空间关系

现有文献观察到当前的文本到图像系统不能准确反映物体之间的显式空间关系，我们假设这是因为训练这些模型的图像标题很少包含显式空间关系。为此，我们提出了一种自动方法，给定现有图像生成包含 14 种显式空间关系的合成标题。我们引入了 Spatial Relation for Generation (SR4G) 数据集，其中包含 990 万个图像标题对进行训练，并且包含超过 6 万个用于评估的标题。为了测试泛化性能，我们还提供了一个 ' 未见过 ' 的分割，其中训练和测试标题中的对象集是不相交的。SR4G 是首个可以用于空间微调文本到图像系统的数据集。我们显示微调两个不同的稳定扩散模型（称为 SD$_{SR4G}$）可以使 VISOR 指标提升高达 9 个点。改进结果在 ' 未见过 ' 的分割中依然有效，表明 SD$_{SR4G}$ 可以推广到未见过的对象。SD$_{SR4G}$ 通过更少的参数改进了最先进的方法，并避免了复杂的架构。我们的分析显示改进对于所有关系都是一致的。数据集和代码将公开提供。

Mar, 2024

通过语言表达视觉关系

该研究利用编码器 - 解码器结构和关系注意力等特征，提出了一种新的在两个图像之间生成关系说明的模型，并透过对新收集及公开的数据集进行实验，证明其比现有的各种基准线和方法都要好。

Jun, 2019

通过空间关系建模改进视觉语言推理

通过构建空间关系图并设计两种预训练任务，即目标位置回归和空间关系分类，本研究提出的方法在 VCR、VQA 和 NLVR 三个视觉与语言推理任务中取得了最先进的结果。

Nov, 2023

完美无误：改进文本到图像模型中的空间一致性

当前文本到图像模型在生成空间关系时存在问题，本文通过创建新的数据集 SPRIGHT 和优化训练方法，提高了空间一致性，并为进一步研究提供了数据集和模型。

Apr, 2024

图像字幕视觉语义关联数据集

本论文介绍了一种文本视觉背景数据集，用于改进现代图像描述系统，通过融合与场景相关的文本信息，提高图像描述的准确性及语义关联性。

Jan, 2023

Stack-VS: 堆叠型视觉语义注意力机制用于图像描述生成

提出了一个基于多阶段架构的模型 (Stack-VS)，与底层 (top-down) 和高层 (bottom-up) 注意力模型结合来生成优质图片标题。使用 LSTM 解码器单元在可视层级和语义层级信息上重定义关注权重，并在 MSCOCO 基准测试中取得了显著的提高。

Sep, 2019

生成场景描述的 V&L 模型中跨模态交互的理解

使用 Vision and Language 模型，结合场景和物体描述的数据集，本文分析了其微调的效果，揭示了小量精选数据即可生成不失物体级别描述的场景描述，并讨论与计算和认知科学研究的并行之处。

Nov, 2022