通过自动派生的数据集改进文本到图像生成中的显式空间关系

Mar, 2024

通过自动派生的数据集改进文本到图像生成中的显式空间关系

Improving Explicit Spatial Relationships in Text-to-Image Generation through an Automatically Derived Dataset

Ander Salaberria, Gorka Azkune, Oier Lopez de Lacalle, Aitor Soroa, Eneko Agirre...

TL;DR现有文献观察到当前的文本到图像系统不能准确反映物体之间的显式空间关系，我们假设这是因为训练这些模型的图像标题很少包含显式空间关系。为此，我们提出了一种自动方法，给定现有图像生成包含 14 种显式空间关系的合成标题。我们引入了 Spatial Relation for Generation (SR4G) 数据集，其中包含 990 万个图像标题对进行训练，并且包含超过 6 万个用于评估的标题。为了测试泛化性能，我们还提供了一个 ' 未见过 ' 的分割，其中训练和测试标题中的对象集是不相交的。SR4G 是首个可以用于空间微调文本到图像系统的数据集。我们显示微调两个不同的稳定扩散模型（称为 SD$_{SR4G}$）可以使 VISOR 指标提升高达 9 个点。改进结果在 ' 未见过 ' 的分割中依然有效，表明 SD$_{SR4G}$ 可以推广到未见过的对象。SD$_{SR4G}$ 通过更少的参数改进了最先进的方法，并避免了复杂的架构。我们的分析显示改进对于所有关系都是一致的。数据集和代码将公开提供。

Abstract

Existing work has observed that current text-to-image systems do not accurately reflect explicit spatial relations between objects such as 'left of' or 'below'. We hypothesize that this is because explicit

text-to-image systems spatial relations image captions sr4g dataset stable diffusion models

发现论文，激发创造

文本到图像生成中的空间关系基准测试

本文研究基于大规模文本到图像合成 (T2I)，研究其中的空间理解能力，并提出了一个评估指标 VISOR，并引入一个大规模的数据集 SR2D 以及自动化评估管道，对 T2I 模型进行了大规模实验，发现其在多对象和空间关系生成方面存在严重限制和偏差，并提供了数据集和评估指标以支持 T2I 空间推理研究。

Dec, 2022

基于纯文本语言模型的空间关系基础

文中通过提供对象的显式位置信息并进行适当训练，展示出仅文本的语言模型（Language Models）可以学习到类似 “左侧” 或 “下方” 等空间关系。通过对视觉空间推理（Visual Spatial Reasoning）数据集的一个口语化版本进行实验，其中图像与包含真实或虚假空间关系的文本语句相配对。作者使用现有的物体检测器给图像增添了位置标记，以文本形式表示每个物体的边界框。尽管视觉空间推理数据集较小，但使用位置信息并无明显改进，然而，通过在由作者衍生的合成数据集上进行预训练，使用位置标记的结果显著改善。作者因此展示了位置信息使语言模型能够对空间关系进行基础性的理解，仅文本的语言模型表现优于视觉与语言模型，成为视觉空间推理数据集的最新技术成果。作者的分析显示，仅文本的语言模型在一定程度上能够推广到合成数据集中未出现的关系，并且还学习了比我们用来创建合成数据集的空间规则中所编码的更有用的信息。

Mar, 2024

完美无误：改进文本到图像模型中的空间一致性

当前文本到图像模型在生成空间关系时存在问题，本文通过创建新的数据集 SPRIGHT 和优化训练方法，提高了空间一致性，并为进一步研究提供了数据集和模型。

Apr, 2024

通过语言表达视觉关系

该研究利用编码器 - 解码器结构和关系注意力等特征，提出了一种新的在两个图像之间生成关系说明的模型，并透过对新收集及公开的数据集进行实验，证明其比现有的各种基准线和方法都要好。

Jun, 2019

视觉空间推理

本研究提出 Visual Spatial Reasoning（VSR）数据集，这是包含超过 10k 已标注的英文自然文本图像对和 66 种空间关系的数据集，研究表明当前视觉语言模型只能达到约 70％的准确率，无法识别有关物体朝向的关系。

Apr, 2022

视觉空间描述：受控的空间定向图像到文本生成

提出了一种名为 VSD 的新的图像与文本方向，其着眼于空间语义，通过使用 VL-BART 和 VL-T5 作为支撑，构建了几个基准编码 - 解码模型，并在我们的基准测试集上进行实验，结果显示我们的模型性能令人印象深刻。同时 VSRC 将会有巨大的潜力，而联合端到端架构是更好的选择。

Oct, 2022

图像语义关系生成

为解决场景图构建的大量人工成本，提出了一种基于图像语义关系生成的简单有效的图像到文本模型（ISRG），该模型通过将场景图任务分解为两个子任务，即图像分割任务和限制性自回归文本生成任务，极大地降低了场景图的构建成本。在 OpenPSG 数据集上，该模型获得了 31 分，相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。

Oct, 2022

STUPD: 用于空间和时间关系推理的合成数据集

提出了 Spatial and Temporal Understanding of Prepositions Dataset (STUPD) - 一个用于理解静态和动态空间关系的大规模视频数据集，旨在帮助模型在真实世界场景中更好地进行视觉关系检测。在该数据集中，我们提供了关于对象交互的 3D 信息，包括逐帧坐标和对象的描述。通过在 STUPD 数据集上进行预训练，与其他预训练数据集相比，在 2 个真实世界数据集（ImageNet-VidVRD 和 Spatial Senses）上展示了各种模型性能的提升。

Sep, 2023

在文本引导的图像生成中测试关系理解

本研究使用了 15 种基本物质和社会关系对最近的文本引导图像生成模型 DALL-E2 进行了系统的经验性考察，发现只有大约 22％的图像与基本关系提示匹配。研究结果表明，当前的图像生成模型尚未掌握涉及简单对象和代理人的基本关系，本文从认知和计算两个角度，提出可能的改进方向。

Jul, 2022

利用神经场景图生成器学习视觉关系先验用于图像文本匹配和图像字幕生成

通过结合神经场景图生成器和最先进的模型，我们的实验表明用于促进语言到视觉关系的关系特征能够显著改进标准的 Flickr30K 和 MSCOCO 基准测试，在端到端的视觉和语言应用中捕获视觉关系。

Sep, 2019