在文本引导的图像生成中测试关系理解

Jul, 2022

在文本引导的图像生成中测试关系理解

Testing Relational Understanding in Text-Guided Image Generation

Colin Conwell, Tomer Ullman

TL;DR本研究使用了 15 种基本物质和社会关系对最近的文本引导图像生成模型 DALL-E2 进行了系统的经验性考察，发现只有大约 22％的图像与基本关系提示匹配。研究结果表明，当前的图像生成模型尚未掌握涉及简单对象和代理人的基本关系，本文从认知和计算两个角度，提出可能的改进方向。

Abstract

Relations are basic building blocks of human cognition. Classic and recent work suggests that many relations are early developing, and quickly perceived. Machine models that aspire to human-level perception and reasonin

relation perception reasoning image generation biological intelligence

发现论文，激发创造

通过语言表达视觉关系

该研究利用编码器 - 解码器结构和关系注意力等特征，提出了一种新的在两个图像之间生成关系说明的模型，并透过对新收集及公开的数据集进行实验，证明其比现有的各种基准线和方法都要好。

Jun, 2019

基于图的社交关系推理

本文提出了一种基于图形关系推理网络方法 (GR2N) 的社交关系识别方法，该方法相比现有方法能够更快，更准确地构建社交关系图，并显式地抓住不同类型社交关系之间的强逻辑约束，从而提高社交关系图的性能。

Jul, 2020

利用神经场景图生成器学习视觉关系先验用于图像文本匹配和图像字幕生成

通过结合神经场景图生成器和最先进的模型，我们的实验表明用于促进语言到视觉关系的关系特征能够显著改进标准的 Flickr30K 和 MSCOCO 基准测试，在端到端的视觉和语言应用中捕获视觉关系。

Sep, 2019

自然语言引导下的视觉关系检测

本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题，并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态，特别是在未预测关系的情况下。

Nov, 2017

多粒度推理用于图像社交关系识别

本研究提出了一种基于多粒度推理的社交关系识别框架，包括全局知识，中层细节和细粒度姿态关键点。研究设计了基于姿态指导的人物对象图和人物姿态图来建模人物到对象的动作和配对人物之间的交互，并借助图卷积网络进行社交关系推理。实验结果表明提出的框架在两个公共数据集上具有较高的效果。

Jan, 2019

文本到图像生成中的空间关系基准测试

本文研究基于大规模文本到图像合成 (T2I)，研究其中的空间理解能力，并提出了一个评估指标 VISOR，并引入一个大规模的数据集 SR2D 以及自动化评估管道，对 T2I 模型进行了大规模实验，发现其在多对象和空间关系生成方面存在严重限制和偏差，并提供了数据集和评估指标以支持 T2I 空间推理研究。

Dec, 2022

从结构文本生成视觉关系感知图像

本文提出了一种基于视觉关系布局模块和堆叠式 GAN 网络的端到端图像生成方法，通过使用结构化文本中实体之间的关系，能够以高分辨率、保持场景结构的方式生成真实的图像。

Aug, 2019

学习组合视觉关系

本文提出了一种基于能量的模型，通过正交分解的方式，实现了对场景中各个物体之间关系的描述和生成，并改进了对场景结构的理解方法。

Nov, 2021

通过自动派生的数据集改进文本到图像生成中的显式空间关系

现有文献观察到当前的文本到图像系统不能准确反映物体之间的显式空间关系，我们假设这是因为训练这些模型的图像标题很少包含显式空间关系。为此，我们提出了一种自动方法，给定现有图像生成包含 14 种显式空间关系的合成标题。我们引入了 Spatial Relation for Generation (SR4G) 数据集，其中包含 990 万个图像标题对进行训练，并且包含超过 6 万个用于评估的标题。为了测试泛化性能，我们还提供了一个 ' 未见过 ' 的分割，其中训练和测试标题中的对象集是不相交的。SR4G 是首个可以用于空间微调文本到图像系统的数据集。我们显示微调两个不同的稳定扩散模型（称为 SD$_{SR4G}$）可以使 VISOR 指标提升高达 9 个点。改进结果在 ' 未见过 ' 的分割中依然有效，表明 SD$_{SR4G}$ 可以推广到未见过的对象。SD$_{SR4G}$ 通过更少的参数改进了最先进的方法，并避免了复杂的架构。我们的分析显示改进对于所有关系都是一致的。数据集和代码将公开提供。

Mar, 2024

REKnow：用于联合实体和关系提取的增强型知识

本研究提出了一种知识增强的生成模型，能够前所未有地利用知识图谱来解决关系抽取问题中的歧义，显著提高了在多个基准测试和设置下的性能表现。

Jun, 2022