学习组合视觉关系

Nov, 2021

Learning to Compose Visual Relations

Nan Liu, Shuang Li, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba

TL;DR本文提出了一种基于能量的模型，通过正交分解的方式，实现了对场景中各个物体之间关系的描述和生成，并改进了对场景结构的理解方法。

Abstract

The visual world around us can be described as a structured set of objects and their associated relations. An image of a room may be conjured given only the description of the underlying objects and their associa

visual world neural networks relations factorized decomposition scene structure

发现论文，激发创造

从纠缠的场景表示中发现对象及其关系

本文引入的关系网络（RNs）- 一种通用的神经网络架构，可用于从场景描述数据中学习对象关系，并从变分自编码器提供的场景图像的分布式深度表示中分离出错综场景描述输入的对象。

Feb, 2017

神经模型中组成通用能力的研究

该研究介绍了一个名为 ConceptWorld 的环境，用于生成通过逻辑领域特定语言定义的构成和关系概念的图像。研究测试了标准神经网络和关系网络的泛化能力，并提出了一个潜在的基准模型，以鼓励在构成和关系领域有效泛化的模型的发展。

Jun, 2020

通过语言表达视觉关系

该研究利用编码器 - 解码器结构和关系注意力等特征，提出了一种新的在两个图像之间生成关系说明的模型，并透过对新收集及公开的数据集进行实验，证明其比现有的各种基准线和方法都要好。

Jun, 2019

利用自动编码器进行关系的可解释和组合式学习的联合训练

此研究通过自编码器联合训练关系，实现了维度缩减技术，提高了知识库完成任务的效率，并展示了联合训练对于发掘关系组合限制和有益于组合训练的可解释性稀疏编码的促进作用。

May, 2018

使用深度关系网络检测视觉关系

通过深度关系网络的嵌入式框架，探讨和利用对象之间以及它们的关系之间的统计依赖关系，从而实现更好的图像理解能力。

Apr, 2017

利用神经场景图生成器学习视觉关系先验用于图像文本匹配和图像字幕生成

通过结合神经场景图生成器和最先进的模型，我们的实验表明用于促进语言到视觉关系的关系特征能够显著改进标准的 Flickr30K 和 MSCOCO 基准测试，在端到端的视觉和语言应用中捕获视觉关系。

Sep, 2019

自然语言引导下的视觉关系检测

本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题，并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态，特别是在未预测关系的情况下。

Nov, 2017

在文本引导的图像生成中测试关系理解

本研究使用了 15 种基本物质和社会关系对最近的文本引导图像生成模型 DALL-E2 进行了系统的经验性考察，发现只有大约 22％的图像与基本关系提示匹配。研究结果表明，当前的图像生成模型尚未掌握涉及简单对象和代理人的基本关系，本文从认知和计算两个角度，提出可能的改进方向。

Jul, 2022

组合对象关系和属性进行图像 - 文本匹配

本研究中，我们通过引入场景图表示图像标题，利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型，能高效地编码物体 - 属性和物体 - 物体的语义关系，通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检索基准数据集 Flickr30K 和 MSCOCO 上进行实验，证明了相对于计算成本高的交叉注意方法，CORA 在召回得分上具有优势，同时实现了双编码器的快速计算速度。

Jun, 2024

图像 - 文本 - 图形空间粗糙到精细对比学习，旨在提高视觉语言组合能力

通过构建图像场景的文本表示形式，提出了一种图形分解和增强框架以进行对比学习，同时提出了一种用于改善 scene graph 空间中属性绑定和关系理解的负样本挖掘技术，通过大量实验证明了该方法的有效性。

May, 2023