学习组合视觉关系
本文引入的关系网络(RNs)- 一种通用的神经网络架构,可用于从场景描述数据中学习对象关系,并从变分自编码器提供的场景图像的分布式深度表示中分离出错综场景描述输入的对象。
Feb, 2017
该研究介绍了一个名为 ConceptWorld 的环境,用于生成通过逻辑领域特定语言定义的构成和关系概念的图像。研究测试了标准神经网络和关系网络的泛化能力,并提出了一个潜在的基准模型,以鼓励在构成和关系领域有效泛化的模型的发展。
Jun, 2020
该研究利用编码器 - 解码器结构和关系注意力等特征,提出了一种新的在两个图像之间生成关系说明的模型,并透过对新收集及公开的数据集进行实验,证明其比现有的各种基准线和方法都要好。
Jun, 2019
此研究通过自编码器联合训练关系,实现了维度缩减技术,提高了知识库完成任务的效率,并展示了联合训练对于发掘关系组合限制和有益于组合训练的可解释性稀疏编码的促进作用。
May, 2018
通过结合神经场景图生成器和最先进的模型,我们的实验表明用于促进语言到视觉关系的关系特征能够显著改进标准的 Flickr30K 和 MSCOCO 基准测试,在端到端的视觉和语言应用中捕获视觉关系。
Sep, 2019
本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题,并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态,特别是在未预测关系的情况下。
Nov, 2017
本研究使用了 15 种基本物质和社会关系对最近的文本引导图像生成模型 DALL-E2 进行了系统的经验性考察,发现只有大约 22%的图像与基本关系提示匹配。研究结果表明,当前的图像生成模型尚未掌握涉及简单对象和代理人的基本关系,本文从认知和计算两个角度,提出可能的改进方向。
Jul, 2022
本研究中,我们通过引入场景图表示图像标题,利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型,能高效地编码物体 - 属性和物体 - 物体的语义关系,通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检索基准数据集 Flickr30K 和 MSCOCO 上进行实验,证明了相对于计算成本高的交叉注意方法,CORA 在召回得分上具有优势,同时实现了双编码器的快速计算速度。
Jun, 2024
通过构建图像场景的文本表示形式,提出了一种图形分解和增强框架以进行对比学习,同时提出了一种用于改善 scene graph 空间中属性绑定和关系理解的负样本挖掘技术,通过大量实验证明了该方法的有效性。
May, 2023