该论文提出了一种新颖的方法来推断场景中的支撑关系和构建语义场景图,以增强场景理解,并构建了一种描述场景内所有上下文关系的语义场景图。
Sep, 2016
为解决场景图构建的大量人工成本,提出了一种基于图像语义关系生成的简单有效的图像到文本模型(ISRG),该模型通过将场景图任务分解为两个子任务,即图像分割任务和限制性自回归文本生成任务,极大地降低了场景图的构建成本。在 OpenPSG 数据集上,该模型获得了 31 分,相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。
Oct, 2022
本研究提出了一种新颖的基于注意力机制的关系网络,其包含两个关键模块和一个目标检测主干以实现场景图自动生成,并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。
Nov, 2018
本文提出了一种利用外部知识和图像重建损失的新型场景图生成算法,提取外部常识知识以改进场景图的可推广性,并通过在场景图生成网络上引入辅助图像重建路径来解决嘈杂对象注释的偏差问题,全面实验证明我们的框架可以生成更好的场景图,并在 “视觉关系检测” 和 “视觉基因组” 两个基准数据集上实现了最先进的性能。
Apr, 2019
通过因果推断进行对象关系预测的场景图生成方法,结合对象增强模块,在 Visual Gnome 150 数据集上取得了有效的实验结果,为决策模型的基础建模提供了巨大潜力。
Oct, 2023
使用结构化可视化表征 —— 场景图,通过可视上下文和语言因素进行关系编码,使用场景图卷积网络实现对对象属性和关系语义的联合推理来回答视觉问题,从而在 GQA 数据集上实现了 54.56%的最高准确率。
Dec, 2018
本文介绍了一种名为 Graph-RISE 的大规模神经图学习框架,可以训练图像嵌入以区分不同的超精细语义标签,并在图像分类和三元组排名等多个评估任务中优于当前最先进的图像嵌入算法。图 - RISE 在图像检索中有效捕捉了语义,并与最先进的算法相比,在更接近人类感知的细微层面上区分了细微差别。
Feb, 2019
本文探讨了使用关系来进行对象检测和实例分割的有效性,并提出了一种基于关系先验的特征增强模型(RP-FEM),该模型通过图形变换器利用关系先验增强对象建议特征。实验结果表明,利用增加了关系先验的场景图可提高对象检测与实例分割的效果。RP-FEM 通过抑制图像中不太可能的类别预测和生成重复预测的问题,在基准模型的基础上取得了改进。
通过深度神经网络和知识嵌入式路由网络,结合统计相关性和语义关系之间的知识图谱,实现了场景图的生成和推理,实验证明该方法优于现有技术,解决了因为世界关系分布不均衡导致的场景图推导的难题。
Mar, 2019
本文提出了基于子图连接图的场景图生成方法,并采用自下而上的聚类方法将整个场景图分解为子图,并用更少的子图和对象特征替换场景图的众多关系表示,以显著降低中间阶段的计算。采用空间加权消息传递和空间敏感关系推理模块,维护空间信息以促进关系识别,该方法在视觉关系检测和视觉基因组数据集中均优于现有最先进的方法。
Jun, 2018