本研究发展了基于 maskrcnn-benchmark 和多个流行模型的场景图像生成基准测试,并通过 Visual Genome 和 OpenImages 视觉关系检测数据集的全面研究来评估场景图像生成模型的主要特性,从而为完善图像理解模型提供了可能。
Jul, 2021
为解决场景图构建的大量人工成本,提出了一种基于图像语义关系生成的简单有效的图像到文本模型(ISRG),该模型通过将场景图任务分解为两个子任务,即图像分割任务和限制性自回归文本生成任务,极大地降低了场景图的构建成本。在 OpenPSG 数据集上,该模型获得了 31 分,相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。
Oct, 2022
本文提出了一个广义的场景图生成模型 —— 视觉语义解析,并基于动态、注意力机制的二分图传递框架设计了关注于图节点和边的视觉语义解析网络 (VSPNet),同时通过一种全新的图对齐算法,建立了第一个基于图的弱监督学习框架。大量实验证明 VSPNet 优于弱监督基准,而且速度是基准的数倍,因此是训练时效和性能平衡的一个不错的选择。
Jan, 2020
提出了一种基于 Transformer 的端到端框架,利用结构化谓语生成器开发了一种新的实体感知的谓语表示方法,设计了图组装模块以推断适应性的进行双部分场景图形的构建,并在两个具有挑战性的基准测试中取得了最先进或可比的性能,并提高了推理效率。
Dec, 2021
通过因果推断进行对象关系预测的场景图生成方法,结合对象增强模块,在 Visual Gnome 150 数据集上取得了有效的实验结果,为决策模型的基础建模提供了巨大潜力。
Oct, 2023
通过引入包含三个学习场景和八个评估指标的综合连续场景图生成(CSEGG)数据集,研究深入探索现有的 SGG 方法在学习新对象时对先前对象实体和关系的保留情况,以及连续目标检测如何增强对未知对象上已知关系的泛化性能。
通过使用双分图构建方法和终到终的框架,我们提出了一种新的场景图生成方法,有效地解决了组合属性所带来的挑战。实验证明,我们的方法在三个具有挑战性的基准测试中展现出了优秀的表现和高效率的推理能力,超过了现有方法的大部分,达到了最佳性能和时间复杂度。
Jan, 2024
通过引入边缘双场景图生成(EdgeSGG)和双消息传递神经网络(DualMPNN),本论文提出了一种建模多对象关系的新方法,可以准确地预测对象之间的详细关系,并在各个场景图生成子任务中实现了显著的性能提升,同时有效缓解了长尾分布问题。
Nov, 2023
基于序列生成的新型开放词汇的场景图生成框架,通过使用视觉语言预训练模型和显式关系建模知识,实现了优质性能的开放词汇感知场景图生成和增强下游视觉语言任务的目的。
Apr, 2024
本论文提出一种实时框架,使用 RGB 图像序列增量构建一致的三维语义场景图,包括新颖的增量实体估计流水线和场景图预测网络,使用多视角和几何特征,通过迭代信息传递估计三维语义场景图。经过在 3RScan 数据集上大量实验证明,该方法在这项挑战性任务中表现良好,优于现有的最先进方法。
May, 2023