为解决场景图构建的大量人工成本,提出了一种基于图像语义关系生成的简单有效的图像到文本模型(ISRG),该模型通过将场景图任务分解为两个子任务,即图像分割任务和限制性自回归文本生成任务,极大地降低了场景图的构建成本。在 OpenPSG 数据集上,该模型获得了 31 分,相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。
Oct, 2022
通过构建不同分布环境来平衡主 - 客体对的不平衡,并采用课程学习策略平衡不同环境,我们提出了一种新颖的环境不变课程关系学习方法,可应用于现有的场景图生成方法,实验证明该方法实现了重要的改进。
Aug, 2023
提出了一种基于自学知识的场景图生成模型训练方案,使用两个关系分类器减少标注偏差和稀疏标注造成的影响,并在多个标准场景图生成任务中观察到了显著的相对改进。
Aug, 2020
为解决语义空间层面和样本训练层面的不平衡问题,在场景图生成中提出了一种名为 DB-SGG 的有效框架,通过语义去偏见和平衡谓词学习的组件集成,超过 Transformer 136.3%、119.5%和 122.6%的 mR@20,在三个场景图生成子任务上,应用于 SGG 模型,并在句子到图形检索和图像字幕的两个下游任务上得到验证。
本文通过因果推断方法构建了一个场景图生成的因果图,并通过传统偏差训练和反事实因果关系推断方法去除其不良偏差,最终提出了一个基于 Total Direct Effect 的无偏差 SGG 框架。
Feb, 2020
通过引入包含三个学习场景和八个评估指标的综合连续场景图生成(CSEGG)数据集,研究深入探索现有的 SGG 方法在学习新对象时对先前对象实体和关系的保留情况,以及连续目标检测如何增强对未知对象上已知关系的泛化性能。
Oct, 2023
通过引入边缘双场景图生成(EdgeSGG)和双消息传递神经网络(DualMPNN),本论文提出了一种建模多对象关系的新方法,可以准确地预测对象之间的详细关系,并在各个场景图生成子任务中实现了显著的性能提升,同时有效缓解了长尾分布问题。
Nov, 2023
本研究提出了一种基于平衡调整的场景图生成框架 ——BA-SGG,该框架通过语义平衡调整和平衡谓词学习两个组件分别对信息谓词和常见谓词之间的两种不平衡进行调整,有效提高场景图生成的性能。在 Visual Genome 数据集中,与变压器模型相比,我们的方法在三个子任务中的平均回收率分别提高了 14.3%,8.0%和 6.1%。
Aug, 2021
提出了一种名为 OvSGTR 的统一框架,用于从整体视角实现完全开放词汇的场景图生成,并通过知识蒸馏保留视觉 - 概念对齐,综合实验结果在 Visual Genome 基准上证明了该框架的有效性和优越性。
本研究提出一种在场景图生成任务中能够处理零样本和小样本情况的密度归一化边缘损失函数,并且介绍了新的加权评估指标来提高模型性能。
May, 2020