通过因果推断进行对象关系预测的场景图生成方法,结合对象增强模块,在 Visual Gnome 150 数据集上取得了有效的实验结果,为决策模型的基础建模提供了巨大潜力。
Oct, 2023
本研究提出了一种基于平衡调整的场景图生成框架 ——BA-SGG,该框架通过语义平衡调整和平衡谓词学习两个组件分别对信息谓词和常见谓词之间的两种不平衡进行调整,有效提高场景图生成的性能。在 Visual Genome 数据集中,与变压器模型相比,我们的方法在三个子任务中的平均回收率分别提高了 14.3%,8.0%和 6.1%。
Aug, 2021
本文通过因果推断方法构建了一个场景图生成的因果图,并通过传统偏差训练和反事实因果关系推断方法去除其不良偏差,最终提出了一个基于 Total Direct Effect 的无偏差 SGG 框架。
Feb, 2020
本文提出了一种半监督方法,通过很少的带标签的样本分配概率关系标签到大量未标记的图像,生成足够的训练数据来训练任何现有的最先进的场景图模型,该方法在场景图预测方面优于所有基准方法,此外,我们定义了一种关系的复杂度指标,为条件提供指示符。
Apr, 2019
本文提出了一种基于 Scene Graph Generation 的方法,使用 Stacked Hybrid-Attention network 作为编码器,Group Collaborative Learning 作为解码器优化策略,实现对视觉语言融合不足、信息不全的问题的提升。
Mar, 2022
提出了一种名为 RepSGG 的新型架构,将场景图生成(Scene Graph Generation)中的实体表示为查询,目标表示为键,并将它们之间的关系表示为查询和键之间的最大注意力权重,从而在提取高度代表性的特征方面具有更细粒度和灵活的表达能力。此外,通过在训练期间基于运行时性能进行仿射变换的策略,对关系的逻辑进行了修改,以鼓励主导类和稀有类之间更平衡的性能,实验结果表明,RepSGG 在 Visual Genome 和 Open Images V6 数据集上具有先进或可比较的性能,且推理速度快,证明了所提方法的有效性和高效性。
Sep, 2023
近年来,场景图生成在视觉场景理解任务中受到越来越多的关注。本文提出了一种名为 VETO 的视觉关系变换器,采用新颖的实体关系编码器以捕捉实体的局部级线索,并引入一种名为 MEET 的互斥专家学习策略以消除对头部或尾部类别的偏见,实验结果表明,VETO + MEET 的预测性能比现有技术高出 47 个百分点,并且尺寸缩小了 10 倍。
Aug, 2023
通过使用预训练的视觉 - 语言模型(VLMs)增强场景图生成(SGG)模型的表示,并结合语言模型估计(LM Estimation)来解决预训练与 SGG 之间的差距,我们的方法有效地处理了词汇偏见,加强了 SGG 的表示,并获得了显著的性能提升。
Mar, 2024
为解决语义空间层面和样本训练层面的不平衡问题,在场景图生成中提出了一种名为 DB-SGG 的有效框架,通过语义去偏见和平衡谓词学习的组件集成,超过 Transformer 136.3%、119.5%和 122.6%的 mR@20,在三个场景图生成子任务上,应用于 SGG 模型,并在句子到图形检索和图像字幕的两个下游任务上得到验证。
本研究提出一种在场景图生成任务中能够处理零样本和小样本情况的密度归一化边缘损失函数,并且介绍了新的加权评估指标来提高模型性能。
May, 2020