该研究提出了一个名为 TEMPURA 的框架,通过基于 Transformer 的序列建模,学习合成无偏差的关系表示,并使用高斯混合模型来减少视觉关系的预测不确定性,从而解决视频动态场景的场景图生成中存在的多种问题。该方法在生成更加无偏的场景图方面具有显著的优势。
Apr, 2023
本文提出一种基于 PU 学习和动态标签频率估计的方法,通过有效利用标签频率从而解决场景图生成中的长尾问题和报告偏差,实现更准确的标签估计和更平衡的场景图生成。
Jul, 2021
本文通过因果推断方法构建了一个场景图生成的因果图,并通过传统偏差训练和反事实因果关系推断方法去除其不良偏差,最终提出了一个基于 Total Direct Effect 的无偏差 SGG 框架。
Feb, 2020
提出了一种基于多任务学习的新型动态场景图生成模型,该模型结合了局部交互信息和全局人物行为交互信息,通过对象和帧特征之间的交互使模型更全面地理解单幅图像的视觉环境,并使用长时人体动作监督模型生成符合全局约束条件且避免不能学习尾谓词的多个场景图。实验证明了该框架的功效,不仅改善了动态场景图生成,还缓解了长尾问题。
Aug, 2023
本研究提出了一种基于元学习的 Meta Video Scene Graph Generation (MVSGG) 框架,用于从支持集和若干查询集中构建训练数据并通过元训练和测试过程指导模型学习以针对空间时间条件偏差进行泛化,以提高视频场景图生成的泛化性能。
Jul, 2022
本研究从认知角度研究解决 Scene Graph Generation 领域中偏差数据的问题,提出了一种新的解决方案 —— 建立一种基于偏差预测结果的层次认知结构,通过对结构进行模糊到精细的遍历,实现关注尾部关系的目的。该方案使用 CogTree loss 作为 Debiasing loss,可用于现有多种主流模型的性能优化。
Sep, 2020
为解决语义空间层面和样本训练层面的不平衡问题,在场景图生成中提出了一种名为 DB-SGG 的有效框架,通过语义去偏见和平衡谓词学习的组件集成,超过 Transformer 136.3%、119.5%和 122.6%的 mR@20,在三个场景图生成子任务上,应用于 SGG 模型,并在句子到图形检索和图像字幕的两个下游任务上得到验证。
本文介绍了一种名为 TD$^2$-Net 的网络,旨在进行动态场景图生成时的去噪和去偏执。该网络通过设计可微分的 Top-K 对象选择器来增强对象表示,以及引入不对称重新加权损失函数来缓解标签偏差问题。在行动基因组数据库上的系统性实验结果表明,我们提出的 TD$^2$-Net 相对于现有最先进的方法在谓词分类的均值召回率 @10 上超过最优竞争对手 12.7%。
Jan, 2024
我们提出了一种名为 Trico 的方法,通过探索三种互补的时空相关性来补充缺失的谓词,从而实现了无偏谓词预测,并验证了 Trico 在 VidVRD 和 VidOR 等广泛使用的 VidSGG 数据集上的卓越性能,特别是在那些尾部谓词上。
Jul, 2023
本文提出了一种使用因果推理的场景图生成任务去偏置化的方法,其中包含两个阶段的因果建模,第一阶段是因果表示学习,第二阶段是自适应逻辑调整,实验结果表明该方法可以在头尾关系之间实现更好的平衡,达到最先进的性能表现。