视频中无偏场景图生成

CVPRApr, 2023

Unbiased Scene Graph Generation in Videos

Sayak Nag, Kyle Min, Subarna Tripathi, Amit K. Roy Chowdhury

TL;DR该研究提出了一个名为 TEMPURA 的框架，通过基于 Transformer 的序列建模，学习合成无偏差的关系表示，并使用高斯混合模型来减少视觉关系的预测不确定性，从而解决视频动态场景的场景图生成中存在的多种问题。该方法在生成更加无偏的场景图方面具有显著的优势。

Abstract

The task of dynamic scene graph generation (SGG) from videos is complicated and challenging due to the inherent dynamics of a scene, temporal fluctuation of model predictions, and the long-tailed distribution of

dynamic scene graph generation spatio-temporal context long-tailed distribution unbiased scene graphs tempura framework

发现论文，激发创造

视频场景图生成的元空间时偏差校正

本研究提出了一种基于元学习的 Meta Video Scene Graph Generation (MVSGG) 框架，用于从支持集和若干查询集中构建训练数据并通过元训练和测试过程指导模型学习以针对空间时间条件偏差进行泛化，以提高视频场景图生成的泛化性能。

Jul, 2022

从有偏训练数据中生成无偏场景图

本文通过因果推断方法构建了一个场景图生成的因果图，并通过传统偏差训练和反事实因果关系推断方法去除其不良偏差，最终提出了一个基于 Total Direct Effect 的无偏差 SGG 框架。

Feb, 2020

视频中无偏场景图生成的相关性去偏

FloCoDe 通过使用流进行特征扭曲以检测帧间时间一致的对象，并使用相关性去偏学习长尾类别的无偏关系表示，通过混合 sigmoid 交叉熵损失和对比损失以缓解预测不确定性，实现生成更加无偏的场景图，性能提升高达 4.1%。

Oct, 2023

动态场景图生成的本地 - 全局信息交互解偏差

提出了一种基于多任务学习的新型动态场景图生成模型，该模型结合了局部交互信息和全局人物行为交互信息，通过对象和帧特征之间的交互使模型更全面地理解单幅图像的视觉环境，并使用长时人体动作监督模型生成符合全局约束条件且避免不能学习尾谓词的多个场景图。实验证明了该框架的功效，不仅改善了动态场景图生成，还缓解了长尾问题。

Aug, 2023

自适应视觉场景理解：增量场景图生成

通过引入包含三个学习场景和八个评估指标的综合连续场景图生成（CSEGG）数据集，研究深入探索现有的 SGG 方法在学习新对象时对先前对象实体和关系的保留情况，以及连续目标检测如何增强对未知对象上已知关系的泛化性能。

Oct, 2023

走向场景图预测

分析了视频中的时空场景图，提出了 SceneSayer 方法，通过对观察到的视频帧进行推理，模拟对象之间关系的演化，并使用神经常微分方程和神经随机微分方程来预测对象之间的未来关系。在 Action Genome 数据集上进行了大量实验验证了该方法的效果。

Mar, 2024

视频场景图生成的时空知识嵌入 Transformer

提出了一种将空间 - 时间知识嵌入到多头交叉注意力机制中的空间 - 时间知识嵌入变压器（STKET）模型，用于生成视频场景图并预测语义标签及其关系。经过广泛实验表明，STKET 在不同设置下相对于当前算法的 mR@50 提升了 8.1％，4.7％和 2.1％。

Sep, 2023

基于边双场景图和消息传递神经网络的语义场景图生成

通过引入边缘双场景图生成（EdgeSGG）和双消息传递神经网络（DualMPNN），本论文提出了一种建模多对象关系的新方法，可以准确地预测对象之间的详细关系，并在各个场景图生成子任务中实现了显著的性能提升，同时有效缓解了长尾分布问题。

Nov, 2023

关系感知传递神经网络实现无偏异构场景图生成

本文提出了一种无偏差的异构场景图生成（HetSGG）框架，它使用信息传递神经网络捕捉基于谓词类型的上下文信息，包括复杂的对象间相互作用，并且通过关系感知信息传递神经网络（RMP）实现。我们的广泛评估表明，HetSGG 优于最先进的方法，在尾部谓词类上表现尤为出色。

Dec, 2022

无条件场景图生成

本文提出了一个用于无条件生成场景图的生成模型 SceneGraphGen，通过层级循环架构直接学习带标签和有向图的概率分布，生成的场景图多样且遵循真实场景的语义模式，同时还证明了生成的图在图像合成、异常检测和场景图完整性方面的应用。

Aug, 2021