动态场景图生成的本地 - 全局信息交互解偏差

Aug, 2023

动态场景图生成的本地 - 全局信息交互解偏差

Local-Global Information Interaction Debiasing for Dynamic Scene Graph Generation

Xinyu Lyu, Jingwei Liu, Yuyu Guo, Lianli Gao

TL;DR提出了一种基于多任务学习的新型动态场景图生成模型，该模型结合了局部交互信息和全局人物行为交互信息，通过对象和帧特征之间的交互使模型更全面地理解单幅图像的视觉环境，并使用长时人体动作监督模型生成符合全局约束条件且避免不能学习尾谓词的多个场景图。实验证明了该框架的功效，不仅改善了动态场景图生成，还缓解了长尾问题。

Abstract

The task of dynamic scene graph generation (DynSGG) aims to generate scene graphs for given videos, which involves modeling the spatial-temporal information in the video. However, due to the long-tailed distribution of samples in the dataset, previous DynSGG models fail to predict the

dynamic scene graph generation spatial-temporal information tail predicates multi-task learning long-tail problem

发现论文，激发创造

视频场景图生成的元空间时偏差校正

本研究提出了一种基于元学习的 Meta Video Scene Graph Generation (MVSGG) 框架，用于从支持集和若干查询集中构建训练数据并通过元训练和测试过程指导模型学习以针对空间时间条件偏差进行泛化，以提高视频场景图生成的泛化性能。

Jul, 2022

视频中无偏场景图生成

该研究提出了一个名为 TEMPURA 的框架，通过基于 Transformer 的序列建模，学习合成无偏差的关系表示，并使用高斯混合模型来减少视觉关系的预测不确定性，从而解决视频动态场景的场景图生成中存在的多种问题。该方法在生成更加无偏的场景图方面具有显著的优势。

Apr, 2023

从有偏训练数据中生成无偏场景图

本文通过因果推断方法构建了一个场景图生成的因果图，并通过传统偏差训练和反事实因果关系推断方法去除其不良偏差，最终提出了一个基于 Total Direct Effect 的无偏差 SGG 框架。

Feb, 2020

面向终身场景图生成的知识感知上下文提示学习

基于在预训练语言模型中环境背景学习的成就，本论文提出了一种新颖实用的场景图生成框架，名为终身场景图生成（LSGG），在其中任务如谓词以流式方式展开。严格实验表明，我们提出的方法在 LSGG 方面在各种度量标准上优于现有方法。此外，在两个主流基准数据集 VG 和 Open-Image (v6) 上的广泛实验显示了我们提出的模型在连续学习和传统设置方面的优势。此外，全面的消融实验证明了我们模型的每个组成部分的有效性。

Jan, 2024

通过去偏向性生成信息场景图

为解决语义空间层面和样本训练层面的不平衡问题，在场景图生成中提出了一种名为 DB-SGG 的有效框架，通过语义去偏见和平衡谓词学习的组件集成，超过 Transformer 136.3％、119.5％和 122.6％的 mR@20，在三个场景图生成子任务上，应用于 SGG 模型，并在句子到图形检索和图像字幕的两个下游任务上得到验证。

Aug, 2023

视频中无偏场景图生成的相关性去偏

FloCoDe 通过使用流进行特征扭曲以检测帧间时间一致的对象，并使用相关性去偏学习长尾类别的无偏关系表示，通过混合 sigmoid 交叉熵损失和对比损失以缓解预测不确定性，实现生成更加无偏的场景图，性能提升高达 4.1%。

Oct, 2023

生成具有场景动态的视频

利用大量未标记的视频来学习场景动态的模型，提出了一种具有时空卷积结构的生成对抗网络来生成视频，该模型能够更好地预测静态图像的合理未来，并且能够识别动作的有用特征，这表明场景动态是表示学习的一个有前途的信号。

Sep, 2016

基于边双场景图和消息传递神经网络的语义场景图生成

通过引入边缘双场景图生成（EdgeSGG）和双消息传递神经网络（DualMPNN），本论文提出了一种建模多对象关系的新方法，可以准确地预测对象之间的详细关系，并在各个场景图生成子任务中实现了显著的性能提升，同时有效缓解了长尾分布问题。

Nov, 2023

从整体到特定：通过平衡调整进行信息化场景图生成

本研究提出了一种基于平衡调整的场景图生成框架 ——BA-SGG，该框架通过语义平衡调整和平衡谓词学习两个组件分别对信息谓词和常见谓词之间的两种不平衡进行调整，有效提高场景图生成的性能。在 Visual Genome 数据集中，与变压器模型相比，我们的方法在三个子任务中的平均回收率分别提高了 14.3％，8.0％和 6.1％。

Aug, 2021

走向场景图预测

分析了视频中的时空场景图，提出了 SceneSayer 方法，通过对观察到的视频帧进行推理，模拟对象之间关系的演化，并使用神经常微分方程和神经随机微分方程来预测对象之间的未来关系。在 Action Genome 数据集上进行了大量实验验证了该方法的效果。

Mar, 2024