走向场景图预测

Mar, 2024

Towards Scene Graph Anticipation

Rohith Peddi, Saksham Singh, Saurabh, Parag Singla, Vibhav Gogate

TL;DR分析了视频中的时空场景图，提出了 SceneSayer 方法，通过对观察到的视频帧进行推理，模拟对象之间关系的演化，并使用神经常微分方程和神经随机微分方程来预测对象之间的未来关系。在 Action Genome 数据集上进行了大量实验验证了该方法的效果。

Abstract

spatio-temporal scene graphs represent interactions in a video by decomposing scenes into individual objects and their pair-wise temporal relationships. long-term anticipation of the fine-grained pair-wise relati

spatio-temporal scene graphs long-term anticipation scenesayer object interactions action genome dataset

发现论文，激发创造

基于边双场景图和消息传递神经网络的语义场景图生成

通过引入边缘双场景图生成（EdgeSGG）和双消息传递神经网络（DualMPNN），本论文提出了一种建模多对象关系的新方法，可以准确地预测对象之间的详细关系，并在各个场景图生成子任务中实现了显著的性能提升，同时有效缓解了长尾分布问题。

Nov, 2023

视频中无偏场景图生成

该研究提出了一个名为 TEMPURA 的框架，通过基于 Transformer 的序列建模，学习合成无偏差的关系表示，并使用高斯混合模型来减少视觉关系的预测不确定性，从而解决视频动态场景的场景图生成中存在的多种问题。该方法在生成更加无偏的场景图方面具有显著的优势。

Apr, 2023

自适应视觉场景理解：增量场景图生成

通过引入包含三个学习场景和八个评估指标的综合连续场景图生成（CSEGG）数据集，研究深入探索现有的 SGG 方法在学习新对象时对先前对象实体和关系的保留情况，以及连续目标检测如何增强对未知对象上已知关系的泛化性能。

Oct, 2023

无条件场景图生成

本文提出了一个用于无条件生成场景图的生成模型 SceneGraphGen，通过层级循环架构直接学习带标签和有向图的概率分布，生成的场景图多样且遵循真实场景的语义模式，同时还证明了生成的图在图像合成、异常检测和场景图完整性方面的应用。

Aug, 2021

时空事件图像用于动态场景理解

该论文介绍了关于动态场景理解的研究，主要涉及自动驾驶、道路事件检测、视频活动检测、持续学习等内容。

Dec, 2023

OED：实现一阶段端到端的动态场景图生成

DSGG 研究主要关注于在视频的时空域中识别视觉关系。本文提出了一种称为 OED 的一阶端到端框架，它将任务重新定义为集合预测问题，并利用成对特征来表示场景图中的每个主客体对。同时，为了捕获时序依赖关系，引入了一种称为 PRM 的渐进细化模块，它能够在没有额外跟踪器或手工制作的轨迹的约束下聚合时序上下文，并实现网络的端到端优化。通过在 Action Genome 基准上进行大量实验，证明了我们设计的有效性。

May, 2024

动态场景图生成的本地 - 全局信息交互解偏差

提出了一种基于多任务学习的新型动态场景图生成模型，该模型结合了局部交互信息和全局人物行为交互信息，通过对象和帧特征之间的交互使模型更全面地理解单幅图像的视觉环境，并使用长时人体动作监督模型生成符合全局约束条件且避免不能学习尾谓词的多个场景图。实验证明了该框架的功效，不仅改善了动态场景图生成，还缓解了长尾问题。

Aug, 2023

动作场景图：针对自视角视频的长篇理解

我们提出了 Egocentric Action Scene Graphs (EASGs)，一种用于理解视角视频的长篇形式的新表示。通过提供相机佩戴者执行的动作、互动对象及其关系以及动作在时间上的展现的时间演变基于图的描述，EASGs 扩展了 egocentric 视频的标准手动注释表示。通过一种新的注释过程，我们通过添加手动标注的 Egocentric Action Scene Graphs 扩展了 Ego4D 数据集，为长篇理解的 egocentric 视频提供了丰富的注释。因此，我们定义了 EASG 生成任务并提供了一种基准方法，建立了初步的基准。针对两个下游任务（egocentric action anticipation 和 egocentric activity summarization）的实验突出了 EASGs 在长篇 egocentric 视频理解方面的有效性。我们将发布数据集和代码以复现实验和注释。

Dec, 2023

视频场景图生成的时空知识嵌入 Transformer

提出了一种将空间 - 时间知识嵌入到多头交叉注意力机制中的空间 - 时间知识嵌入变压器（STKET）模型，用于生成视频场景图并预测语义标签及其关系。经过广泛实验表明，STKET 在不同设置下相对于当前算法的 mR@50 提升了 8.1％，4.7％和 2.1％。

Sep, 2023

学习多智能体轨迹预测的社会时空图

为了准确预测人群中行人的轨迹，需一直考虑其与其他行人的社会 - 时间相互作用。我们提出了一种完整的、明确的捕捉并分析该信息的表示方法，即基于有向无环图的社会 - 时间图（STG）。利用 STGformer 模型，我们实现了端到端的流程，学习 STG 的结构用于轨迹预测，并在两个大规模基准数据集上取得了最先进的预测精度。统计数据表明，利用这种信息明确进行预测相对于仅使用轨迹的方法能够明显提高性能。

Dec, 2023