用于视频理解的统一图结构模型

Mar, 2021

Unified Graph Structured Models for Video Understanding

Anurag Arnab, Chen Sun, Cordelia Schmid

TL;DR本文提出了一种基于信息传递的图神经网络，能够精确理解视频中行为者、对象和环境之间的关系，在显式表示对象时能够使用显式表示，否则使用隐含表示；在 AVA 和 UCF101-24 的时空行为检测以及最近的 Action Genome 数据集上的视频场景图分类等任务中，实现了最先进的结果，我们定量和定性的显示了我们的方法如何更有效地模拟场景中相关实体之间的关系。

Abstract

Accurate video understanding involves reasoning about the relationships between actors, objects and their environment, often over long temporal intervals. In this paper, we propose a message passing graph neural network

video understanding message passing graph neural network spatio-temporal relations object representations relational reasoning

发现论文，激发创造

基于视觉符号图的视频理解表示学习

本文提出了一种基于两个图的模型，其中节点对应于演员和物体，边编码不同类型的交互，通过图神经网络在结果混合图上优化演员、物体及其交互的表示，该方法在 Charades 数据集上实现了最先进的效果，用于解决有关视频理解的挑战性任务，如时间动作定位。

May, 2019

迭代消息传递的场景图生成

研究使用视觉图像中的基于场景图谱的结构化表示，通过端到端模型建模图像中对象之间的关系，通过消息传递技术可以更好预测对象及其关系，实验表明该模型显著优于以前的方法。

Jan, 2017

视频问答的位置感知图卷积网络

本文提出了一种基于图卷积和位置感知的方法，通过将视频内容表示为具有位置信息的图形式来更好地回答视频问答问题。该方法结合了对象物体交互的位置和关系，提取动作的类别和时间位置。在 TGIF-QA、Youtube2Text-QA 和 MSVD-QA 数据集上得出的实验表明该方法优于现有的方法。

Aug, 2020

视频作为时空区域图

本文提出了利用时空区域图来捕捉人类行为识别的两个重要线索、以及通过图卷积网络来推理这种表示方法的模型，取得了 Charades and Something-Something 数据集上的最优结果

Jun, 2018

基于动态图模块的对象交互建模在活动识别中的应用

本文提出了基于动态隐藏图模块的视频动作识别方法，该模块既可以捕捉多对象间的外观 / 运动变化，又能捕捉他们的时空关系，该方法具有处理流式视频数据的能力，并在 Something-Something 和 ActivityNet 数据集上取得了竞争性的性能。

Dec, 2018

基于关系图学习的视频描述生成

本研究设计了一种新颖的关系图学习框架，包括一种语言细化的场景图表示，探索细粒度的视觉概念，并解决了对象幻觉问题。实验结果表明，本方法可以生成更精细和准确的描述。

Dec, 2021

桥接到答案：面向视频问答的结构感知图交互网络

本文提出了一种名为 Bridge to Answer 的新方法，通过利用异构交叉模式图的充分图交互来推断有关给定视频的问题的正确答案，通过学习问题调节的视觉图，对视觉节点使用问题 - 视觉交互来包含视觉和语言线索，并通过将问题图作为中间桥梁来将两个互补的视觉信息放在一起，使可靠的信息传递，以生成适当的答案，从而证明了该方法在视频问答方面提供了有效的上乘表现。

Apr, 2021

消息传递查询嵌入

本文提出了一种基于图神经网络对查询进行编码的通用架构，与现有方法相比，该方法可以编码更多种类型的查询。实验结果表明，该模型可以学习到表示实体类型的实体嵌入，并在复杂查询方面表现优异。

Feb, 2020

运用知识蒸馏的时空图像处理技术进行视频字幕生成

本文提出一种基于时空图模型的视频字幕生成算法，利用物体间相互作用关系提供显式的视觉表征，通过一种对象感知的知识蒸馏机制，可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验，展示了我们方法的有效性和可解释性预测的竞争性能。

Mar, 2020

基于门控时空能量图的视频关系推理

本文介绍了一种基于全连通时空图的条件随机场模型，利用空间和时间上的关系较强的实体之间的统计依赖关系，通过在视觉观察条件下学习自适应关系来对其进行优化，同时，其在视频数据集（ImageNet Video 和 Charades）上表现出了最先进的性能。

Mar, 2019