基于视觉符号图的视频理解表示学习

ECCVMay, 2019

基于视觉符号图的视频理解表示学习

Representation Learning on Visual-Symbolic Graphs for Video Understanding

Effrosyni Mavroudi, Benjamín Béjar Haro, René Vidal

TL;DR本文提出了一种基于两个图的模型，其中节点对应于演员和物体，边编码不同类型的交互，通过图神经网络在结果混合图上优化演员、物体及其交互的表示，该方法在 Charades 数据集上实现了最先进的效果，用于解决有关视频理解的挑战性任务，如时间动作定位。

Abstract

Events in natural videos typically arise from spatio-temporal interactions between actors and objects and involve multiple co-occurring activities and object classes. To capture this rich visual and semantic context

spatio-temporal interactions visual and semantic context graphs graph neural network video understanding

发现论文，激发创造

用于视频理解的统一图结构模型

本文提出了一种基于信息传递的图神经网络，能够精确理解视频中行为者、对象和环境之间的关系，在显式表示对象时能够使用显式表示，否则使用隐含表示；在 AVA 和 UCF101-24 的时空行为检测以及最近的 Action Genome 数据集上的视频场景图分类等任务中，实现了最先进的结果，我们定量和定性的显示了我们的方法如何更有效地模拟场景中相关实体之间的关系。

Mar, 2021

时空动作图网络

提出了一种基于解离图嵌入的物体相互作用图形表示，用于活动识别，该模型通过事实嵌入图结构来解开空间维度与时间变化之间的表示层次结构，并在 Charades 活动识别基准测试以及聚焦于与近碰撞事件的多物体交互的新数据集上进行了验证。

Dec, 2018

视频作为时空区域图

本文提出了利用时空区域图来捕捉人类行为识别的两个重要线索、以及通过图卷积网络来推理这种表示方法的模型，取得了 Charades and Something-Something 数据集上的最优结果

Jun, 2018

时空事件图像用于动态场景理解

该论文介绍了关于动态场景理解的研究，主要涉及自动驾驶、道路事件检测、视频活动检测、持续学习等内容。

Dec, 2023

视频问答的位置感知图卷积网络

本文提出了一种基于图卷积和位置感知的方法，通过将视频内容表示为具有位置信息的图形式来更好地回答视频问答问题。该方法结合了对象物体交互的位置和关系，提取动作的类别和时间位置。在 TGIF-QA、Youtube2Text-QA 和 MSVD-QA 数据集上得出的实验表明该方法优于现有的方法。

Aug, 2020

基于动态图模块的对象交互建模在活动识别中的应用

本文提出了基于动态隐藏图模块的视频动作识别方法，该模块既可以捕捉多对象间的外观 / 运动变化，又能捕捉他们的时空关系，该方法具有处理流式视频数据的能力，并在 Something-Something 和 ActivityNet 数据集上取得了竞争性的性能。

Dec, 2018

利用图神经网络进行情境识别

通过基于图神经网络的模型，我们能够有效捕捉语义角色之间的联合依赖关系，从而在预测图像中最显著的动词和填充其语义角色时取得显著提升，实验证明我们的方法在情境识别中表现优异。

Aug, 2017

高效学习新视觉概念

本文提出一种新的方法 —— 在最先进的识别模型中加入符号知识图谱，从而提高了模型的识别新物体的准确性。实验结果表明，与现有的少样本分类器相比，该方法的性能更好。

Jun, 2023

MovieGraphs: 从视频中理解以人为中心的情境

本文介绍了一个名为 MovieGraphs 的数据集，用于收集电影片段中的社交情境，并探索了使用这个数据集进行情感识别、交互理解和原因理解的方法和相关研究。

Dec, 2017

运用知识蒸馏的时空图像处理技术进行视频字幕生成

本文提出一种基于时空图模型的视频字幕生成算法，利用物体间相互作用关系提供显式的视觉表征，通过一种对象感知的知识蒸馏机制，可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验，展示了我们方法的有效性和可解释性预测的竞争性能。

Mar, 2020