时空动作图网络

ICCVDec, 2018

Spatio-Temporal Action Graph Networks

Roei Herzig, Elad Levi, Huijuan Xu, Hang Gao, Eli Brosh...

TL;DR提出了一种基于解离图嵌入的物体相互作用图形表示，用于活动识别，该模型通过事实嵌入图结构来解开空间维度与时间变化之间的表示层次结构，并在 Charades 活动识别基准测试以及聚焦于与近碰撞事件的多物体交互的新数据集上进行了验证。

Abstract

Events defined by the interaction of objects in a scene are often of critical importance; yet important events may have insufficient labeled examples to train a conventional deep model to generalize to future object appearance. activity recognition models that represent object interact

activity recognition inter-object graph representation disentangled graph embedding multi-object interactions near-collision events

发现论文，激发创造

基于视觉符号图的视频理解表示学习

本文提出了一种基于两个图的模型，其中节点对应于演员和物体，边编码不同类型的交互，通过图神经网络在结果混合图上优化演员、物体及其交互的表示，该方法在 Charades 数据集上实现了最先进的效果，用于解决有关视频理解的挑战性任务，如时间动作定位。

May, 2019

基于动态图模块的对象交互建模在活动识别中的应用

本文提出了基于动态隐藏图模块的视频动作识别方法，该模块既可以捕捉多对象间的外观 / 运动变化，又能捕捉他们的时空关系，该方法具有处理流式视频数据的能力，并在 Something-Something 和 ActivityNet 数据集上取得了竞争性的性能。

Dec, 2018

动作基因组：将动作视为时空场景图的组合

介绍了一种将行为分解为时空场景图的表示法，通过将场景图作为时空特征库引入现有的行为识别模型中，取得了更好的表现，同时也说明了分层事件分解的效用，从而实现了少样本行为识别，并在新的时空场景图预测任务上对现有的场景图模型进行了基准测试。

Dec, 2019

时空事件图像用于动态场景理解

该论文介绍了关于动态场景理解的研究，主要涉及自动驾驶、道路事件检测、视频活动检测、持续学习等内容。

Dec, 2023

运用知识蒸馏的时空图像处理技术进行视频字幕生成

本文提出一种基于时空图模型的视频字幕生成算法，利用物体间相互作用关系提供显式的视觉表征，通过一种对象感知的知识蒸馏机制，可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验，展示了我们方法的有效性和可解释性预测的竞争性能。

Mar, 2020

群体活动识别的深度结构模型

本文提出了一种基于深度神经网络和分层图模型的个人和群体活动监测方案，使用深度网络识别场景中个人的动作，并通过考虑类别间的依赖关系使用神经网络分层图模型完善每个类别的预测标签，该方法能有效改善基准测试方法的识别率。

Jun, 2015

视频中的对象级视觉推理

本文讨论了利用深度学习模型进行人类活动识别研究中的挑战，并提出了一种基于对象感知网络的模型，以实现对视频中的语义意义的时空交互的推理，从而在三个不同的数据集上取得了最先进的结果。

Jun, 2018

基于人类手动演示视频的自动交互和活动识别技术及其在异常检测中的应用

本文提出一种基于场景图，利用图像序列提取关键交互特征并编码动作模式和上下文的方法，同时引入基于事件的自动视频分割和聚类，成功地实现了识别手 - 物体和物体 - 物体交互，并匹配不同受试者执行的同一活动。

Apr, 2023

活动识别的时间推理图

本文提出了一种高效的时间推理图 (TRG), 用于同时捕捉视频序列之间的外观特征和时间关系。通过构建可学习的时间关系图来探索多尺度范围上的时间关系。在多头时间邻接矩阵的帮助下，提出了一个多头时间关系聚合器来提取那些通过图卷积计算的特征的语义含义。实验证明，通过我们的 TRG 进行时间关系推理可以提取用于活动识别的判别特征。

Aug, 2019

用于人 - 物交互识别的时空交互图解析神经网络

该论文提出了一种基于 Spatio-Temporal Interaction Graph Parsing Networks（STIGPN）的视频人物 - 物体交互识别架构，采用多模态特征融合策略，借助空间和时间关系及语义信息构建图结构，取得了比现有方法更高的准确度。

Aug, 2021