G-TAD: 时间动作检测的子图定位

CVPRNov, 2019

G-TAD: Sub-Graph Localization for Temporal Action Detection

Mengmeng Xu, Chen Zhao, David S. Rojas, Ali Thabet, Bernard Ghanem

TL;DR本文提出了一种基于图卷积网络的模型来自适应地整合多层次语义上下文到视频特征中，并将时态行为检测作为一个子图定位问题。实验证明，该模型不需额外监督就可以发现有效视频上下文，且在两个检测评测中均达到最优性能。

Abstract

temporal action detection is a fundamental yet challenging task in video understanding. video context is a critical cue to effectively detect actions, but current works mainly focus on temporal context, while neg

temporal action detection graph convolutional network video context sub-graph localization semantic context

发现论文，激发创造

视频中时间动作定位的图卷积模块

本文研究了时空行为定位问题，提出了一种新的图卷积模块（GCM），强调了行为单元之间的关系对于行为定位的重要性，并证明了该模块能够提高现有行为定位方法的性能。

Dec, 2021

图卷积网络用于时间动作定位

该论文利用图卷积网络 (GCNs) 来建立动作建议图，通过使用两种关系来捕捉上下文信息和不同动作之间的相关性，以模拟不同建议之间的关系并学习强大的动作分类和本地化表示，实验证明该方法在 THUMOS14 上显著优于现有最先进模型。

Sep, 2019

时空动作定位的活动图变换器

该研究提出了一种基于深度学习的 Activity Graph Transformer 模型，可以对视频进行端到端分析，精确定位和识别视频内的特定事件活动，并通过非线性图推理方法捕获视频内事件之间的复杂时间结构。实验结果显示此方法在三个具有挑战性的数据集上均优于当前领先的方法。

Jan, 2021

基于骨架的动作识别的时序图建模

本篇文章介绍了一种称之为 Temporal Enhanced Graph Convolutional Network (TE-GCN) 的新模型，用于构建骨骼动作识别应用中的时间关系图，以提取骨架序列的时间动态。文章对两个广泛使用的大型数据集进行了广泛的实验，在动作识别中取得了最先进的性能，同时通过多头机制进一步探索时间关系图。

Dec, 2020

自适应图增强变压器生成时序动作建议

利用增强型 Transformer 和自适应图卷积网络来生成明确涉及情境且复杂的视频中的动作提议，以提高提议质量和保持本地上下文关联性。通过 THUMOS14 和 ActivityNet1.3 数据集的实验验证，该方法优于目前的 TAPG 模型。

Mar, 2021

高斯时空感知网络用于动作定位

本文提出一种新的视频动作定位框架，使用高斯核实现动作提案的动态时间尺度优化，通过学习一组高斯核对动作的时间结构进行建模，取得了目前最好的检测结果。

Sep, 2019

丰富时空动作定位的本地和全局上下文

该研究提出了一种名为 ContextLoc 的模型，通过丰富本地和全局上下文来解决时态动作定位的问题，并在 THUMOS14 和 ActivityNet v1.3 数据集上实现 56％以上的性能表现。

Jul, 2021

视频中复杂活动检测的混合图网络

使用混合图神经网络对视频进行复杂活动检测，通过对局部动态场景的图表达应用注意力和对整体长时间活动的时间图表达，提取特征并估计复杂活动类别及其开始和结束时间。在 ActivityNet-1.3、Thumos-14 和 ROAD 三个数据集上，所提出的框架优于所有现有的最先进方法。

Oct, 2023

增强即时可辨性的时间动作定位

基于 TriDet 模型的时间动作检测（TAD）在多个 TAD 数据集上表现出鲁棒性和最先进的性能，包括分层（多标签）TAD 数据集。

Sep, 2023

基于骨架的动作识别的多尺度时空图网络

该论文主要介绍了一种新型的骨骼动作识别模型叫做 TGN，结合了多尺度图策略来提取骨骼序列的时空特征，得到更好的实验结果。

Dec, 2020