STEP CATFormer:基于空时有效部位交叉注意力变换器的基于骨骼的动作识别
本文提出了一种基于 Spatial-Temporal Transformer 网络的骨骼姿态行为识别方法,使用自注意力机制成功提取了骨骼运动及其相关性的信息,与其他同类算法相比在多个大规模数据集上表现出更好的精度。
Aug, 2020
提出了一种基于空间 - 时间图卷积网络 (ST-GCN) 的骨架识别模型,该模型能够在不借助人工干预的情况下自动学习骨架在空间和时间上的表现,并且在动作识别以及泛化能力方面远优于之前的方法。
Jan, 2018
通过使用自注意力图卷积网络 (GCN) 技术,本研究提出了一种混合模型,名为多尺度时空自注意力网络 (MSST-GCN),以有效提高建模能力,并在多个数据集上取得了最先进的结果。该模型利用自空间注意力模块来理解帧内不同身体部位之间的关系,利用自时间注意力模块来研究节点帧之间的相关性。随后,通过多尺度卷积网络捕获节点的长程时空依赖关系,将它们组合成高层次的时空表示,并使用 softmax 分类器输出预测的动作。
Apr, 2024
通过对图形卷积网络中的拆分、变换、合并策略进行重新设计,我们构建了一个简单而高度模块化的图形卷积网络体系结构,用于骨架序列处理中的动作识别,并证明了其优于现有基于深度学习的方法。
Nov, 2020
本研究提出了一种多尺度空间图卷积和多尺度时间图卷积模型,通过分解相应的局部图卷积为一系列子图卷积,形成一个分层残差体系结构,使图卷积神经网络能够捕获空间和时间域中的短程和长程依赖关系,从而实现骨骼动作识别,该模型在三个基准数据集上表现出了显著的性能。
Jun, 2022
本文提出了一种基于纯 CNN 架构的新型拓扑感知 CNN (Ta-CNN),通过引入跨通道特征增强模块,可以有效增强拓扑特征,证明了 GCNs 的拓扑模型能力也可以通过 CNN 来实现。同时,通过独特的 SkeletonMix 策略,进一步提高了性能。在四个广泛使用的数据集上进行了广泛的实验,结果表明 Ta-CNN 优于现有的基于 CNN 的方法,在 GFLOPs 和参数要求上明显优于 GCN-based 方法具有可比性的性能。
Dec, 2021
本文提出了一种名为 Hierarchical Graph Convolutional skeleton Transformer (HGCT) 的新型架构,通过引入 Disentangled Spatiotemporal Transformer 块,利用全局时空注意力和本地信息增强相互协同,以解决基于骨架的动作识别中的邻域限制和空间时间特征表示相互干扰等问题,同时具有计算效率高、解释性好等优点。
Sep, 2021
本文提出了一种名为 CTR-GC 的新颖通道逐层细化图卷积方法,它可以动态学习不同的拓扑并有效地聚合骨架动作识别中不同通道的联合特征。CTR-GC 模型通过学习所有通道的通用拓扑以及为每个通道提供通道特定的关联来建模通道的拓扑结构。该方法引入了少量的额外参数,并显著降低了建模通道拓扑结构的难度。此外,CTR-GC 通过将图卷积重新定义为统一形式,放宽了图卷积的严格约束,导致其表示能力更强。结合时间建模模块,我们开发了一种强大的图卷积网络 CTR-GCN,它在 NTU RGB + D、NTU RGB + D 120 和 NW-UCLA 数据集上明显优于最先进的方法。
Jul, 2021
本文提出了一种称为 Spatio-Temporal Graph Convolution (STGC) 的方法,用于动作识别中的骨架,该方法组合了本地卷积过滤器的成功和自回归移动平均的序列学习能力,通过递归地进行多尺度局部图卷积过滤器构建。实验表明 STGC 模型的有效性和优于现有技术的改进。
Feb, 2018