基于骨架的人体交互识别的双流混合 CNN-Transformer 网络

Dec, 2023

基于骨架的人体交互识别的双流混合 CNN-Transformer 网络

A Two-stream Hybrid CNN-Transformer Network for Skeleton-based Human Interaction Recognition

Ruoqi Yin, Jianqin Yin

TL;DR我们提出了一种两流混合 CNN-Transformer 网络（THCT-Net），通过 CNN 和 Transformer 同时建模实体、时间和空间之间的关系，来更好地理解和推断各种动作的意义和上下文。

Abstract

human interaction recognition is the process of identifying interactive actions between multiple participants in a specific situation. The aim is to recognise the action interactions between multiple entities and their meaning. Many single →

human interaction recognition convolutional neural network transformer two-stream hybrid cnn-transformer network skeleton sequences

发现论文，激发创造

基于骨骼的动作识别的双流三维卷积神经网络

本文利用 3D CNN 提取基于骨架的动作识别的时空信息与深度特征，探讨其与 RNN 的互补性和噪声下的鲁棒性，并在 SmartHome 数据集和 NTU RGB-D 数据集上获得优异的表现。

May, 2017

基于空间和时间变换器网络的基于骨架的动作识别

本文提出了一种基于 Spatial-Temporal Transformer 网络的骨骼姿态行为识别方法，使用自注意力机制成功提取了骨骼运动及其相关性的信息，与其他同类算法相比在多个大规模数据集上表现出更好的精度。

Aug, 2020

基于骨骼的动作识别的时空转换器网络

本文提出了一种新的空时变换器网络（ST-TR），该网络利用 Transformer 自我注意机制对 3D 骨架中的关节之间的依赖关系进行建模。空间自我注意模块（SSA）用于理解不同身体部位之间的帧内相互作用，而时间自我注意模块（TSA）用于建模帧间的相关性。两个模块在两个流网络中被结合使用，对 NTU-RGB + D 60 和 NTU-RGB + D 120 上的相同输入数据优于同类基准模型。

Dec, 2020

基于整体交互 Transformer 网络的动作检测

本文提出了一种新的综合多模式 Holistic Interaction Transformer 网络 (HIT)，其利用了大多数人类行动必不可少的手部和姿态信息。该网络是一个包含 RGB 流和姿态流的全面双模式框架，分别建模了人、物和手部互动，并使用 Attentive Fusion 机制将每种模式的特征相结合，最终通过从时间背景中提取线索来更好地分类发生的行动。该方法在 J-HMDB、UCF101-24 和 MultiSports 数据集上显着优于先前的方法，在 AVA 上也取得了竞争性结果。

Oct, 2022

融合手部和身体骨架进行装配中的人体动作识别

提出了一种结合较少详细的人体骨骼和高度详细的手部骨骼，通过使用注意力从两种骨骼类型中提取和组合重要信息的方法，以增强装配场景中的动作识别效果。

Jul, 2023

可解释的基于时态卷积网络的 3D 人体动作分析

本文提出了一种使用新型解释性模型 TCN 进行 3D 人体动作识别任务的方法 Res-TCN，并在最大的 3D 人体动作识别数据集 NTU-RGBD 上取得了最新的成果。

Apr, 2017

交互关系网络用于相互动作识别

我们提出了交互关系网络（Interaction Relational Network），它是一种简单而强大的架构，利用了关于人体结构的最少先验知识，通过定义不同的关系和重要的有结构的成对运算来更好地表示交互，并使用 LSTM 来进行关系推论，实现了与先前最先进的方法相似的结果。

Oct, 2019

基于骨架的人类交互识别的双人图卷积网络

本文介绍了一种新型的二人图来表示关节之间的人与人交互和身体内部的相关性，并提出了两个人图卷积网络（2P-GCN）来识别人与人交互和个体动作。实验结果表明，该模型在 SBU、NTU-RGB+D 和 NTU-RGB+D 120 三个数据集的四项基准测试中取得了最先进的结果。

Aug, 2022

双流多级动态点变换器用于两人互动识别

通过融合局部区域空间信息、外观信息和动作信息，本文提出了一种基于点云的两人交互识别网络。采用一种名为时间间隔帧采样（IFS）的设计帧选择方法，从视频中高效采样帧，捕捉到相对较短的处理时间内更具区分性的信息。然后，通过一个帧特征学习模块和一个两流多级特征聚合模块，从采样帧中提取全局和局部特征，有效地表示与交互相关的局部区域空间信息、外观信息和动作信息。最后，我们应用一种 transformer 对学习到的特征实施自注意力机制进行最终分类。在两个大规模数据集 NTU RGB+D 60 和 NTU RGB+D 120 上进行了大量实验，结果表明我们的网络在所有标准评估设置下优于现有的方法。

Jul, 2023

STEP CATFormer：基于空时有效部位交叉注意力变换器的基于骨骼的动作识别

我们通过引入图卷积网络（GCN）和时序注意力转换器，提出了一种名为空间时序有效身体部位交叉注意力转换器的强大图卷积网络，用于骨骼动作识别和特征提取。

Dec, 2023