基于骨架的人体交互识别的双流混合 CNN-Transformer 网络
本文利用 3D CNN 提取基于骨架的动作识别的时空信息与深度特征,探讨其与 RNN 的互补性和噪声下的鲁棒性,并在 SmartHome 数据集和 NTU RGB-D 数据集上获得优异的表现。
May, 2017
本文提出了一种基于 Spatial-Temporal Transformer 网络的骨骼姿态行为识别方法,使用自注意力机制成功提取了骨骼运动及其相关性的信息,与其他同类算法相比在多个大规模数据集上表现出更好的精度。
Aug, 2020
本文提出了一种新的空时变换器网络(ST-TR),该网络利用 Transformer 自我注意机制对 3D 骨架中的关节之间的依赖关系进行建模。空间自我注意模块(SSA)用于理解不同身体部位之间的帧内相互作用,而时间自我注意模块(TSA)用于建模帧间的相关性。两个模块在两个流网络中被结合使用,对 NTU-RGB + D 60 和 NTU-RGB + D 120 上的相同输入数据优于同类基准模型。
Dec, 2020
本文提出了一种新的综合多模式 Holistic Interaction Transformer 网络 (HIT),其利用了大多数人类行动必不可少的手部和姿态信息。该网络是一个包含 RGB 流和姿态流的全面双模式框架,分别建模了人、物和手部互动,并使用 Attentive Fusion 机制将每种模式的特征相结合,最终通过从时间背景中提取线索来更好地分类发生的行动。该方法在 J-HMDB、UCF101-24 和 MultiSports 数据集上显着优于先前的方法,在 AVA 上也取得了竞争性结果。
Oct, 2022
提出了一种结合较少详细的人体骨骼和高度详细的手部骨骼,通过使用注意力从两种骨骼类型中提取和组合重要信息的方法,以增强装配场景中的动作识别效果。
Jul, 2023
本文提出了一种使用新型解释性模型 TCN 进行 3D 人体动作识别任务的方法 Res-TCN,并在最大的 3D 人体动作识别数据集 NTU-RGBD 上取得了最新的成果。
Apr, 2017
我们提出了交互关系网络(Interaction Relational Network),它是一种简单而强大的架构,利用了关于人体结构的最少先验知识,通过定义不同的关系和重要的有结构的成对运算来更好地表示交互,并使用 LSTM 来进行关系推论,实现了与先前最先进的方法相似的结果。
Oct, 2019
本文介绍了一种新型的二人图来表示关节之间的人与人交互和身体内部的相关性,并提出了两个人图卷积网络(2P-GCN)来识别人与人交互和个体动作。实验结果表明,该模型在 SBU、NTU-RGB+D 和 NTU-RGB+D 120 三个数据集的四项基准测试中取得了最先进的结果。
Aug, 2022
通过融合局部区域空间信息、外观信息和动作信息,本文提出了一种基于点云的两人交互识别网络。采用一种名为时间间隔帧采样(IFS)的设计帧选择方法,从视频中高效采样帧,捕捉到相对较短的处理时间内更具区分性的信息。然后,通过一个帧特征学习模块和一个两流多级特征聚合模块,从采样帧中提取全局和局部特征,有效地表示与交互相关的局部区域空间信息、外观信息和动作信息。最后,我们应用一种 transformer 对学习到的特征实施自注意力机制进行最终分类。在两个大规模数据集 NTU RGB+D 60 和 NTU RGB+D 120 上进行了大量实验,结果表明我们的网络在所有标准评估设置下优于现有的方法。
Jul, 2023
我们通过引入图卷积网络(GCN)和时序注意力转换器,提出了一种名为空间时序有效身体部位交叉注意力转换器的强大图卷积网络,用于骨骼动作识别和特征提取。
Dec, 2023