动作识别的知识融合网络
该论文提出了两种基于 CNN 的体系结构,包括三种流,可以分别捕捉不同速率的空间和时间信息,并使用双向 LSTM 和注意力机制进一步提高模型性能,实现了人类动作识别任务的最先进表现。
Apr, 2021
本研究基于 Kinetics 数据集重新评估最先进的体系结构,并引入一种新的双流膨胀 3D ConvNet(I3D),该 ConvNet 可以在视频中学习无缝的时空特征提取器,利用成功的 ImageNet 架构设计及其参数,经过在 Kinetics 上的预训练后,I3D 模型在动作分类方面表现明显提高。
May, 2017
本文介绍了一种名为 KeyNet 的行动定位方法,仅利用基于目标的关键点数据来捕获场景中的上下文,从而在不使用任何 RGB 信息的情况下从对象和人类关键点中建立结构化中间表示,演示了如何从对象关键点中建模以恢复使用 AVA、动力学数据集上的关键点信息造成的上下文损失。
May, 2023
本文提出了一种新的基于骨架的动作分类方法,使用多层次空间时间图网络联合建模粗粒度和细粒度骨架运动模式,并采用双头图网络和跨头部通信策略来提取两个时空分辨率的特征,实验证明该方法在三个大规模数据集上取得了最先进的性能。
Aug, 2021
本文提出了一种高效的时空表示方法 BiCnet-TKS,并通过在原始分辨率和下采样策略上处理连续帧以获取目标身份的全面特征;该模型包含多个并行的和多样化的注意力模块以发现连续帧的不同部位,在任何深度插入 TKS 模块以捕捉短期和长期的时间关系,并在多个基准测试中取得优于先前研究的结果。
Apr, 2021
该论文提出了一种共生图神经网络模型来解决三维骨架动作识别和运动预测两个问题,并采用双骨图和多尺度图卷积网络提取空间和时间特征以及捕捉身体结构之间的关系,实验结果表明,该模型的表现优于现有方法。
Oct, 2019
本文提出了一种网络体系结构,计算和整合了人类动作识别中最重要的视觉线索:姿态,运动和原始图像,并引入了马尔科夫链模型进行融合,在 HMDB51,J-HMDB 和 NTU RGB+D 数据集上达到最先进的动作分类性能和在 UCF101 和 J-HMDB 数据集上达到最先进的时空动作定位结果。
Apr, 2017
提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法,其中结合 3D 卷积神经网络(3D CNN)和视频变换器(VIT)的独特方法能够有效捕捉行为的局部和全局上下文信息,从而在标记数据的一小部分情况下实现了卓越的性能。
Apr, 2024
研究了人类理解和识别他人动作的复杂神经科学问题,提出了一种利用大规模语言模型知识辅助的图卷积网络(LA-GCN)来进行骨架动作识别,采用先验全局关系和先验类别关系提供额外监督,另外使用多跳注意力图卷积以提高拓扑建模中的信息传递效率。在 NTU RGB+D,NTU RGB+D 120 和 NW-UCLA 数据集上实现了最先进的结果。
May, 2023
通过知识蒸馏以及结合 CNN 和 ViT 模型,本研究旨在改善人体动作识别的性能和效率,从较大的教师模型向较小的学生模型传递知识,并通过引入 Transformer 视觉网络作为学生模型以及卷积网络作为教师模型,扩展了对局部图像特征和全局特征的关注,进而显著提升了动作识别的准确性和平均精度。
Nov, 2023