本文综述了 200 多篇关于视频动作识别的深度学习论文,介绍了 17 个影响模型设计的数据集和深度学习模型的发展历程,包括深度学习适应、双流网络、3D 卷积核和计算效率模型,并对几种方法在典型数据集上进行了基准测试,最后,讨论了视频动作识别面临的问题和未来的研究机会。
Dec, 2020
本篇论文研究了基于视频的人体行为识别任务,通过比较现有的深度学习框架(尤其是视频动作识别的表现)和机器学习框架,提出了多项新颖的研究方案。
May, 2023
本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法,通过 SVM 对特征进行分类,实验结果表明,在标准数据集上,该算法提高了 14% 的识别率。
Mar, 2017
通过对深度学习模型的全面分析,这项研究揭示了卷积神经网络、循环神经网络和两流卷积神经网络在人体动作识别中的优势和性能差异,并强调了综合模型在实现强大的人体动作识别方面的潜力和优化的研究方向。
Mar, 2024
这篇研究论文介绍了从基于深度学习架构的角度全面讨论使用三维骨架数据进行动作识别,并详细介绍了基于循环神经网络 (RNN)-based、卷积神经网络 (CNN)-based 和图卷积网络 (GCN)-based 的主流动作识别技术,并介绍了包括 NTU-RGB+D 在内的多个数据集和算法。
Feb, 2020
本文研究了在移动设备上的视频动作识别任务,提出了一个基于 MobileNetV2 和 Temporal Trilinear Pooling (TTP) 模块的方法,使用多种模态处理压缩视频,并进行了效率测试,结果表明我们的模型在移动设备上可以实现 40FPS 的识别速度,且在模型大小和时间消耗方面表现优异。
Aug, 2019
该论文提出了两种基于 CNN 的体系结构,包括三种流,可以分别捕捉不同速率的空间和时间信息,并使用双向 LSTM 和注意力机制进一步提高模型性能,实现了人类动作识别任务的最先进表现。
Apr, 2021
本文提出了一种基于深度卷积神经网络的两通道 ConvNet 架构,结合了空间和时间网络,利用稀疏光流信息进行训练并使用多任务学习提高模型性能,成功地提高了视频动作识别的准确率。
Jun, 2014
本文提出了一种基于卷积神经网络的框架用于骨骼动作识别,通过自动选择重要的骨骼节点和提取时间段提案进行动作分类和检测, 在 NTU RGB + D 数据集上获得了 89.3%的验证准确性和 93.7%的 mAP。
Apr, 2017
本文分析基于 2D 或 3D CNN 的视频动作识别方法,比较这些方法之间的区别和进展,并开发了一个统一框架进行公平比较,发现在动作识别方面取得了显著的提高,但准确性未有进展,探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。
Oct, 2020