深度视频动作识别中的骨干网络调查

May, 2024

深度视频动作识别中的骨干网络调查

A Survey on Backbones for Deep Video Action Recognition

Zixuan Tang, Youjun Zhao, Yuhang Wen, Mengyuan Liu

TL;DR该论文综述了基于深度神经网络的几种动作识别方法，包括两流网络、三维卷积网络和基于 Transformer 的方法，并提供了客观的观点以供未来研究参考。

Abstract

action recognition is a key technology in building interactive metaverses. With the rapid development of deep learning, methods in action recognition have also achieved great advancement. Researchers design and i

action recognition deep neural networks two-streams networks 3d convolutional networks transformer-based methods

发现论文，激发创造

深度视频动作识别的全面研究

本文综述了 200 多篇关于视频动作识别的深度学习论文，介绍了 17 个影响模型设计的数据集和深度学习模型的发展历程，包括深度学习适应、双流网络、3D 卷积核和计算效率模型，并对几种方法在典型数据集上进行了基准测试，最后，讨论了视频动作识别面临的问题和未来的研究机会。

Dec, 2020

视频人体动作识别中的深度神经网络：综述

本篇论文研究了基于视频的人体行为识别任务，通过比较现有的深度学习框架（尤其是视频动作识别的表现）和机器学习框架，提出了多项新颖的研究方案。

May, 2023

用于 3D 视频中动作识别的双流 RNN/CNN

本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法，通过 SVM 对特征进行分类，实验结果表明，在标准数据集上，该算法提高了 14% 的识别率。

Mar, 2017

视频数据中人类行为识别的深度学习方法

通过对深度学习模型的全面分析，这项研究揭示了卷积神经网络、循环神经网络和两流卷积神经网络在人体动作识别中的优势和性能差异，并强调了综合模型在实现强大的人体动作识别方面的潜力和优化的研究方向。

Mar, 2024

基于三维骨架的行为识别学习方法调查

这篇研究论文介绍了从基于深度学习架构的角度全面讨论使用三维骨架数据进行动作识别，并详细介绍了基于循环神经网络 (RNN)-based、卷积神经网络 (CNN)-based 和图卷积网络 (GCN)-based 的主流动作识别技术，并介绍了包括 NTU-RGB+D 在内的多个数据集和算法。

Feb, 2020

移动视频动作识别

本文研究了在移动设备上的视频动作识别任务，提出了一个基于 MobileNetV2 和 Temporal Trilinear Pooling (TTP) 模块的方法，使用多种模态处理压缩视频，并进行了效率测试，结果表明我们的模型在移动设备上可以实现 40FPS 的识别速度，且在模型大小和时间消耗方面表现优异。

Aug, 2019

三流网络用于增强动作识别

该论文提出了两种基于 CNN 的体系结构，包括三种流，可以分别捕捉不同速率的空间和时间信息，并使用双向 LSTM 和注意力机制进一步提高模型性能，实现了人类动作识别任务的最先进表现。

Apr, 2021

用于视频动作识别的双流卷积神经网络

本文提出了一种基于深度卷积神经网络的两通道 ConvNet 架构，结合了空间和时间网络，利用稀疏光流信息进行训练并使用多任务学习提高模型性能，成功地提高了视频动作识别的准确率。

Jun, 2014

基于卷积神经网络的基础动作识别

本文提出了一种基于卷积神经网络的框架用于骨骼动作识别，通过自动选择重要的骨骼节点和提取时间段提案进行动作分类和检测，在 NTU RGB + D 数据集上获得了 89.3％的验证准确性和 93.7％的 mAP。

Apr, 2017

基于 CNN 的时空表示深度分析用于行为识别

本文分析基于 2D 或 3D CNN 的视频动作识别方法，比较这些方法之间的区别和进展，并开发了一个统一框架进行公平比较，发现在动作识别方面取得了显著的提高，但准确性未有进展，探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。

Oct, 2020