基于分解时空卷积网络的人类动作识别

Oct, 2015

基于分解时空卷积网络的人类动作识别

Human Action Recognition using Factorized Spatio-Temporal Convolutional Networks

Lin Sun, Kui Jia, Dit-Yan Yeung, Bertram E. Shi

TL;DR本文提出了一种名为 FstCN 的新型 3D 深度架构，能够有效处理人类行为三维动态序列信号，并且利用转换和排列操作，将原始的三维卷积核学习分解为一系列二维和一维卷积核学习过程，同时提出了基于视频片段采样的有效训练和推断策略，在 UCF-101 和 HMDB-51 数据集上的表现比传统 CNN 方法更好，与最近一种利用辅助训练视频的方法相当。

Abstract

Human actions in video sequences are three-dimensional (3D) spatio-temporal signals characterizing both the visual appearance and motion dynamics of the involved humans and objects. Inspired by the success of convolutional neural networks (CNN) for image classification, recent attempts have been made to learn 3D CNNs for recognizing human actions in videos.

3d spatio-temporal signals convolutional neural networks factorized spatio-temporal convolutional networks video clip sampling human action recognition

发现论文，激发创造

动作识别中空间 - 时间卷积的近距离观察

本文研究了几种用于视频分析的时空卷积形式，并研究了它们对动作识别的影响。我们在残差学习的框架下，实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外，我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终，我们设计了一个新的时空卷积块 “R (2+1) D”，这种方法产生的 CNN 的结果与最新技术相当甚至更好，可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。

Nov, 2017

可解释的基于时态卷积网络的 3D 人体动作分析

本文提出了一种使用新型解释性模型 TCN 进行 3D 人体动作识别任务的方法 Res-TCN，并在最大的 3D 人体动作识别数据集 NTU-RGBD 上取得了最新的成果。

Apr, 2017

F4D: 因子化的 4D 卷积神经网络用于高效的视频级表示学习

通过提出具有注意力的分解 4D CNN 架构，文章研究了视频级别表示学习对于捕捉和理解视频动作识别中的长程时间结构的重要性，并在五个动作识别基准数据集上验证了所提出架构的有效性。

Nov, 2023

人类动作识别的深度时空 STFT 卷积神经网络

使用 STFT 块替代 3D 卷积层及其变种可以提高 3D CNN 的特征学习能力，显著减少其参数和计算复杂度，并在七个动作识别数据集上达到甚至超过现有方法的性能。

Jul, 2020

基于骨骼的动作识别的双流三维卷积神经网络

本文利用 3D CNN 提取基于骨架的动作识别的时空信息与深度特征，探讨其与 RNN 的互补性和噪声下的鲁棒性，并在 SmartHome 数据集和 NTU RGB-D 数据集上获得优异的表现。

May, 2017

使用 3D 残差网络学习时空特征用于动作识别

通过使用 Residual Networks 的 3D CNN，我们训练了一个视频动作识别模型，并实验表明在 Kinetics 数据集上它具有更好的性能，虽然参数很大但没有出现过拟合的问题

Aug, 2017

基于 CNN 的时空表示深度分析用于行为识别

本文分析基于 2D 或 3D CNN 的视频动作识别方法，比较这些方法之间的区别和进展，并开发了一个统一框架进行公平比较，发现在动作识别方面取得了显著的提高，但准确性未有进展，探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。

Oct, 2020

利用深度学习进行多媒体数据分类的智能 3D 网络协议

本文中介绍了一种基于 3D 卷积神经网络和 Spatiotemporal fusion 的混合深度学习架构，用于视频分类和动作识别，在研究方面取得了良好的性能，可以识别出 UCF101 数据集中的动作（准确率达到 95%）

Jul, 2022

用于 3D 视频中动作识别的双流 RNN/CNN

本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法，通过 SVM 对特征进行分类，实验结果表明，在标准数据集上，该算法提高了 14% 的识别率。

Mar, 2017

视频动作识别的协作时空特征学习

本文提出了一种新颖的神经操作，通过在三个正交视图上进行 2D 卷积，协同编码了时空特征，并通过权值共享来促进空间和时间特征的学习，此方法在大规模基准测试中取得了最优性能，并通过对不同视图学习的系数进行量化，探讨了空间和时间特征的贡献，以提高模型的解释性并指导视频识别算法的设计。

Mar, 2019