使用 3D 卷积神经网络学习红外动作识别的时空特征
本文分析基于 2D 或 3D CNN 的视频动作识别方法,比较这些方法之间的区别和进展,并开发了一个统一框架进行公平比较,发现在动作识别方面取得了显著的提高,但准确性未有进展,探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。
Oct, 2020
本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法,通过 SVM 对特征进行分类,实验结果表明,在标准数据集上,该算法提高了 14% 的识别率。
Mar, 2017
本文提出了一种基于深度卷积神经网络的两通道 ConvNet 架构,结合了空间和时间网络,利用稀疏光流信息进行训练并使用多任务学习提高模型性能,成功地提高了视频动作识别的准确率。
Jun, 2014
本文利用 3D CNN 提取基于骨架的动作识别的时空信息与深度特征,探讨其与 RNN 的互补性和噪声下的鲁棒性,并在 SmartHome 数据集和 NTU RGB-D 数据集上获得优异的表现。
May, 2017
通过使用 Residual Networks 的 3D CNN,我们训练了一个视频动作识别模型,并实验表明在 Kinetics 数据集上它具有更好的性能,虽然参数很大但没有出现过拟合的问题
Aug, 2017
本文研究了几种用于视频分析的时空卷积形式,并研究了它们对动作识别的影响。我们在残差学习的框架下,实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外,我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终,我们设计了一个新的时空卷积块 “R (2+1) D”,这种方法产生的 CNN 的结果与最新技术相当甚至更好,可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。
Nov, 2017
该论文研究了使用 3D CNNs 进行动作识别时,使用两个网络(时空流和时间流)的效果,并发现在时间流中存在动作表示,但其在时空流中缺失;另外也展示了如何通过引入蒸馏方法,将时空流中缺失的动作信息膨胀输出,进而提高 3D CNNs 的准确率。
Dec, 2018
本文提出了一种新颖的神经操作,通过在三个正交视图上进行 2D 卷积,协同编码了时空特征,并通过权值共享来促进空间和时间特征的学习,此方法在大规模基准测试中取得了最优性能,并通过对不同视图学习的系数进行量化,探讨了空间和时间特征的贡献,以提高模型的解释性并指导视频识别算法的设计。
Mar, 2019
本文中介绍了一种基于 3D 卷积神经网络和 Spatiotemporal fusion 的混合深度学习架构,用于视频分类和动作识别,在研究方面取得了良好的性能,可以识别出 UCF101 数据集中的动作(准确率达到 95%)
Jul, 2022