使用 3D 卷积神经网络学习红外动作识别的时空特征

May, 2017

使用 3D 卷积神经网络学习红外动作识别的时空特征

Learning Spatiotemporal Features for Infrared Action Recognition with 3D Convolutional Neural Networks

Zhuolin Jiang, Viktor Rozgic, Sancar Adali

TL;DR该研究提出了一种新的基于两个流的 3D 卷积神经网络体系结构，使用光流场序列处理红外图像，应用于红外动作识别（InfAR）数据集，实验结果表明我们的方法在 InfAR 数据集上可以获得最好的平均精度（AP）表现。

Abstract

Infrared (IR) imaging has the potential to enable more robust action recognition systems compared to visible spectrum cameras due to lower sensitivity to lighting conditions and appearance variability. While the action recognition task on videos collected from visible spectrum imaging has received much attention, →

infrared imaging action recognition convolutional neural network discriminative code layer optical flow

发现论文，激发创造

基于 CNN 的时空表示深度分析用于行为识别

本文分析基于 2D 或 3D CNN 的视频动作识别方法，比较这些方法之间的区别和进展，并开发了一个统一框架进行公平比较，发现在动作识别方面取得了显著的提高，但准确性未有进展，探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。

Oct, 2020

用于 3D 视频中动作识别的双流 RNN/CNN

本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法，通过 SVM 对特征进行分类，实验结果表明，在标准数据集上，该算法提高了 14% 的识别率。

Mar, 2017

用于视频动作识别的双流卷积神经网络

本文提出了一种基于深度卷积神经网络的两通道 ConvNet 架构，结合了空间和时间网络，利用稀疏光流信息进行训练并使用多任务学习提高模型性能，成功地提高了视频动作识别的准确率。

Jun, 2014

基于骨骼的动作识别的双流三维卷积神经网络

本文利用 3D CNN 提取基于骨架的动作识别的时空信息与深度特征，探讨其与 RNN 的互补性和噪声下的鲁棒性，并在 SmartHome 数据集和 NTU RGB-D 数据集上获得优异的表现。

May, 2017

使用 3D 残差网络学习时空特征用于动作识别

通过使用 Residual Networks 的 3D CNN，我们训练了一个视频动作识别模型，并实验表明在 Kinetics 数据集上它具有更好的性能，虽然参数很大但没有出现过拟合的问题

Aug, 2017

视频分类的高效双流动态和外观 3D 卷积神经网络

本研究提出基于 3D 卷积神经网络的新型深度学习模型，可以更快速和准确地进行动作和运动表示，进一步整合光流特征从而获得更准确的结果。

Aug, 2016

动作识别中空间 - 时间卷积的近距离观察

本文研究了几种用于视频分析的时空卷积形式，并研究了它们对动作识别的影响。我们在残差学习的框架下，实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外，我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终，我们设计了一个新的时空卷积块 “R (2+1) D”，这种方法产生的 CNN 的结果与最新技术相当甚至更好，可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。

Nov, 2017

D3D: 视频动作识别的精简三维网络

该论文研究了使用 3D CNNs 进行动作识别时，使用两个网络（时空流和时间流）的效果，并发现在时间流中存在动作表示，但其在时空流中缺失；另外也展示了如何通过引入蒸馏方法，将时空流中缺失的动作信息膨胀输出，进而提高 3D CNNs 的准确率。

Dec, 2018

视频动作识别的协作时空特征学习

本文提出了一种新颖的神经操作，通过在三个正交视图上进行 2D 卷积，协同编码了时空特征，并通过权值共享来促进空间和时间特征的学习，此方法在大规模基准测试中取得了最优性能，并通过对不同视图学习的系数进行量化，探讨了空间和时间特征的贡献，以提高模型的解释性并指导视频识别算法的设计。

Mar, 2019

利用深度学习进行多媒体数据分类的智能 3D 网络协议

本文中介绍了一种基于 3D 卷积神经网络和 Spatiotemporal fusion 的混合深度学习架构，用于视频分类和动作识别，在研究方面取得了良好的性能，可以识别出 UCF101 数据集中的动作（准确率达到 95%）

Jul, 2022