使用三维卷积神经网络学习时空特征

Dec, 2014

使用三维卷积神经网络学习时空特征

Learning Spatiotemporal Features with 3D Convolutional Networks

Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri

TL;DR通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络（3D ConvNets）提出了一种简单而有效的时空特征学习方法。我们的成果有三个：1）相对于 2D ConvNets，3D ConvNets 更适用于时空特征学习；2）所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一；3）我们学到的特征 —— 即 C3D（卷积 3D）—— 连同一个简单的线性分类器，在 4 个不同的基准测试中优于最先进的方法，并与其他 2 个基准测试中的最佳方法相当。此外，这些特征紧凑：只需 10 维便能在 UCF101 数据集上达到 52.8％的准确率，由于 ConvNets 的快速推理，计算效率也非常高。最后，它们在概念上非常简单易用且易于训练和使用。

Abstract

We propose a simple, yet effective approach for spatiotemporal feature learning using deep 3-dimensional convolutional networks (3d convnets) trained on a large scale supervised video dataset. Our findings are th

3d convnets spatiotemporal feature learning c3d architecture supervised video dataset

发现论文，激发创造

卷积神经网络结构搜索用于时空特征学习

基于 ImageNet 预训练的 ConvNets 在图像识别方面已经得到了证明，但是为了捕捉到运动模式，仍然需要专门的时空特征学习，本文提出了一种经验 ConvNet 架构搜索方法，通过 3D 残差 ConvNet 实现，其在 Sports-1M、UCF101、HMDB51、THUMOS14 和 ASLAN 上的表现均优于 C3D，且推断时间减少一半、模型大小减小一半，具有更紧凑的表现形式。

Aug, 2017

使用 3D 残差网络学习时空特征用于动作识别

通过使用 Residual Networks 的 3D CNN，我们训练了一个视频动作识别模型，并实验表明在 Kinetics 数据集上它具有更好的性能，虽然参数很大但没有出现过拟合的问题

Aug, 2017

重新思考时空特征学习：视频分类的速度和准确性权衡

本研究通过优化设计网络结构，系统地探讨了关键网络设计选择，包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等，进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快，而且在行动分类基准测试（Kinetics、Something-something、UCF101 和 HMDB）以及两个行动检测（本地化）基准测试（JHMDB 和 UCF101-24）中的分类效果也比其他方法更有竞争力。

Dec, 2017

4D 时空卷积神经网络：Minkowski 卷积神经网络

使用 4D 卷积神经网络，通过稀疏张量和广义稀疏卷积提供的广泛高维函数，实现了针对 3D 视频的时空感知，并通过提出的混合核和三边静态条件随机场，优化了 7D 时空色度空间中的一致性问题。实验表明，与 2D 或 2D-3D 混合方法相比，只使用广义 3D 稀疏卷积的卷积神经网络可以获得更好的性能。此外，我们还表明，在处理 3D 视频时，4D 时空卷积神经网络不仅更加鲁棒，而且有时比 3D 卷积神经网络更快。

Apr, 2019

时域三维卷积神经网络：视频分类的新架构和迁移学习

该研究论文提出了一种基于 3D CNN 和新颖的神经网络结构，可以使视频分类和人类行为识别的准确性优于现有技术，并通过迁移学习的技巧从二维卷积神经网络中转移知识来改善三维卷积神经网络的训练效果。

Nov, 2017

使用伪 3D 残差网络学习时空表示

本文提出了一种利用 4 个 Pseudo-3D 残差块构建的 Pseudo-3D Residual Net (P3D ResNet) 架构，并将其应用于视频分类问题中，克服了 3D CNN 的计算成本及内存需求高的问题，通过将空间卷积和时间卷积组合的方式显著提高了视频图像识别和分类的准确性。

Nov, 2017

利用深度学习进行多媒体数据分类的智能 3D 网络协议

本文中介绍了一种基于 3D 卷积神经网络和 Spatiotemporal fusion 的混合深度学习架构，用于视频分类和动作识别，在研究方面取得了良好的性能，可以识别出 UCF101 数据集中的动作（准确率达到 95%）

Jul, 2022

视频动作识别的协作时空特征学习

本文提出了一种新颖的神经操作，通过在三个正交视图上进行 2D 卷积，协同编码了时空特征，并通过权值共享来促进空间和时间特征的学习，此方法在大规模基准测试中取得了最优性能，并通过对不同视图学习的系数进行量化，探讨了空间和时间特征的贡献，以提高模型的解释性并指导视频识别算法的设计。

Mar, 2019

动作识别中空间 - 时间卷积的近距离观察

本文研究了几种用于视频分析的时空卷积形式，并研究了它们对动作识别的影响。我们在残差学习的框架下，实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外，我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终，我们设计了一个新的时空卷积块 “R (2+1) D”，这种方法产生的 CNN 的结果与最新技术相当甚至更好，可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。

Nov, 2017

解读视频特征：3D 卷积网络和卷积 LSTM 网络的比较

探索了 3D 卷积网络和卷积 LSTM 网络在时空依赖帧中的特性，并通过将意义扰动引入时间维度的方式，确定了网络分类决策时最有意义的时间部分。研究发现，3D 卷积模型更关注较短的事件，并将其空间焦点放在较少的连续区域。

Feb, 2020