使用 3D 残差网络学习时空特征用于动作识别

ICCVAug, 2017

使用 3D 残差网络学习时空特征用于动作识别

Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition

Kensho Hara, Hirokatsu Kataoka, Yutaka Satoh

TL;DR通过使用 Residual Networks 的 3D CNN，我们训练了一个视频动作识别模型，并实验表明在 Kinetics 数据集上它具有更好的性能，虽然参数很大但没有出现过拟合的问题

Abstract

convolutional neural networks with spatio-temporal 3d kernels (3D CNNs) have an ability to directly extract spatio-temporal features from videos for action recognition. Although the →

convolutional neural networks 3d kernels action recognition resnets overfitting

发现论文，激发创造

使用伪 3D 残差网络学习时空表示

本文提出了一种利用 4 个 Pseudo-3D 残差块构建的 Pseudo-3D Residual Net (P3D ResNet) 架构，并将其应用于视频分类问题中，克服了 3D CNN 的计算成本及内存需求高的问题，通过将空间卷积和时间卷积组合的方式显著提高了视频图像识别和分类的准确性。

Nov, 2017

时空三维卷积神经网络能否重追二维卷积神经网络和 ImageNet 的历史？

本研究旨在确定当前视频数据集是否有足够的数据来训练带有时空三维卷积核的非常深的卷积神经网络。我们研究了从相对浅的到非常深的各种三维卷积神经网络的架构，并得出结论：Kinetics 数据集具有训练深度三维卷积神经网络的足够数据，与 ImageNet 上的 2D ResNets 类似，ResNeXt-101 在 Kinetics 测试集上达到了 78.4％的平均准确率。预训练的简单 3D 架构优于复杂的 2D 架构，并且预训练的 ResNeXt-101 分别在 UCF-101 和 HMDB-51 上达到了 94.5％和 70.2％的准确率。我们相信，将深度 3D 卷积神经网络与 Kinetics 数据集结合使用，将重温 2D 卷积神经网络和 ImageNet 的故事，并促进视频计算机视觉的进步。

Nov, 2017

使用三维卷积神经网络学习时空特征

通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络（3D ConvNets）提出了一种简单而有效的时空特征学习方法。我们的成果有三个：1）相对于 2D ConvNets，3D ConvNets 更适用于时空特征学习；2）所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一；3）我们学到的特征 —— 即 C3D（卷积 3D）—— 连同一个简单的线性分类器，在 4 个不同的基准测试中优于最先进的方法，并与其他 2 个基准测试中的最佳方法相当。此外，这些特征紧凑：只需 10 维便能在 UCF101 数据集上达到 52.8％的准确率，由于 ConvNets 的快速推理，计算效率也非常高。最后，它们在概念上非常简单易用且易于训练和使用。

Dec, 2014

基于 CNN 的时空表示深度分析用于行为识别

本文分析基于 2D 或 3D CNN 的视频动作识别方法，比较这些方法之间的区别和进展，并开发了一个统一框架进行公平比较，发现在动作识别方面取得了显著的提高，但准确性未有进展，探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。

Oct, 2020

卷积神经网络结构搜索用于时空特征学习

基于 ImageNet 预训练的 ConvNets 在图像识别方面已经得到了证明，但是为了捕捉到运动模式，仍然需要专门的时空特征学习，本文提出了一种经验 ConvNet 架构搜索方法，通过 3D 残差 ConvNet 实现，其在 Sports-1M、UCF101、HMDB51、THUMOS14 和 ASLAN 上的表现均优于 C3D，且推断时间减少一半、模型大小减小一半，具有更紧凑的表现形式。

Aug, 2017

动作识别中空间 - 时间卷积的近距离观察

本文研究了几种用于视频分析的时空卷积形式，并研究了它们对动作识别的影响。我们在残差学习的框架下，实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外，我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终，我们设计了一个新的时空卷积块 “R (2+1) D”，这种方法产生的 CNN 的结果与最新技术相当甚至更好，可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。

Nov, 2017

基于骨骼的动作识别的双流三维卷积神经网络

本文利用 3D CNN 提取基于骨架的动作识别的时空信息与深度特征，探讨其与 RNN 的互补性和噪声下的鲁棒性，并在 SmartHome 数据集和 NTU RGB-D 数据集上获得优异的表现。

May, 2017

基于时空残差网络的视频动作识别

本文介绍了一种新的结构 spatiotemporal ResNets，将两种架构 two-stream Convolutional Networks 和 Residual Networks 相结合，通过残差连接实现了空时交互，并引入可学习卷积过滤器，将图像 ConvNets 转换成空时网络，从而提高了动作识别的准确率。

Nov, 2016

资源高效的三维卷积神经网络

本文研究了如何将现有的资源有效的 2D 卷积神经网络转换为 3D 卷积神经网络，并测试了它们在不同复杂度水平下的性能和实时性能，结果表明这些模型可以应用于各种实际应用程序，提供了可观的准确性和内存使用。

Apr, 2019

利用深度学习进行多媒体数据分类的智能 3D 网络协议

本文中介绍了一种基于 3D 卷积神经网络和 Spatiotemporal fusion 的混合深度学习架构，用于视频分类和动作识别，在研究方面取得了良好的性能，可以识别出 UCF101 数据集中的动作（准确率达到 95%）

Jul, 2022