时空三维卷积神经网络能否重追二维卷积神经网络和 ImageNet 的历史？

CVPRNov, 2017

时空三维卷积神经网络能否重追二维卷积神经网络和 ImageNet 的历史？

Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

Kensho Hara, Hirokatsu Kataoka, Yutaka Satoh

TL;DR本研究旨在确定当前视频数据集是否有足够的数据来训练带有时空三维卷积核的非常深的卷积神经网络。我们研究了从相对浅的到非常深的各种三维卷积神经网络的架构，并得出结论：Kinetics 数据集具有训练深度三维卷积神经网络的足够数据，与 ImageNet 上的 2D ResNets 类似，ResNeXt-101 在 Kinetics 测试集上达到了 78.4％的平均准确率。预训练的简单 3D 架构优于复杂的 2D 架构，并且预训练的 ResNeXt-101 分别在 UCF-101 和 HMDB-51 上达到了 94.5％和 70.2％的准确率。我们相信，将深度 3D 卷积神经网络与 Kinetics 数据集结合使用，将重温 2D 卷积神经网络和 ImageNet 的故事，并促进视频计算机视觉的进步。

Abstract

The purpose of this study is to determine whether current video datasets have sufficient data for training very deep convolutional neural networks (CNNs) with spatio-temporal three-dimensional (3D) kernels. Recently, the performance levels of 3D CNNs in the field of →

convolutional neural networks 3d architectures kinetics dataset action recognition computer vision

发现论文，激发创造

使用 3D 残差网络学习时空特征用于动作识别

通过使用 Residual Networks 的 3D CNN，我们训练了一个视频动作识别模型，并实验表明在 Kinetics 数据集上它具有更好的性能，虽然参数很大但没有出现过拟合的问题

Aug, 2017

大规模数据集是否可以进一步增强时空三维卷积神经网络？

在视频识别中，使用大规模视频数据集和 3D CNN 来改善空时 3D CNN 的性能。通过构建数据集和扩充视频数据集的方法，将网络深度增加到 200 层，并使用 ResNet，使 Kinetics-700 和混合数据集预训练模型的识别性能提高到 200 层，而 Kinetics-400 预训练模型无法成功优化 200 层的架构。

Apr, 2020

资源高效的三维卷积神经网络

本文研究了如何将现有的资源有效的 2D 卷积神经网络转换为 3D 卷积神经网络，并测试了它们在不同复杂度水平下的性能和实时性能，结果表明这些模型可以应用于各种实际应用程序，提供了可观的准确性和内存使用。

Apr, 2019

使用伪 3D 残差网络学习时空表示

本文提出了一种利用 4 个 Pseudo-3D 残差块构建的 Pseudo-3D Residual Net (P3D ResNet) 架构，并将其应用于视频分类问题中，克服了 3D CNN 的计算成本及内存需求高的问题，通过将空间卷积和时间卷积组合的方式显著提高了视频图像识别和分类的准确性。

Nov, 2017

时域三维卷积神经网络：视频分类的新架构和迁移学习

该研究论文提出了一种基于 3D CNN 和新颖的神经网络结构，可以使视频分类和人类行为识别的准确性优于现有技术，并通过迁移学习的技巧从二维卷积神经网络中转移知识来改善三维卷积神经网络的训练效果。

Nov, 2017

基于 CNN 的时空表示深度分析用于行为识别

本文分析基于 2D 或 3D CNN 的视频动作识别方法，比较这些方法之间的区别和进展，并开发了一个统一框架进行公平比较，发现在动作识别方面取得了显著的提高，但准确性未有进展，探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。

Oct, 2020

利用深度学习进行多媒体数据分类的智能 3D 网络协议

本文中介绍了一种基于 3D 卷积神经网络和 Spatiotemporal fusion 的混合深度学习架构，用于视频分类和动作识别，在研究方面取得了良好的性能，可以识别出 UCF101 数据集中的动作（准确率达到 95%）

Jul, 2022

使用三维卷积神经网络学习时空特征

通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络（3D ConvNets）提出了一种简单而有效的时空特征学习方法。我们的成果有三个：1）相对于 2D ConvNets，3D ConvNets 更适用于时空特征学习；2）所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一；3）我们学到的特征 —— 即 C3D（卷积 3D）—— 连同一个简单的线性分类器，在 4 个不同的基准测试中优于最先进的方法，并与其他 2 个基准测试中的最佳方法相当。此外，这些特征紧凑：只需 10 维便能在 UCF101 数据集上达到 52.8％的准确率，由于 ConvNets 的快速推理，计算效率也非常高。最后，它们在概念上非常简单易用且易于训练和使用。

Dec, 2014

重新思考时空特征学习：视频分类的速度和准确性权衡

本研究通过优化设计网络结构，系统地探讨了关键网络设计选择，包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等，进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快，而且在行动分类基准测试（Kinetics、Something-something、UCF101 和 HMDB）以及两个行动检测（本地化）基准测试（JHMDB 和 UCF101-24）中的分类效果也比其他方法更有竞争力。

Dec, 2017

卷积神经网络结构搜索用于时空特征学习

基于 ImageNet 预训练的 ConvNets 在图像识别方面已经得到了证明，但是为了捕捉到运动模式，仍然需要专门的时空特征学习，本文提出了一种经验 ConvNet 架构搜索方法，通过 3D 残差 ConvNet 实现，其在 Sports-1M、UCF101、HMDB51、THUMOS14 和 ASLAN 上的表现均优于 C3D，且推断时间减少一半、模型大小减小一半，具有更紧凑的表现形式。

Aug, 2017