资源高效的三维卷积神经网络

ICCVApr, 2019

Resource Efficient 3D Convolutional Neural Networks

Okan Köpüklü, Neslihan Kose, Ahmet Gunduz, Gerhard Rigoll

TL;DR本文研究了如何将现有的资源有效的 2D 卷积神经网络转换为 3D 卷积神经网络，并测试了它们在不同复杂度水平下的性能和实时性能，结果表明这些模型可以应用于各种实际应用程序，提供了可观的准确性和内存使用。

Abstract

Recently, convolutional neural networks with 3D kernels (3d cnns) have been very popular in computer vision community as a result of their superior ability of extracting spatio-temporal features within video fram

3d cnns resource efficient architectures video classification real-time performance spatio-temporal features

发现论文，激发创造

使用伪 3D 残差网络学习时空表示

本文提出了一种利用 4 个 Pseudo-3D 残差块构建的 Pseudo-3D Residual Net (P3D ResNet) 架构，并将其应用于视频分类问题中，克服了 3D CNN 的计算成本及内存需求高的问题，通过将空间卷积和时间卷积组合的方式显著提高了视频图像识别和分类的准确性。

Nov, 2017

时空三维卷积神经网络能否重追二维卷积神经网络和 ImageNet 的历史？

本研究旨在确定当前视频数据集是否有足够的数据来训练带有时空三维卷积核的非常深的卷积神经网络。我们研究了从相对浅的到非常深的各种三维卷积神经网络的架构，并得出结论：Kinetics 数据集具有训练深度三维卷积神经网络的足够数据，与 ImageNet 上的 2D ResNets 类似，ResNeXt-101 在 Kinetics 测试集上达到了 78.4％的平均准确率。预训练的简单 3D 架构优于复杂的 2D 架构，并且预训练的 ResNeXt-101 分别在 UCF-101 和 HMDB-51 上达到了 94.5％和 70.2％的准确率。我们相信，将深度 3D 卷积神经网络与 Kinetics 数据集结合使用，将重温 2D 卷积神经网络和 ImageNet 的故事，并促进视频计算机视觉的进步。

Nov, 2017

使用 3D 残差网络学习时空特征用于动作识别

通过使用 Residual Networks 的 3D CNN，我们训练了一个视频动作识别模型，并实验表明在 Kinetics 数据集上它具有更好的性能，虽然参数很大但没有出现过拟合的问题

Aug, 2017

使用三维卷积神经网络学习时空特征

通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络（3D ConvNets）提出了一种简单而有效的时空特征学习方法。我们的成果有三个：1）相对于 2D ConvNets，3D ConvNets 更适用于时空特征学习；2）所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一；3）我们学到的特征 —— 即 C3D（卷积 3D）—— 连同一个简单的线性分类器，在 4 个不同的基准测试中优于最先进的方法，并与其他 2 个基准测试中的最佳方法相当。此外，这些特征紧凑：只需 10 维便能在 UCF101 数据集上达到 52.8％的准确率，由于 ConvNets 的快速推理，计算效率也非常高。最后，它们在概念上非常简单易用且易于训练和使用。

Dec, 2014

在移动设备上实现 3D 卷积神经网络的实时执行

该论文提出了 RT3D 框架，将神经网络权重修剪和编译器代码生成技术无缝集成，以实现 3D CNN 的模型压缩和移动加速。 RT3D 在现有支持 3D CNN 的移动框架中实现了高达 29.1 倍的推理时间加速，具有适度的 1％-1.5％准确度损失。

Jul, 2020

重新思考时空特征学习：视频分类的速度和准确性权衡

本研究通过优化设计网络结构，系统地探讨了关键网络设计选择，包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等，进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快，而且在行动分类基准测试（Kinetics、Something-something、UCF101 和 HMDB）以及两个行动检测（本地化）基准测试（JHMDB 和 UCF101-24）中的分类效果也比其他方法更有竞争力。

Dec, 2017

为视频物体分割提出三维卷积的论点

本文提出了一种基于 3D 全卷积神经网络的编码 - 解码网络结构，将其应用于视频中的显著对象分割。尝试使用全 3D 卷积来处理外观和运动信息从而实现密集视频预测，并通过 3D 全局卷积层和 3D 细化模块进行编码和解码操作。作者将其应用于 DAVIS'16 无监督，FBMS 和 ViSal 数据集基准测试中，结果表明其效果优于现有状态艺术，同时速度更快，能够高效地学习空间 - 时间特征并产生高质量的视频分割掩码。

Aug, 2020

大规模数据集是否可以进一步增强时空三维卷积神经网络？

在视频识别中，使用大规模视频数据集和 3D CNN 来改善空时 3D CNN 的性能。通过构建数据集和扩充视频数据集的方法，将网络深度增加到 200 层，并使用 ResNet，使 Kinetics-700 和混合数据集预训练模型的识别性能提高到 200 层，而 Kinetics-400 预训练模型无法成功优化 200 层的架构。

Apr, 2020

时域三维卷积神经网络：视频分类的新架构和迁移学习

该研究论文提出了一种基于 3D CNN 和新颖的神经网络结构，可以使视频分类和人类行为识别的准确性优于现有技术，并通过迁移学习的技巧从二维卷积神经网络中转移知识来改善三维卷积神经网络的训练效果。

Nov, 2017

增强的 3D 卷积神经网络用于人群计数

本研究提出一种新的架构，称为 “时间通道感知” 块 (TCA)，它能够利用视频序列之间的时间关联，通过结合局部和全局上下文信息，提升特征表示的判别能力，实现更准确的人群计数等任务。实验证明，通过堆叠 TCA 块，所得到的改进的 3D 卷积神经网络 (E3D) 在多个基准数据集上具有优异的性能。

Aug, 2019