3D ConvNets 的优化规划

ICMLJan, 2022

Optimization Planning for 3D ConvNets

Zhaofan Qiu, Ting Yao, Chong-Wah Ngo, Tao Mei

TL;DR本研究旨在自动化三维卷积神经网络的训练过程，提出一种划分训练状态，并在每个状态中指定超参数，通过拟合性能 - 时代曲线来触发状态转换的优化路径。同时，结合设计双头分类器的新型三维卷积神经网络，在多个公共视频识别基准测试中实现优于目前最先进技术的效果。

Abstract

It is not trivial to optimally learn a 3d convolutional neural networks (3D ConvNets) due to high complexity and various options of the training scheme. The most common hand-tuning process starts from learning 3D ConvNets using short video clips and then is followed by learning long-te

3d convolutional neural networks long-term temporal dependency learning rate dynamic programming video recognition

发现论文，激发创造

使用三维卷积神经网络学习时空特征

通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络（3D ConvNets）提出了一种简单而有效的时空特征学习方法。我们的成果有三个：1）相对于 2D ConvNets，3D ConvNets 更适用于时空特征学习；2）所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一；3）我们学到的特征 —— 即 C3D（卷积 3D）—— 连同一个简单的线性分类器，在 4 个不同的基准测试中优于最先进的方法，并与其他 2 个基准测试中的最佳方法相当。此外，这些特征紧凑：只需 10 维便能在 UCF101 数据集上达到 52.8％的准确率，由于 ConvNets 的快速推理，计算效率也非常高。最后，它们在概念上非常简单易用且易于训练和使用。

Dec, 2014

时域三维卷积神经网络：视频分类的新架构和迁移学习

该研究论文提出了一种基于 3D CNN 和新颖的神经网络结构，可以使视频分类和人类行为识别的准确性优于现有技术，并通过迁移学习的技巧从二维卷积神经网络中转移知识来改善三维卷积神经网络的训练效果。

Nov, 2017

2D 还是 3D? 自适应 3D 卷积选择用于高效视频识别

通过 Ada3D 条件计算框架，使用策略梯度方法和轻量级选择网络，实现对不同视频的实例特定 3D 使用策略的学习，以决定使用哪些帧和卷积层，从而实现对 3D 模型进行预测，即使在不同数据集上，也能够实现类似于现有 3D 模型的准确度，且需要的计算量减少了 20％-50％。

Dec, 2020

学习 3D 形状的深度卷积神经网络的 Beam Search

本文介绍了一个基于 beam search 的 CNN 学习方法，用于解决当前在 3D 形状识别领域面临的小数据集困境，并在 3D ModelNet 数据集上证明了该方法的有效性。

Dec, 2016

为高效视频识别最大化深度 3D CNN 的时空熵

该研究提出了一种新的无需训练，基于最大熵原则的 3D CNN 信息系统熵评价方法，通过在给定计算预算下，使用进化算法最大化评分以实现高效、具有表达力的 3D CNN 体系结构的自动设计，从而在视频识别方面实现了最先进的性能和更高的计算效率。

Mar, 2023

利用深度学习进行多媒体数据分类的智能 3D 网络协议

本文中介绍了一种基于 3D 卷积神经网络和 Spatiotemporal fusion 的混合深度学习架构，用于视频分类和动作识别，在研究方面取得了良好的性能，可以识别出 UCF101 数据集中的动作（准确率达到 95%）

Jul, 2022

在移动设备上实现 3D 卷积神经网络的实时执行

该论文提出了 RT3D 框架，将神经网络权重修剪和编译器代码生成技术无缝集成，以实现 3D CNN 的模型压缩和移动加速。 RT3D 在现有支持 3D CNN 的移动框架中实现了高达 29.1 倍的推理时间加速，具有适度的 1％-1.5％准确度损失。

Jul, 2020

时空三维卷积神经网络能否重追二维卷积神经网络和 ImageNet 的历史？

本研究旨在确定当前视频数据集是否有足够的数据来训练带有时空三维卷积核的非常深的卷积神经网络。我们研究了从相对浅的到非常深的各种三维卷积神经网络的架构，并得出结论：Kinetics 数据集具有训练深度三维卷积神经网络的足够数据，与 ImageNet 上的 2D ResNets 类似，ResNeXt-101 在 Kinetics 测试集上达到了 78.4％的平均准确率。预训练的简单 3D 架构优于复杂的 2D 架构，并且预训练的 ResNeXt-101 分别在 UCF-101 和 HMDB-51 上达到了 94.5％和 70.2％的准确率。我们相信，将深度 3D 卷积神经网络与 Kinetics 数据集结合使用，将重温 2D 卷积神经网络和 ImageNet 的故事，并促进视频计算机视觉的进步。

Nov, 2017

重新思考时空特征学习：视频分类的速度和准确性权衡

本研究通过优化设计网络结构，系统地探讨了关键网络设计选择，包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等，进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快，而且在行动分类基准测试（Kinetics、Something-something、UCF101 和 HMDB）以及两个行动检测（本地化）基准测试（JHMDB 和 UCF101-24）中的分类效果也比其他方法更有竞争力。

Dec, 2017

使用伪 3D 残差网络学习时空表示

本文提出了一种利用 4 个 Pseudo-3D 残差块构建的 Pseudo-3D Residual Net (P3D ResNet) 架构，并将其应用于视频分类问题中，克服了 3D CNN 的计算成本及内存需求高的问题，通过将空间卷积和时间卷积组合的方式显著提高了视频图像识别和分类的准确性。

Nov, 2017