基于时空概念的 3D 卷积神经网络解释

Jun, 2022

基于时空概念的 3D 卷积神经网络解释

Spatial-temporal Concept based Explanation of 3D ConvNets

Ying Ji, Yu Wang, Kensaku Mori, Jien Kato

TL;DR本文介绍了一种用于解释三维卷积神经网络的自动概念解释（ACE）框架，该框架基于高水平的 supervoxels 表示视频，并估计每个 Supervoxel 的重要性得分，可以发现不同重要级别的时空概念，并深入探索这些概念对目标任务（例如动作分类）的影响。

Abstract

Recent studies have achieved outstanding success in explaining 2D image recognition ConvNets. On the other hand, due to the computation cost and complexity of video data, the explanation of 3d video recognition convnets is relatively less studied. In this paper, we present a 3D ACE (Au

3d video recognition convnets ace framework spatial-temporal concepts supervoxels action classification

发现论文，激发创造

使用三维卷积神经网络学习时空特征

通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络（3D ConvNets）提出了一种简单而有效的时空特征学习方法。我们的成果有三个：1）相对于 2D ConvNets，3D ConvNets 更适用于时空特征学习；2）所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一；3）我们学到的特征 —— 即 C3D（卷积 3D）—— 连同一个简单的线性分类器，在 4 个不同的基准测试中优于最先进的方法，并与其他 2 个基准测试中的最佳方法相当。此外，这些特征紧凑：只需 10 维便能在 UCF101 数据集上达到 52.8％的准确率，由于 ConvNets 的快速推理，计算效率也非常高。最后，它们在概念上非常简单易用且易于训练和使用。

Dec, 2014

时域三维卷积神经网络：视频分类的新架构和迁移学习

该研究论文提出了一种基于 3D CNN 和新颖的神经网络结构，可以使视频分类和人类行为识别的准确性优于现有技术，并通过迁移学习的技巧从二维卷积神经网络中转移知识来改善三维卷积神经网络的训练效果。

Nov, 2017

重新思考时空特征学习：视频分类的速度和准确性权衡

本研究通过优化设计网络结构，系统地探讨了关键网络设计选择，包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等，进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快，而且在行动分类基准测试（Kinetics、Something-something、UCF101 和 HMDB）以及两个行动检测（本地化）基准测试（JHMDB 和 UCF101-24）中的分类效果也比其他方法更有竞争力。

Dec, 2017

Saliency Tubes: 时空卷积的视觉解释

提出了一种名为 Saliency Tubes 的方法，用于改善 3D 卷积神经网络（CNNs）的解释性，旨在理解网络内部运作方式并分离视频中网络发现的最关键的时空区域。

Feb, 2019

卷积神经网络结构搜索用于时空特征学习

基于 ImageNet 预训练的 ConvNets 在图像识别方面已经得到了证明，但是为了捕捉到运动模式，仍然需要专门的时空特征学习，本文提出了一种经验 ConvNet 架构搜索方法，通过 3D 残差 ConvNet 实现，其在 Sports-1M、UCF101、HMDB51、THUMOS14 和 ASLAN 上的表现均优于 C3D，且推断时间减少一半、模型大小减小一半，具有更紧凑的表现形式。

Aug, 2017

增强的 3D 卷积神经网络用于人群计数

本研究提出一种新的架构，称为 “时间通道感知” 块 (TCA)，它能够利用视频序列之间的时间关联，通过结合局部和全局上下文信息，提升特征表示的判别能力，实现更准确的人群计数等任务。实验证明，通过堆叠 TCA 块，所得到的改进的 3D 卷积神经网络 (E3D) 在多个基准数据集上具有优异的性能。

Aug, 2019

4D 时空卷积神经网络：Minkowski 卷积神经网络

使用 4D 卷积神经网络，通过稀疏张量和广义稀疏卷积提供的广泛高维函数，实现了针对 3D 视频的时空感知，并通过提出的混合核和三边静态条件随机场，优化了 7D 时空色度空间中的一致性问题。实验表明，与 2D 或 2D-3D 混合方法相比，只使用广义 3D 稀疏卷积的卷积神经网络可以获得更好的性能。此外，我们还表明，在处理 3D 视频时，4D 时空卷积神经网络不仅更加鲁棒，而且有时比 3D 卷积神经网络更快。

Apr, 2019

利用深度学习进行多媒体数据分类的智能 3D 网络协议

本文中介绍了一种基于 3D 卷积神经网络和 Spatiotemporal fusion 的混合深度学习架构，用于视频分类和动作识别，在研究方面取得了良好的性能，可以识别出 UCF101 数据集中的动作（准确率达到 95%）

Jul, 2022

基于 CNN 的时空表示深度分析用于行为识别

本文分析基于 2D 或 3D CNN 的视频动作识别方法，比较这些方法之间的区别和进展，并开发了一个统一框架进行公平比较，发现在动作识别方面取得了显著的提高，但准确性未有进展，探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。

Oct, 2020

为视频物体分割提出三维卷积的论点

本文提出了一种基于 3D 全卷积神经网络的编码 - 解码网络结构，将其应用于视频中的显著对象分割。尝试使用全 3D 卷积来处理外观和运动信息从而实现密集视频预测，并通过 3D 全局卷积层和 3D 细化模块进行编码和解码操作。作者将其应用于 DAVIS'16 无监督，FBMS 和 ViSal 数据集基准测试中，结果表明其效果优于现有状态艺术，同时速度更快，能够高效地学习空间 - 时间特征并产生高质量的视频分割掩码。

Aug, 2020