基于时空概念的 3D 卷积神经网络解释
通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络(3D ConvNets)提出了一种简单而有效的时空特征学习方法。我们的成果有三个:1)相对于 2D ConvNets,3D ConvNets 更适用于时空特征学习;2)所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一;3)我们学到的特征 —— 即 C3D(卷积 3D)—— 连同一个简单的线性分类器,在 4 个不同的基准测试中优于最先进的方法,并与其他 2 个基准测试中的最佳方法相当。此外,这些特征紧凑:只需 10 维便能在 UCF101 数据集上达到 52.8%的准确率,由于 ConvNets 的快速推理,计算效率也非常高。最后,它们在概念上非常简单易用且易于训练和使用。
Dec, 2014
该研究论文提出了一种基于 3D CNN 和新颖的神经网络结构,可以使视频分类和人类行为识别的准确性优于现有技术,并通过迁移学习的技巧从二维卷积神经网络中转移知识来改善三维卷积神经网络的训练效果。
Nov, 2017
本研究通过优化设计网络结构,系统地探讨了关键网络设计选择,包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等,进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快,而且在行动分类基准测试(Kinetics、Something-something、UCF101 和 HMDB)以及两个行动检测(本地化)基准测试(JHMDB 和 UCF101-24)中的分类效果也比其他方法更有竞争力。
Dec, 2017
提出了一种名为 Saliency Tubes 的方法,用于改善 3D 卷积神经网络(CNNs)的解释性,旨在理解网络内部运作方式并分离视频中网络发现的最关键的时空区域。
Feb, 2019
基于 ImageNet 预训练的 ConvNets 在图像识别方面已经得到了证明,但是为了捕捉到运动模式,仍然需要专门的时空特征学习,本文提出了一种经验 ConvNet 架构搜索方法,通过 3D 残差 ConvNet 实现,其在 Sports-1M、UCF101、HMDB51、THUMOS14 和 ASLAN 上的表现均优于 C3D,且推断时间减少一半、模型大小减小一半,具有更紧凑的表现形式。
Aug, 2017
本研究提出一种新的架构,称为 “时间通道感知” 块 (TCA),它能够利用视频序列之间的时间关联,通过结合局部和全局上下文信息,提升特征表示的判别能力,实现更准确的人群计数等任务。实验证明,通过堆叠 TCA 块,所得到的改进的 3D 卷积神经网络 (E3D) 在多个基准数据集上具有优异的性能。
Aug, 2019
使用 4D 卷积神经网络,通过稀疏张量和广义稀疏卷积提供的广泛高维函数,实现了针对 3D 视频的时空感知,并通过提出的混合核和三边静态条件随机场,优化了 7D 时空色度空间中的一致性问题。实验表明,与 2D 或 2D-3D 混合方法相比,只使用广义 3D 稀疏卷积的卷积神经网络可以获得更好的性能。此外,我们还表明,在处理 3D 视频时,4D 时空卷积神经网络不仅更加鲁棒,而且有时比 3D 卷积神经网络更快。
Apr, 2019
本文中介绍了一种基于 3D 卷积神经网络和 Spatiotemporal fusion 的混合深度学习架构,用于视频分类和动作识别,在研究方面取得了良好的性能,可以识别出 UCF101 数据集中的动作(准确率达到 95%)
Jul, 2022
本文分析基于 2D 或 3D CNN 的视频动作识别方法,比较这些方法之间的区别和进展,并开发了一个统一框架进行公平比较,发现在动作识别方面取得了显著的提高,但准确性未有进展,探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。
Oct, 2020
本文提出了一种基于 3D 全卷积神经网络的编码 - 解码网络结构,将其应用于视频中的显著对象分割。尝试使用全 3D 卷积来处理外观和运动信息从而实现密集视频预测,并通过 3D 全局卷积层和 3D 细化模块进行编码和解码操作。作者将其应用于 DAVIS'16 无监督,FBMS 和 ViSal 数据集基准测试中,结果表明其效果优于现有状态艺术,同时速度更快,能够高效地学习空间 - 时间特征并产生高质量的视频分割掩码。
Aug, 2020