3D ConvNets 的优化规划
通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络(3D ConvNets)提出了一种简单而有效的时空特征学习方法。我们的成果有三个:1)相对于 2D ConvNets,3D ConvNets 更适用于时空特征学习;2)所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一;3)我们学到的特征 —— 即 C3D(卷积 3D)—— 连同一个简单的线性分类器,在 4 个不同的基准测试中优于最先进的方法,并与其他 2 个基准测试中的最佳方法相当。此外,这些特征紧凑:只需 10 维便能在 UCF101 数据集上达到 52.8%的准确率,由于 ConvNets 的快速推理,计算效率也非常高。最后,它们在概念上非常简单易用且易于训练和使用。
Dec, 2014
该研究论文提出了一种基于 3D CNN 和新颖的神经网络结构,可以使视频分类和人类行为识别的准确性优于现有技术,并通过迁移学习的技巧从二维卷积神经网络中转移知识来改善三维卷积神经网络的训练效果。
Nov, 2017
通过 Ada3D 条件计算框架,使用策略梯度方法和轻量级选择网络,实现对不同视频的实例特定 3D 使用策略的学习,以决定使用哪些帧和卷积层,从而实现对 3D 模型进行预测,即使在不同数据集上,也能够实现类似于现有 3D 模型的准确度,且需要的计算量减少了 20%-50%。
Dec, 2020
本文介绍了一个基于 beam search 的 CNN 学习方法,用于解决当前在 3D 形状识别领域面临的小数据集困境,并在 3D ModelNet 数据集上证明了该方法的有效性。
Dec, 2016
该研究提出了一种新的无需训练,基于最大熵原则的 3D CNN 信息系统熵评价方法,通过在给定计算预算下,使用进化算法最大化评分以实现高效、具有表达力的 3D CNN 体系结构的自动设计,从而在视频识别方面实现了最先进的性能和更高的计算效率。
Mar, 2023
本文中介绍了一种基于 3D 卷积神经网络和 Spatiotemporal fusion 的混合深度学习架构,用于视频分类和动作识别,在研究方面取得了良好的性能,可以识别出 UCF101 数据集中的动作(准确率达到 95%)
Jul, 2022
该论文提出了 RT3D 框架,将神经网络权重修剪和编译器代码生成技术无缝集成,以实现 3D CNN 的模型压缩和移动加速。 RT3D 在现有支持 3D CNN 的移动框架中实现了高达 29.1 倍的推理时间加速,具有适度的 1%-1.5%准确度损失。
Jul, 2020
本研究旨在确定当前视频数据集是否有足够的数据来训练带有时空三维卷积核的非常深的卷积神经网络。我们研究了从相对浅的到非常深的各种三维卷积神经网络的架构,并得出结论:Kinetics 数据集具有训练深度三维卷积神经网络的足够数据,与 ImageNet 上的 2D ResNets 类似,ResNeXt-101 在 Kinetics 测试集上达到了 78.4%的平均准确率。预训练的简单 3D 架构优于复杂的 2D 架构,并且预训练的 ResNeXt-101 分别在 UCF-101 和 HMDB-51 上达到了 94.5%和 70.2%的准确率。我们相信,将深度 3D 卷积神经网络与 Kinetics 数据集结合使用,将重温 2D 卷积神经网络和 ImageNet 的故事,并促进视频计算机视觉的进步。
Nov, 2017
本研究通过优化设计网络结构,系统地探讨了关键网络设计选择,包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等,进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快,而且在行动分类基准测试(Kinetics、Something-something、UCF101 和 HMDB)以及两个行动检测(本地化)基准测试(JHMDB 和 UCF101-24)中的分类效果也比其他方法更有竞争力。
Dec, 2017
本文提出了一种利用 4 个 Pseudo-3D 残差块构建的 Pseudo-3D Residual Net (P3D ResNet) 架构,并将其应用于视频分类问题中,克服了 3D CNN 的计算成本及内存需求高的问题,通过将空间卷积和时间卷积组合的方式显著提高了视频图像识别和分类的准确性。
Nov, 2017