基于通道分离卷积网络的视频分类
本文提出了一种基于 3D 全卷积神经网络的编码 - 解码网络结构,将其应用于视频中的显著对象分割。尝试使用全 3D 卷积来处理外观和运动信息从而实现密集视频预测,并通过 3D 全局卷积层和 3D 细化模块进行编码和解码操作。作者将其应用于 DAVIS'16 无监督,FBMS 和 ViSal 数据集基准测试中,结果表明其效果优于现有状态艺术,同时速度更快,能够高效地学习空间 - 时间特征并产生高质量的视频分割掩码。
Aug, 2020
本研究提出 Channel Tensorization Network (CT-Net),通过将输入特征的通道维度视为 K 个子维度的乘积来分解卷积,从而轻量化计算量,有效增强不同通道的特征交互,并逐步扩大 3D receptive field,以提高视频分类准确率。在几个具有挑战性的视频基准中(如 Kinetics-400,Something-Something V1 和 V2)的实验中表明,相较于其他最新的方法,CT-Net 在准确性和效率方面表现更优。
Jun, 2021
通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络(3D ConvNets)提出了一种简单而有效的时空特征学习方法。我们的成果有三个:1)相对于 2D ConvNets,3D ConvNets 更适用于时空特征学习;2)所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一;3)我们学到的特征 —— 即 C3D(卷积 3D)—— 连同一个简单的线性分类器,在 4 个不同的基准测试中优于最先进的方法,并与其他 2 个基准测试中的最佳方法相当。此外,这些特征紧凑:只需 10 维便能在 UCF101 数据集上达到 52.8%的准确率,由于 ConvNets 的快速推理,计算效率也非常高。最后,它们在概念上非常简单易用且易于训练和使用。
Dec, 2014
使用 4D 卷积神经网络,通过稀疏张量和广义稀疏卷积提供的广泛高维函数,实现了针对 3D 视频的时空感知,并通过提出的混合核和三边静态条件随机场,优化了 7D 时空色度空间中的一致性问题。实验表明,与 2D 或 2D-3D 混合方法相比,只使用广义 3D 稀疏卷积的卷积神经网络可以获得更好的性能。此外,我们还表明,在处理 3D 视频时,4D 时空卷积神经网络不仅更加鲁棒,而且有时比 3D 卷积神经网络更快。
Apr, 2019
本文通过张量分解,提出了一种新的卷积块 ——PmSCn,通过 m 个并行流和不同维度的 n 个 2D 卷积层以及一个 1D 卷积层的结构,可以替代现代网络体系结构中常见的连续 3D 卷积层,并在视频识别,MRI 大脑分割和电子显微镜分割三个应用中,取得了平均测试性能提高 14%和模型尺寸减少 40%的良好结果。
Sep, 2018
本研究通过优化设计网络结构,系统地探讨了关键网络设计选择,包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等,进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快,而且在行动分类基准测试(Kinetics、Something-something、UCF101 和 HMDB)以及两个行动检测(本地化)基准测试(JHMDB 和 UCF101-24)中的分类效果也比其他方法更有竞争力。
Dec, 2017
使用无监督学习的脉冲分离空间和时间卷积(S3TCs)方法成功提取视频的时空信息,并超越脉冲三维卷积,在视频分析方面减少参数需求。
Sep, 2023
本文研究了几种用于视频分析的时空卷积形式,并研究了它们对动作识别的影响。我们在残差学习的框架下,实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外,我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终,我们设计了一个新的时空卷积块 “R (2+1) D”,这种方法产生的 CNN 的结果与最新技术相当甚至更好,可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。
Nov, 2017
本文提出了一种新的 3D CNN 块,名为 “Spatio-Temporal Channel Correlation”,用于模拟 3D CNN 的通道之间的相关性,以提高视频识别性能,并提出了一种简单且有效的迁移学习技术,用于从预先训练的 2D CNN 向 3D CNN 传递知识。通过在当前最先进的架构上嵌入 STC 块,我们将视频识别性能提高了 2-3%,在三个常用数据集上的实验结果表明,加入 STC 块的方法优于现有最先进的方法。
Jun, 2018
本文提出一种动态组卷积 (Dynamic Group Convolution, DGC) 方法,它不仅保留了原有网络结构,还能够根据输入图像动态选择连接哪些输入通道,以实现对图像语义特征的自适应提取,有效提高了卷积神经网络的计算效率和图像分类性能。
Jul, 2020