基于通道分离卷积网络的视频分类

Apr, 2019

基于通道分离卷积网络的视频分类

Video Classification with Channel-Separated Convolutional Networks

Du Tran, Heng Wang, Lorenzo Torresani, Matt Feiszli

TL;DR本研究旨在探讨 3D 群组卷积网络在视频分类网络中所能提供的计算效益，以及在设计中做出不同选择的影响。实验结果表明，分离通道交互和时空交互是提升网络准确性以及降低计算成本的好策略，3D 通道分离卷积还能够为网络提供一种正则化，我们提出的分离通道卷积神经网络（CSN）成为了一种简单且高效的技术。

Abstract

Group convolution has been shown to offer great computational savings in various 2D convolutional architectures for image classification. It is natural to ask: 1) if group convolution can help to alleviate the high computational cost of video classification networks; 2) what factors ma

3d group convolutional networks video classification channel interactions spatiotemporal interactions channel-separated convolutional network

发现论文，激发创造

为视频物体分割提出三维卷积的论点

本文提出了一种基于 3D 全卷积神经网络的编码 - 解码网络结构，将其应用于视频中的显著对象分割。尝试使用全 3D 卷积来处理外观和运动信息从而实现密集视频预测，并通过 3D 全局卷积层和 3D 细化模块进行编码和解码操作。作者将其应用于 DAVIS'16 无监督，FBMS 和 ViSal 数据集基准测试中，结果表明其效果优于现有状态艺术，同时速度更快，能够高效地学习空间 - 时间特征并产生高质量的视频分割掩码。

Aug, 2020

CT-Net: 基于通道张量化的视频分类网络

本研究提出 Channel Tensorization Network (CT-Net)，通过将输入特征的通道维度视为 K 个子维度的乘积来分解卷积，从而轻量化计算量，有效增强不同通道的特征交互，并逐步扩大 3D receptive field，以提高视频分类准确率。在几个具有挑战性的视频基准中（如 Kinetics-400，Something-Something V1 和 V2）的实验中表明，相较于其他最新的方法，CT-Net 在准确性和效率方面表现更优。

Jun, 2021

使用三维卷积神经网络学习时空特征

通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络（3D ConvNets）提出了一种简单而有效的时空特征学习方法。我们的成果有三个：1）相对于 2D ConvNets，3D ConvNets 更适用于时空特征学习；2）所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一；3）我们学到的特征 —— 即 C3D（卷积 3D）—— 连同一个简单的线性分类器，在 4 个不同的基准测试中优于最先进的方法，并与其他 2 个基准测试中的最佳方法相当。此外，这些特征紧凑：只需 10 维便能在 UCF101 数据集上达到 52.8％的准确率，由于 ConvNets 的快速推理，计算效率也非常高。最后，它们在概念上非常简单易用且易于训练和使用。

Dec, 2014

4D 时空卷积神经网络：Minkowski 卷积神经网络

使用 4D 卷积神经网络，通过稀疏张量和广义稀疏卷积提供的广泛高维函数，实现了针对 3D 视频的时空感知，并通过提出的混合核和三边静态条件随机场，优化了 7D 时空色度空间中的一致性问题。实验表明，与 2D 或 2D-3D 混合方法相比，只使用广义 3D 稀疏卷积的卷积神经网络可以获得更好的性能。此外，我们还表明，在处理 3D 视频时，4D 时空卷积神经网络不仅更加鲁棒，而且有时比 3D 卷积神经网络更快。

Apr, 2019

用于视频和体积数据理解的并行可分离 3D 卷积

本文通过张量分解，提出了一种新的卷积块 ——PmSCn，通过 m 个并行流和不同维度的 n 个 2D 卷积层以及一个 1D 卷积层的结构，可以替代现代网络体系结构中常见的连续 3D 卷积层，并在视频识别，MRI 大脑分割和电子显微镜分割三个应用中，取得了平均测试性能提高 14％和模型尺寸减少 40％的良好结果。

Sep, 2018

重新思考时空特征学习：视频分类的速度和准确性权衡

本研究通过优化设计网络结构，系统地探讨了关键网络设计选择，包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等，进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快，而且在行动分类基准测试（Kinetics、Something-something、UCF101 和 HMDB）以及两个行动检测（本地化）基准测试（JHMDB 和 UCF101-24）中的分类效果也比其他方法更有竞争力。

Dec, 2017

S3TC：使用无监督 STDP 基于学习的脉冲分离空时卷积进行动作识别

使用无监督学习的脉冲分离空间和时间卷积（S3TCs）方法成功提取视频的时空信息，并超越脉冲三维卷积，在视频分析方面减少参数需求。

Sep, 2023

动作识别中空间 - 时间卷积的近距离观察

本文研究了几种用于视频分析的时空卷积形式，并研究了它们对动作识别的影响。我们在残差学习的框架下，实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外，我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终，我们设计了一个新的时空卷积块 “R (2+1) D”，这种方法产生的 CNN 的结果与最新技术相当甚至更好，可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。

Nov, 2017

时空通道相关网络用于动作分类

本文提出了一种新的 3D CNN 块，名为 “Spatio-Temporal Channel Correlation”，用于模拟 3D CNN 的通道之间的相关性，以提高视频识别性能，并提出了一种简单且有效的迁移学习技术，用于从预先训练的 2D CNN 向 3D CNN 传递知识。通过在当前最先进的架构上嵌入 STC 块，我们将视频识别性能提高了 2-3％，在三个常用数据集上的实验结果表明，加入 STC 块的方法优于现有最先进的方法。

Jun, 2018

动态组卷积用于加速卷积神经网络

本文提出一种动态组卷积 (Dynamic Group Convolution, DGC) 方法，它不仅保留了原有网络结构，还能够根据输入图像动态选择连接哪些输入通道，以实现对图像语义特征的自适应提取，有效提高了卷积神经网络的计算效率和图像分类性能。

Jul, 2020