CT-Net: 基于通道张量化的视频分类网络

ICLRJun, 2021

CT-Net: 基于通道张量化的视频分类网络

CT-Net: Channel Tensorization Network for Video Classification

Kunchang Li, Xianhang Li, Yali Wang, Jun Wang, Yu Qiao

TL;DR本研究提出 Channel Tensorization Network (CT-Net)，通过将输入特征的通道维度视为 K 个子维度的乘积来分解卷积，从而轻量化计算量，有效增强不同通道的特征交互，并逐步扩大 3D receptive field，以提高视频分类准确率。在几个具有挑战性的视频基准中（如 Kinetics-400，Something-Something V1 和 V2）的实验中表明，相较于其他最新的方法，CT-Net 在准确性和效率方面表现更优。

Abstract

3d convolution is powerful for video classification but often computationally expensive, recent studies mainly focus on decomposing it on spatial-temporal and/or channel dimensions. Unfortunately, most approaches

3d convolution ct-net feature interaction tensor excitation mechanism video classification

发现论文，激发创造

基于通道卷积的紧凑高效卷积神经网络

本文介绍了使用通道卷积压缩深度模型的方法，这种方法在 CNN 中替换特征图之间的稠密连接为稀疏连接，从而构建轻量级 CNN。ChannelNets 使用三种通道卷积的实例，并通过对 ImageNet 数据集进行实验来证明了其在参数和计算成本上的显著性降低，且不影响准确性。

Sep, 2018

基于通道分离卷积网络的视频分类

本研究旨在探讨 3D 群组卷积网络在视频分类网络中所能提供的计算效益，以及在设计中做出不同选择的影响。实验结果表明，分离通道交互和时空交互是提升网络准确性以及降低计算成本的好策略，3D 通道分离卷积还能够为网络提供一种正则化，我们提出的分离通道卷积神经网络（CSN）成为了一种简单且高效的技术。

Apr, 2019

时空通道相关网络用于动作分类

本文提出了一种新的 3D CNN 块，名为 “Spatio-Temporal Channel Correlation”，用于模拟 3D CNN 的通道之间的相关性，以提高视频识别性能，并提出了一种简单且有效的迁移学习技术，用于从预先训练的 2D CNN 向 3D CNN 传递知识。通过在当前最先进的架构上嵌入 STC 块，我们将视频识别性能提高了 2-3％，在三个常用数据集上的实验结果表明，加入 STC 块的方法优于现有最先进的方法。

Jun, 2018

增强的 3D 卷积神经网络用于人群计数

本研究提出一种新的架构，称为 “时间通道感知” 块 (TCA)，它能够利用视频序列之间的时间关联，通过结合局部和全局上下文信息，提升特征表示的判别能力，实现更准确的人群计数等任务。实验证明，通过堆叠 TCA 块，所得到的改进的 3D 卷积神经网络 (E3D) 在多个基准数据集上具有优异的性能。

Aug, 2019

使用三维卷积神经网络学习时空特征

通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络（3D ConvNets）提出了一种简单而有效的时空特征学习方法。我们的成果有三个：1）相对于 2D ConvNets，3D ConvNets 更适用于时空特征学习；2）所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一；3）我们学到的特征 —— 即 C3D（卷积 3D）—— 连同一个简单的线性分类器，在 4 个不同的基准测试中优于最先进的方法，并与其他 2 个基准测试中的最佳方法相当。此外，这些特征紧凑：只需 10 维便能在 UCF101 数据集上达到 52.8％的准确率，由于 ConvNets 的快速推理，计算效率也非常高。最后，它们在概念上非常简单易用且易于训练和使用。

Dec, 2014

时域三维卷积神经网络：视频分类的新架构和迁移学习

该研究论文提出了一种基于 3D CNN 和新颖的神经网络结构，可以使视频分类和人类行为识别的准确性优于现有技术，并通过迁移学习的技巧从二维卷积神经网络中转移知识来改善三维卷积神经网络的训练效果。

Nov, 2017

使用 3D 残差网络学习时空特征用于动作识别

通过使用 Residual Networks 的 3D CNN，我们训练了一个视频动作识别模型，并实验表明在 Kinetics 数据集上它具有更好的性能，虽然参数很大但没有出现过拟合的问题

Aug, 2017

体积变换网络

本文介绍了一种学习型模块（VTN，即体积变形网络），以预测通道级扭曲场，从而在空间和通道层面上重新配置 CNN 特征，改善空间不变性技术在大规模对象识别中的限制。经实验证明，VTN 不断提升模型性能和图像识别和检索的精度。

Jul, 2020

用于视觉识别的门控通道变换

本文提出了一种适用于卷积神经网络在视觉识别中的通用变换单元，它能明确建模可解释的控制变量，以确定神经元行为与卷积权重联合优化以提高识别精度，并使用通道标准化层来减少参数数量和计算复杂度。实验表明该单元在多项视觉任务上具有明显优势。

Sep, 2019

4D 时空卷积神经网络：Minkowski 卷积神经网络

使用 4D 卷积神经网络，通过稀疏张量和广义稀疏卷积提供的广泛高维函数，实现了针对 3D 视频的时空感知，并通过提出的混合核和三边静态条件随机场，优化了 7D 时空色度空间中的一致性问题。实验表明，与 2D 或 2D-3D 混合方法相比，只使用广义 3D 稀疏卷积的卷积神经网络可以获得更好的性能。此外，我们还表明，在处理 3D 视频时，4D 时空卷积神经网络不仅更加鲁棒，而且有时比 3D 卷积神经网络更快。

Apr, 2019