F4D: 因子化的 4D 卷积神经网络用于高效的视频级表示学习

Nov, 2023

F4D: 因子化的 4D 卷积神经网络用于高效的视频级表示学习

F4D: Factorized 4D Convolutional Neural Network for Efficient Video-level Representation Learning

Mohammad Al-Saad, Lakshmish Ramaswamy, Suchendra Bhandarkar

TL;DR通过提出具有注意力的分解 4D CNN 架构，文章研究了视频级别表示学习对于捕捉和理解视频动作识别中的长程时间结构的重要性，并在五个动作识别基准数据集上验证了所提出架构的有效性。

Abstract

Recent studies have shown that video-level representation learning is crucial to the capture and understanding of the long-range temporal structure for video action recognition. Most existing 3d convolutional neural net

video-level representation learning 3d convolutional neural network long-range spatiotemporal representation factorized 4d cnn architecture with attention video-level action recognition

发现论文，激发创造

V4D: 用于视频级别表示学习的 4D 卷积神经网络

本文提出采用 Video-level 4D 卷积神经网络（V4D）模型的长时空特征演化，通过设计新的 4D 残差块捕捉视频间的交互作用，将 4D 残差块轻松整合到现有的 3D CNN 中以进行层次化的长程建模，并在三个视频识别基准数据集上进行了广泛的实验验证，V4D 表现出优异的结果，显著优于最近的 3D CNN。

Feb, 2020

基于分解时空卷积网络的人类动作识别

本文提出了一种名为 FstCN 的新型 3D 深度架构，能够有效处理人类行为三维动态序列信号，并且利用转换和排列操作，将原始的三维卷积核学习分解为一系列二维和一维卷积核学习过程，同时提出了基于视频片段采样的有效训练和推断策略，在 UCF-101 和 HMDB-51 数据集上的表现比传统 CNN 方法更好，与最近一种利用辅助训练视频的方法相当。

Oct, 2015

动作识别中空间 - 时间卷积的近距离观察

本文研究了几种用于视频分析的时空卷积形式，并研究了它们对动作识别的影响。我们在残差学习的框架下，实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外，我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终，我们设计了一个新的时空卷积块 “R (2+1) D”，这种方法产生的 CNN 的结果与最新技术相当甚至更好，可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。

Nov, 2017

重新思考时空特征学习：视频分类的速度和准确性权衡

本研究通过优化设计网络结构，系统地探讨了关键网络设计选择，包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等，进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快，而且在行动分类基准测试（Kinetics、Something-something、UCF101 和 HMDB）以及两个行动检测（本地化）基准测试（JHMDB 和 UCF101-24）中的分类效果也比其他方法更有竞争力。

Dec, 2017

基于 CNN 的时空表示深度分析用于行为识别

本文分析基于 2D 或 3D CNN 的视频动作识别方法，比较这些方法之间的区别和进展，并开发了一个统一框架进行公平比较，发现在动作识别方面取得了显著的提高，但准确性未有进展，探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。

Oct, 2020

视频动作识别的协作时空特征学习

本文提出了一种新颖的神经操作，通过在三个正交视图上进行 2D 卷积，协同编码了时空特征，并通过权值共享来促进空间和时间特征的学习，此方法在大规模基准测试中取得了最优性能，并通过对不同视图学习的系数进行量化，探讨了空间和时间特征的贡献，以提高模型的解释性并指导视频识别算法的设计。

Mar, 2019

用于 3D 视频中动作识别的双流 RNN/CNN

本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法，通过 SVM 对特征进行分类，实验结果表明，在标准数据集上，该算法提高了 14% 的识别率。

Mar, 2017

动作识别的时间分离表征学习

本研究通过设计渐进式增强模块（PEM）和创建时间多样性损失（TD Loss）两种方法，以解决将 2D CNN 应用于视频分析中出现的重复和冗余信息利用问题，并在 Something-Something V1 和 V2 等基准时间推理数据集上取得 2.4％和 1.3％的性能改进，同时在大规模数据集 Kinetics 上也 witness 了超过基于 2D-CNN 的现有技术的性能提升。

Jul, 2020

4D 时空卷积神经网络：Minkowski 卷积神经网络

使用 4D 卷积神经网络，通过稀疏张量和广义稀疏卷积提供的广泛高维函数，实现了针对 3D 视频的时空感知，并通过提出的混合核和三边静态条件随机场，优化了 7D 时空色度空间中的一致性问题。实验表明，与 2D 或 2D-3D 混合方法相比，只使用广义 3D 稀疏卷积的卷积神经网络可以获得更好的性能。此外，我们还表明，在处理 3D 视频时，4D 时空卷积神经网络不仅更加鲁棒，而且有时比 3D 卷积神经网络更快。

Apr, 2019

视频中动作检测和分割的端到端 3D 卷积神经网络

本研究提出了一种用于视频中动作检测和分割的端到端 3D CNN，利用 3D 卷积特征识别和定位动作，通过平分视频为若干部分，生成不同段落的膜状提议，然后把不同段的提议联系在一起，通过上下文信息实现视频物体分割和动作检测。

Nov, 2017