ACTION-Net：多路径激励用于动作识别

Mar, 2021

ACTION-Net：多路径激励用于动作识别

ACTION-Net: Multipath Excitation for Action Recognition

Zhengwei Wang, Qi She, Aljosa Smolic

TL;DR提出了一个新型的 ACTION 模块，能够在2D CNNs中较少的额外计算成本下捕捉到视频行为识别中时空，通道和运动三个方面的信息，并通过在三个主干网络和三个数据集上的实验证明了其性能。

Abstract

Spatial-temporal, channel-wise, and motion patterns are three complementary and crucial types of information for video action recognition. Conventional 2d cnns are computationally cheap but cannot catch temporal

发现论文，激发创造

用于视频动作识别的双流卷积神经网络

本文提出了一种基于深度卷积神经网络的两通道ConvNet架构，结合了空间和时间网络，利用稀疏光流信息进行训练并使用多任务学习提高模型性能，成功地提高了视频动作识别的准确率。

Jun, 2014

基于分解时空卷积网络的人类动作识别

本文提出了一种名为FstCN的新型3D深度架构，能够有效处理人类行为三维动态序列信号，并且利用转换和排列操作，将原始的三维卷积核学习分解为一系列二维和一维卷积核学习过程，同时提出了基于视频片段采样的有效训练和推断策略，在UCF-101和HMDB-51数据集上的表现比传统CNN方法更好，与最近一种利用辅助训练视频的方法相当。

Oct, 2015

基于卷积双流网络融合的视频动作识别

为了最好地利用时空信息，我们研究了在空间和时间上融合ConvNet塔的多种方法，并发现在卷积层融合空间和时间网络而不是在softmax层融合可以大大减少参数。我们提出了一种新的ConvNet架构，以融合视频片段的空时信息，并在标准基准测试中评估了其性能，该架构达到了最先进的结果。

Apr, 2016

基于时空残差网络的视频动作识别

本文介绍了一种新的结构spatiotemporal ResNets，将两种架构two-stream Convolutional Networks和Residual Networks相结合，通过残差连接实现了空时交互，并引入可学习卷积过滤器，将图像ConvNets转换成空时网络，从而提高了动作识别的准确率。

Nov, 2016

隐式双流卷积网络用于行为识别

本文提出了一种新的卷积神经网络结构，名为隐式双流卷积神经网络。它可以以端到端的方式处理视频帧并预测动作类别，而不需要显式计算光流，因此速度快于传统方法。实验证明，该方法在四个具有挑战性的动作识别数据集中表现显著优于上一个最佳的实时方法。

Apr, 2017

基于格子长短期记忆的人类动作识别

L2STM是一种通过学习独立的隐藏状态转移来增强模型的时间动力学建模能力以及解决长期时间动态不稳定的问题的方法，结合多模态训练程序，在人类动作识别方面表现优于现有的基于LSTM和/或CNN的方法。

Aug, 2017

使用3D残差网络学习时空特征用于动作识别

通过使用Residual Networks的3D CNN，我们训练了一个视频动作识别模型，并实验表明在Kinetics数据集上它具有更好的性能，虽然参数很大但没有出现过拟合的问题

Aug, 2017

时空通道相关网络用于动作分类

本文提出了一种新的3D CNN块，名为“Spatio-Temporal Channel Correlation”，用于模拟3D CNN的通道之间的相关性，以提高视频识别性能，并提出了一种简单且有效的迁移学习技术，用于从预先训练的2D CNN向3D CNN传递知识。通过在当前最先进的架构上嵌入STC块，我们将视频识别性能提高了2-3％，在三个常用数据集上的实验结果表明，加入STC块的方法优于现有最先进的方法。

Jun, 2018

STM:时空和动作编码用于动作识别

本文提出了一个基于2D框架的STM网络，利用STM块替换ResNet架构中的残差块，同时编码时空特征和动作特征，实现了高效的视频动作识别。实验证明，提出的方法在数据集Something-Something v1&v2、Jester、Kinetics-400、UCF-101和HMDB-51上性能优于其他现有方法。

Aug, 2019

基于CNN的时空表示深度分析用于行为识别

本文分析基于2D或3D CNN的视频动作识别方法，比较这些方法之间的区别和进展，并开发了一个统一框架进行公平比较，发现在动作识别方面取得了显著的提高，但准确性未有进展，探究了2D-CNN与3D-CNN模型在时空表示能力和可传递性方面的相似之处。

Oct, 2020