ACTION-Net:多路径激励用于动作识别
本文提出了一种基于深度卷积神经网络的两通道ConvNet架构,结合了空间和时间网络,利用稀疏光流信息进行训练并使用多任务学习提高模型性能,成功地提高了视频动作识别的准确率。
Jun, 2014
本文提出了一种名为FstCN的新型3D深度架构,能够有效处理人类行为三维动态序列信号,并且利用转换和排列操作,将原始的三维卷积核学习分解为一系列二维和一维卷积核学习过程,同时提出了基于视频片段采样的有效训练和推断策略,在UCF-101和HMDB-51数据集上的表现比传统CNN方法更好,与最近一种利用辅助训练视频的方法相当。
Oct, 2015
为了最好地利用时空信息,我们研究了在空间和时间上融合ConvNet塔的多种方法,并发现在卷积层融合空间和时间网络而不是在softmax层融合可以大大减少参数。我们提出了一种新的ConvNet架构,以融合视频片段的空时信息,并在标准基准测试中评估了其性能,该架构达到了最先进的结果。
Apr, 2016
本文介绍了一种新的结构spatiotemporal ResNets,将两种架构two-stream Convolutional Networks和Residual Networks相结合,通过残差连接实现了空时交互,并引入可学习卷积过滤器,将图像ConvNets转换成空时网络,从而提高了动作识别的准确率。
Nov, 2016
本文提出了一种新的卷积神经网络结构,名为隐式双流卷积神经网络。它可以以端到端的方式处理视频帧并预测动作类别,而不需要显式计算光流,因此速度快于传统方法。实验证明,该方法在四个具有挑战性的动作识别数据集中表现显著优于上一个最佳的实时方法。
Apr, 2017
L2STM是一种通过学习独立的隐藏状态转移来增强模型的时间动力学建模能力以及解决长期时间动态不稳定的问题的方法,结合多模态训练程序,在人类动作识别方面表现优于现有的基于LSTM和/或CNN的方法。
Aug, 2017
通过使用Residual Networks的3D CNN,我们训练了一个视频动作识别模型,并实验表明在Kinetics数据集上它具有更好的性能,虽然参数很大但没有出现过拟合的问题
Aug, 2017
本文提出了一种新的3D CNN块,名为“Spatio-Temporal Channel Correlation”,用于模拟3D CNN的通道之间的相关性,以提高视频识别性能,并提出了一种简单且有效的迁移学习技术,用于从预先训练的2D CNN向3D CNN传递知识。通过在当前最先进的架构上嵌入STC块,我们将视频识别性能提高了2-3%,在三个常用数据集上的实验结果表明,加入STC块的方法优于现有最先进的方法。
Jun, 2018
本文提出了一个基于2D框架的STM网络,利用STM块替换ResNet架构中的残差块,同时编码时空特征和动作特征,实现了高效的视频动作识别。实验证明,提出的方法在数据集Something-Something v1&v2、Jester、Kinetics-400、UCF-101和HMDB-51上性能优于其他现有方法。
Aug, 2019
本文分析基于2D或3D CNN的视频动作识别方法,比较这些方法之间的区别和进展,并开发了一个统一框架进行公平比较,发现在动作识别方面取得了显著的提高,但准确性未有进展,探究了2D-CNN与3D-CNN模型在时空表示能力和可传递性方面的相似之处。
Oct, 2020