视频动作识别的分层特征聚合网络
提出了一种统一的时间卷积网络方法,可以逐层捕捉低、中、高层次时间尺度上的关系,在三个公共操作分割数据集上以视频或传感器数据实现了优越或竞争性能,并且可以在较短时间内训练完成。
Aug, 2016
该研究提出了一种新颖的深度监督神经网络模型,利用了视觉跟踪,并结合了深度卷积神经网络(CNN)和循环神经网络(RNN)的鲁棒性来进行视频动作识别任务。研究结果表明,该模型在 UCF101 和 HMDB51 这两个具有挑战性的数据集上表现出色,仅使用卷积特征就可以达到最先进的水平。
Jul, 2016
本文介绍一种基于卷积神经网络的层级模型,用于动作识别任务。该模型采用最后一层卷积神经网络的输出特征作为基础,并设计了一个层级结构来捕获视频中的时间变化。同时,作者引入了一种用于提取视频关键帧的方法,从而提高了模型的性能表现。通过在多个动作数据集上的实验结果表明,该方法在动作识别任务上取得了优越的性能表现。
Dec, 2015
本文提出了一种新的视频表示方法,通过整合基于学习的时空特征聚合的最先进的双流网络,对整个视频的局部卷积特征进行聚合,探究了不同的空间和时间池化策略,将不同流的信号合并。实验表明,我们的表示方法相较于基础架构提升了 13% 的分类性能,在 HMDB51、UCF101、Charades 视频分类基准上的性能均优于其他基线。
Apr, 2017
该论文提出了一种新的网络结构,可以允许任意数量的帧作为网络输入,并采用编码层、时空金字塔池化层和特征拼接层解决了 CNN 在视频分类中帧数不定的问题,实验结果表明该方法在使用更少的训练数据时能超越同类方法。
Mar, 2015
提出了一种新的空时金字塔网络,将空间和时间特征以金字塔结构融合,从而加强彼此。使用紧凑的双线性运算符实现高效训练的双线性融合操作,最终网络在标准视频数据集上取得了最先进的结果。
Mar, 2019
本文提出了一种新颖的神经操作,通过在三个正交视图上进行 2D 卷积,协同编码了时空特征,并通过权值共享来促进空间和时间特征的学习,此方法在大规模基准测试中取得了最优性能,并通过对不同视图学习的系数进行量化,探讨了空间和时间特征的贡献,以提高模型的解释性并指导视频识别算法的设计。
Mar, 2019
本文提出一种改进卷积神经网络 (CNN) 网络的末层以提高动作识别的表征能力,通过对细节的敏感度提升,实现对 Kinetics-400 和 Something-Something-V1 数据集的最优表现。
Aug, 2019
本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法,通过 SVM 对特征进行分类,实验结果表明,在标准数据集上,该算法提高了 14% 的识别率。
Mar, 2017
本文分析基于 2D 或 3D CNN 的视频动作识别方法,比较这些方法之间的区别和进展,并开发了一个统一框架进行公平比较,发现在动作识别方面取得了显著的提高,但准确性未有进展,探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。
Oct, 2020