视频动作识别的时空金字塔网络
为了最好地利用时空信息,我们研究了在空间和时间上融合 ConvNet 塔的多种方法,并发现在卷积层融合空间和时间网络而不是在 softmax 层融合可以大大减少参数。我们提出了一种新的 ConvNet 架构,以融合视频片段的空时信息,并在标准基准测试中评估了其性能,该架构达到了最先进的结果。
Apr, 2016
该论文提出了一种新的网络结构,可以允许任意数量的帧作为网络输入,并采用编码层、时空金字塔池化层和特征拼接层解决了 CNN 在视频分类中帧数不定的问题,实验结果表明该方法在使用更少的训练数据时能超越同类方法。
Mar, 2015
本研究提出将时空融合策略转换为概率空间,并在此基础上生成新的时空融合策略,从而实现对各种融合策略的网络级评估,以及获得关于时空融合的层级偏好的细粒度数值信息。该方法显著提高了时空融合的分析效率,并在四个著名的行动识别数据集上取得了最先进的性能。
Apr, 2020
本文提出了一种新颖的神经操作,通过在三个正交视图上进行 2D 卷积,协同编码了时空特征,并通过权值共享来促进空间和时间特征的学习,此方法在大规模基准测试中取得了最优性能,并通过对不同视图学习的系数进行量化,探讨了空间和时间特征的贡献,以提高模型的解释性并指导视频识别算法的设计。
Mar, 2019
本文介绍了一种新的结构 spatiotemporal ResNets,将两种架构 two-stream Convolutional Networks 和 Residual Networks 相结合,通过残差连接实现了空时交互,并引入可学习卷积过滤器,将图像 ConvNets 转换成空时网络,从而提高了动作识别的准确率。
Nov, 2016
本文介绍了一种网络,能够在任意时间戳上捕获多模态相关性,通过用莎侬融合法扩展了多模态卷积神经网络,提出了用相关网络学习预先训练的卷积神经网络的方法,并在 UCF-101 和 HMDB-51 数据集上进行实验,结果显示多模态相关性能够提高视频识别结果的准确性。
Jul, 2018
本文研究了几种用于视频分析的时空卷积形式,并研究了它们对动作识别的影响。我们在残差学习的框架下,实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外,我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终,我们设计了一个新的时空卷积块 “R (2+1) D”,这种方法产生的 CNN 的结果与最新技术相当甚至更好,可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。
Nov, 2017
本文提出了一种基于深度卷积神经网络的两通道 ConvNet 架构,结合了空间和时间网络,利用稀疏光流信息进行训练并使用多任务学习提高模型性能,成功地提高了视频动作识别的准确率。
Jun, 2014
本文提出了一种介于 3D 卷积和 CNN 特征融合之间的方法,使用卷积结构学习适当的模式,同时保留了特征流,并检验了该方法在 TSN、TRN 和 ECO 模型上的效果。
May, 2019