视频的时空演化神经网络架构
本文提出一种名为 AssembleNet 的方法,通过进化算法自动发现连接更好、时空交互更强的神经网络结构,以达到更好的视频理解效果。该方法在公共视频数据集上优于以往的方法,尤其是在 Charades 数据集上,58.6% 的 mAP 表现尤为出色。
May, 2019
基于 ImageNet 预训练的 ConvNets 在图像识别方面已经得到了证明,但是为了捕捉到运动模式,仍然需要专门的时空特征学习,本文提出了一种经验 ConvNet 架构搜索方法,通过 3D 残差 ConvNet 实现,其在 Sports-1M、UCF101、HMDB51、THUMOS14 和 ASLAN 上的表现均优于 C3D,且推断时间减少一半、模型大小减小一半,具有更紧凑的表现形式。
Aug, 2017
这篇论文提出了一种基于循环神经网络和 3-D 卷积神经网络以及时间注意力机制的视频自动描述方法,并在 Youtube2Text 数据集上的 BLEU 和 METEOR 度量标准上超过了当前最先进的结果,并在更大更具挑战性的配对视频和自然语言描述数据集上进行了测试。
Feb, 2015
本论文提出和评估了几个深度神经网络架构,用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法,包括卷积时间特征池化和循环神经网络结构,该论文指出最佳神经网络在 Sports 1 million 数据集(73.1%对 60.9%)和 UCF-101 数据集中(88.6%对 88.0%)及无附加光流信息(82.6%对 72.8%)上明显性能提高。
Mar, 2015
本文介绍了一种新的卷积层 Temporal Gaussian Mixture (TGM) layer,并阐述了它如何用于有效地捕捉连续活动视频中更长期的时间信息,其中 TGM 层是一个由可完全区分的一小组参数(例如,高斯的位置 / 方差)所控制的时间卷积层,并且我们通过多层 TGM 层展现了完全卷积的视频模型进行活动检测,通过对 Charades 和 MultiTHUMOS 等多个数据集的广泛实验,验证了 TGM 层的有效性,显著优于现有技术。
Mar, 2018
该研究论文提出了一种基于 3D CNN 和新颖的神经网络结构,可以使视频分类和人类行为识别的准确性优于现有技术,并通过迁移学习的技巧从二维卷积神经网络中转移知识来改善三维卷积神经网络的训练效果。
Nov, 2017
我们提出了一种有效的方法来检测视频中的异常,该方法利用卷积神经网络的卷积层进行物体识别和识别,其中包括两个主要组件,一个用于空间特征表示,以及一个用于学习空间特征的时间演变。实验结果表明,我们的方法的检测准确性与最先进的方法相当,速度高达 140 帧 / 秒。
Jan, 2017
本研究提出了一种新的方法,可以将视频中的时间信息与在图像上训练的空间卷积神经网络 (ConvNets) 相结合,避免了从头训练时空卷积神经网络 (Spatio-Temporal ConvNets) 的训练。我们提出了几种初始化的方法,用 ImageNet 学习的 2D 卷积权重初始化三维卷积层的权重,并展示了初始权重的重要性,以学习视频的时间表示。我们对 UCF-101 数据集进行了评估,并证明了相比于空间卷积神经网络 (ConvNets) 它的提高。
Mar, 2015
本文介绍了一种基于层次遗传表征和复杂拓扑的新颖神经体系结构搜索方法,该方法能够高效地发现优于许多手动设计模型的分类器,同时该方法通过随机搜索得到了更高的准确度并将搜索时间缩短至 1 小时。
Nov, 2017