视频的时空演化神经网络架构

Nov, 2018

Evolving Space-Time Neural Architectures for Videos

AJ Piergiovanni, Anelia Angelova, Alexander Toshev, Michael S. Ryoo

TL;DR基于进化搜索算法的视频 CNN 结构自动探索方法可以在较短的时间范围内自动地发现新的、更好的视频体系结构，实现了空间和时间交互作用的学习，并提出了一种称为 iTGM 层的组件，可以更加有效地使用其参数，允许学习更长时间范围的空间 - 时间交互作用，并在多个测试数据集上表现出比现有模型更准确、更快的性能。

Abstract

We present a new method for finding video cnn architectures that capture rich spatio-temporal information in videos. Previous work, taking advantage of 3D convolutions, obtained promising results by manually designing video CNN architectures. We here develop a novel →

video cnn architectures evolutionary search algorithm itgm layer spatial and temporal interactions model development

发现论文，激发创造

AssembleNet: 在视频网络中搜索多流神经连接

本文提出一种名为 AssembleNet 的方法，通过进化算法自动发现连接更好、时空交互更强的神经网络结构，以达到更好的视频理解效果。该方法在公共视频数据集上优于以往的方法，尤其是在 Charades 数据集上，58.6% 的 mAP 表现尤为出色。

May, 2019

卷积神经网络结构搜索用于时空特征学习

基于 ImageNet 预训练的 ConvNets 在图像识别方面已经得到了证明，但是为了捕捉到运动模式，仍然需要专门的时空特征学习，本文提出了一种经验 ConvNet 架构搜索方法，通过 3D 残差 ConvNet 实现，其在 Sports-1M、UCF101、HMDB51、THUMOS14 和 ASLAN 上的表现均优于 C3D，且推断时间减少一半、模型大小减小一半，具有更紧凑的表现形式。

Aug, 2017

利用时间结构描述视频

这篇论文提出了一种基于循环神经网络和 3-D 卷积神经网络以及时间注意力机制的视频自动描述方法，并在 Youtube2Text 数据集上的 BLEU 和 METEOR 度量标准上超过了当前最先进的结果，并在更大更具挑战性的配对视频和自然语言描述数据集上进行了测试。

Feb, 2015

超越短片段：用于视频分类的深度网络

本论文提出和评估了几个深度神经网络架构，用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法，包括卷积时间特征池化和循环神经网络结构，该论文指出最佳神经网络在 Sports 1 million 数据集（73.1％对 60.9％）和 UCF-101 数据集中（88.6％对 88.0％）及无附加光流信息（82.6％对 72.8％）上明显性能提高。

Mar, 2015

视频的时空高斯混合层

本文介绍了一种新的卷积层 Temporal Gaussian Mixture (TGM) layer，并阐述了它如何用于有效地捕捉连续活动视频中更长期的时间信息，其中 TGM 层是一个由可完全区分的一小组参数（例如，高斯的位置 / 方差）所控制的时间卷积层，并且我们通过多层 TGM 层展现了完全卷积的视频模型进行活动检测，通过对 Charades 和 MultiTHUMOS 等多个数据集的广泛实验，验证了 TGM 层的有效性，显著优于现有技术。

Mar, 2018

时域三维卷积神经网络：视频分类的新架构和迁移学习

该研究论文提出了一种基于 3D CNN 和新颖的神经网络结构，可以使视频分类和人类行为识别的准确性优于现有技术，并通过迁移学习的技巧从二维卷积神经网络中转移知识来改善三维卷积神经网络的训练效果。

Nov, 2017

利用时空自编码器检测视频中的异常事件

我们提出了一种有效的方法来检测视频中的异常，该方法利用卷积神经网络的卷积层进行物体识别和识别，其中包括两个主要组件，一个用于空间特征表示，以及一个用于学习空间特征的时间演变。实验结果表明，我们的方法的检测准确性与最先进的方法相当，速度高达 140 帧 / 秒。

Jan, 2017

时空卷积神经网络的初始化策略

本研究提出了一种新的方法，可以将视频中的时间信息与在图像上训练的空间卷积神经网络 (ConvNets) 相结合，避免了从头训练时空卷积神经网络 (Spatio-Temporal ConvNets) 的训练。我们提出了几种初始化的方法，用 ImageNet 学习的 2D 卷积权重初始化三维卷积层的权重，并展示了初始权重的重要性，以学习视频的时间表示。我们对 UCF-101 数据集进行了评估，并证明了相比于空间卷积神经网络 (ConvNets) 它的提高。

Mar, 2015

高效架构搜索的层次化表示

本文介绍了一种基于层次遗传表征和复杂拓扑的新颖神经体系结构搜索方法，该方法能够高效地发现优于许多手动设计模型的分类器，同时该方法通过随机搜索得到了更高的准确度并将搜索时间缩短至 1 小时。

Nov, 2017

视频翻译的自适应特征抽象

本研究提出了一种新的方法，使用自适应的注意力机制和多层卷积神经网络特征（即特征抽象）来生成视频的时空表示，通过实验验证了该方法的有效性。

Nov, 2016