使用上下文门控的可学习池化方法进行视频分类

CVPRJun, 2017

使用上下文门控的可学习池化方法进行视频分类

Learnable pooling with Context Gating for video classification

Antoine Miech, Ivan Laptev, Josef Sivic

TL;DR通过聚类聚合和可学习的非线性单元 Context Gating 模型改进了现有视频表达方式，提高了视频分类准确率。

Abstract

Current methods for video analysis often extract frame-level features using pre-trained convolutional neural networks (CNNs). Such features are then aggregated over time e.g., by simple temporal averaging or more sophisticated recurrent neural networks such as long short-term memory (L

video analysis pre-trained cnns temporal aggregation context gating video classification

发现论文，激发创造

利用深度神经网络进行大规模 YouTube-8M 视频理解

本文基于 YouTube-8M 大规模数据集，提出了三种视频分类模型，分别基于帧池化和 LSTM 网络，第三个模型使用 Experts 混合中间层以增加模型容量，并进行了一系列处理不平衡训练数据的实验。

Jun, 2017

可学习的池化方法用于视频分类

本研究旨在通过引入基于注意力机制和函数逼近的方法来改进局部视频描述符集成的现有方法，并提出了创建新体系结构的见解。在使用帧级视频和音频描述符的 'The 2nd YouTube-8M Video Understanding Challenge' 中展示了我们的解决方案。通过满足预算约束条件，我们获得了类似于现有技术的测试准确性，并探讨了改进现有技术的策略。模型实现可在此 https URL 中获得。

Oct, 2018

基于门卷积神经网络的大规模弱监督音频分类

本文介绍了一种门控卷积神经网络和一种基于时间注意力的定位方法，用于音频分类，并在 DCASE 2017 挑战赛的大规模弱监督声音事件检测任务中获得了第一名。

Oct, 2017

门控卷积网络的语言建模

本研究提出一种基于卷积神经网络的有限环境文本处理方法，采用新型简化门控机制，具有并行优势和长期学习效应，相比循环神经网络可获得更高的性能和更短的处理时间。在大规模文本任务中取得了领先水平，是非循环方法首次能够与强循环模型竞争。

Dec, 2016

深入探究卷积网络用于学习视频表示

使用门控循环单元递归网络学习视频的感知特征，从深度卷积网络的各个层级提取感知特征，包括高级和低级特征，结合前者的特殊信息和后者的空间信息，使用改进的 GRU 模型控制模型参数的数量，并在人类动作识别和视频字幕生成任务中证明其有效性。

Nov, 2015

基于全卷积递归网络的视频分割

本文提出了基于卷积门控循环单元网络的在线视频分割方法，利用滑动窗口对时间数据进行处理，并在变化检测数据集上进行实验，相比于常规的全卷积神经网络有 5.5% 的性能提升。

Jun, 2016

ContextVP：完全上下文感知视频预测

通过使用并行多维 LSTM 单元和融合单元进行数据聚合处理，提出了一种全面考虑过去背景信息的上下文感知结构，从而提高了视频预测的性能。该模型没有使用深度卷积网络、多尺度结构、分离前景和背景建模、运动流学习或对抗性训练等技术，性能超过了强基线模型并在多个领域展示了最新成果。

Oct, 2017

超越短片段：用于视频分类的深度网络

本论文提出和评估了几个深度神经网络架构，用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法，包括卷积时间特征池化和循环神经网络结构，该论文指出最佳神经网络在 Sports 1 million 数据集（73.1％对 60.9％）和 UCF-101 数据集中（88.6％对 88.0％）及无附加光流信息（82.6％对 72.8％）上明显性能提高。

Mar, 2015

上下文门控卷积

该论文提出了一种基于全局上下文动态调整卷积层权重的上下文门控卷积（CGC）方法，旨在更好地提取本地模式和生成区分特征，经过大量实验，该方法在图像分类、动作识别和机器翻译等任务上均有显著的性能提升。

Oct, 2019

视频分类的混合深度学习框架中建模时空线索

本文提出了一种混合式深度学习框架，旨在对视频的静态空间信息、短期运动以及长期时间线索进行建模，并且在 UCF-101 人体动作和 Columbia 消费者视频两个标注数据集上实验，结果表明该框架相对于传统策略具有更高的性能.

Apr, 2015