ActionVLAD：学习时空聚合以进行动作分类

CVPRApr, 2017

ActionVLAD：学习时空聚合以进行动作分类

ActionVLAD: Learning spatio-temporal aggregation for action classification

Rohit Girdhar, Deva Ramanan, Abhinav Gupta, Josef Sivic, Bryan Russell

TL;DR本文提出了一种新的视频表示方法，通过整合基于学习的时空特征聚合的最先进的双流网络，对整个视频的局部卷积特征进行聚合，探究了不同的空间和时间池化策略，将不同流的信号合并。实验表明，我们的表示方法相较于基础架构提升了 13% 的分类性能，在 HMDB51、UCF101、Charades 视频分类基准上的性能均优于其他基线。

Abstract

In this work, we introduce a new video representation for action classification that aggregates local convolutional features across the entire spatio-temporal extent of the video. We do so by integrating state-of-the-art →

video representation action classification two-stream networks spatio-temporal aggregation whole-video classification

发现论文，激发创造

视频动作识别的协作时空特征学习

本文提出了一种新颖的神经操作，通过在三个正交视图上进行 2D 卷积，协同编码了时空特征，并通过权值共享来促进空间和时间特征的学习，此方法在大规模基准测试中取得了最优性能，并通过对不同视图学习的系数进行量化，探讨了空间和时间特征的贡献，以提高模型的解释性并指导视频识别算法的设计。

Mar, 2019

视频动作识别的分层特征聚合网络

本文提出了一种介于 3D 卷积和 CNN 特征融合之间的方法，使用卷积结构学习适当的模式，同时保留了特征流，并检验了该方法在 TSN、TRN 和 ECO 模型上的效果。

May, 2019

基于卷积双流网络融合的视频动作识别

为了最好地利用时空信息，我们研究了在空间和时间上融合 ConvNet 塔的多种方法，并发现在卷积层融合空间和时间网络而不是在 softmax 层融合可以大大减少参数。我们提出了一种新的 ConvNet 架构，以融合视频片段的空时信息，并在标准基准测试中评估了其性能，该架构达到了最先进的结果。

Apr, 2016

用于长距离视频理解的时间聚合表示

本文提出了一种灵活的多粒度时间聚合框架，用简单的技术如最大池化和注意力实现了最新的下一步行动和密集预测，并在 Breakfast，50Salads 和 EPIC-Kitchens 数据集上取得了最新的实验结果，且兼容于视频分割和动作识别。

Jun, 2020

高效动作识别的组合空时聚合

本文提出一种名为 “grouped spatial-temporal aggregation” 的新型分解方法，将特征通道分解成空间和时间分组并在并行处理。实验证明，该方法在需要时序推理的动作识别任务上具有更加高效的性能。

Sep, 2019

视频动作识别的时空金字塔网络

提出了一种新的空时金字塔网络，将空间和时间特征以金字塔结构融合，从而加强彼此。使用紧凑的双线性运算符实现高效训练的双线性融合操作，最终网络在标准视频数据集上取得了最先进的结果。

Mar, 2019

用于视频动作识别的双流卷积神经网络

本文提出了一种基于深度卷积神经网络的两通道 ConvNet 架构，结合了空间和时间网络，利用稀疏光流信息进行训练并使用多任务学习提高模型性能，成功地提高了视频动作识别的准确率。

Jun, 2014

深度表示学习在动作识别方面的启示

通过可视化两流模型学习识别视频中人类动作所获得的深度时空表示，我们揭示了一些关键的观察结果，例如交叉流融合可以让网络学习到真正的时空特征，而不是简单的外观和动作特征，同时我们发现可视化不仅可以揭示学习到的表示，还可以说明系统失效的原因。

Jan, 2018

视频分类的混合深度学习框架中建模时空线索

本文提出了一种混合式深度学习框架，旨在对视频的静态空间信息、短期运动以及长期时间线索进行建模，并且在 UCF-101 人体动作和 Columbia 消费者视频两个标注数据集上实验，结果表明该框架相对于传统策略具有更高的性能.

Apr, 2015

可解释的时空注意力视频动作识别

通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性，并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签，模型不仅提高了准确性，还能时空自动定位区分性区域。

Oct, 2018