通用排名池化用于活动识别

CVPRApr, 2017

Generalized Rank Pooling for Activity Recognition

Anoop Cherian, Basura Fernando, Mehrtash Harandi, Stephen Gould

TL;DR本文提出了一种新的广义秩池化方法，利用深度模型进行行为识别，保留帧之间的时序关系，实现对行为的更好分类识别效果。在基于多个活动识别的数据集上，广义秩池化的模型取得了最先进的识别效果。

Abstract

Most popular deep models for action recognition split video sequences into short sub-sequences consisting of a few frames; frame-based features are then pooled for recognizing the activity. Usually, this pooling

deep models action recognition temporal order pooling method cnn

发现论文，激发创造

动作识别的排名汇聚

提出了一种函数为基础的时间汇集方法，该方法可捕获视频序列数据的潜在结构，并生成一个新的视频表示形式以适用于动作识别问题。结果表明，对于泛化的动作识别问题，精细化的动作识别问题和手势识别问题等，此方法都能够显著提高平均汇集基线的绝对值 7-10。

Dec, 2015

非线性时间子空间表示用于行为识别

利用核化排名池化方法压缩数据序列表示，作为时间序列数据处理的新方法，能够提高计算机视觉，机器学习，人类动作识别等算法的效率和准确性。

Mar, 2018

使用区分性汇聚进行视频表示学习

本文提出一种基于深度学习的视频分类与识别方法，使用判别池化和多实例学习对视频进行分类，取得了在多项基准测试数据集上的最佳表现。

Mar, 2018

视频动作识别的分层特征聚合网络

本文提出了一种介于 3D 卷积和 CNN 特征融合之间的方法，使用卷积结构学习适当的模式，同时保留了特征流，并检验了该方法在 TSN、TRN 和 ECO 模型上的效果。

May, 2019

基于时间金字塔池化的卷积神经网络用于动作识别

该论文提出了一种新的网络结构，可以允许任意数量的帧作为网络输入，并采用编码层、时空金字塔池化层和特征拼接层解决了 CNN 在视频分类中帧数不定的问题，实验结果表明该方法在使用更少的训练数据时能超越同类方法。

Mar, 2015

第一人称视角视频的动作特征汇聚

本文提出了一种基于时间序列池化的特征表示框架，用于抽象活动视频中的短期 / 长期特征描述符的变化，并用于处理第一人称视频活动数据集的动作识别问题，与基于视觉词袋和改进的 Fisher 矢量的特征表示相比能够更好地表征第一人称视频中的动作。

Dec, 2014

深度本地视频特征用于动作识别

探讨使用 CNN 特征表示整个视频以用于人类动作识别的问题，通过提取局部特征并将它们聚合成全局特征，将另一个映射函数用于将全局特征映射到全局标签

Jan, 2017

使用级联双注意力 CNN 和双向 GRU 框架的人体运动识别

本文提出了一种空间 - 时间级联框架，利用深度学习算法提取人类活动的深入特征，并使用双向 Gated 循环单元进行长期时间建模和人类行为识别。实验结果表明，该方法与现有算法相比在帧每秒的执行时间方面提高了最多 167 倍。

Aug, 2022

深度卷积图网络的分层视频帧序列表示

本文提出了一种基于深度卷积图神经网络的视频分类方法，利用视频的分层结构特性通过图网络对视频帧序列进行多级特征提取，获得反映事件语义的视频表示，其在 YouTube-8M 大规模视频理解数据集上的表现优于基于 RNN 的基准模型。

Jun, 2019

渐进式关系学习用于群体活动识别

本研究提出了一种基于深度强化学习的新方法，通过构建语义关系图来显式地对人之间的关系进行建模，并应用两个代理来逐步优化低层次的空间 - 时间特征和高层次的语义关系，在离散动作空间中，特征蒸馏代理通过提炼最具信息量的关键帧来优化低层次特征，在连续动作空间中，关系门控代理调整高层次的语义图以更多地关注与群体相关的关系，实验结果表明，该方法在两个广泛应用的基准上具有有效性和优越性。

Aug, 2019