动作识别的排名汇聚
本文提出了一种新的广义秩池化方法,利用深度模型进行行为识别,保留帧之间的时序关系,实现对行为的更好分类识别效果。在基于多个活动识别的数据集上,广义秩池化的模型取得了最先进的识别效果。
Apr, 2017
该论文提出了一种新的网络结构,可以允许任意数量的帧作为网络输入,并采用编码层、时空金字塔池化层和特征拼接层解决了 CNN 在视频分类中帧数不定的问题,实验结果表明该方法在使用更少的训练数据时能超越同类方法。
Mar, 2015
本文提出了一种利用点云深度学习范式的方法,并引入了一种名为结构化关键点池化的深度神经网络架构,该方法针对骨架检测和跟踪误差、目标动作的少样性以及针对个人和帧的动作识别提出了统一的解决方案,同时还提出了一种 Pooling-Switching Trick,能够在弱监督下处理不同视频中的多个点云,实现对新数据的有效扩充,相比之前的研究能够更好地进行骨架和时空动作的识别和本地化。
Mar, 2023
本文介绍了动态图像的概念,它是一种新型的紧凑表示方法,可用于视频分析,特别是与卷积神经网络(CNNs)相结合。它允许将任何视频转换为图片,从而可以立即将现有的针对静态图像分析的 CNN 模型扩展到视频,并在动作识别等标准基准测试中实现了最先进的性能。
Dec, 2016
本文提出了一种介于 3D 卷积和 CNN 特征融合之间的方法,使用卷积结构学习适当的模式,同时保留了特征流,并检验了该方法在 TSN、TRN 和 ECO 模型上的效果。
May, 2019
本文提出了一种基于时间序列池化的特征表示框架,用于抽象活动视频中的短期 / 长期特征描述符的变化,并用于处理第一人称视频活动数据集的动作识别问题,与基于视觉词袋和改进的 Fisher 矢量的特征表示相比能够更好地表征第一人称视频中的动作。
Dec, 2014
我们探索用于视频手势识别的深度架构,其中包括时间卷积和双向递归,并展示循环在任务中的重要性,进而证明添加时间卷积会带来显著提高。我们在 Montalbano 手势识别数据集上评估了这些不同方法,并实现了最新的结果。
Jun, 2015
本文研究了在移动设备上的视频动作识别任务,提出了一个基于 MobileNetV2 和 Temporal Trilinear Pooling (TTP) 模块的方法,使用多种模态处理压缩视频,并进行了效率测试,结果表明我们的模型在移动设备上可以实现 40FPS 的识别速度,且在模型大小和时间消耗方面表现优异。
Aug, 2019