通过恢复两个稀疏采样和相邻视频帧的中间特征,本研究提出了一种新方法,以解决过采样帧引起的性能下降问题,并且在几个常用基线方法上提高了 50% 以上的效率,仅导致 0.5% 的识别准确率降低,同时在零 - shot 设置下也意外地改善了模型的概括能力。
Jul, 2023
本文通过提出一种称为 SMART 的方法,既能减少动作识别的计算成本,又能提高识别精度。该方法通过联合考虑帧的选择,而不是逐一考虑,使得好的帧更有效地分布在视频中,并成功地应用于多个基准测试中。
Dec, 2020
该研究提出了一种直接预测动作时间边界的完全端到端的方法,其中模型作为一个基于循环神经网络的智能体与视频交互,并使用 REINFORCE 来学习决策策略,取得了 THUMOS'14 和 ActivityNet 数据集的最先进结果。
Nov, 2015
本文研究了在移动设备上的视频动作识别任务,提出了一个基于 MobileNetV2 和 Temporal Trilinear Pooling (TTP) 模块的方法,使用多种模态处理压缩视频,并进行了效率测试,结果表明我们的模型在移动设备上可以实现 40FPS 的识别速度,且在模型大小和时间消耗方面表现优异。
Aug, 2019
本文综述了 200 多篇关于视频动作识别的深度学习论文,介绍了 17 个影响模型设计的数据集和深度学习模型的发展历程,包括深度学习适应、双流网络、3D 卷积核和计算效率模型,并对几种方法在典型数据集上进行了基准测试,最后,讨论了视频动作识别面临的问题和未来的研究机会。
通过一项健身活动视频的完全标注数据集,本文证明了基于原始像素的端对端学习方法可以与基于姿势估计的先进动作识别软件管道媲美,并且可以支持实时的重复计数等具有时间细粒度的任务。
May, 2023
提出一种新的基于弱监督框架,通过利用注意力机制定位动作帧同时识别未修剪视频中的动作,利用修剪视频中的信息传递知识来提高分类性能。在 THUMOS14 和 ActivityNet1.3 上经过广泛的实验,实验证明了该方法的有效性。
Feb, 2019
通过深度学习算法和启发式搜索方法相结合,优化视频帧的选取,提高动作识别模型的准确性。
Apr, 2023
探讨使用 CNN 特征表示整个视频以用于人类动作识别的问题,通过提取局部特征并将它们聚合成全局特征,将另一个映射函数用于将全局特征映射到全局标签
Jan, 2017
利用部分观察到的视频和原型表示,我们提出了一种早期行为识别模型,通过训练视频的短片段来预测行为并在多个实际数据集上取得了显著的改进。
Dec, 2023