AutoVideo: 一个自动化视频动作识别系统
本文综述了 200 多篇关于视频动作识别的深度学习论文,介绍了 17 个影响模型设计的数据集和深度学习模型的发展历程,包括深度学习适应、双流网络、3D 卷积核和计算效率模型,并对几种方法在典型数据集上进行了基准测试,最后,讨论了视频动作识别面临的问题和未来的研究机会。
Dec, 2020
本文研究了在移动设备上的视频动作识别任务,提出了一个基于 MobileNetV2 和 Temporal Trilinear Pooling (TTP) 模块的方法,使用多种模态处理压缩视频,并进行了效率测试,结果表明我们的模型在移动设备上可以实现 40FPS 的识别速度,且在模型大小和时间消耗方面表现优异。
Aug, 2019
本文对计算机视觉中各种动作识别和检测算法进行全面的回顾和分析,探讨了一个典型动作识别和检测算法的两个步骤:特征提取和编码以及将特征分类为动作类别。同时,本文讨论了如何使计算机视觉算法能够像人类一样识别动作,解决了一些未解决的问题。
Oct, 2016
本文提出一种基于场景图,利用图像序列提取关键交互特征并编码动作模式和上下文的方法,同时引入基于事件的自动视频分割和聚类,成功地实现了识别手 - 物体和物体 - 物体交互,并匹配不同受试者执行的同一活动。
Apr, 2023
通过建立一个可解释的参数生成数码,我们使用程序生成和其他现代游戏引擎的计算机图形技术生成了一组逼真、多样化和符合物理规律的人类动作视频,含 39,982 个视频。利用 UCF101 和 HMDB51 数据集的实验表明,我们的方法可以通过结合使用大量合成视频和小型真实数据集,大幅提高识别性能,明显优于现有的无监督生成模型的微调。
Dec, 2016
本文提出了一个可适用于多种应用场景的人体动作识别框架,包含多形式人体检测和对应动作分类两个模块。其中,通过构建开源数据集来训练多形式人体检测模型,从而识别人的整体、上半身或部分身体,并采用动作分类模型来识别跌倒、睡觉等动作。实验结果表明,该框架对于各种应用场景都是有效的,是一种新的面向应用的人体动作识别 AI 范式。
Sep, 2022
在这项研究中,我们设计并评估了一个 CNN-RNN 架构以及一个定制的训练 - 推理框架,以应对腹腔镜手术行动识别中的挑战,包括动作持续时间变异、烟雾、血液积聚、快速相机运动、器官移动、物体阻挡等相关内容扭曲,以及不同照明和视角引起的手术场景变化。通过使用堆叠的循环层,我们的网络利用帧间依赖性来消除内容扭曲和动作识别中的变异的负面影响。此外,我们提出的帧采样策略有效地管理手术动作的持续时间变化,实现了高时间分辨率的动作识别。我们广泛的实验证实了我们的方法在动作识别方面相比静态 CNN 更为优越。
Nov, 2023
通过利用 “提议(proposals)” 方法生成行为区域的模型训练,能够在无约束视频中实现人的行为识别,无论是否存在摄像头运动;该方法在两个新的数据集中取得了超越最先进技术的性能,同时在异常行为检测场景中取得较高的成功率。
Jan, 2017