动作检测的结构化模型
本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法,通过 SVM 对特征进行分类,实验结果表明,在标准数据集上,该算法提高了 14% 的识别率。
Mar, 2017
本文提出了 A3D, 一种自适应 3D 网络,可以在一次训练后适应各种计算约束。通过权衡网络宽度和时空分辨率,生成良好的配置,而无需像网格搜索一样训练多个模型 并且计算成本可以在部署后适应变量约束,例如在边缘设备中。在三个维度上相互训练可以显著提高自适应网络的性能。当采用多路径框架(例如 SlowFast)时,我们的自适应方法可以促进更好的路径折衷,并且在 Kinetics 数据集上的广泛实验证实了该方法的有效性,也验证了性能增益在数据集和任务之间的迁移能力。
Nov, 2020
本文综述了 200 多篇关于视频动作识别的深度学习论文,介绍了 17 个影响模型设计的数据集和深度学习模型的发展历程,包括深度学习适应、双流网络、3D 卷积核和计算效率模型,并对几种方法在典型数据集上进行了基准测试,最后,讨论了视频动作识别面临的问题和未来的研究机会。
Dec, 2020
通过利用 “提议(proposals)” 方法生成行为区域的模型训练,能够在无约束视频中实现人的行为识别,无论是否存在摄像头运动;该方法在两个新的数据集中取得了超越最先进技术的性能,同时在异常行为检测场景中取得较高的成功率。
Jan, 2017
本研究采用 ConvLSTM-I3D 模型结合迁移学习和视频增广技术,针对 Smart Baby Care 动作识别任务,提出了一种新型轻量级框架。与其他基准模型相比,在更小的数据集和较少的计算资源下,实验框架取得了更好的性能。
Oct, 2022
本研究提出了一种用于视频中动作检测和分割的端到端 3D CNN,利用 3D 卷积特征识别和定位动作,通过平分视频为若干部分,生成不同段落的膜状提议,然后把不同段的提议联系在一起,通过上下文信息实现视频物体分割和动作检测。
Nov, 2017
本研究基于 Kinetics 数据集重新评估最先进的体系结构,并引入一种新的双流膨胀 3D ConvNet(I3D),该 ConvNet 可以在视频中学习无缝的时空特征提取器,利用成功的 ImageNet 架构设计及其参数,经过在 Kinetics 上的预训练后,I3D 模型在动作分类方面表现明显提高。
May, 2017
本文分析基于 2D 或 3D CNN 的视频动作识别方法,比较这些方法之间的区别和进展,并开发了一个统一框架进行公平比较,发现在动作识别方面取得了显著的提高,但准确性未有进展,探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。
Oct, 2020
该论文提出了两种基于 CNN 的体系结构,包括三种流,可以分别捕捉不同速率的空间和时间信息,并使用双向 LSTM 和注意力机制进一步提高模型性能,实现了人类动作识别任务的最先进表现。
Apr, 2021
本文提出了一个可适用于多种应用场景的人体动作识别框架,包含多形式人体检测和对应动作分类两个模块。其中,通过构建开源数据集来训练多形式人体检测模型,从而识别人的整体、上半身或部分身体,并采用动作分类模型来识别跌倒、睡觉等动作。实验结果表明,该框架对于各种应用场景都是有效的,是一种新的面向应用的人体动作识别 AI 范式。
Sep, 2022