动态图像网络在动作识别中的应用
本文提出了一种动态推断方法,从网络深度和输入视频帧数的角度来提高推断效率,通过在输入帧和计算图的深度之间建立将预测模块放置在预先选择的检查点上,并按照预定义的路径逐步在网格上进行推断,可在中途进行预测和提前停止。通过实例化三个动态推断框架并使用两个知名的骨干卷积神经网络,证明了新方法的优越性。
Feb, 2020
本论文提出了三种简单、紧凑而有效的深度序列表示,称为 DDI、DDNI 和 DDMNI,用于孤立和连续行为识别。在这些动态图像上,设计了基于 ConvNet 的方法进行行动识别,取得了三个大型数据集上的最先进结果,即 Large-scale Continuous Gesture Recognition Dataset(Jaccard 指数 0.4109)、Large-scale Isolated Gesture Recognition Dataset(59.21%)和 NTU RGB + D Dataset(跨主体 87.08%和跨视角 84.22%),即使只使用深度模态。
Mar, 2018
本文提出新的动态滤波器和动态运动表示(DMR)以改善人类动作识别,并使用 3D 卷积网络和多任务学习方法进行视频分类,实验结果表明 DynamoNet 对所有数据集具有很好的分类效果。
Apr, 2019
该论文提出了一种新的网络结构,可以允许任意数量的帧作为网络输入,并采用编码层、时空金字塔池化层和特征拼接层解决了 CNN 在视频分类中帧数不定的问题,实验结果表明该方法在使用更少的训练数据时能超越同类方法。
Mar, 2015
提出了一种函数为基础的时间汇集方法,该方法可捕获视频序列数据的潜在结构,并生成一个新的视频表示形式以适用于动作识别问题。结果表明,对于泛化的动作识别问题,精细化的动作识别问题和手势识别问题等,此方法都能够显著提高平均汇集基线的绝对值 7-10。
Dec, 2015
本研究提出了基于深度学习的时空注意力预测模型,其中采用两条流网络架构,探究了不同的信息融合机制。实验结果表明,采用运动信息可以有助于静态注意力估计,并取得了与最先进模型相竞争的结果。
Jul, 2016
本文提出动态网络量化框架,依据每个输入帧选择最佳精度以实现高效的视频识别,实验结果显示,在四种具有挑战性的基准数据集上,与现有先进方法相比,该方法提供了显著的计算和内存使用节约,同时保持竞争性能。
Aug, 2021
本研究提出了一种基于线性动态系统和非线性映射理论的预测 - 纠正神经网络模型,能够自适应地关注‘惊奇’的视频帧,优化学习效率。研究表明,该模型在三个挑战数据集上的表现与双流网络相当,而无需计算昂贵的光流技术。
Apr, 2017