使用多视角动态图像进行深度视频动作识别
本文介绍了动态图像的概念,它是一种新型的紧凑表示方法,可用于视频分析,特别是与卷积神经网络(CNNs)相结合。它允许将任何视频转换为图片,从而可以立即将现有的针对静态图像分析的 CNN 模型扩展到视频,并在动作识别等标准基准测试中实现了最先进的性能。
Dec, 2016
本论文提出了三种简单、紧凑而有效的深度序列表示,称为 DDI、DDNI 和 DDMNI,用于孤立和连续行为识别。在这些动态图像上,设计了基于 ConvNet 的方法进行行动识别,取得了三个大型数据集上的最先进结果,即 Large-scale Continuous Gesture Recognition Dataset(Jaccard 指数 0.4109)、Large-scale Isolated Gesture Recognition Dataset(59.21%)和 NTU RGB + D Dataset(跨主体 87.08%和跨视角 84.22%),即使只使用深度模态。
Mar, 2018
本文提出了一种动态推断方法,从网络深度和输入视频帧数的角度来提高推断效率,通过在输入帧和计算图的深度之间建立将预测模块放置在预先选择的检查点上,并按照预定义的路径逐步在网格上进行推断,可在中途进行预测和提前停止。通过实例化三个动态推断框架并使用两个知名的骨干卷积神经网络,证明了新方法的优越性。
Feb, 2020
本文提出新的动态滤波器和动态运动表示(DMR)以改善人类动作识别,并使用 3D 卷积网络和多任务学习方法进行视频分类,实验结果表明 DynamoNet 对所有数据集具有很好的分类效果。
Apr, 2019
该论文提出了一种基于 3D dynamic voxel 的方法来实现深度图像中的三维动作识别,并通过 PointNet++ 进行端到端学习。通过在时间上分割深度图像并以体素的形式编码,从而提取动作中更丰富的时间顺序信息。实验表明,该方法在 NTU RGB+D 120 数据集上的交叉主体和跨场景测试设置中的准确性分别达到了 82.4%和 93.5%。
May, 2020
通过一个 encoder-decoder CNN 和 optical flow 方法,我们的研究为静态图像动作识别提供了一个新方法,即学习一个短期动态先验,在新的静态图像上推断预期的光流,成功地将学习的动作转移至标准的两流网络中,并且在七个数据集上表现出了良好的性能。
Dec, 2017
使用 Deep 3D Mask Volume 算法,基于自定义的 10 相机固定拍摄装置拍摄的 96 个高质量场景的多视角视频数据集,解决了动态场景视频视野合成中存在的一些挑战,实现了从静态相机拍摄的双目视频中的视角扩展,具有比逐帧静态视点合成方法或使用 2D 遮罩的方法更好的时间稳定性和较少的闪烁伪影,且允许更大的平移运动。
Aug, 2021
该论文提出了三种简单、紧凑而又有效的深度序列表示方法,分别称为动态深度图像 (DDI)、动态深度法线图像 (DDNI) 和动态深度运动法线图像 (DDMNI)。这些动态图像是从一系列深度图像构建而成的,使用双向排名池化来有效地捕捉时空信息,从而使我们能够对已经训练好的卷积神经网络 (ConvNets) 模型进行微调,以用于深度序列的分类。在该论文提出的基础上,我们开发了一个卷积神经网络 (ConvNets) 方法,用于手势识别,并在 2016 年 ChaLearn Looking at People(LAP)挑战赛的大规模隔离手势识别中进行了评估,达到了 55.57%的分类准确率,并排名第二,虽然只使用了深度数据,但非常接近最佳表现。
Jan, 2017
本文提出一种新的深度自编码器共享特定特征分解网络,将多模态信号分解成一系列组件,进而结合特征结构提出了一种结构化稀疏学习机以获得更好的分类性能,实验证明该方法在动作识别方面最先进。
Mar, 2016