使用多视角动态图像进行深度视频动作识别

Jun, 2018

使用多视角动态图像进行深度视频动作识别

Action Recognition for Depth Video using Multi-view Dynamic Images

Yang Xiao, Jun Chen, Yancheng Wang, Zhiguo Cao, Joey Tianyi Zhou...

TL;DR该研究扩展了动态成像技术在深度领域的应用，提出了多视角动态图像的概念，并通过卷积神经网络实现了特征学习与动作分析。

Abstract

dynamic imaging is a recently proposed action description paradigm for simultaneously capturing motion and temporal evolution information, particularly in the context of deep convolutional neural networks (CNNs).

dynamic imaging convolutional neural networks multi-view dynamic images feature learning action proposal approach

发现论文，激发创造

动态图像网络在动作识别中的应用

本文介绍了动态图像的概念，它是一种新型的紧凑表示方法，可用于视频分析，特别是与卷积神经网络（CNNs）相结合。它允许将任何视频转换为图片，从而可以立即将现有的针对静态图像分析的 CNN 模型扩展到视频，并在动作识别等标准基准测试中实现了最先进的性能。

Dec, 2016

基于深度池化的卷积神经网络大规模三维动作识别

本论文提出了三种简单、紧凑而有效的深度序列表示，称为 DDI、DDNI 和 DDMNI，用于孤立和连续行为识别。在这些动态图像上，设计了基于 ConvNet 的方法进行行动识别，取得了三个大型数据集上的最先进结果，即 Large-scale Continuous Gesture Recognition Dataset（Jaccard 指数 0.4109）、Large-scale Isolated Gesture Recognition Dataset（59.21％）和 NTU RGB + D Dataset（跨主体 87.08％和跨视角 84.22％），即使只使用深度模态。

Mar, 2018

动态推理：一种新的高效视频动作识别方法

本文提出了一种动态推断方法，从网络深度和输入视频帧数的角度来提高推断效率，通过在输入帧和计算图的深度之间建立将预测模块放置在预先选择的检查点上，并按照预定义的路径逐步在网格上进行推断，可在中途进行预测和提前停止。通过实例化三个动态推断框架并使用两个知名的骨干卷积神经网络，证明了新方法的优越性。

Feb, 2020

DynamoNet：动态动作和运动网络

本文提出新的动态滤波器和动态运动表示（DMR）以改善人类动作识别，并使用 3D 卷积网络和多任务学习方法进行视频分类，实验结果表明 DynamoNet 对所有数据集具有很好的分类效果。

Apr, 2019

3DV: 深度视频动作识别的 3D 动态体素

该论文提出了一种基于 3D dynamic voxel 的方法来实现深度图像中的三维动作识别，并通过 PointNet++ 进行端到端学习。通过在时间上分割深度图像并以体素的形式编码，从而提取动作中更丰富的时间顺序信息。实验表明，该方法在 NTU RGB+D 120 数据集上的交叉主体和跨场景测试设置中的准确性分别达到了 82.4％和 93.5％。

May, 2020

静态图像的动作幻觉用于动作识别的 Im2Flow 算法

通过一个 encoder-decoder CNN 和 optical flow 方法，我们的研究为静态图像动作识别提供了一个新方法，即学习一个短期动态先验，在新的静态图像上推断预期的光流，成功地将学习的动作转移至标准的两流网络中，并且在七个数据集上表现出了良好的性能。

Dec, 2017

视频分类的高效双流动态和外观 3D 卷积神经网络

本研究提出基于 3D 卷积神经网络的新型深度学习模型，可以更快速和准确地进行动作和运动表示，进一步整合光流特征从而获得更准确的结果。

Aug, 2016

基于深度 3D 掩模体的动态场景视图合成

使用 Deep 3D Mask Volume 算法，基于自定义的 10 相机固定拍摄装置拍摄的 96 个高质量场景的多视角视频数据集，解决了动态场景视频视野合成中存在的一些挑战，实现了从静态相机拍摄的双目视频中的视角扩展，具有比逐帧静态视点合成方法或使用 2D 遮罩的方法更好的时间稳定性和较少的闪烁伪影，且允许更大的平移运动。

Aug, 2021

基于卷积神经网络的大规模孤立手势识别

该论文提出了三种简单、紧凑而又有效的深度序列表示方法，分别称为动态深度图像 (DDI)、动态深度法线图像 (DDNI) 和动态深度运动法线图像 (DDMNI)。这些动态图像是从一系列深度图像构建而成的，使用双向排名池化来有效地捕捉时空信息，从而使我们能够对已经训练好的卷积神经网络 (ConvNets) 模型进行微调，以用于深度序列的分类。在该论文提出的基础上，我们开发了一个卷积神经网络 (ConvNets) 方法，用于手势识别，并在 2016 年 ChaLearn Looking at People（LAP）挑战赛的大规模隔离手势识别中进行了评估，达到了 55.57％的分类准确率，并排名第二，虽然只使用了深度数据，但非常接近最佳表现。

Jan, 2017

RGB+D 视频中的行为识别深度多模态特征分析

本文提出一种新的深度自编码器共享特定特征分解网络，将多模态信号分解成一系列组件，进而结合特征结构提出了一种结构化稀疏学习机以获得更好的分类性能，实验证明该方法在动作识别方面最先进。

Mar, 2016