探索人工解析模式用于动作识别

Jan, 2024

Explore Human Parsing Modality for Action Recognition

Jinfu Liu, Runwei Ding, Yuhang Wen, Nan Dai, Fanyang Meng...

TL;DR采用人体解析特征图作为一种新的模态，结合骨架和人体解析模态，提出了一种新的双分支框架（EPP-Net），通过后期融合策略有效地结合两种高级特征以实现更好的动作识别。

Abstract

multimodal-based action recognition methods have achieved high success using pose and RGB modality. However, skeletons sequences lack appearance depiction and RGB images suffer irrelevant noise due to modality limitations. To address this, we introduce →

multimodal-based action recognition human parsing feature map dual-branch framework epp-net late fusion strategy

发现论文，激发创造

将人体解析和姿态网络集成用于人体动作识别

该研究介绍了一种新的人体解析特征图，被提出用于人体动作识别，结合 IPP-Net 方法，将骨架和人体解析特征映射应用于双分支方法，以筛选人体空间和时间特征，设计出包含人体姿态和人体解析分支的网络体系结构，通过多个数据集的综合对比实验，证明了这种方法的优越性能。

Jul, 2023

基于骨架序列和 RGB 帧的多模态特征融合网络用于动作识别

本文研究动作识别，提出一种基于多模态特征融合网络的方法，将骨架序列和 RGB 帧的关键信息相结合，以此保留补充信息的同时大大降低了其网络的复杂性。实验表明，所提出的模型能够与现有最先进的方法相比取得竞争性的表现。

Feb, 2022

实时 3D 人体姿态估计和动作识别的多任务深度学习

本研究提出了一种多任务学习框架，能够同时从单眼彩色图像中估算二维或三维的人体姿态并分类人体动作。通过参数共享与关键预测部分解耦等技术，该框架能有效地处理静态图像和视频剪辑，实现了 100 帧以上的速度，并在四个数据集上显著提高了预测能力。

Dec, 2019

针对人类动作识别的姿态条件的时空关注

通过利用多模态视频数据，并提出使用两种方法来识别人类行为，包括使用卷积模型处理姿势流，由可调节关注机制控制图片流，最后经过 LSTM 神经网络对不同姿态下的处理进行特征提取，能够在多数据集上大幅度的提高人类行为识别的效果。

Mar, 2017

PSUMNet：统一模态部分流对于基于姿势的动作识别的高效实现

PSUMNet 是一种新方法，其在表征层面提出了一种基于全局框架的部分流方法来进行动作识别，比基于传统模态的流更有效，并且在 NTURGB + D 60/120 数据集和 NTU 60-X/120-X 密集关节骨架数据集上实现了最先进的性能。

Aug, 2022

姿态和关节感知动作识别

本文提出了一种基于关节的动作识别模型，使用共享的运动编码器从每个关节分别提取运动特征，再通过联合推理的方式进行识别，同时引入了选定更具判别性关节的加权计算机制，关节对比损失技巧，以及基于几何感知的数据增强技术等方法，经实验证明，在 JHMDB，HMDB，Charades，AVA 动作识别数据集上，以及 Mimetics 数据集上，相对于当前最先进的基于关节行动识别方法有大幅度提升。同时与 RGB 和基于光流的方法进行了融合处理，以进一步提高性能。

Oct, 2020

基于骨骼的动作识别再探讨

本文提出了基于 3D 热力图堆叠的 PoseC3D 方法，相较于基于图卷积网络的方法，能够更有效地学习时空特征、更具鲁棒性，并且适用于多人场景，同时在处理过程中也更加易于与其它视觉模态进行结合。在四个具有挑战性的数据集中，PoseC3D 方法均取得了卓越表现。

Apr, 2021

基于姿态引导的深度特征人体解析

本文提出了一种基于 segment-based parsing 管道的方法，利用人体姿势信息对人体进行语义区域划分，从而提高了部分提案的准确率，加速了推理并使得解析过程更规则化，经实验证明该方法相比现有技术具有更好的优越性能。

Aug, 2015

从合成数据中学习人体姿势模型以实现鲁棒的 RGB-D 动作识别

我们提出了一种人体姿态模型，可表示与服装纹理、背景、光线条件、身体形状和摄像机视点无关的 RGB 和深度图像。通过开发一个综合训练数据的框架，我们学习了 CNN 模型并使用它们从真正的 RGB 和深度帧的人体动作视频中提取不变特征。在三个基准跨视图人体动作数据集的实验中，我们的算法在 RGB 和 RGB-D 动作识别方面明显优于现有方法。

Jul, 2017

利用姿态、动作和外观进行动作分类和检测的串联多流网络

本文提出了一种网络体系结构，计算和整合了人类动作识别中最重要的视觉线索：姿态，运动和原始图像，并引入了马尔科夫链模型进行融合，在 HMDB51，J-HMDB 和 NTU RGB+D 数据集上达到最先进的动作分类性能和在 UCF101 和 J-HMDB 数据集上达到最先进的时空动作定位结果。

Apr, 2017