一种基于深度学习的人体动作单张图像解析模型

Feb, 2015

一种基于深度学习的人体动作单张图像解析模型

An Expressive Deep Model for Human Action Parsing from A Single Image

Zhujin Liang, Xiaolong Wang, Rui Huang, Liang Lin

TL;DR本文主要研究如何通过使用深度置信网络方法来融合人体布局和周围信息从静态图像中理解人体行为，并使用手动标记的数据来改善网络的训练和微调阶段的效率。结果表明该方法具有较好的鲁棒性和优异的性能。

Abstract

This paper aims at one newly raising task in vision and multimedia research: recognizing human actions from still images. Its main challenges lie in the large variations in human poses and appearances, as well as the lack of temporal motion information. Addressing these problems, we propose to develop an expressive deep model to naturally integrate human lay

human action recognition deep belief net contextual information semantic gap visual multimedia

发现论文，激发创造

使用语义身体部位行为的单张图像动作识别

本篇论文提出一种基于语义身体部位行为的新型单张图片行为识别算法，通过给人体的五个部位（头部，躯干，臂部，手和腿）定义不同语义的部位行动来识别人体动作，并且通过串联局部行动预测出整个身体的行动，最终在 PASCAL VOC 2012 和 Stanford-40 两个数据集上，相比 State-of-the-art 的准确率分别提高了 3.8% 和 2.6%。

Dec, 2016

使用多任务深度学习进行 2D/3D 姿势估计和动作识别

本文提出了一种多任务框架，用于联合解决静态图像的二维和三维姿势估计及视频序列的人类动作识别问题。实现了端到端优化，与传统分开学习相比准确率显著提高，报告了使用该方法对 MPII、Human3.6M、Penn Action 和 NTU 四个数据集的测试结果，证明了其在目标任务上的有效性。

Feb, 2018

实时 3D 人体姿态估计和动作识别的多任务深度学习

本研究提出了一种多任务学习框架，能够同时从单眼彩色图像中估算二维或三维的人体姿态并分类人体动作。通过参数共享与关键预测部分解耦等技术，该框架能有效地处理静态图像和视频剪辑，实现了 100 帧以上的速度，并在四个数据集上显著提高了预测能力。

Dec, 2019

视频人体动作识别中的深度神经网络：综述

本篇论文研究了基于视频的人体行为识别任务，通过比较现有的深度学习框架（尤其是视频动作识别的表现）和机器学习框架，提出了多项新颖的研究方案。

May, 2023

迁移学习行为与人 - 物交互问题解答模型

本文提出了一种利用局部和全局上下文的深度卷积神经网络模型来预测静态图像中的人类活动标签，实现了对两个数据集上数百个标签的最先进性能。我们使用多实例学习来处理缺乏对单个人实例级别的监督的情况，并使用加权损失来处理不平衡的训练数据。此外，我们展示了如何利用这些数据集训练的专业特征来提高视觉问答任务（Visual Question Answering）的准确性，并取得了对人活动和人 - 物关系两种问题的改进。

Apr, 2016

利用姿态、动作和外观进行动作分类和检测的串联多流网络

本文提出了一种网络体系结构，计算和整合了人类动作识别中最重要的视觉线索：姿态，运动和原始图像，并引入了马尔科夫链模型进行融合，在 HMDB51，J-HMDB 和 NTU RGB+D 数据集上达到最先进的动作分类性能和在 UCF101 和 J-HMDB 数据集上达到最先进的时空动作定位结果。

Apr, 2017

利用 ConViT 进行静态图像中的人类动作识别

通过引入 Vision Transformer（ViT）作为卷积层，本文提出了一种新的模块，用于在图像中提取各个区域之间的关系，并将其应用于动作识别模型，实现了在 Stanford40 和 PASCAL VOC 2012 行为数据集上达到了分别达到了 95.5% mAP 和 91.5% mAP 的结果，可与其他最先进的方法相媲美。

Jul, 2023

视频数据中人类行为识别的深度学习方法

通过对深度学习模型的全面分析，这项研究揭示了卷积神经网络、循环神经网络和两流卷积神经网络在人体动作识别中的优势和性能差异，并强调了综合模型在实现强大的人体动作识别方面的潜力和优化的研究方向。

Mar, 2024

动作识别：从静态数据集到移动机器人

通过利用 “提议（proposals）” 方法生成行为区域的模型训练，能够在无约束视频中实现人的行为识别，无论是否存在摄像头运动；该方法在两个新的数据集中取得了超越最先进技术的性能，同时在异常行为检测场景中取得较高的成功率。

Jan, 2017

姿势为行动 - 行动为姿势

本研究提出一种基于人类行为信息以改善单目视频中的姿态估计的方法，运用具有高级信息的绘画结构模型，将高阶部分依赖性纳入考虑，通过建模行为专有的外观模型和姿态先验。同时，通过在姿态估计过程中使用统一的行为先验进行更新，而无需使用额外的昂贵的行为识别框架来较高效地估计动作先验。我们还展示了一定量的外观共享学习有助于姿态估计的正确性。该文在两个具有挑战性的数据集上进行了有效性验证，包含 80, 000 个测试图像。

Mar, 2016