一种基于深度学习的人体动作单张图像解析模型
本篇论文提出一种基于语义身体部位行为的新型单张图片行为识别算法,通过给人体的五个部位(头部,躯干,臂部,手和腿)定义不同语义的部位行动来识别人体动作,并且通过串联局部行动预测出整个身体的行动,最终在 PASCAL VOC 2012 和 Stanford-40 两个数据集上,相比 State-of-the-art 的准确率分别提高了 3.8% 和 2.6%。
Dec, 2016
本文提出了一种多任务框架,用于联合解决静态图像的二维和三维姿势估计及视频序列的人类动作识别问题。实现了端到端优化,与传统分开学习相比准确率显著提高,报告了使用该方法对 MPII、Human3.6M、Penn Action 和 NTU 四个数据集的测试结果,证明了其在目标任务上的有效性。
Feb, 2018
本研究提出了一种多任务学习框架,能够同时从单眼彩色图像中估算二维或三维的人体姿态并分类人体动作。通过参数共享与关键预测部分解耦等技术,该框架能有效地处理静态图像和视频剪辑,实现了 100 帧以上的速度,并在四个数据集上显著提高了预测能力。
Dec, 2019
本文提出了一种利用局部和全局上下文的深度卷积神经网络模型来预测静态图像中的人类活动标签,实现了对两个数据集上数百个标签的最先进性能。我们使用多实例学习来处理缺乏对单个人实例级别的监督的情况,并使用加权损失来处理不平衡的训练数据。此外,我们展示了如何利用这些数据集训练的专业特征来提高视觉问答任务(Visual Question Answering)的准确性,并取得了对人活动和人 - 物关系两种问题的改进。
Apr, 2016
本文提出了一种网络体系结构,计算和整合了人类动作识别中最重要的视觉线索:姿态,运动和原始图像,并引入了马尔科夫链模型进行融合,在 HMDB51,J-HMDB 和 NTU RGB+D 数据集上达到最先进的动作分类性能和在 UCF101 和 J-HMDB 数据集上达到最先进的时空动作定位结果。
Apr, 2017
通过引入 Vision Transformer(ViT)作为卷积层,本文提出了一种新的模块,用于在图像中提取各个区域之间的关系,并将其应用于动作识别模型,实现了在 Stanford40 和 PASCAL VOC 2012 行为数据集上达到了分别达到了 95.5% mAP 和 91.5% mAP 的结果,可与其他最先进的方法相媲美。
Jul, 2023
通过对深度学习模型的全面分析,这项研究揭示了卷积神经网络、循环神经网络和两流卷积神经网络在人体动作识别中的优势和性能差异,并强调了综合模型在实现强大的人体动作识别方面的潜力和优化的研究方向。
Mar, 2024
通过利用 “提议(proposals)” 方法生成行为区域的模型训练,能够在无约束视频中实现人的行为识别,无论是否存在摄像头运动;该方法在两个新的数据集中取得了超越最先进技术的性能,同时在异常行为检测场景中取得较高的成功率。
Jan, 2017
本研究提出一种基于人类行为信息以改善单目视频中的姿态估计的方法,运用具有高级信息的绘画结构模型,将高阶部分依赖性纳入考虑,通过建模行为专有的外观模型和姿态先验。同时,通过在姿态估计过程中使用统一的行为先验进行更新,而无需使用额外的昂贵的行为识别框架来较高效地估计动作先验。我们还展示了一定量的外观共享学习有助于姿态估计的正确性。该文在两个具有挑战性的数据集上进行了有效性验证,包含 80, 000 个测试图像。
Mar, 2016