PKU-MMD: 一项大规模的连续多模态人类行为理解基准测试

Mar, 2017

PKU-MMD: 一项大规模的连续多模态人类行为理解基准测试

PKU-MMD: A Large Scale Benchmark for Continuous Multi-Modal Human Action Understanding

Chunhui Liu, Yueyu Hu, Yanghao Li, Sijie Song, Jiaying Liu

TL;DR本文介绍了一个新的大规模基准（PKU-MMD），用于连续多模态 3D 人类动作理解，并涵盖了广泛的复杂人类活动，包括 1076 个长视频序列，51 个动作类别，由 66 个主体在三个摄像机视图下执行，包含近 20,000 个动作实例和总共 5.4 百万帧。

Abstract

Despite the fact that many 3d human activity benchmarks being proposed, most existing action datasets focus on the action recognition tasks for the segmented videos. There is a lack of standard large-scale benchmarks

3d human activity benchmarks large-scale benchmarks multi-modality 3d human action understanding data-hungry deep learning based methods pku-mmd

发现论文，激发创造

PKU-DyMVHumans: 高保真动态人体建模的多视角视频基准

针对计算机视觉和图形学中的高质量人体重建和逼真渲染问题，本研究提出了 PKU-DyMVHumans 数据集，用于密集的多视角视频中的动态人体场景的高保真重建与渲染，为 fine-grained 前景 / 背景分解、高质量人体重建和逼真的动态场景新视图合成等各种应用铺平了道路。

Mar, 2024

NTU RGB+D 120：一个用于 3D 人体活动理解的大规模基准测试数据集

本论文介绍了一个大规模数据集，用于 RGB+D 人体动作识别。研究显示，应用深度学习技术的 3D 人体动作识别方法更加优越，并提出了新的 APSR 解决方案，可以有效地识别新的动作类型。

May, 2019

NTU RGB+D：一个用于 3D 人类活动分析的大规模数据集

本文介绍了一个包含超过 56,000 个视频样本和 4 百万帧的大规模 RGB + D 人体动作识别数据集，其中包括 60 种不同的行为类别，并提出了一种新的循环神经网络结构来更好地对每个身体部位的特征进行长期时间相关性建模。实验结果表明，在跨主体和跨视图评估标准上，应用深度学习方法比最先进的手工制作特征具有优势。

Apr, 2016

UAV-Human: 一项利用无人机进行人类行为理解的大型基准测试

本文介绍一种新的基于无人机的人类行为理解基准测试方法 (UAVHuman)，其中包含超过 67000 多模态视频序列和 119 个被试进行动作识别、22476 帧进行姿态估计、41290 帧和 1144 个身份进行人员重识别，以及 22263 帧进行属性识别。并且我们提出了一种鱼眼视频驱动的动作识别方法，通过学习受平面 RGB 视频引导的无界变换来减轻鱼眼视频中的失真。

Apr, 2021

MVHumanNet: 一个大规模的多视图日常穿着人类捕捉数据集

该研究论文介绍了一个名为 MVHumanNet 的大规模 3D 人体数据集，其中包含 4500 个人的多视角行动序列，以及 9000 个日常服装、60000 个运动序列和 6.45 亿帧的详细注释，通过该数据集的使用，进行了多个 2D 和 3D 视觉任务的实验，展示了性能的提升和有效应用的可能性。

Dec, 2023

MI-Motion 数据集和多人 3D 动作预测基准

本文介绍了一个新的数据集 MI-Motion，用来帮助研究多人运动预测，并提供基准测试来评估预测模型的性能，同时还介绍了一种新的基线方法 —— 图卷积神经网络和时间卷积神经网络。

Jun, 2023

使用人类动作构建视频语言数据集进行多模态逻辑推理

介绍了一个新的包含人类行为的视频和语言数据集，该数据集专注于描述动态人类动作的故事意图和局限性表达式，该数据集预计对评估包括否定和量化在内的复杂语句与视频之间的多模态推理系统非常有用。

Jun, 2021

行动识别的未来何去何从？一种新模型及动力学数据集

本研究基于 Kinetics 数据集重新评估最先进的体系结构，并引入一种新的双流膨胀 3D ConvNet（I3D），该 ConvNet 可以在视频中学习无缝的时空特征提取器，利用成功的 ImageNet 架构设计及其参数，经过在 Kinetics 上的预训练后，I3D 模型在动作分类方面表现明显提高。

May, 2017

面向任意视角人体动作识别的大规模多视角 RGB-D 动作数据集

本文介绍了一个新的大规模 RGB-D 数据集，其中包括固定视角和全方位视角下的 40 种行动，以及 VS-CNN 模型的提出和有效性验证，该模型可用于解决任意视角下行动识别的问题。

Apr, 2019

人体动作识别的多视点室外数据集

该论文提供了一个从多个角度观测人类行为的数据集，并在两流卷积神经网络结构配合核排名汇总的方法下获得了 74.0% 的动作识别准确率。

Oct, 2021