PKU-MMD: 一项大规模的连续多模态人类行为理解基准测试
针对计算机视觉和图形学中的高质量人体重建和逼真渲染问题,本研究提出了 PKU-DyMVHumans 数据集,用于密集的多视角视频中的动态人体场景的高保真重建与渲染,为 fine-grained 前景 / 背景分解、高质量人体重建和逼真的动态场景新视图合成等各种应用铺平了道路。
Mar, 2024
本论文介绍了一个大规模数据集,用于 RGB+D 人体动作识别。研究显示,应用深度学习技术的 3D 人体动作识别方法更加优越,并提出了新的 APSR 解决方案,可以有效地识别新的动作类型。
May, 2019
本文介绍了一个包含超过 56,000 个视频样本和 4 百万帧的大规模 RGB + D 人体动作识别数据集,其中包括 60 种不同的行为类别,并提出了一种新的循环神经网络结构来更好地对每个身体部位的特征进行长期时间相关性建模。实验结果表明,在跨主体和跨视图评估标准上,应用深度学习方法比最先进的手工制作特征具有优势。
Apr, 2016
本文介绍一种新的基于无人机的人类行为理解基准测试方法 (UAVHuman),其中包含超过 67000 多模态视频序列和 119 个被试进行动作识别、22476 帧进行姿态估计、41290 帧和 1144 个身份进行人员重识别,以及 22263 帧进行属性识别。并且我们提出了一种鱼眼视频驱动的动作识别方法,通过学习受平面 RGB 视频引导的无界变换来减轻鱼眼视频中的失真。
Apr, 2021
该研究论文介绍了一个名为 MVHumanNet 的大规模 3D 人体数据集,其中包含 4500 个人的多视角行动序列,以及 9000 个日常服装、60000 个运动序列和 6.45 亿帧的详细注释,通过该数据集的使用,进行了多个 2D 和 3D 视觉任务的实验,展示了性能的提升和有效应用的可能性。
Dec, 2023
本文介绍了一个新的数据集 MI-Motion,用来帮助研究多人运动预测,并提供基准测试来评估预测模型的性能,同时还介绍了一种新的基线方法 —— 图卷积神经网络和时间卷积神经网络。
Jun, 2023
介绍了一个新的包含人类行为的视频和语言数据集,该数据集专注于描述动态人类动作的故事意图和局限性表达式,该数据集预计对评估包括否定和量化在内的复杂语句与视频之间的多模态推理系统非常有用。
Jun, 2021
本研究基于 Kinetics 数据集重新评估最先进的体系结构,并引入一种新的双流膨胀 3D ConvNet(I3D),该 ConvNet 可以在视频中学习无缝的时空特征提取器,利用成功的 ImageNet 架构设计及其参数,经过在 Kinetics 上的预训练后,I3D 模型在动作分类方面表现明显提高。
May, 2017
本文介绍了一个新的大规模 RGB-D 数据集,其中包括固定视角和全方位视角下的 40 种行动,以及 VS-CNN 模型的提出和有效性验证,该模型可用于解决任意视角下行动识别的问题。
Apr, 2019