从未见过的视角识别动作的人造人类
我们提出了一种人体姿态模型,可表示与服装纹理、背景、光线条件、身体形状和摄像机视点无关的 RGB 和深度图像。通过开发一个综合训练数据的框架,我们学习了 CNN 模型并使用它们从真正的 RGB 和深度帧的人体动作视频中提取不变特征。在三个基准跨视图人体动作数据集的实验中,我们的算法在 RGB 和 RGB-D 动作识别方面明显优于现有方法。
Jul, 2017
本文提出了使用由 3D 运动捕捉数据生成的合成真实人形图像的大规模数据集 (SURREAL) 来训练卷积神经网络 (CNNs),并且通过该数据集训练的 CNNs 在 RGB 图像中可以准确地进行人物深度估计和人物部分分割。
Jan, 2017
提出了一种利用低成本深度相机从单视角和稀疏 RGB-D 传感器中捕获任意人物,并从未见过的视角生成逼真渲染的视图合成框架。该方法可重建面部表情,具有良好的鲁棒性和高质量的渲染效果,优于之前的视图合成方法。
Dec, 2021
通过建立一个可解释的参数生成数码,我们使用程序生成和其他现代游戏引擎的计算机图形技术生成了一组逼真、多样化和符合物理规律的人类动作视频,含 39,982 个视频。利用 UCF101 和 HMDB51 数据集的实验表明,我们的方法可以通过结合使用大量合成视频和小型真实数据集,大幅提高识别性能,明显优于现有的无监督生成模型的微调。
Dec, 2016
提出了一种名为 RePoGen 的人体姿势综合控制方法,它可以生成具有极端视角和姿势的图像,我们使用这种方法来增强 COCO 数据集,实验证明,添加 RePoGen 数据后,可以超过以前的顶视姿态估计算法,同时显著提高底视点数据集的性能。
Jul, 2023
通过提取运动信息(光流和二维关键点),我们展示了神经网络方法可以在仅使用 SURREAL 合成数据的情况下与最先进的基于真实 3D 序列训练的方法相媲美地从 3D 视角估计人体姿态。
Jul, 2019
使用基于 Unity 的数据生成器 M3Act,进行多视角、多人、多群体的合成数据预训练,可在团体活动识别中提高 5.59%和 7.32%的精度及高达 6.8%的模型收敛速度。同时用 M3Act 生成含有大规模数据的 3d 运动,建立提出了多项检测标准并提出了一个新的竞争基线。
Jun, 2023
通过使用中间的二维表示,可学习的校准和三角测量来适应更多样化的相机设置,逐步聚合多视图信息在规范化三维空间中消除二维表示中的歧义,通过广泛的基准测试,特别是针对野外场景的未见过的情况下,我们展示了所提出的解决方案的优越性。
Dec, 2022
本文提出了基于三维表示的方法以及引入了一层新的几何卷积层,从而使当前卷积神经网络模型可以学习具有视角不变性的表示,且对于未见过的视角也可以进行识别。我们还提出了一个新的具有挑战性的未见视角识别数据集,并展示了该方法学习视角不变表示的能力。
Mar, 2021
本文介绍了一个新的大规模 RGB-D 数据集,其中包括固定视角和全方位视角下的 40 种行动,以及 VS-CNN 模型的提出和有效性验证,该模型可用于解决任意视角下行动识别的问题。
Apr, 2019