从 RGB 视频中构建 3D 人物 - 物体关系:方法和挑战的实证分析
本文提出了一种从单个 RGB 视频自动重建与对象的人交互的 3D 运动的方法,估计人和物体的 3D 姿势,接触位置,被人类肢体激活的力和扭矩,方法主要集中在联合估计运动和动作力,运用大规模的轨迹优化问题,并且从输入视频自动识别出人与物体或地面之间的接触位置和时间,于真实数据集上验证了方法并展示了它在新的互联网视频数据集中的性能。
Apr, 2019
通过使用单目交互视频,我们提出了 HOLD,它是第一个无需 3D 手物体注释就能从中复原出联合的手和物体的方法,通过使用一个组合的隐式模型,能够从 2D 图像中复原出解缠细分的 3D 手和物体,并进一步结合手物体约束来改善复原质量,在实验室和入迷环境中优于全监督基线方法。
Nov, 2023
本文旨在从单目视频中获取手部和操纵对象的三维重构,提出了一种学习免费的拟合方法以应用于无法获取训练数据且具有不同难度等级的数据集,并量化评估了该方法。
Aug, 2021
该研究提出了一种基于神经网络和 SMPL 模型的新方法,用于通过一个单一的 RGB 摄像机跟踪三维人体、物体及其相对位移,且能够在强遮挡情况下保持稳健性。
Mar, 2023
使用一张 RGB 图像来重建手持物品的形状,通过利用手的关节运动对物品形状的高可预测性,提出了一种基于关节运动的条件重建方法,并通过一个内隐网络来推断物品的空间形态。
Apr, 2022
本文提出了一种实时的手和物体姿态联合追踪方法,利用一个单独的 RGB-D 相机,通过 3D GMM 算法和创新的正则化策略,同时解决了遮挡、快速运动和手与物体重合的问题,辅以判别式手部部分分类和物体分割,实现了实时追踪。实验结果表明,该方法具有速度、准确性和鲁棒性。
Oct, 2016
本文提出一种新方法,通过引入 2D 遮挡澄清和物理接触约束,从而处理遮挡下的表面重建问题,该方法在测试集上表现优于现有方法,HO3D 效果提高了 52%,HOD 效果提高了 20%。
Dec, 2023
我们通过对短视频剪辑进行手物体交互的重建任务。以输入视频为基础,我们的方法将 3D 推断视为每个视频的优化,并恢复物体形状的神经 3D 表示,以及时间变化的动作和手关节。尽管输入视频自然地提供了一些多视角线索来指导 3D 推断,但由于遮挡和有限的视角变化,这些线索本身并不足够。为了获得准确的 3D 结果,我们使用通用的数据驱动先验来引导重建过程中的多视角信号。具体来说,我们学习了一个扩散网络,来建模基于手配置和类别标签的对象(几何)渲染的条件分布,并利用它作为先验来指导重建场景的新视角渲染。我们在 6 个物体类别的自我中心视频上对我们的方法进行了实证评估,并观察到相较于先前的单视角和多视角方法有显著的改进。最后,我们展示了我们的系统能够从 YouTube 中重建任意剪辑,展示了第一人称和第三人称的交互。
Sep, 2023
建模人与物体之间的交互是近年来的一个新兴研究方向。本文描述了 RHOBIN 挑战赛的设置,并详细讨论了每个任务的优胜方法。观察到在严重遮挡设置下,人物重建任务变得更加成熟,而对象姿态估计和联合重建仍然是具有挑战性的任务。随着对交互建模的兴趣日益增长,希望本报告能够提供有用的见解,并促进未来在这个方向上的研究。
Jan, 2024
利用 RGBD 图像估算 3D 人体姿态,通过关键点检测器和深度信息实现 3D 提升,在真实环境下通过学习演示框架指示服务机器人模仿人类教师的操作,超越了单眼调色板和深度姿态估计方法的性能。
Mar, 2018