手物交互的新视角合成与姿态估计
使用半监督学习的统一框架,通过显式的上下文推理和变换器之间的手和物体表示,估计来自单个图像的 3D 手和物体姿势,并利用大规模手 - 对象视频中的时空一致性生成伪标签作为约束条件去超越单个图像中有限的 3D 注释。
Jun, 2021
在稀疏多视图设置中,我们考虑了手 - 物体重建问题,给定同时捕获的手和物体的多个 RGB 图像,我们的模型 SVHO 将每个视图的预测融合成统一的重建,通过在合成手 - 物体数据集上训练,并在真实世界记录的未见过的物体的手 - 物体数据集上进行直接评估,我们显示出附加视图可以提高重建质量。
May, 2024
模拟手 - 物互动的姿态估计方法,通过不依赖稠密标注数据的光度一致性方法可同时进行手和物体的三维重建和精确定位,取得了 3D 手 - 物重建基准测试的最优结果,并展示了其在低数据场景下通过相邻帧获取信息以提高姿态估计精度的能力。
Apr, 2020
本论文主要探讨基于学习的单个或有限 2D 图像的新视角合成,提出了一个端到端可训练的条件变分框架,通过空间相关模块从外观描述图像中提取全局的 3D 表示形状、纹理和以观察者为中心的坐标系原点等,实现无需显式 3D 重建即可隐含 3D 理解。
Jul, 2020
本文提出了一个基于神经网络视图合成和匹配的学习框架,通过生成的伪标签来学习众多未标注图像中的物体 3D 姿态估计,同时结合 EM 算法的方式,逐步提高特征提取器在不同 3D 视角下的不变性,并通过在 PASCAL3D+ 和 KITTI 数据集上进行的实验证明,该方法在少样本学习下,尤其是掩盖度极高的情况下,比其他基线方法表现更好,且具有出色的鲁棒性。
Oct, 2021
通过利用 3D 高斯喷洒方法,我们开发了一种无需相机姿态的稀疏视图合成的新构建和优化方法,通过在构建过程中使用单目深度和将像素投影回 3D 世界来逐步构建解决方案,并通过检测训练视图与对应的渲染图像之间的 2D 对应关系,我们开发了一种统一可微的管道来完成相机注册和相机姿态与深度的调整,最后进行反投影。我们引入了高斯喷洒中预期表面的新概念,这对我们的优化至关重要。这些步骤使得我们能够获得一个粗糙的解决方案,然后可以使用标准优化方法进行低通滤波和细化。在 Tanks 和 Temples 以及 Static Hikes 数据集上,我们展示了仅使用三个广泛间隔的视图的结果,显示出明显优于竞争方法的质量,包括那些具有近似相机姿态信息的方法。此外,我们的结果在使用一半数据集时,随着视图数量的增加而改善,并且在使用 InstantNGP 和高斯喷洒算法时超过了先前的方法。
May, 2024
本论文提出了一种神经人体表现捕捉和渲染系统,以实现高质量的几何和逼真的纹理重建,尤其是在挑战性的人体物体交互场景下。通过执行分层场景解耦策略,同时进行体积重建和神经渲染人和物体,提出了交互感知的人 - 物捕捉方案,同时提出了以人为重点的物体跟踪,在自由视点下实现了高质量的几何和纹理重建。
Aug, 2021
生成逼真的手部动作序列与物体的交互在数字人方面越来越受到关注,之前的工作已经证明了利用基于占据或基于距离的虚拟传感器来提取手物体交互特征的有效性,但是这些方法在物体类别、形状和大小方面的泛化能力有限。为了解决这个挑战,我们引入了一种新颖的以关节为中心的传感器,用于推理潜在交互区域附近的局部物体几何。该传感器查询每个手关节附近的物体表面点。我们通过将点从全局坐标系转换为手部模板坐标系,并使用共享模块处理每个独立关节的传感器特征来减少学习复杂性。然后,我们使用时空转换网络捕捉不同维度中关节之间的相关性。此外,我们设计了简单的启发式规则,以扩充有限的训练序列,增加丰富的静态手抓取样本。这样在训练过程中观察到更广泛的抓取类型,从而增强了我们模型的泛化能力。我们在两个公开数据集 GRAB 和 InterCap 上进行评估,结果表明我们的方法在定量和感知上都优于基线模型。
Apr, 2024
本文研究了从稀疏源观测中合成新视角的问题,提出了一种简单而有效的方法,通过将观测编码到体积表示中进行摊销渲染,并通过自我监督信号实现了对 3D 几何的有效学习。
Jul, 2021