TL;DR使用视频自监督和模板形变技术来实现单目 3D 重建并且进行数值优化,以便使计算得出的模型更加准确和具有解释性。
Abstract
monocular 3d reconstruction of articulated object categories is challenging
due to the lack of training data and the inherent ill-posedness of the problem.
In this work we use video self-supervision, forcing the
我们提出了一种自监督的,单视图三维重建模型,通过 2D 图像和物体的轮廓预测目标物体的 3D 网格形状、纹理和相机姿势,该方法不需要三维监督,手动注释的关键点,物体的多视图图像或先前的 3D 模板,通过自监督地学习分类特定图像的部分分割,我们可以在重建网格与原始图像之间有效强制实现语义一致性,从而大大减少了模型在预测物体形状、纹理和相机姿态时的歧义,并且我们的模型可以不需要这些标签而轻松地推广到各种物体类别。
本文提出一种学习框架,可以从单个图像中恢复物体的 3D 形状、相机、和纹理,使用一个可变形的 3D 网格模型来表示形状,在不依赖于地面真值 3D 或多视图监督的情况下,利用注释的图像集进行训练并学习 3D 预测机制与可变形模型。作者还展示了可以轻松将语义关键点与预测的形状相关联,并在 CUB 和 PASCAL3D 数据集上展示了我们的方法的定性和定量结果。
本篇论文旨在通过两种创新,基于从运动视角观察物体的方式,不需要手动注释,实现学习 3D 物体类别的传统方法。我们的系统基于两种创新:一种是具有鲁棒性的 Siamese 视点因子分解网络,可以对不同的视频进行对齐;另一种是可以从部分观测中提取对象的完整形状的 3D 形状完成网络。我们还演示了配置网络以执行概率预测和几何感知数据增强方案的好处。在公开可用的基准测试中,我们获得了最先进的结果。