TL;DR使用半监督学习的方法,通过将 2D 图像分解成潜在表示组成部分,结合类别、形状、反照率等信息,重建出 3D 的物体结构并生成输入图像的近似图像,有效地利用真实 2D 图像进行模型的拟合。
Abstract
Inferring 3D structure of a generic object from a 2D image is a long-standing
objective of computer vision. Conventional approaches either learn completely
from CAD-generated synthetic data, which have difficulty in inference from real
images, or generate 2.5D depth image via intrinsic
本文介绍了一种基于像素输入和 3D 刚性类别的输出的自动化流程,通过从现有物体检测数据集中学习可变形的 3D 模型并结合底层模块进行高频率形状细节恢复,实现了在单幅图像中获取真实场景下物体的三维表面重建,通过在最近引入的 PASCAL 3D + 数据集上的全面定量分析和消融研究展示了非常令人鼓舞的自动重建效果。
我们提出了一种自监督的,单视图三维重建模型,通过 2D 图像和物体的轮廓预测目标物体的 3D 网格形状、纹理和相机姿势,该方法不需要三维监督,手动注释的关键点,物体的多视图图像或先前的 3D 模板,通过自监督地学习分类特定图像的部分分割,我们可以在重建网格与原始图像之间有效强制实现语义一致性,从而大大减少了模型在预测物体形状、纹理和相机姿态时的歧义,并且我们的模型可以不需要这些标签而轻松地推广到各种物体类别。
论文提出了一种统一框架,用于解决单幅图像特定类别的 3D 重建和新 3D 形状生成的问题。该方法支持弱监督学习,只需要单个实例的 2D 图像,使用网格作为输出表示,并利用光照信息提高了性能。实验结果表明,该方法在定量度量上与最新的基于体素方法相当或优于,而且结果更加美观,并且在弱监督学习方面表现良好。