Recently, convolutional neural networks have shown promising results for 3D
geometry prediction. They can make predictions from very little input data such
as a single color image. A major limitation of such approaches is that they
only predict a coarse resolution voxel grid, which doe
本篇论文的目标是比较基于表面和基于体积的 3D 对象形状表示,以及基于观察者和基于对象的参照框架,在单视角 3D 形状预测中的表现。我们提出了一种新算法,可以从多个视角预测深度图,以单个深度或 RGB 图像为输入,并修改了网络和模型评估方式,以直接比较表面和体素、观察者和对象中心对熟悉和不熟悉对象的预测表现。我们发现,基于表面的方法优于基于体素的方法,对来自新类的对象产生更高分辨率的输出。基于观察者中心的坐标有助于处理新对象,而基于对象中心的表示法更适合处理熟悉的对象。值得注意的是,坐标框架对学习的形状表示有显著影响,基于对象中心的表示法更加重视隐式地识别对象类别,而基于观察者中心则对类别识别的依赖较少。
本文提出了一种通过一个可视化的二维图像还原立体物体的彩色与形状的方法,该方法为 an end-to-end trainable framework,能够同时处理 shape recovery 和 surface color recovery 问题,并利用一种叫做 Mean Squared False Cross-Entropy Loss 的新方法来处理原有模型表象的稀疏性问题。