Detecting objects and estimating their viewpoints in images are key tasks of
3D scene understanding. Recent approaches have achieved excellent results on
very large benchmarks for object detection and viewpoint estimati
本文提出了一个基于神经网络视图合成和匹配的学习框架,通过生成的伪标签来学习众多未标注图像中的物体 3D 姿态估计,同时结合 EM 算法的方式,逐步提高特征提取器在不同 3D 视角下的不变性,并通过在 PASCAL3D+ 和 KITTI 数据集上进行的实验证明,该方法在少样本学习下,尤其是掩盖度极高的情况下,比其他基线方法表现更好,且具有出色的鲁棒性。
本文提出了一种可扩展,高效和准确的方法,用于检索野外对象的 3D 模型,包括了 3D 姿态估计,使用姿态先验来检索 3D 模型,使用基于 CNN 的多视图度量学习方法从 RGB 图像中检索图像描述符与采用的渲染深度图像匹配的深度图像得出精准的 3D 模型,报告了 Pascal3D + 上 3D 模型的定量结果。