使用使用渲染的 3D 模型视图训练的 CNN 进行图像视角估计
本文比较了不同的物体类别视点估计方法,并提出一种新的联合训练方法,并强调了分类方法的优越性、深度架构和扩展训练数据的好处,并证明了即使使用 ImageNet 训练数据,合成数据也是有益的。结合所有这些因素,我们在 Pascal3D + 数据集上的结果比先前的最新成果提高了约 5%的 mAVP,特别是在 24 个视点分类任务上,将结果从 31.1%提高到 36.1%的 mAVP。
Sep, 2016
本文提出了一个能够联合解决检测、分类和视角估计问题的 CNN 结构,并将新类型的数据添加到训练中,在加入几何与新类型数据的情况下提出了一种新颖的损失函数。通过这些方法,网络的性能得到提高,将该问题的最新成果提高了 9.8%。
Jul, 2018
本文提出了一种使用真实图像来训练、无需 3D 场景真值信息,通过可微分点云渲染器将潜在 3D 特征点云转换为目标视图输出图像,并通过细化网络解码来填补缺失区域的新型端到端模型,在测试时可以对潜在特征空间进行可解释的操作,可以生成高分辨率图像并推广到其他输入分辨率,将在 Matterport、Replica 和 RealEstate10K 数据集上优于基线和之前的工作。
Dec, 2019
本研究旨在通过人体姿态空间的采样和真实图像纹理的提取,建立一个全自动,可扩展的方法来合成姿态注释的图像,从而为 3D 姿态估计任务提供合成培训数据,最终证明 CNNs 在合成图像上训练可以在 3D 姿态估计任务上胜过在真实照片上训练。
Apr, 2016
本文提出了基于类代表特征和几何相似性的少样本物体检测和视角估计方法,取得了 PASCAL,COCO,Pascal3D+,ObjectNet3D 和 Pix3D 数据集中的最优结果。
Jul, 2020
本文提出了一种卷积网络,可以仅仅基于单张图像预测出物体的 RGB 图和深度图,并将多幅深度图融合成完整点云后可转换成表面网格来对任意视野下的三维物体进行识别。网络通过合成的三维车和椅子模型进行训练,在有杂乱背景并搭配真实车辆图像的情况下,仍可生成合理的推测。
Nov, 2015
本文提出了一个自监督学习的方法,通过深度引导的调整过程,利用变换自编码器的网络结构,在只有 2D 图像和相关视角变换的情况下精确合成高质量的 3D 对象或场景的新视角,并实现了细粒度和精密的六自由度视角控制。通过在合成和真实场景以及精细和固定视角设置下的彻底评估,证明了该方法的广泛适用性。
Jan, 2019
本论文研究的问题是如何从给定的输入图像中合成出相同物体或场景在任意视角下的新图像。解决方案是通过卷积神经网络学习出现象的外在特征,从而实现像素重构,同时可以扩展到多个输入视图的合成。实验结果表明,该方法在合成出高品质图像方面的性能比之前基于 CNN 的技术更为优异。
May, 2016