NodeSLAM: 多视角形状重建的神经物体描述符
本研究论述了通过CNN架构识别单个和多个渲染图像视角的2D视图图集能够在3D物体识别方面表现出更好的性能,提出并证明CNN架构结合多个视角信息可提供更好的识别性能,同样适用于人手绘图的物体识别。
May, 2015
使用深度学习方法,构建一个名为3D-R2N2的递归神经网络结构,使用大量的合成数据将图像映射到对应的3D形状,无需图像注释或对象分类标签,可以在缺乏纹理或宽基线的情况下,实现对象的3D重建,并在单视图重建方面优于现有的最先进方法。
Apr, 2016
本论文介绍了一种无监督学习方法,将三维形状信息嵌入到单视图图像表示中,通过使用单个2D图像的自监督训练目标,在没有人工语义标签的前提下,鼓励表示捕捉基本形状原语和语义规律,最终学习得到一个强大的表示方法,可以成功进行物体识别和“心理旋转”操作,成果优于相对应的其他无监督学习方法。
Sep, 2017
本篇论文的目标是比较基于表面和基于体积的3D对象形状表示,以及基于观察者和基于对象的参照框架,在单视角3D形状预测中的表现。我们提出了一种新算法,可以从多个视角预测深度图,以单个深度或RGB图像为输入,并修改了网络和模型评估方式,以直接比较表面和体素、观察者和对象中心对熟悉和不熟悉对象的预测表现。我们发现,基于表面的方法优于基于体素的方法,对来自新类的对象产生更高分辨率的输出。基于观察者中心的坐标有助于处理新对象,而基于对象中心的表示法更适合处理熟悉的对象。值得注意的是,坐标框架对学习的形状表示有显著影响,基于对象中心的表示法更加重视隐式地识别对象类别,而基于观察者中心则对类别识别的依赖较少。
Apr, 2018
本文提出了一种在线优化的网络结构,通过避免依赖于深层神经网络的初始化,使用了概率形状先验指导深层特征以及图像线索,实现了从单个图像中重建三维形状,且相较于现有最先进方法,得到了可比较的结果。
Nov, 2018
本文研究了从未观察到的物体实例的可变数量的RGB视图学习特定类别的3D形状重建问题,并提出了一种可以估计密集3D形状并在多个和不同数量的输入视图上聚合形状的方法。
Jul, 2019
通过神经网络将几何结构编码到权重和偏置中,通过映射网络重构对象,可在7000参数的情况下达到与百万参数状态下的最新型物体解码器架构同等甚至更高的精度。
Jul, 2019
提出了一种可扩展的对象姿态估计方法,使用多个三维模型的模拟 RGB 视图进行训练,并使用所谓的“多路径学习”技术,涉及共享编码器和不同解码器,从而实现对不同实例的通用编码器的训练。在多个数据集上实现了最先进的 6D 目标检测结果。
Aug, 2019
本文提出一种名为Mem3D的新方法,通过构建形状先验和使用基于LSTM的形状编码器,以及使用Voxel Triplet Loss函数来重建包含噪声和遮挡的3D物体形状,该方法在ShapeNet和Pix3D数据集上表现优异。
Mar, 2020
通过神经对象表示学习对象形状分布并将其映射到潜在空间,我们利用不确定性感知编码器直接从单个输入图像生成具有不确定性的潜在代码以模拟3D物体重建领域中的不确定性,并在贝叶斯框架下提出增量融合方法来融合多视角观测的潜在编码,从而提高3D对象重建的准确性。
Jun, 2023