基于原始图网络的单图像 3D 物体估计
从一组图像或单目视频中联合估计相机姿态和密集几何,由于其计算复杂性和固有的视觉歧义,仍然是一个具有挑战性的问题。我们通过一种新的图像表示方法 ——SuperPrimitives 来解决这个问题,这些 SuperPrimitives 是通过将图像分割为语义相关的局部区域并利用最先进的单幅图像神经网络预测的表面法线方向来增强的。这提供了每个 SuperPrimitive 的局部几何估计,而它们的相对位置则根据多视角观察进行调整。我们通过解决深度补全、少视角的结构运动和单目密集视觉里程计三个三维重建任务展示了我们新表示方法的多功能性。
Dec, 2023
提出 MonoGRNet 用于从单目 RGB 图像通过几何推理在观测到的 2D 投影和未观测到的深度维度上进行遮挡物体的 3D 检测,并通过优化 3D 包围框的位置和姿态实现关节学习,表现出最先进的性能。
Nov, 2018
本论文提出一种实时框架,使用 RGB 图像序列增量构建一致的三维语义场景图,包括新颖的增量实体估计流水线和场景图预测网络,使用多视角和几何特征,通过迭代信息传递估计三维语义场景图。经过在 3RScan 数据集上大量实验证明,该方法在这项挑战性任务中表现良好,优于现有的最先进方法。
May, 2023
该研究提出了一种新的方法,可以同时恢复 3D 对象的几何形状和基于部分的分解,以及它们之间的潜在层次结构,实验证明考虑部分的组织确实有助于推理三维几何。
Apr, 2020
使用基于概率推理的重建框架,探索了基于不同形状表示和适当的学习架构的端到端学习策略,从而实现了从单个图像推断三维形状。通过我们的 Probabilistic Reconstruction Networks,使用基本的体素网格表征,实现了在 ShapeNet 数据集上的新的交集和移动距离评估指标的最新成果。
Aug, 2019
本文提出了一种基于单幅图像的全面三维场景理解的新管道,该管道可以预测物体形状、物体姿态和场景布局,利用最新的深度隐式表示方法解决了物体形状和布局的不精确估计的问题,通过物理违规损失函数避免了物体之间的错误场景。实验结果表明,该方法在物体形状、场景布局估计和三维物体检测方面优于现有最先进技术。
Mar, 2021
本文提出了一种卷积网络,可以仅仅基于单张图像预测出物体的 RGB 图和深度图,并将多幅深度图融合成完整点云后可转换成表面网格来对任意视野下的三维物体进行识别。网络通过合成的三维车和椅子模型进行训练,在有杂乱背景并搭配真实车辆图像的情况下,仍可生成合理的推测。
Nov, 2015
本文提出了一种利用图神经网络从三维环境中给定的一系列 RGB-D 帧逐步建立语义场景图的方法,并提出了一种适用于部分和缺失图数据的新型注意机制。实验表明,我们的方法在某些方面表现优于三维场景图预测方法,并且精度与其他三维语义方法和全景分割方法相当,同时运行速度达到每秒 35 帧。
Mar, 2021
该论文的研究结果表明在深度学习和编码器 - 解码器架构的帮助下,使用光线追踪跳跃连接和混合的 3D 模型表示技术可以从单个图像中重构出 3D 物体模型,并且同样的技术可以从单张图像中重构出多个 3D 物体模型,并处理遮挡问题。
Apr, 2020
使用深度神经网络从单一图像中重建 3D 点云坐标,设计了面对真实世界几何转换不变性和地面真实性模糊的问题的新型方法,包括条件形状采样器,能够预测多个可能的 3D 点云。在实验中表现优异,不仅在单图像 based 3D 重建基准测试中胜过现有技术,也在形状补全方面表现出强大性能,有望在多个可能性预测方面表现出色。
Dec, 2016