从姿势 RGBD 数据学习预测场景级隐式 3D
该研究旨在使用卷积神经网络检测和定位 RGB-D 场景中的物体,然后使用 3D 模型替换它们,相对于目前最先进的算法,该方法在 3D 检测任务中表现出 48%的相对改进,并且速度更快。
Feb, 2015
本文针对如何从单个 RGB 图像中在给定的 3D 环境中预测 6D 相机姿态这一问题,通过设计并使用一个名为完全卷积神经网络的组件实现了高效、高精度和鲁棒性训练的端到端可训练的管道。令人惊奇的是,网络仅依靠单一视角的约束条件即可自动发现 3D 场景几何,甚至在没有利用场景 3D 模型的情况下,也能比现有技术更优秀。
Nov, 2017
本文提出了一种利用图神经网络从三维环境中给定的一系列 RGB-D 帧逐步建立语义场景图的方法,并提出了一种适用于部分和缺失图数据的新型注意机制。实验表明,我们的方法在某些方面表现优于三维场景图预测方法,并且精度与其他三维语义方法和全景分割方法相当,同时运行速度达到每秒 35 帧。
Mar, 2021
利用 RGBD 图像估算 3D 人体姿态,通过关键点检测器和深度信息实现 3D 提升,在真实环境下通过学习演示框架指示服务机器人模仿人类教师的操作,超越了单眼调色板和深度姿态估计方法的性能。
Mar, 2018
本文提出了一种基于 RGBD 图像的 3D 犬姿态估计方法,利用运动捕捉系统录制大量犬只的运动并生成数据集,使用堆叠沙漏网络进行 3D 关节点定位并结合形态和姿态的先验模型。我们在合成和实际 RGBD 图像上评估了模型,并将结果与以前发表的相关工作进行了比较。
Apr, 2020
本论文提出一种实时框架,使用 RGB 图像序列增量构建一致的三维语义场景图,包括新颖的增量实体估计流水线和场景图预测网络,使用多视角和几何特征,通过迭代信息传递估计三维语义场景图。经过在 3RScan 数据集上大量实验证明,该方法在这项挑战性任务中表现良好,优于现有的最先进方法。
May, 2023
我们提出了一种基于实时 RGB 的管道来实现物体检测和六自由度姿态估计。我们的创新性三维方向估计基于域随机化训练的三维模型的模拟视图,采用了变体的降噪自编码器。我们称之为增强自编码器相较于现有方法具有多个优点:它不需要真实标注的训练数据,适用于各种测试传感器,固有的处理物体和视角对称性。我们提出了一种隐式表征物体方向的方法,定义了潜在空间内的样本,而不是学习从输入图像到对象姿态的显式映射。我们的管道在 T-LESS 数据集的 RGB 和 RGB-D 领域均取得了最新成果。我们还在 LineMOD 数据集上进行评估,其中我们可以与其他合成训练方法竞争。当物体偏离图像中心时,通过纠正三维方向估计来进一步提高性能,并展示了扩展结果。
Feb, 2019
提出了一种端到端的三维重建方法,通过直接回归截断带符号距离函数(TSDF)从一组姿势 RGB 图像中实现。使用 2D CNN 独立地提取每个图像的特征,然后通过相机内参和外参进行反投影和累积到体素体积中。此外,通过该方法获取到了三维模型的语义分割。该方法在 Scannet 数据集上得到了评估,既在量化指标上,也在视觉效果上都超过了国际领先的基准结果。
Mar, 2020
本文提出了一种基于局部隐式神经表示的方法,使用射线 - 体素对捕获透明物体的深度信息,并在缺失深度数据的情况下,利用迭代式自我纠正模型和大规模合成数据集进一步完善估计,实验结果表明,这种方法在合成和真实数据上均比现有的最佳方法 ClearGrasp 表现显著优越,并将推理速度提高了 20 倍。
Apr, 2021