基于本地 RGB-D Patch 的深度学习用于三维物体检测和六自由度位姿估计
我们提出了一种基于实时 RGB 的管道来实现物体检测和六自由度姿态估计。我们的创新性三维方向估计基于域随机化训练的三维模型的模拟视图,采用了变体的降噪自编码器。我们称之为增强自编码器相较于现有方法具有多个优点:它不需要真实标注的训练数据,适用于各种测试传感器,固有的处理物体和视角对称性。我们提出了一种隐式表征物体方向的方法,定义了潜在空间内的样本,而不是学习从输入图像到对象姿态的显式映射。我们的管道在 T-LESS 数据集的 RGB 和 RGB-D 领域均取得了最新成果。我们还在 LineMOD 数据集上进行评估,其中我们可以与其他合成训练方法竞争。当物体偏离图像中心时,通过纠正三维方向估计来进一步提高性能,并展示了扩展结果。
Feb, 2019
本文探讨了利用深度学习在 3D 物体检测中,针对使用 RGB-D 数据在室内和室外场景下进行点云识别所面临的挑战以及如何提高效率。通过利用成熟的 2D 物体检测器和先进的 3D 深度学习来提高区域建议与对象本地化的精度,以取得高回收甚至小目标检测的良好性能。在 KITTI 和 SUN RGB-D 3D 检测基准上进行了评估,相比现有技术取得了显著的大幅度升级,并具有实时性能。
Nov, 2017
本文介绍了一种名为 Deep-6DPose 的端到端深度学习框架,可以从单个 RGB 图像中同时检测、分割并恢复目标实例的 6D 姿态。实验表明,Deep-6DPose 比目前基于 RGB 的多阶段姿态估计方法更快,并且在标准的姿态基准数据集上显示出与现有方法相当的好的效果。
Feb, 2018
该研究旨在使用卷积神经网络检测和定位 RGB-D 场景中的物体,然后使用 3D 模型替换它们,相对于目前最先进的算法,该方法在 3D 检测任务中表现出 48%的相对改进,并且速度更快。
Feb, 2015
该研究提出了一种结合了深度学习和三维几何的方法,利用未带纹理的 CAD 模型和不需要针对新对象进行训练的方法,检测和估计图像中物体的 3D 姿态,并利用 Mask-RCNN 实现无需重新训练的对象检测,从而限制可能的对应关系数量。实验结果表明,该方法与之前的方法相当或更好。
Oct, 2020
本文提出了一种离散连续的旋转回归公式来解决对称物体旋转不确定性问题,并通过点聚集向量来检测物体位置,并在 LINEMOD 和 YCB-Video 基准测试中得到比现有方法更好的表现。
Feb, 2020
本文针对如何从单个 RGB 图像中在给定的 3D 环境中预测 6D 相机姿态这一问题,通过设计并使用一个名为完全卷积神经网络的组件实现了高效、高精度和鲁棒性训练的端到端可训练的管道。令人惊奇的是,网络仅依靠单一视角的约束条件即可自动发现 3D 场景几何,甚至在没有利用场景 3D 模型的情况下,也能比现有技术更优秀。
Nov, 2017
利用单个 RGB-D 图像,我们引入了一种新颖的方法来计算物体的 6DoF 姿态。通过密集对应,我们回归每个可见像素的物体坐标,从而有效降低输出空间并取得出色的性能,在 6D 姿态估计中胜过大多数先前的方法,特别是在遮挡场景中具有显著改进的优势。
May, 2024
本文提出了一种名为 3DMatch 的数据驱动模型,它可以学习用于建立局部 3D 数据对应关系的局部体积块描述符,且利用自我监督特征学习方法来汇集训练数据。实验证明,该描述符不仅可以用于重构新场景的局部几何形状的匹配,而且可以推广到不同的任务和空间尺度。
Mar, 2016
本文介绍了一种能够从 RGB 图像中检测三维物体和估计六自由度姿态的新型深度学习方法,称为 DPOD。该方法估计输入图像和可用的三维模型之间的密集多类二维三维对应关系图,通过 PnP 和 RANSAC 计算六自由度姿态,并使用基于深度学习的自定义方案对初始姿态估计进行了 RGB 姿态优化。与其他主要使用真实数据进行训练且不对合成渲染进行训练的方法不同,我们对合成数据和真实训练数据进行评估,显示出在所有最近的检测器中,此方法无论先前和后面都能够获得优异的结果。虽然具有精度,但本方法仍然具有实时性能。
Feb, 2019