使用 2D 估计进行 3D 物体定位的计算机视觉应用
使用 2D 标签和对象运动的物理知识,我们提出了一种新颖的方法,可以从单个校准摄像机的单个图像中精确地定位 3D 对象的位置,而无需昂贵的 3D 标签,即使在训练期间从未见过这些信息,我们的模型也能推断出潜在的第三维度。通过在合成和真实数据集上评估,我们的方法在真实数据实验中能够达到均方误差仅为 6 厘米,结果表明这种方法在无法收集 3D 数据进行训练的情况下学习 3D 对象定位估计的潜力。
Oct, 2023
本文提出了一种从单个校准图像中实现三维篮球定位的新方法,通过预测对象在图像空间中的像素高度,并利用图像本身和对象的位置作为输入,估计其在图像中投影到地平面上,并利用已知的投影矩阵重建篮球的三维坐标,实验结果表明该方法相对于最近的研究取得了显著的精度改进,从而为提高球类跟踪和理解的可能性开辟了新的空间,推动了计算机视觉在不同领域的发展。
Sep, 2023
本文提出了一种基于 2D-3D 线对应的高效单目相机在先前 LiDAR 地图中的定位方法,并使用位姿预测和离群值排除来优化相机位姿和 2D-3D 对应关系的投影误差,实验结果表明该方法可以在结构化环境中高效地估计相机位姿。
Apr, 2020
利用物体分类内部几何规律的数据驱动姿态估计方法。首先,从 2D RGB 图像学习物体部分的姿态不变局部描述符。将这些描述符与来自固定3D 模板的关键点结合使用,生成给定单眼实际图像的关键点对应图。最后,使用这些关键点对应图,预测物体的3D 姿态。该方法在多个真实环境的视角估计数据集,如 Pascal3D + 与 ObjectNet3D 上的表现达到最佳水平,并且我们公开了所使用方法的代码以鼓励再生研究。
Sep, 2018
本文提出了一种针对自动驾驶车辆 3D 物体检测任务的新型两阶段 3D 物体检测方法,通过深度卷积神经网络回归两个额外的 3D 物体属性并与二维和三维框之间的级联几何约束相结合,旨在获取 3D 空间中物体位置的最佳解。
Sep, 2019
提出了一种基于多摄像头的 3D 对象检测框架,使用基于上下文注意力的网络,直接在 3D 空间中进行边界框的预测,实现了全球最佳性能。
Oct, 2021
本文研究了利用多个视角的 2D 目标检测结果,同时估计每个目标的 3D 四面体表面以及相机位置,并提出了利用二次曲面作为 3D 地标描述符的 SLAM 方法,通过新颖的几何误差公式将 2D 目标检测的结果直接约束二次曲面参数;同时,针对目标局部可见性的挑战,开发了一种传感器模型来优化目标检测器的效果,最后使用基于因子图的方法联合估计相机位姿和约束的二次曲面参数。
Apr, 2018
本文综述了过去十年中提出的三维人脸重建方法,重点关注了那些只使用在不受控制条件下捕获的二维图片的方法。分类基于用于添加先验知识的技术,考虑了统计模型拟合、光度计和深度学习这三种主要策略,并分别审查了每种策略。我们发现,深度学习策略正在迅速增长,取代了广泛的统计模型拟合策略。相比之下,光度学方法的数量较少,因为需要强烈的基本假设来限制质量。此外,本文还确定了当前的挑战,并提出了未来研究的方向。
Nov, 2020
本文针对如何从单个 RGB 图像中在给定的 3D 环境中预测 6D 相机姿态这一问题,通过设计并使用一个名为完全卷积神经网络的组件实现了高效、高精度和鲁棒性训练的端到端可训练的管道。令人惊奇的是,网络仅依靠单一视角的约束条件即可自动发现 3D 场景几何,甚至在没有利用场景 3D 模型的情况下,也能比现有技术更优秀。
Nov, 2017
本文提出了一种使用单张图片进行三维目标检测与姿态估计的方法,通过使用深度卷积神经网络来回归相对稳定的三维目标属性,并使用二维边界框提供的几何约束来组合这些估计,从而产生完整的三维边界框。
Dec, 2016