GSNet: 结合几何和场景感知监督进行车辆姿态和形状重建
本文提出了 Geometry Sharing Network (GS-Net) 解决了近几年对于使用深度卷积神经网络对 3D 点云进行分类时,如何处理数据的几何变换问题,实验结果表明 GS-Net 可以提高软件对于这些变换的鲁棒性。
Dec, 2019
GS-Pose 是一个端到端的定位和估计物体 6D 姿态的框架,通过构建三种不同的表示形式,利用逐步定位、检索方法和渲染比较方法,以适应各个阶段的合适物体表示,并利用可用的工具链和常见硬件进行新对象的数据捕捉和数据库添加。在 LINEMOD 和 OnePose-LowTexture 数据集上进行广泛评估,取得了卓越的性能,建立了新的最先进技术。
Mar, 2024
本文提出了一种快速形状网络(FS-Net),用于从单眼 RGB-D 图像中实现类别级 6D 姿态和大小的估计,该网络具有高效的类别级特征提取方法和新颖的解耦式旋转机制,该方法在两个基准数据集上实验表明取得了最佳性能。
Mar, 2021
本文提出了 GeoNet,这是一个基于联合无监督学习的框架,可用于从视频中估计单眼深度、光流和 Ego-motion。基于 3D 场景几何关系,由我们的框架以端到端的方式联合学习。实验结果表明,在 KITTI 驾驶数据集中,我们的方法在三个任务中均取得了最先进的成果,优于以前的无监督方法,并与受监督方法相当。
Mar, 2018
MGNet 是一个用于单目几何场景理解的多任务框架,结合了全景分割和自监督单目深度估计两个任务,旨在提供低延迟、实时单 GPU 推理,实现单高分辨率摄像头图像的密集 3D 点云和实例感知语义标签。研究人员在 Cityscapes 和 KITTI 数据集上进行了验证,发现其与其他实时方法的性能相当。
Jun, 2022
本研究基于车辆的单一 RGB 图像,提出了一种学习框架,其将 3D 视角的特征表示与 2D 外观特征相结合进行车辆识别,通过在 BoxCars 数据集上的分类和验证任务中取得优越性能的结果验证了该方法的有效性。
Mar, 2019
该研究提出了一种基于 SDFNet 的创新方法,可以通过仅仅一张图像实现对物体的三维形状进行准确预测,相对于 GenRe 和 OccNet 方法来说,该方法在对已知和未知物体的形状重建方面实现了最优性能。
Jun, 2020
本研究提出了一种可训练的、基于几何感知的图像生成方法,利用几何和分割等场景信息生成逼真自然、符合期望的场景结构的图像,并通过 GIS 框架插入驾驶场景中的车辆、生成来自 Linemod 数据集的物体新视角,展示其能够广泛适用于新颖的场景、物体形状和分割,且可用于合成大量训练数据以训练实例分割模型。
Sep, 2018
基于图神经网络的 GraNet 框架在无结构环境下实现了针对 6 维自由度的无对象依赖抓取,通过建立点云场景的多级图并通过图神经网络传播特征,提高了多尺度下的特征嵌入能力,从而实现了高效抓取的空间分布特征建模。该方法在大规模的 GraspNet-1Billion 基准测试中取得了最先进的性能,尤其在抓取未见过的物体上的平均精准度提高了 11.62 个百分点,实际机器人实验也证明了该方法在无结构环境中对分散物体的高成功率。
Dec, 2023
本研究提出了一种新颖的联合语义本地化和场景理解方法,通过训练卷积神经网络,通过物体实例的自我表征和 6-DoF 相机姿态预测来实现 3D 场景坐标估计,并且相比直接姿态回归或基于场景坐标的姿态估计算法更加准确。
Sep, 2019