TransNet: 透明物体类别级别的姿态估计
通过使用局部深度完成和表面法线估计,本文提出了一种名为 TransNet 的两阶段管道,用于估计透明物体的类别级姿势,该方法在大规模透明物体数据集上进行了评估,并与现有的类别级姿势估计方法进行了比较。比较结果表明,TransNet 在透明物体的姿势估计准确度方面取得了改进,并且我们利用 TransNet 构建了一个用于机器人抓取、放置和倒液的自主透明物体操作系统。
Jul, 2023
提出了一种新的基于立体影像系的分类物体姿态估计框架 StereoPose,能够有效地解决透明物体的姿态识别问题,并通过使用反视 NOCS 映射和视差注意力模块等方法,进一步优化了算法的性能。
Nov, 2022
我们提出了一种透明物体深度补全的端到端网络,结合了基于单视图 RGB-D 的深度补全和多视图深度估计的优点,并引入了基于置信度估计的深度细化模块,进一步改进了恢复的深度图。在 ClearPose 和 TransCG 数据集上进行的大量实验证明,与现有方法相比,我们的方法在具有显著遮挡的复杂场景中实现了更高的准确性和鲁棒性。
May, 2024
本论文提出了一种名为 MVTrans 的新型多视点方法,采用多种感知能力,包括深度估计、分割和姿态估计,可用于透明物体检测,并建立了一个逼真的数据集合成管道 Syn-TODD 用于网络训练。
Feb, 2023
本研究针对透明物体的属性,提出了一种大规模真实世界 RGB-Depth 透明物体数据集,命名为 ClearPose,用于定量评价分割、场景级深度完成和物体居中姿态估计的任务,该数据集包含超过 350K 个标记的真实世界 RGB-Depth 帧和 5M 个实例注释涵盖 63 种家庭物品等。
Mar, 2022
提出了一种新的透明物体的深度补全方法 TranspareNet,并成功建立了几乎 15000 张 RGB-D 图像的数据集 TODD,该方法不仅能够在复杂场景下对透明物体的深度进行精确的补全,而且也能够很好地处理有关干扰和混杂问题。
Sep, 2021
该研究提出了一种改进的基于 Transformer 的 6D 位姿估计方法 TransPose,它利用 RGB 图片作为输入,结合轻量级深度估计网络和变压器检测网络,并通过深度细化模块对位姿进行精度优化,在果树采摘应用方面取得了优于其他现有方法的效果。
Jul, 2023
该论文提出了一种基于双目视觉输入的深度神经网络,称为 KeyPose,并使用该网络从 RGB 相机标记的三维关键点预测物体姿势,即使在透明物体的情况下也能取得比现有方法更好的 3D 姿态估计表现。
Dec, 2019
通过神经网络学习适当估计透明或镜面表面的深度,无需任何真实标注,通过图像修复和处理得到可靠的伪标签,用于微调现有的单目或双目网络以学习处理透明或镜面表面,实验证实了我们提出的简单方法带来的显著改进。
Jul, 2023
TransPose 是一个利用 Transformer 编码器和几何感知模块的 6D 姿态框架,用于提取和利用深度信息中的几何特征,以实现更准确的预测。通过统一采样点云,并借助设计的局部特征提取器和图卷积网络提取局部几何特征;采用 Transformer 进行全局信息交换,使每个局部特征包含全局信息;最后,在 Transformer 编码器中引入几何感知模块,为点云特征学习提供有效约束,并使全局信息交换与点云任务更加紧密结合。实验结果表明,通过 TransPose 的 6D 姿态估计管道在三个基准数据集上取得了有竞争力的结果。
Oct, 2023