MV-ROPE: 面向鲁棒的类别级物体姿态和尺寸估计的多视角约束

Aug, 2023

MV-ROPE: 面向鲁棒的类别级物体姿态和尺寸估计的多视角约束

MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation

Jiaqi Yang, Yucong Chen, Xiangting Meng, Chenxin Yan, Min Li...

TL;DR提出了一种新颖的基于 RGB 图像的类别级 6D 物体姿态和尺寸估计框架，通过预测归一化物体坐标空间 (NOSC) 来提取 RGB 图像中的物体规范表示。通过利用多视图信息和单目密集 SLAM 框架，引入多视图约束，可以从单目图像中获取准确的相机姿态和深度估计。此外，通过引入相机相对姿态的约束，可以在多视图物体姿态上应用修剪策略和鲁棒姿态平均，从而在缺乏直接深度读数的情况下获得更准确、更鲁棒的类别级物体姿态估计。此外，还引入了一种新颖的 NOSC 预测网络，显著提高了性能。实验证明了我们提出方法的强大性能，甚至可以与公共数据集序列上的最先进的 RGB-D 方法相媲美。此外，通过在自收集数据集上评估，展示了我们方法的泛化能力。

Abstract

We propose a novel framework for RGB-based category-level 6D object pose and size estimation. Our approach relies on the prediction of normalized object coordinate space (NOCS), which serves as an efficient and effective object canonical representation that can be extracted from RGB images. Unlike previous approaches that heavily relied on additional depth r

rgb-based category-level 6d object pose and size estimation normalized object coordinate space (nocs)multi-view information monocular dense slam framework nocs prediction network

发现论文，激发创造

基于标准化目标坐标空间的分类别 6D 目标位姿和大小估计

本文旨在估计 RGB-D 图像中看不见的物体实例的 6D 姿态和尺寸，通过引入归一化对象坐标空间 (NOCS) 及基于区域的神经网络，结合大量混合现实数据来训练模型，最终能够在真实环境中以鲁棒的方式估计看不见的物体实例的姿态和大小，并在标准 6D 姿态估计基准上实现业内领先水平。

Jan, 2019

类别级别度量尺度物体形状和姿态估计

本文提出了一种框架，该框架可从一张单独的 RGB 图像中联合估计度量尺度形状和姿态，包括度量尺度物体形状分支（MSOS）和归一化物体坐标空间分支（NOCS）等；通过验证方法评估了类别级别的物体姿态和形状。

Sep, 2021

基于后视 NOCS 的双目图像透明物体类别级别的 6D 姿态估计

提出了一种新的基于立体影像系的分类物体姿态估计框架 StereoPose，能够有效地解决透明物体的姿态识别问题，并通过使用反视 NOCS 映射和视差注意力模块等方法，进一步优化了算法的性能。

Nov, 2022

基于 RGB 的类别级物体姿态估计与解耦的度量尺度恢复

本文提出了一种新颖的流程，通过解耦 6D 姿态和尺寸估计，减轻了单目观察带来的尺度不精确对刚性变换的影响，并借助预训练的单目估计器获取局部几何信息，以便搜寻二维 - 三维对应关系，并利用基于类别级统计的独立分支直接恢复物体的度量尺度，最后倡导使用 RANSAC-P$n$P 算法鲁棒求解 6D 物体姿态。在合成和真实数据集上进行了大量实验证明，相对于先前最先进的基于 RGB 的方法，我们的方法在旋转准确性方面表现出更高的性能。

Sep, 2023

基于虚拟相机的自由移动物体重建与姿态估计

我们提出了一种从单目 RGB 视频中重建自由移动物体的方法，无需任何先验信息，通过基于隐式神经表示同时优化对象的形状和姿态，其中方法的关键是一个虚拟摄像机系统，显著减小了优化的搜索空间。通过在 HO3D 数据集和佩戴在头部设备上捕获的主观 RGB 序列上的评估，我们证明了该方法明显优于大多数方法，并且与假设先验信息的最新技术相媲美。

May, 2024

OV9D：开放词汇类别级别 9D 物体姿态和尺寸估计

研究一种新的开放问题，即开放词汇类别级别的对象姿态和尺寸估计。介绍了一个基于预训练模型构建的框架，利用大规模数据集进行训练，并在各种文本描述的情况下实现了广泛推广。

Mar, 2024

MV6D: 使用深度点投票网络的 RGB-D 框架多视角 6D 位姿估计

提出了一种名为 MV6D 的多视角 6D 姿态估计方法，该方法使用多个视角的 RGB-D 图像，通过 DenseFusion 层融合每个视角的图像，可以精确预测杂乱场景中所有对象的 6D 姿态.

Aug, 2022

基于单目 RGB 图像的类别级 6D 物体姿态估计的对象级深度重建

本文提出了一种名为 OLD-Net 的新颖方法，该方法利用 RGB 图像推断出物体水平六维姿态。在这个方法中，我们利用两个新的模块 NGPH 和 SDDR 来学习高保真度的物体水平深度和精美的形状表示，最后通过将预测的规范化表示与反向投影的物体水平深度对齐来解决 6D 物体姿态问题，在挑战性的 CAMERA25 和 REAL275 数据集上进行了广泛实验，结果表明，我们的模型尽管简单，但实现了最先进的性能。

Apr, 2022

单幅 RGB 帧的基于语义关键点的姿态估算

该论文提出了一种从单个 RGB 图像中估计物体连续 6-DoF 姿态的方法，该方法结合了经卷积网络预测的语义关键点和可变形的形状模型，同时采用了半自动数据生成技术来训练可学习组件，在实验中该方法达到了与现有技术相当的结果。

Apr, 2022

多视角多类别物体姿态估计的统一框架

本文介绍了一种基于深度卷积神经网络的方法，能够通过对特定对象类的分类和姿态回归，从单个或多视图中准确地推断大量对象类的六自由度姿态，并通过 SE（3）的均匀镶嵌提高了鲁棒性。作者还提出了一种适用于单视角存在歧义的高效多视图框架，并在 YCB-Video、JHUScene-50 和 ObjectNet-3D 三个大规模基准测试中取得了优异的表现，与目前现有技术相比表现优秀。

Mar, 2018