利用渲染和比较进行焦距和物体姿态估计

CVPRApr, 2022

利用渲染和比较进行焦距和物体姿态估计

Focal Length and Object Pose Estimation via Render and Compare

Georgy Ponimatkin, Yann Labbé, Bryan Russell, Mathieu Aubry, Josef Sivic

TL;DR本文提出了 FocalPose 方法，采用神经网络进行渲染和比较，共同估计单个 RGB 图像中已知对象的相机 - 对象 6D 姿态和相机焦距。通过推导一个焦距更新规则，将现有的 6D 姿态估计器扩展到联合估计任务，研究了几种不同的损失函数，认为将直接焦距回归和重投影损失相结合可以获得更好的结果。在三个具有挑战性的基准数据集上展示了结果，证明了我们的焦距和 6D 姿态估计比现有的最先进方法误差更小。

Abstract

We introduce FocalPose, a neural render-and-compare method for jointly estimating the camera-object 6D pose and camera focal length given a single RGB input image depicting a known object. The contributions of th

neural render-and-compare 6d pose estimation camera focal length loss functions reprojection loss

发现论文，激发创造

FocalPose++：利用渲染和比较进行焦距和物体姿态估计

我们介绍了 FocalPose ++，一种神经渲染和比较方法，用于在给定描述一个已知物体的单个 RGB 输入图像的情况下，同时估计相机物体的 6D 姿态和相机焦距。

Nov, 2023

GP2C：约束几何投影参数的一致性以估计关节 3D 姿势和在野外的焦距

我们提出了一种联合 3D 姿态和焦距估计方法，采用深度学习技术和几何算法，通过将焦距明确地估计和整合到 3D 姿态估计中来实现对野外物体类别的姿态和焦距估计，并在 Pix3D、Comp 和 Stanford 三个具有不同物体类别的具有挑战性的真实世界数据集上进行了详细的评估，结果在多个指标上明显优于现有方法。

Aug, 2019

FAR：灵活、准确和稳健的 6DoF 相机相对姿态估计

相机位姿估计的方法可以通过找到对应关系和解决基础矩阵的方式在大多数情况下提供高精度，而使用神经网络直接预测姿态的方法对于有限重叠的情况更加鲁棒，并能够推断出绝对平移尺度，但精度较低。我们展示了如何结合这两种方法的优点；我们的方法能够同时提供精确和稳健的结果，并准确推断出平移尺度。我们模型的核心是一个 Transformer，它通过学习平衡已解决和学习的姿态估计，并提供一个先验信息来指导求解器。全面的分析支持了我们的设计选择，并证明了我们的方法能够灵活适应各种特征提取器和对应估计器，在 Matterport3D、InteriorNet、StreetLearn 和 Map-free Relocalization 上展现了最先进的 6 自由度姿态估计性能。

Mar, 2024

推动增强现实中的 6D 姿态估计 — 克服非受控图像的投影模糊

本研究主要解决在增强现实（AR）中准确估计六自由度姿态的挑战，我们提出了一种新颖的方法，通过分解 z 轴平移和焦距的估计，利用 FocalPose 架构中内置的神经渲染和比较策略，从无控制的 RGB 图像中准确估计六自由度姿态，并显著提高了 AR 环境中三维物体叠加的准确性，实验结果表明在六自由度姿态估计准确度上有明显改进，该研究成果对制造业和机器人领域具有潜在的重要应用。

Mar, 2024

神经对应场用于物体姿态估计

本文提出一种方法，通过单个 RGB 图像估计刚性物体的六自由度姿态，其中通过 3D 模型在摄像机视锥中采样三维查询点预测三维物体坐标，并借助全连接神经网络来实现神经对应场，最终使用 Kabsch-RANSAC 算法实现姿态估计，该方法在三个 BOP 数据集中都取得了最优结果。

Jul, 2022

基于语义关键点的六自由度物体位姿估计

本文提出了一种新的方法，使用卷积网络 (ConvNet) 预测语义关键点结合可变形形状模型，从单张 RGB 图像中估计物体的连续六自由度 (6-DoF) 姿态 (三维平移和旋转)，可以应用于基于实例和类别的姿态恢复，且无论是纹理还是无纹理对象均可。实验结果表明，该方法可在杂乱背景下准确地恢复实例和类别物体的 6-DoF 姿态，并在大规模 PASCAL3D+ 数据集上显示出最先进的精度。

Mar, 2017

PFRL: 无需姿态信息的强化学习在 6D 姿态估计中的应用

通过强化学习，使用 2D 图像注释作为微弱监督的 6D 姿态信息，我们构建了一个无需真实世界 6D 标签的 6D 姿态微调模型，从而实现了优化姿态模型的有效方法。

Feb, 2021

单幅 RGB 帧的基于语义关键点的姿态估算

该论文提出了一种从单个 RGB 图像中估计物体连续 6-DoF 姿态的方法，该方法结合了经卷积网络预测的语义关键点和可变形的形状模型，同时采用了半自动数据生成技术来训练可学习组件，在实验中该方法达到了与现有技术相当的结果。

Apr, 2022

LatentFusion: 端到端可区分重建与渲染，用于未见目标姿态估计

提出一个新的 6D 目标位姿估计方法，利用神经渲染器重建物体的潜在三维表示，从而优化给定输入图像的位姿估计，并通过对大量三维形状进行训练，使其具有很好的泛化性能。

Dec, 2019

学习少即是多 - 通过三维表面回归实现六自由度相机定位

本文针对如何从单个 RGB 图像中在给定的 3D 环境中预测 6D 相机姿态这一问题，通过设计并使用一个名为完全卷积神经网络的组件实现了高效、高精度和鲁棒性训练的端到端可训练的管道。令人惊奇的是，网络仅依靠单一视角的约束条件即可自动发现 3D 场景几何，甚至在没有利用场景 3D 模型的情况下，也能比现有技术更优秀。

Nov, 2017