通过姿态估计和匹配实现通用三维表示

ECCVOct, 2017

通过姿态估计和匹配实现通用三维表示

Generic 3D Representation via Pose Estimation and Matching

Amir R. Zamir, Tilman Wekel, Pulkit Argrawal, Colin Weil, Jitendra Malik...

TL;DR本文针对 3D 图像生成开展了探索，提出了一种基于多任务卷积神经网络的通用 3D 方案。通过建立代理 3D 任务来提供训练，神经网络在完成核心问题的同时也具备泛化能力和抽象能力，并在多个场景取得了超越 SIFT 等方法的成果。

Abstract

Though a large body of computer vision research has investigated developing generic semantic representations, efforts towards developing a similar representation for 3D has been limited. In this paper, we learn a generic 3D representation through solving a set of foundational proxy 3D tasks: object-centric →

3d representation convnet camera pose estimation wide baseline feature matching abstraction

发现论文，激发创造

三维人体姿态估计几何感知表示的弱监督发现

本研究提出了一种几何感知的人体姿态三维表示方法，通过使用多个视角和简单的自编码器模型以 2D 关键点信息为监督，在训练阶段建立共享的 3D 表示，进而通过骨架编码器 - 解码器机制在潜在空间提取仅与姿态相关的表示。实验结果表明，该方法能够显著提高现有姿态估计方法的性能。

Mar, 2019

无监督几何感知表示用于三维人体姿态估计

本文提出使用多视角图像而无需注释，来学习一个具有几何感知能力的身体表示，通过使用该身体表示，我们的方法在仅使用少量标记数据的情况下，显著优于完全监督的方法，并且在使用仅 1% 标记数据时，也优于其他半监督方法。

Apr, 2018

形状推姿：任意三维物体的深度姿态估计

我们提出了一种完全通用的深度姿态估计方法，通过动态条件姿态估计和目标物体的 3D 模型表示相结合，能够对不属于预定义类别的自然实体进行训练并将其推广到全新类型的 3D 对象。

Jun, 2019

基于合成数据的鲁棒性类别层次 3D 姿态估计

本篇论文提出 SyntheticP3D 数据集和 CC3D 方法，结合这两种方法可以实现在只用 10% 的真实数据的情况下，与当前最先进的模型在物体位姿估计方面取得了可与之媲美结果，在采用 50% 的真实数据时还超越了 SOTA 模型 10.4%。

May, 2023

使用多视角关键点对应估计单目图像中的物体姿态

利用物体分类内部几何规律的数据驱动姿态估计方法。首先，从 2D RGB 图像学习物体部分的姿态不变局部描述符。将这些描述符与来自固定３D 模板的关键点结合使用，生成给定单眼实际图像的关键点对应图。最后，使用这些关键点对应图，预测物体的３D 姿态。该方法在多个真实环境的视角估计数据集，如 Pascal3D + 与 ObjectNet3D 上的表现达到最佳水平，并且我们公开了所使用方法的代码以鼓励再生研究。

Sep, 2018

ImageNet3D：面向通用对象级别 3D 理解

通过与 ImageNet 数据集相结合，ImageNet3D 数据集提供了 200 个类别的 2D 和 3D 信息，从而为构建具有更强的通用性目标级三维理解的视觉模型提供了潜力。

Jun, 2024

GS-Pose: 基于几何和语义一致的类别级目标姿态估计

类别级别姿态估计是一项具有挑战性的任务，近期深度学习方法取得了很大进展，但常常受到需要大量数据集或精心调整的逼真模拟器的限制。为了解决这个冲突，我们提出利用从预训练基础模型中获取的几何和语义特征，通过将 2D 特征从基础模型投影到三维空间来对单个类别的物体模型进行匹配，并在训练好的匹配网络上处理对未见物体实例的新的单视图观测，这比先前方法需要的数据量显著减少。我们通过丰富的评估结果表明了这一点，并展示了比先前方法更好的性能。

Nov, 2023

通过诱导和限制表示进行等变单视角姿态预测

从二维图像中学习关于三维世界的知识是计算机视觉中的一个基本问题，本文提出了一种学习三维表示的算法，满足几何一致性约束，并在三个姿态预测任务中取得了 SOTA 结果。

Jul, 2023

单幅 RGB 帧的基于语义关键点的姿态估算

该论文提出了一种从单个 RGB 图像中估计物体连续 6-DoF 姿态的方法，该方法结合了经卷积网络预测的语义关键点和可变形的形状模型，同时采用了半自动数据生成技术来训练可学习组件，在实验中该方法达到了与现有技术相当的结果。

Apr, 2022

半监督式少样本学习的神经视图合成与匹配于 3D 姿态

本文提出了一个基于神经网络视图合成和匹配的学习框架，通过生成的伪标签来学习众多未标注图像中的物体 3D 姿态估计，同时结合 EM 算法的方式，逐步提高特征提取器在不同 3D 视角下的不变性，并通过在 PASCAL3D+ 和 KITTI 数据集上进行的实验证明，该方法在少样本学习下，尤其是掩盖度极高的情况下，比其他基线方法表现更好，且具有出色的鲁棒性。

Oct, 2021