通过姿态估计和匹配实现通用三维表示
本研究提出了一种几何感知的人体姿态三维表示方法,通过使用多个视角和简单的自编码器模型以 2D 关键点信息为监督,在训练阶段建立共享的 3D 表示,进而通过骨架编码器 - 解码器机制在潜在空间提取仅与姿态相关的表示。实验结果表明,该方法能够显著提高现有姿态估计方法的性能。
Mar, 2019
本文提出使用多视角图像而无需注释,来学习一个具有几何感知能力的身体表示,通过使用该身体表示,我们的方法在仅使用少量标记数据的情况下,显著优于完全监督的方法,并且在使用仅 1% 标记数据时,也优于其他半监督方法。
Apr, 2018
我们提出了一种完全通用的深度姿态估计方法,通过动态条件姿态估计和目标物体的 3D 模型表示相结合,能够对不属于预定义类别的自然实体进行训练并将其推广到全新类型的 3D 对象。
Jun, 2019
本篇论文提出 SyntheticP3D 数据集和 CC3D 方法,结合这两种方法可以实现在只用 10% 的真实数据的情况下,与当前最先进的模型在物体位姿估计方面取得了可与之媲美结果,在采用 50% 的真实数据时还超越了 SOTA 模型 10.4%。
May, 2023
利用物体分类内部几何规律的数据驱动姿态估计方法。首先,从 2D RGB 图像学习物体部分的姿态不变局部描述符。将这些描述符与来自固定3D 模板的关键点结合使用,生成给定单眼实际图像的关键点对应图。最后,使用这些关键点对应图,预测物体的3D 姿态。该方法在多个真实环境的视角估计数据集,如 Pascal3D + 与 ObjectNet3D 上的表现达到最佳水平,并且我们公开了所使用方法的代码以鼓励再生研究。
Sep, 2018
通过与 ImageNet 数据集相结合,ImageNet3D 数据集提供了 200 个类别的 2D 和 3D 信息,从而为构建具有更强的通用性目标级三维理解的视觉模型提供了潜力。
Jun, 2024
类别级别姿态估计是一项具有挑战性的任务,近期深度学习方法取得了很大进展,但常常受到需要大量数据集或精心调整的逼真模拟器的限制。为了解决这个冲突,我们提出利用从预训练基础模型中获取的几何和语义特征,通过将 2D 特征从基础模型投影到三维空间来对单个类别的物体模型进行匹配,并在训练好的匹配网络上处理对未见物体实例的新的单视图观测,这比先前方法需要的数据量显著减少。我们通过丰富的评估结果表明了这一点,并展示了比先前方法更好的性能。
Nov, 2023
从二维图像中学习关于三维世界的知识是计算机视觉中的一个基本问题,本文提出了一种学习三维表示的算法,满足几何一致性约束,并在三个姿态预测任务中取得了 SOTA 结果。
Jul, 2023
该论文提出了一种从单个 RGB 图像中估计物体连续 6-DoF 姿态的方法,该方法结合了经卷积网络预测的语义关键点和可变形的形状模型,同时采用了半自动数据生成技术来训练可学习组件,在实验中该方法达到了与现有技术相当的结果。
Apr, 2022
本文提出了一个基于神经网络视图合成和匹配的学习框架,通过生成的伪标签来学习众多未标注图像中的物体 3D 姿态估计,同时结合 EM 算法的方式,逐步提高特征提取器在不同 3D 视角下的不变性,并通过在 PASCAL3D+ 和 KITTI 数据集上进行的实验证明,该方法在少样本学习下,尤其是掩盖度极高的情况下,比其他基线方法表现更好,且具有出色的鲁棒性。
Oct, 2021