使用在合成 RGB-D 上训练的深度网络实现语义姿态

ICCVAug, 2015

使用在合成 RGB-D 上训练的深度网络实现语义姿态

Semantic Pose using Deep Networks Trained on Synthetic RGB-D

Jeremie Papon, Markus Schoeler

TL;DR通过深度卷积神经网络实现室内场景理解的任务。为了克服 RGB-D 训练数据不足的问题，采用实时渲染技术生成合成室内场景，并通过迁移学习的方式使得模型能够处理具有高度挑战性的真实场景。该神经网络具备较短的运行时间，可同时估计类别、姿态和位置等参数。

Abstract

In this work we address the problem of indoor scene understanding from RGB-D images. Specifically, we propose to find instances of common furniture classes, their spatial extent, and their pose with respect to ge

indoor scene understanding rgb-d images furniture classes convolutional neural network transfer learning

发现论文，激发创造

从 RGB-D 图像推断三维物体姿态

该研究旨在使用卷积神经网络检测和定位 RGB-D 场景中的物体，然后使用 3D 模型替换它们，相对于目前最先进的算法，该方法在 3D 检测任务中表现出 48％的相对改进，并且速度更快。

Feb, 2015

家庭物品语义机器人抓取的深度物体姿态估计

通过使用合成数据，我们提出了一种用于单个 RGB 图像的已知物体 6-DoF 姿态估计的深度神经网络训练方法，成功地跨越了所谓的现实间隙，并通过机器人进行了实时物体姿态估计，取得了与基于真实数据的深度神经网络相当的表现。

Sep, 2018

从合成数据中学习人体姿势模型以实现鲁棒的 RGB-D 动作识别

我们提出了一种人体姿态模型，可表示与服装纹理、背景、光线条件、身体形状和摄像机视点无关的 RGB 和深度图像。通过开发一个综合训练数据的框架，我们学习了 CNN 模型并使用它们从真正的 RGB 和深度帧的人体动作视频中提取不变特征。在三个基准跨视图人体动作数据集的实验中，我们的算法在 RGB 和 RGB-D 动作识别方面明显优于现有方法。

Jul, 2017

Deep-6DPose：从单个 RGB 图像中恢复 6D 物体姿态

本文介绍了一种名为 Deep-6DPose 的端到端深度学习框架，可以从单个 RGB 图像中同时检测、分割并恢复目标实例的 6D 姿态。实验表明，Deep-6DPose 比目前基于 RGB 的多阶段姿态估计方法更快，并且在标准的姿态基准数据集上显示出与现有方法相当的好的效果。

Feb, 2018

DeLS-3D: 3D 语义地图的深度定位与分割

该研究提出了一种基于深度学习的统一框架，通过将相机视频、运动传感器（GPS/IMU）和三维语义地图进行传感器融合，以实现自主驾驶、自我定位和场景分类等多个应用领域中场景解析和相机姿态同时处理的目的。研究使用的技术包括渲染技术，使用相机姿态和三维语义地图生成标注地图，并在深度神经网络中进行联合训练，以提高姿态估计精度。该研究表明，相较于单一传感器，传感器融合对于目标跟踪及姿态估计具有更高的鲁棒性和准确性。

May, 2018

学习分析合成在 RGB-D 图像中的 6D 姿态估计

该研究提出了一种基于卷积神经网络（CNN）的后验概率密度的学习比较方法，可以更准确地进行物体的 6D 位姿估计。经过实验证明，相比于现有技术，在不同场景下且包括不同形状和外观的 11 个物体的多个数据集中，具有显著的性能提升。

Aug, 2015

从 RGBD 传感器预测犬类姿态的 RGBD-Dog

本文提出了一种基于 RGBD 图像的 3D 犬姿态估计方法，利用运动捕捉系统录制大量犬只的运动并生成数据集，使用堆叠沙漏网络进行 3D 关节点定位并结合形态和姿态的先验模型。我们在合成和实际 RGBD 图像上评估了模型，并将结果与以前发表的相关工作进行了比较。

Apr, 2020

单幅 RGB 帧的基于语义关键点的姿态估算

该论文提出了一种从单个 RGB 图像中估计物体连续 6-DoF 姿态的方法，该方法结合了经卷积网络预测的语义关键点和可变形的形状模型，同时采用了半自动数据生成技术来训练可学习组件，在实验中该方法达到了与现有技术相当的结果。

Apr, 2022

基于深度模型的 RGB 图像中的 6D 姿态细化

本研究提出了一种基于深度神经网络的视觉损失函数，通过对凸形物体外轮廓的对齐来驱动位姿更新进行模型为 6D 姿态精修的处理，方法无需确定外观模型、免除了手动图像分割、同时能够处理遮挡问题和几何不对称性与视觉模糊问题，并且能够在没有深度数据的情况下准确地估算物体位姿。

Oct, 2018

基于合成数据的鲁棒性类别层次 3D 姿态估计

本篇论文提出 SyntheticP3D 数据集和 CC3D 方法，结合这两种方法可以实现在只用 10% 的真实数据的情况下，与当前最先进的模型在物体位姿估计方面取得了可与之媲美结果，在采用 50% 的真实数据时还超越了 SOTA 模型 10.4%。

May, 2023