YOLOPose V2：基于 Transformer 的 6D 姿态估计的理解与改进

Jul, 2023

YOLOPose V2：基于 Transformer 的 6D 姿态估计的理解与改进

YOLOPose V2: Understanding and Improving Transformer-based 6D Pose Estimation

Arul Selvam Periyasamy, Arash Amini, Vladimir Tsaturyan, Sven Behnke

TL;DR基于 Transformer 的 YOLOPose 模型通过关键点回归和改进的方式实现多目标 6D 姿态估计，适用于实时应用，并达到与最先进方法相媲美的效果。

Abstract

6d object pose estimation is a crucial prerequisite for autonomous robot manipulation applications. The state-of-the-art models for pose estimation are convolutional neural network (CNN)-based. Lately, Transformers, an architecture originally proposed for natural language processing, i

6d object pose estimation transformer-based yolopose keypoint regression real-time applications

发现论文，激发创造

TransPose: 一个基于 Transformer 的六自由度物体姿态估计网络与深度修正

该研究提出了一种改进的基于 Transformer 的 6D 位姿估计方法 TransPose，它利用 RGB 图片作为输入，结合轻量级深度估计网络和变压器检测网络，并通过深度细化模块对位姿进行精度优化，在果树采摘应用方面取得了优于其他现有方法的效果。

Jul, 2023

T6D-Direct: 多物体 6D 姿态直接回归的 Transformers

本文提出了基于 Transformer 神经网络，通过直接估计的方式在 YCB-Video 数据集上进行 6D 多物体姿态估计，实现了最快的推理时间和与最先进方法相当的姿态估计精度。

Sep, 2021

YOLO-Pose: 使用物体关键点相似性损失增强 YOLO 进行多人姿态估计

提出了 YOLO-pose 模型，它是一种不需要热力图的多人关键点检测和 2D 姿势估计方法。与现有的基于热力图的两阶段方法相比，该模型可以进行端到端的训练，并优化 Object Keypoint Similarity 指标。该模型在 COCO 测试集上取得了 90.3% 的 AP50 成果，不需要翻转测试、多尺度测试或任何其他测试时间增强。

Apr, 2022

实时无缝单帧六维物体姿态预测

该论文提出了一种单次操作的方法，可以在不需要多个阶段或检查多个假设的同时，在 RGB 图像中检测对象并预测其 6D 姿态。通过采用新的 CNN 架构和 PnP 算法，该方法可以以 50fps 的速度在 Titan X GPU 上运行，比其他最近的 CNN 方法具有更高的准确性和更适合实时处理。

Nov, 2017

PViT-6D：使用置信水平预测和姿态令牌超频视觉变换器的 6D 位姿估计

我们的研究将 6D 姿态估计问题转化为直接的回归任务，利用 Vision Transformers 的能力进行探索，通过对分类标记的定制使用来进行姿态估计。我们还引入了一种简单的方法来确定姿态的置信度，这可以很容易地集成到大多数 6D 姿态估计框架中。我们的方法 PViT-6D 在实现简单和端到端可学习的同时，表现优于当前最先进方法，在 Linemod-Occlusion 数据集上提高 0.3% ADD (-S)，在 YCB-V 数据集上提高 2.7% ADD (-S)。此外，我们的方法提高了模型的可解释性和推理性能的可靠性。

Nov, 2023

ZS6D: 使用视觉变换器进行零样本 6D 物体姿态估计

通过使用预训练的 Vision Transformers（ViT）提取的视觉描述符，我们引入了 ZS6D 方法，用于零样本新目标 6D 姿态估计，该方法在众多最新的姿态估计方法上表现卓越，无需进行特定任务的微调。我们在 LMO、YCBV 和 TLESS 等三个数据集上进行了实验，并与两种方法进行了比较，结果在所有三个数据集上相较于其中一种方法有显著提升，在两个数据集上相较于另一种方法有提升。

Sep, 2023

PoseCNN: 一种用于混杂场景下六维物体姿态估计的卷积神经网络

该论文介绍了一种新的卷积神经网络，PoseCNN，可用于解决机器人与真实世界互动时的 6D 目标位姿估算问题，并提供了解决对称物体的新型损失函数和一个大型视频数据集。

Nov, 2017

TransPose：基于几何感知的 Transformer 的 6D 物体姿态估计

TransPose 是一个利用 Transformer 编码器和几何感知模块的 6D 姿态框架，用于提取和利用深度信息中的几何特征，以实现更准确的预测。通过统一采样点云，并借助设计的局部特征提取器和图卷积网络提取局部几何特征；采用 Transformer 进行全局信息交换，使每个局部特征包含全局信息；最后，在 Transformer 编码器中引入几何感知模块，为点云特征学习提供有效约束，并使全局信息交换与点云任务更加紧密结合。实验结果表明，通过 TransPose 的 6D 姿态估计管道在三个基准数据集上取得了有竞争力的结果。

Oct, 2023

基于 Transformer 模型的单目视觉里程计：一种视频理解方法

利用基于自注意力机制的 TSformer-VO 模型，将单目视觉里程计作为视频理解任务，从视频片段中提取特征并通过端到端的方式估计摄像机的 6-DoF 位姿，取得了与基于几何和深度学习的方法相比具有竞争力的业内领先表现。

May, 2023

基于分割的 6D 物体姿态估计

本文提出一种基于分割的 6D 姿态估计框架，使用关键点检测获取局部姿态预测，并根据置信度预测将这些姿态候选融合成可靠的 3D-to-2D 对应关系，从而在多个低纹理物体相互遮挡的情况下获得最优姿态估计，其采用简单且高效的架构实现实时性能。

Dec, 2018