开放词汇物体 6D 姿态估计

Dec, 2023

Open-vocabulary object 6D pose estimation

Jaime Corsetti, Davide Boscaini, Changjae Oh, Andrea Cavallaro, Fabio Poiesi

TL;DR我们在研究中引入了开放词汇的物体 6D 姿态估计新设置，其中使用文本提示来指定感兴趣的物体，并提出了一种新方法来通过视觉 - 语言模型从两个不同场景的图像中分割和估计物体的相对 6D 姿态。

Abstract

We introduce the new setting of open-vocabulary object 6d pose estimation, in which a textual prompt is used to specify the object of interest. In contrast to existing approaches, in our setting (i) the object of

open-vocabulary object 6d pose estimation textual prompt vision-language model object-level information relative 6d pose

发现论文，激发创造

OV9D：开放词汇类别级别 9D 物体姿态和尺寸估计

研究一种新的开放问题，即开放词汇类别级别的对象姿态和尺寸估计。介绍了一个基于预训练模型构建的框架，利用大规模数据集进行训练，并在各种文本描述的情况下实现了广泛推广。

Mar, 2024

高分辨率开放词汇对象 6D 姿态估计

Horyon 是一种基于开放词汇量的 Vision-Language Model 架构，通过使用自然语言描述来解决视觉中六维位姿估计任务中未见过对象之间的相对位姿估计问题，并在四个数据集上实现了最先进的性能，优于之前的方法。

Jun, 2024

FS6D: 对新物体进行少样本 6D 姿态估计

本文探讨了一种新的开放式少样本目标 6D 姿态估计问题，并提出了一种密集的 RGBD 原型匹配框架，加上深度外观和几何相关性的先验，以及一种在线纹理融合方法，为解决这个问题建立了基准。

Mar, 2022

ZS6D: 使用视觉变换器进行零样本 6D 物体姿态估计

通过使用预训练的 Vision Transformers（ViT）提取的视觉描述符，我们引入了 ZS6D 方法，用于零样本新目标 6D 姿态估计，该方法在众多最新的姿态估计方法上表现卓越，无需进行特定任务的微调。我们在 LMO、YCBV 和 TLESS 等三个数据集上进行了实验，并与两种方法进行了比较，结果在所有三个数据集上相较于其中一种方法有显著提升，在两个数据集上相较于另一种方法有提升。

Sep, 2023

PLA: 基于自然语言的开放词汇三维场景理解

通过对具有语义丰富标题的多视图图像进行记录，来设计分层三维标题对，使用对比学习，学习与图像相连的语言感知嵌入，并在开放词汇语义和实例分割方面表现出卓越的性能，具有鲁棒的可迁移性。

Nov, 2022

野外类别级别 6D 物体姿态估计：Semi-Supervised 学习方法和新数据集

使用 Wild6D 数据集，采用半监督学习，通过自由的渲染方法与真实数据的轮廓匹配目标函数得到的 Rendering for Pose estimation network RePoNet 模型，在无需真实数据 3D 标注的情况下，能更好地解决类别级别的 6D 对象位姿估计问题。

Jun, 2022

开放词汇场景解析

本文提出了一种基于图像像素和词汇概念嵌入框架的解决方案，通过试验 ADE20K 数据集来验证其在识别各种场景和物体方面的开放词汇预测能力和解释性，该方案涉及物体识别、开放词汇解析、图像像素和词汇嵌入、语义关系等关键词。

Mar, 2017

解释视觉数据中目标检测和 6D 姿态的歧义

本研究提出了一种解决 3D 物体检测和姿态估计中本质的模糊性的方法。对于每个物体实例，我们预测多个姿态和类别结果，以估计由对称和重复文理所产生的特定姿态分布。当视觉外观唯一识别出一个有效姿态时，分布将崩溃为单一结果。我们展示了我们的方法的好处，不仅提供更好的姿态模糊解释，而且在姿态估计方面也具有更高的准确性。

Dec, 2018

Self6D: 自监督单目 6D 物体姿态估计

使用无监督学习的方法进行单眼 RGB 数据下的 6D 物体位姿估计，作者训练了一个神经网络模型，通过真实 RGB-D 数据的自监督模式来提高模型的性能表现，并证明了该方法能够显著地优化模型的性能，超过了其他使用合成数据或领域适应技术的方法。

Apr, 2020

开放词汇目标检测的学习目标语言对齐

提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架，通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题，可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器，并在两个基准数据集上进行了广泛的实验，在 LVIS 等新类别上实现了 32.0％的 mAP 和 21.7％的掩膜 mAP 等卓越性能。

Nov, 2022