高分辨率开放词汇对象 6D 姿态估计

CVPRJun, 2024

高分辨率开放词汇对象 6D 姿态估计

High-resolution open-vocabulary object 6D pose estimation

Jaime Corsetti, Davide Boscaini, Francesco Giuliari, Changjae Oh, Andrea Cavallaro...

TL;DRHoryon 是一种基于开放词汇量的 Vision-Language Model 架构，通过使用自然语言描述来解决视觉中六维位姿估计任务中未见过对象之间的相对位姿估计问题，并在四个数据集上实现了最先进的性能，优于之前的方法。

Abstract

The generalisation to unseen objects in the 6d pose estimation task is very challenging. While vision-language models (VLMs) enable using natural language descriptions to support →

6d pose estimation vision-language models horyon relative pose estimation state-of-the-art performance

发现论文，激发创造

开放词汇物体 6D 姿态估计

我们在研究中引入了开放词汇的物体 6D 姿态估计新设置，其中使用文本提示来指定感兴趣的物体，并提出了一种新方法来通过视觉 - 语言模型从两个不同场景的图像中分割和估计物体的相对 6D 姿态。

Dec, 2023

OV9D：开放词汇类别级别 9D 物体姿态和尺寸估计

研究一种新的开放问题，即开放词汇类别级别的对象姿态和尺寸估计。介绍了一个基于预训练模型构建的框架，利用大规模数据集进行训练，并在各种文本描述的情况下实现了广泛推广。

Mar, 2024

通用相对物体姿态估计的三维感知假设与验证

通过单个参考视图与查询图像之间的相对物体姿态估计，我们提出了一种基于假设和验证框架的新方法，并引入了一种 3D 感知验证，以衡量可靠性，证明了我们方法在相对姿态估计和处理未见过的物体时的鲁棒性。

Oct, 2023

在无标注三维环境中学习视觉语言导航

本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集，并通过预训练的语言模型对数据集进行微调，从而解决 VLN 方法中的数据稀缺性问题，从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能，取得了良好效果。

Aug, 2022

评估 VLMs 用于基于分数的、多探针注释三维物体

我们提出了一种方法来边际化通过 VLM 查询变化的任何因素，利用采样响应的 VLM 分数。我们展示了这种概率整合可以在摘要中胜过语言模型（如 GPT4），避免了在响应之间存在对比细节时的幻觉。此外，我们展示了聚合注释对于 Prompt-Chaining 是有用的；它们有助于改进下游 VLM 的预测，例如当在提示中将对象类型指定为辅助输入时，提高了对物体材料的预测质量。利用这些评估，我们展示了 VLM 可以在大规模 Objaverse 数据集上接近人工验证的类型和材料注释的质量，而无需额外的训练或上下文学习。

Nov, 2023

HPE-CogVLM：基于视觉语言模型的新头部姿势定位任务探索

本研究使用 CogVLM 的视觉定位能力，提出了一种新的框架来增强头部姿态估计任务，通过改进大语言模型中的灾难遗忘问题和引入 LoRA 层模型合并方法，有效提高头部姿态估计性能，并且在多个指标上优于现有方法。

Jun, 2024

探索大型基础模型在开放词汇 HOI 检测中的潜力

通过引入条件多级解码和细粒度语义增强（CMD-SE）的新型端到端开放词汇 HOI 检测框架，利用视觉 - 语言模型 (VLMs)，本研究模拟不同距离的人 - 物对的不同特征图级别，进一步利用大型语言模型（LLMs）生成人体部位状态的描述，以改进人体与物体的交互识别，并在 SWIG-HOI 和 HICO-DET 两个数据集上取得了领先的开放词汇 HOI 检测结果。

Apr, 2024

PLA: 基于自然语言的开放词汇三维场景理解

通过对具有语义丰富标题的多视图图像进行记录，来设计分层三维标题对，使用对比学习，学习与图像相连的语言感知嵌入，并在开放词汇语义和实例分割方面表现出卓越的性能，具有鲁棒的可迁移性。

Nov, 2022

物理基础的视觉语言模型用于机器人操作

通过在 36.9K 个常见家居物体的数据集 PhysObjects 上针对视觉外观捕捉人类先验知识，我们提出了一种基于物理概念的视觉语言模型（VLM），并将其与基于大语言模型的机器人规划器结合使用，取得了在涉及与物理物体概念推理相关的任务中相比不使用物理概念的基线模型实现了改进的规划性能的结果。此外，在真实机器人上展示了物理概念视觉语言模型的好处，提高了任务成功率。

Sep, 2023

VLPose: 通过语言视觉调整弥合姿势估计中的域差

通过使用语言模型，我们提出了一种名为 VLPose 的新框架，通过语言和视觉之间的协同作用，增强传统姿势估计模型在自然和人工场景下的泛化和鲁棒性，实现了与最先进的调整策略相比，在 HumanArt 和 MSCOCO 数据集上分别提升了 2.26％和 3.74％。

Feb, 2024