Kestrel: 基于点定位的多模态部分感知 3D 视觉语义理解

May, 2024

Kestrel: 基于点定位的多模态部分感知 3D 视觉语义理解

Kestrel: Point Grounding Multimodal LLM for Part-Aware 3D Vision-Language Understanding

Junjie Fei, Mahmoud Ahmed, Jian Ding, Eslam Mohamed Bakr, Mohamed Elhoseiny

TL;DRKestrel 是一种新颖的方法，为 3D MLLMs 赋予了部分感知的理解能力，并能够更好地解释和分割 3D 对象的各个部分。研究提出了两项新任务：局部感知点定位和局部感知点定位的字幕生成，并引入了用于学习和评估这些任务的数据集 3DCoMPaT-GRIN。实验证明 Kestrel 能够生成用户指定的分割掩码，这在现有的 3D MLLM 中尚不具备。因此，Kestrel 为评估 3D 对象的部分感知语言理解和分割定位能力建立了基准。

Abstract

While 3d mllms have achieved significant progress, they are restricted to object and scene understanding and struggle to understand 3D spatial structures at the part level. In this paper, we introduce Kestrel, representing a novel approach that empowers →

3d mllms part-aware understanding part-aware point grounding part-aware point grounded captioning 3dcompat-grin

发现论文，激发创造

自主驾驶点云中基于语言的 3D 物体检测

本文提出了一种新的多模态视觉定位任务，称为 LiDAR Grounding，并通过设计一种名为 MSSG 的多模态单次定位方法来实现，通过跨模态学习来提高定位精度和效率。

May, 2023

基于参照标记的三维链接语言模型

在本研究中，我们提出了基于 3D 大型多模型（3D LMM）的 Grounded 3D-LLM 模型，在一个统一生成框架中探索了 3D 场景理解的潜力，通过使用场景引用标记作为特殊名词短语来参考 3D 场景，将 3D 视觉任务转化为语言格式，从而实现了处理交替 3D 和文本数据序列的自然方法，并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集，进一步引入了对比性语言场景预训练（CLASP）以有效利用这些数据，从而将 3D 视觉与语言模型相结合，通过在多个 3D 基准测试上进行全面评估，我们展示了 Grounded 3D-LLM 的领先性能和广泛适用性。

May, 2024

3D-GRAND: 为 3D-LLMs 提供更好的定位和更少的幻觉

通过引入具有 40,087 个家庭场景和 6.2 百万个密集绑定的场景语言指令的 3D-GRAND，本文展示了对 3D-LLMs 中的指令调优在地面设置和降低幻觉方面的显著增强。另外，该文还提出了一个全面的基准测试 3D-POPE，以系统地评估 3D-LLMs 中的幻觉，并促进未来模型之间的公正比较。我们的实验强调了数据集规模和 3D-LLM 性能之间的扩展效应，强调了大规模 3D 文本数据集在推进具身化 AI 研究中的关键作用。值得注意的是，我们的结果证明了有效的从模拟到真实的转化存在早期信号，表明在大规模合成数据上训练的模型在真实世界的 3D 扫描中表现良好。通过 3D-GRAND 和 3D-POPE，我们的目标是为具身化 AI 社区提供必要的资源和见解，从而为更可靠和更好地基于地面的 3D-LLMs 做好准备。

Jun, 2024

LLM-Grounder：使用大型语言模型作为代理人进行开放词汇三维视觉对接

LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型（LLM）的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素，并利用可视化定位工具识别 3D 场景中的对象，LLM-Grounder 评估所提议对象之间的空间和常识关系，从而做出最终的定位决策。该方法不需要有标签的培训数据，可应用于新型 3D 场景和任意文本查询，显示出最先进的零样本定位准确性。研究结果表明，LLM 显著提高了定位能力，尤其对于复杂语言查询，在机器人的 3D 视觉语言任务中，LLM-Grounder 是一种有效的方法。

Sep, 2023

Ferret: 任意粒度引用和定位任何内容

我们介绍了 Ferret，这是一个新的多模态大型语言模型（MLLM），能够理解图像中任何形状或粒度的空间引用，并准确地确定开放词汇的描述。

Oct, 2023

Kosmos-2：将多模态大型语言模型与世界接轨

Kosmos-2 是一种多模态大型语言模型，其新功能包括感知物体描述并将文本与视觉世界联系起来，此工作对于实现人工通用智能是关键的一步，可以通过多模态语料库和 GrIT 数据集进行众多任务的评估和训练。

Jun, 2023

PointLLM：赋予大型语言模型理解点云的能力

PointLLM 是一个基于大型语言模型的初步努力，旨在填补 LLMs 在 3D 理解领域的不足，通过处理彩色对象点云并生成合适的回应展示其对点云和常识的掌握；采用两阶段的训练策略，先进行潜空间对齐再进行语言调优，从而构建了一个评估点云感知能力和通用性能力的基准，实验结果表明 PointLLM 在现有的 2D 基线上展现出更好的表现。

Aug, 2023

Reasoning3D -- 3D 中的基于先验知识与推理：通过大型视觉语言模型进行细粒度零样本开放词汇的 3D 推理部分分割

这篇论文介绍了一种基于零样本推理的 3D 分割新任务，以搜索和定位物体的部件为目标，它超越了先前的类别特定 3D 语义分割、3D 实例分割和开放词汇 3D 分割的限制。我们设计了一个简单的基线方法，Reasoning3D，能够理解和执行复杂的命令，对具有上下文感知和推理答案的 3D 网格进行 (细粒度的) 特定部分分割。该方法利用现成的预训练二维分割网络，由大型语言模型 (LLMs) 支持，在零样本的方式下解释用户的输入查询。我们的方法具有泛化性，能够根据隐含的文本查询有效地定位和突出显示 3D 对象的部分，包括这些组成部分的 3D 对象和真实世界的扫描数据。此外，我们的无训练方法可实现快速部署，并成为未来研究中关于部件级 3D (语义) 对象理解的可行通用基线，在包括机器人学、物体操作、部件装配、自动驾驶应用、增强现实和虚拟现实 (AR/VR) 以及医疗应用等各个领域发挥作用。该论文提供了代码、模型权重、部署指南和评估协议。

May, 2024

GPT4Point: 一个用于点 - 语言理解与生成的统一框架

GPT4Point 是一种创新的点语言多模态模型，用于统一的 3D 对象理解和生成，在 MLLM 框架内能够无缝地执行各种点 - 文本参考任务，并具备高级的可控 3D 生成能力，通过低质量的点 - 文本特征获取高质量的结果。

Dec, 2023

语言辅助的 3D 场景理解

提出了一种通过语言辅助的方法来学习点云特征，使用 LMMs 文本丰富语义概念，通过基于统计的显著特征选择实现去冗余和降低特征维度，进一步分析了文本对点云的对比训练的影响，实验证实所提出的方法在三维语义分割、三维物体检测和三维场景分类任务中学习到了有意义的点云特征，并获得了最先进或可比较的性能。

Dec, 2023