Kestrel: 基于点定位的多模态部分感知 3D 视觉语义理解
本文提出了一种新的多模态视觉定位任务,称为 LiDAR Grounding,并通过设计一种名为 MSSG 的多模态单次定位方法来实现,通过跨模态学习来提高定位精度和效率。
May, 2023
在本研究中,我们提出了基于 3D 大型多模型(3D LMM)的 Grounded 3D-LLM 模型,在一个统一生成框架中探索了 3D 场景理解的潜力,通过使用场景引用标记作为特殊名词短语来参考 3D 场景,将 3D 视觉任务转化为语言格式,从而实现了处理交替 3D 和文本数据序列的自然方法,并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集,进一步引入了对比性语言场景预训练(CLASP)以有效利用这些数据,从而将 3D 视觉与语言模型相结合,通过在多个 3D 基准测试上进行全面评估,我们展示了 Grounded 3D-LLM 的领先性能和广泛适用性。
May, 2024
通过引入具有 40,087 个家庭场景和 6.2 百万个密集绑定的场景语言指令的 3D-GRAND,本文展示了对 3D-LLMs 中的指令调优在地面设置和降低幻觉方面的显著增强。另外,该文还提出了一个全面的基准测试 3D-POPE,以系统地评估 3D-LLMs 中的幻觉,并促进未来模型之间的公正比较。我们的实验强调了数据集规模和 3D-LLM 性能之间的扩展效应,强调了大规模 3D 文本数据集在推进具身化 AI 研究中的关键作用。值得注意的是,我们的结果证明了有效的从模拟到真实的转化存在早期信号,表明在大规模合成数据上训练的模型在真实世界的 3D 扫描中表现良好。通过 3D-GRAND 和 3D-POPE,我们的目标是为具身化 AI 社区提供必要的资源和见解,从而为更可靠和更好地基于地面的 3D-LLMs 做好准备。
Jun, 2024
LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型(LLM)的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素,并利用可视化定位工具识别 3D 场景中的对象,LLM-Grounder 评估所提议对象之间的空间和常识关系,从而做出最终的定位决策。该方法不需要有标签的培训数据,可应用于新型 3D 场景和任意文本查询,显示出最先进的零样本定位准确性。研究结果表明,LLM 显著提高了定位能力,尤其对于复杂语言查询,在机器人的 3D 视觉语言任务中,LLM-Grounder 是一种有效的方法。
Sep, 2023
Kosmos-2 是一种多模态大型语言模型,其新功能包括感知物体描述并将文本与视觉世界联系起来,此工作对于实现人工通用智能是关键的一步,可以通过多模态语料库和 GrIT 数据集进行众多任务的评估和训练。
Jun, 2023
PointLLM 是一个基于大型语言模型的初步努力,旨在填补 LLMs 在 3D 理解领域的不足,通过处理彩色对象点云并生成合适的回应展示其对点云和常识的掌握;采用两阶段的训练策略,先进行潜空间对齐再进行语言调优,从而构建了一个评估点云感知能力和通用性能力的基准,实验结果表明 PointLLM 在现有的 2D 基线上展现出更好的表现。
Aug, 2023
这篇论文介绍了一种基于零样本推理的 3D 分割新任务,以搜索和定位物体的部件为目标,它超越了先前的类别特定 3D 语义分割、3D 实例分割和开放词汇 3D 分割的限制。我们设计了一个简单的基线方法,Reasoning3D,能够理解和执行复杂的命令,对具有上下文感知和推理答案的 3D 网格进行 (细粒度的) 特定部分分割。该方法利用现成的预训练二维分割网络,由大型语言模型 (LLMs) 支持,在零样本的方式下解释用户的输入查询。我们的方法具有泛化性,能够根据隐含的文本查询有效地定位和突出显示 3D 对象的部分,包括这些组成部分的 3D 对象和真实世界的扫描数据。此外,我们的无训练方法可实现快速部署,并成为未来研究中关于部件级 3D (语义) 对象理解的可行通用基线,在包括机器人学、物体操作、部件装配、自动驾驶应用、增强现实和虚拟现实 (AR/VR) 以及医疗应用等各个领域发挥作用。该论文提供了代码、模型权重、部署指南和评估协议。
May, 2024
GPT4Point 是一种创新的点语言多模态模型,用于统一的 3D 对象理解和生成,在 MLLM 框架内能够无缝地执行各种点 - 文本参考任务,并具备高级的可控 3D 生成能力,通过低质量的点 - 文本特征获取高质量的结果。
Dec, 2023
提出了一种通过语言辅助的方法来学习点云特征,使用 LMMs 文本丰富语义概念,通过基于统计的显著特征选择实现去冗余和降低特征维度,进一步分析了文本对点云的对比训练的影响,实验证实所提出的方法在三维语义分割、三维物体检测和三维场景分类任务中学习到了有意义的点云特征,并获得了最先进或可比较的性能。
Dec, 2023