统一场景表示和重建用于三维大型语言模型

Apr, 2024

统一场景表示和重建用于三维大型语言模型

Unified Scene Representation and Reconstruction for 3D Large Language Models

Tao Chu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Qiong Liu...

TL;DR本研究通过引入Uni3DR^2提取3D几何和语义感知表示特征的统一场景表示和重建框架，证明了该框架对于大型语言模型在3D场景中的重要性，并在多个实验中取得了令人信服的结果。

Abstract

Enabling large language models (LLMs) to interact with 3d environments is challenging. Existing approaches extract point clouds either from ground truth (GT) geometry or 3D scenes reconstructed by auxiliary model

发现论文，激发创造

CLIP$^2$: 来自现实世界点云数据的对比语言-图像-点预训练

本文提出 Contrastive Language-Image-Point Cloud Pretraining (CLIP2) 方法，通过建立二三维场景对齐的实例文本-图像-点云代理和交叉模态对比学习策略，直接学习可迁移的三维点云表示，并在室内和室外场景中实验验证了其在零样本和少样本三维识别任务中的显著性能提升。

Mar, 2023

3D-LLM：将三维世界注入大型语言模型

我们提出了一种新的3D-LLMs，将3D世界引入大型语言模型，并利用3D point clouds进行各种3D相关任务，通过我们设计的提示机制收集了超过300k的3D语言数据，实验证明我们的模型在ScanQA上的表现超过了最先进的基准方法，并在3D字幕、任务组合和3D辅助对话方面优于2D VLMs。

Jul, 2023

Uni3DL: 三维和语言理解的统一模型

Uni3DL是一个统一的3D和语言理解模型，它运用于点云而不是传统的多视图图像，实现了对多种3D任务的支持，包括语义分割、目标检测、实例分割、视觉定位、3D字幕和文本-3D跨模态检索，并且在性能上超过了最先进的特定任务模型。

Dec, 2023

LiDAR-LLM：探索大语言模型在3D LiDAR理解方面的潜力

LiDAR-LLM使用Large Language Models（LLMs）和Multimodal Large Language Models（MLLMs）来理解3D场景，通过重新构建3D场景认知为语言建模问题并使用View-Aware Transformer（VAT）来加强LLMs的空间定向理解，从而实现对3D场景的多种指令的理解和复杂空间推理。

Dec, 2023

UniM-OV3D：使用细粒度特征表示的单模态开放词汇三维场景理解

本文提出了一种统一的多模态三维开放词汇场景理解网络(UniM-OV3D)，通过对齐点云、图像、语言和深度信息，设计了一个分层点云特征提取模块并使用了层次化三维标题对来提高粗到细点云语义表示学习，实验结果表明我们的方法在室内外基准测试中实现了开放式语义和实例分割的最先进性能。

Jan, 2024

MiniGPT-3D：利用2D先验信息高效对齐大型语言模型中的3D点云

MiniGPT-3D是一种高效而强大的3D-LLM，仅经过27小时在一台RTX 3090上训练，在2D-LLMs的2D先验知识的帮助下，使用四阶段训练策略进行模态对齐，并采用高效聚合特征的混合查询专家模块，以及低参数的微调方法LoRA和Norm微调，在3D对象分类和字幕任务上实现了具有显著较低训练成本的SOTA结果。

May, 2024

通过提问实现三维视觉与语言理解的统一化

通过统一各种三维场景表示方法，使用可提示的查询（Promptable Queries）解决低级实例分割至高级推理与规划等广泛的三维视觉语言任务的统一模型（PQ3D）。在十个多样化的三维视觉语言数据集上进行测试，PQ3D在这些任务中表现出令人印象深刻的性能，并在大多数基准测试中创造了新记录。

May, 2024

更多文本，较少点：走向3D数据高效点语言理解

本研究针对当前3D理解领域中缺乏大规模3D-文本配对数据集的问题，提出了一种新任务：3D数据高效点语言理解。我们引入GreenPLM，通过利用更多文本数据来弥补3D数据的不足，使LLM能够在仅需少量3D点云和文本对的情况下，实现稳健的3D物体理解。实验结果表明，GreenPLM只需现有模型12%的3D训练数据便可达到优越的3D理解性能。

Aug, 2024

Lexicon3D：探讨视觉基础模型在复杂3D场景理解中的应用

本研究针对复杂3D场景理解中的场景编码策略问题，探讨了不同视觉编码模型在多种场景下的优缺点。研究发现，DINOv2表现优异，视频模型在对象级任务中表现突出，而扩散模型在几何任务上表现良好，并指出语言预训练模型在语言相关任务中存在意外局限。这些发现推动了对视觉基础模型的重新思考，并强调了未来在视觉语言和场景理解任务中灵活选择编码器的必要性。

Sep, 2024

更多文本，更少点：迈向3D数据高效的点-语言理解

本研究解决了大型语言模型在理解3D物理世界时缺乏大规模3D-文本对数据集的问题。通过引入GreenPLM，我们利用更多文本数据来弥补3D数据的不足，实现了对3D对象的稳健理解。实验结果表明，GreenPLM只需12%的3D训练数据就能实现卓越的3D理解能力，并且在仅使用文本数据时也能表现出竞争力。

Aug, 2024