LLaVA-3D：一个简单而有效的通路，赋能大规模多模态模型以具备3D意识

Sep, 2024

LLaVA-3D：一个简单而有效的通路，赋能大规模多模态模型以具备3D意识

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu

TL;DR本研究针对缺乏大规模3D视觉语言数据集和强大3D编码器的问题，提出了一种简单有效的框架LLaVA-3D。该方法结合了LLaVA的强大2D理解能力与3D Patch表示，实现在2D理解不受损的情况下，提升3D场景理解能力，实验结果显示LLaVA-3D在训练速度和性能上均超过现有的3D多模态模型。

Abstract

Recent advancements in Large Multimodal Models (LMMs) have greatly enhanced their proficiency in 2D visual understanding tasks, enabling them to effectively process and understand images and videos. However, the development of LMMs with 3D-awareness for 3D →

发现论文，激发创造

3D-LLM：将三维世界注入大型语言模型

我们提出了一种新的3D-LLMs，将3D世界引入大型语言模型，并利用3D point clouds进行各种3D相关任务，通过我们设计的提示机制收集了超过300k的3D语言数据，实验证明我们的模型在ScanQA上的表现超过了最先进的基准方法，并在3D字幕、任务组合和3D辅助对话方面优于2D VLMs。

Jul, 2023

Chat-3D：数据高效调整大型语言模型，用于3D场景的通用对话

本文介绍了Chat-3D，它通过将预训练的3D表示与先进的LLM的推理和对话能力相结合，实现了首个用于3D场景的通用对话系统。 Chat-3D能够感知3D世界，具备理解各种3D场景指令、进行复杂的空间推理并将外部知识融入其响应的能力。在构建的指令数据集上，Chat-3D相对于GPT-4获得了相对得分75.6%。

Aug, 2023

视频LLaVA：前投影前学习统一视觉表示

该研究论文提出了一种统一的大规模视觉语言模型（LVLM），通过在语言特征空间中统一视觉表示，学习多模态交互，从而在图像和视频基准任务上取得了卓越性能。

Nov, 2023

LL3DA：面向全方位三维理解、推理和规划的视觉交互指令调整

LL3DA是一种大型语言3D助手，可以直接接收点云输入，并对文本指令和视觉提示进行回应，可以帮助大型多模态模型更好地理解人类互动，并在杂乱的3D场景中消除歧义。实验证明，LL3DA在3D密集字幕和3D问答方面取得了显著成果，并超越了各种3D视觉语言模型。

Nov, 2023

3DMIT: 3D多模态指导调整用于场景理解

我们构建了一个包含75K个指令-回答对的广泛数据集，针对3D场景进行了任务，如3D VQA、3D grounding和3D conversation，并引入了一种名为3DMIT的新颖且高效的提示调优范例，通过将3D空间信息整合到LLMs中，使其更好地理解3D世界。

Jan, 2024

统一场景表示和重建用于三维大型语言模型

本研究通过引入Uni3DR^2提取3D几何和语义感知表示特征的统一场景表示和重建框架，证明了该框架对于大型语言模型在3D场景中的重要性，并在多个实验中取得了令人信服的结果。

Apr, 2024

具备3D理解的语言-图像模型

通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理，本研究引入了一个名为 Cube-LLM 的新 MLLM，并在 LV3D 数据集上进行预训练，实验表明 Cube-LLM 在整体 MLLM 和特定领域的基准测试中均表现出色，并取得了显著的成果。

May, 2024

基于参照标记的三维链接语言模型

在本研究中，我们提出了基于3D大型多模型（3D LMM）的Grounded 3D-LLM模型，在一个统一生成框架中探索了3D场景理解的潜力，通过使用场景引用标记作为特殊名词短语来参考3D场景，将3D视觉任务转化为语言格式，从而实现了处理交替3D和文本数据序列的自然方法，并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集，进一步引入了对比性语言场景预训练（CLASP）以有效利用这些数据，从而将3D视觉与语言模型相结合，通过在多个3D基准测试上进行全面评估，我们展示了Grounded 3D-LLM的领先性能和广泛适用性。

May, 2024

LLaVA-NeXT-Interleave：处理大型多模态模型中的多图像、视频和3D问题

LLaVA-NeXT-Interleave同时处理LMMs中的多图像、视频、三维和单图像情景，具有出色的多图像、视频和三维基准结果，并展示了几种新兴能力。

Jul, 2024

LLMI3D：通过单张2D图像赋能大语言模型的3D感知

本研究解决了现有小型3D感知模型在逻辑推理和问答方面的不足。通过提出空间增强的局部特征挖掘、3D查询令牌信息解码和基于几何投影的3D推理等新方法，我们开发了LLMI3D模型，并构建了IG3D数据集以提升3D感知能力。实验表明，LLMI3D在性能上显著超越了现有的方法。

Aug, 2024