统一场景表示和重建用于三维大型语言模型
本文提出 Contrastive Language-Image-Point Cloud Pretraining (CLIP2) 方法,通过建立二三维场景对齐的实例文本-图像-点云代理和交叉模态对比学习策略,直接学习可迁移的三维点云表示,并在室内和室外场景中实验验证了其在零样本和少样本三维识别任务中的显著性能提升。
Mar, 2023
我们提出了一种新的3D-LLMs,将3D世界引入大型语言模型,并利用3D point clouds进行各种3D相关任务,通过我们设计的提示机制收集了超过300k的3D语言数据,实验证明我们的模型在ScanQA上的表现超过了最先进的基准方法,并在3D字幕、任务组合和3D辅助对话方面优于2D VLMs。
Jul, 2023
Uni3DL是一个统一的3D和语言理解模型,它运用于点云而不是传统的多视图图像,实现了对多种3D任务的支持,包括语义分割、目标检测、实例分割、视觉定位、3D字幕和文本-3D跨模态检索,并且在性能上超过了最先进的特定任务模型。
Dec, 2023
LiDAR-LLM使用Large Language Models(LLMs)和Multimodal Large Language Models(MLLMs)来理解3D场景,通过重新构建3D场景认知为语言建模问题并使用View-Aware Transformer(VAT)来加强LLMs的空间定向理解,从而实现对3D场景的多种指令的理解和复杂空间推理。
Dec, 2023
本文提出了一种统一的多模态三维开放词汇场景理解网络(UniM-OV3D),通过对齐点云、图像、语言和深度信息,设计了一个分层点云特征提取模块并使用了层次化三维标题对来提高粗到细点云语义表示学习,实验结果表明我们的方法在室内外基准测试中实现了开放式语义和实例分割的最先进性能。
Jan, 2024
MiniGPT-3D是一种高效而强大的3D-LLM,仅经过27小时在一台RTX 3090上训练,在2D-LLMs的2D先验知识的帮助下,使用四阶段训练策略进行模态对齐,并采用高效聚合特征的混合查询专家模块,以及低参数的微调方法LoRA和Norm微调,在3D对象分类和字幕任务上实现了具有显著较低训练成本的SOTA结果。
May, 2024
通过统一各种三维场景表示方法,使用可提示的查询(Promptable Queries)解决低级实例分割至高级推理与规划等广泛的三维视觉语言任务的统一模型(PQ3D)。在十个多样化的三维视觉语言数据集上进行测试,PQ3D在这些任务中表现出令人印象深刻的性能,并在大多数基准测试中创造了新记录。
May, 2024
本研究针对当前3D理解领域中缺乏大规模3D-文本配对数据集的问题,提出了一种新任务:3D数据高效点语言理解。我们引入GreenPLM,通过利用更多文本数据来弥补3D数据的不足,使LLM能够在仅需少量3D点云和文本对的情况下,实现稳健的3D物体理解。实验结果表明,GreenPLM只需现有模型12%的3D训练数据便可达到优越的3D理解性能。
Aug, 2024
本研究针对复杂3D场景理解中的场景编码策略问题,探讨了不同视觉编码模型在多种场景下的优缺点。研究发现,DINOv2表现优异,视频模型在对象级任务中表现突出,而扩散模型在几何任务上表现良好,并指出语言预训练模型在语言相关任务中存在意外局限。这些发现推动了对视觉基础模型的重新思考,并强调了未来在视觉语言和场景理解任务中灵活选择编码器的必要性。
Sep, 2024
本研究解决了大型语言模型在理解3D物理世界时缺乏大规模3D-文本对数据集的问题。通过引入GreenPLM,我们利用更多文本数据来弥补3D数据的不足,实现了对3D对象的稳健理解。实验结果表明,GreenPLM只需12%的3D训练数据就能实现卓越的3D理解能力,并且在仅使用文本数据时也能表现出竞争力。
Aug, 2024