更多文本,更少点:迈向3D数据高效的点-语言理解
本文提出了一种新型的Text4Point框架,通过利用2D图像作为连接点云和语言模态的桥梁,建立图像和点云的对应关系,从而通过对比学习将其对齐;并进一步引入文本查询模块,查询点云特征的文本嵌入,将语言信息整合到3D表示学习中,提高各种下游任务的性能。
Jan, 2023
本文提出 Contrastive Language-Image-Point Cloud Pretraining (CLIP2) 方法,通过建立二三维场景对齐的实例文本-图像-点云代理和交叉模态对比学习策略,直接学习可迁移的三维点云表示,并在室内和室外场景中实验验证了其在零样本和少样本三维识别任务中的显著性能提升。
Mar, 2023
PointLLM是一个基于大型语言模型的初步努力,旨在填补LLMs在3D理解领域的不足,通过处理彩色对象点云并生成合适的回应展示其对点云和常识的掌握;采用两阶段的训练策略,先进行潜空间对齐再进行语言调优,从而构建了一个评估点云感知能力和通用性能力的基准,实验结果表明PointLLM在现有的2D基线上展现出更好的表现。
Aug, 2023
我们引入了Point-Bind,这是一个将三维点云与二维图像、语言、音频和视频对齐的多模态模型。通过ImageBind的引导,我们构建了三维和多模态之间的联合嵌入空间,实现了许多有前景的应用,例如任意到三维生成、三维嵌入算术和三维开放世界理解。此外,我们还提出了Point-LLM,这是第一个遵循三维多模态指令的三维大型语言模型(LLM)。通过参数高效的微调技术,Point-LLM将Point-Bind的语义注入到预训练的LLM中,例如LLaMA,它不需要三维指令数据,但具有出色的三维和多模态问答能力。我们希望我们的工作可以为扩展三维点云到多模态应用的社区照亮一线。
Sep, 2023
GPT4Point是一种创新的点语言多模态模型,用于统一的3D对象理解和生成,在MLLM框架内能够无缝地执行各种点-文本参考任务,并具备高级的可控3D生成能力,通过低质量的点-文本特征获取高质量的结果。
Dec, 2023
LiDAR-LLM使用Large Language Models(LLMs)和Multimodal Large Language Models(MLLMs)来理解3D场景,通过重新构建3D场景认知为语言建模问题并使用View-Aware Transformer(VAT)来加强LLMs的空间定向理解,从而实现对3D场景的多种指令的理解和复杂空间推理。
Dec, 2023
本研究通过引入Uni3DR^2提取3D几何和语义感知表示特征的统一场景表示和重建框架,证明了该框架对于大型语言模型在3D场景中的重要性,并在多个实验中取得了令人信服的结果。
Apr, 2024
MiniGPT-3D是一种高效而强大的3D-LLM,仅经过27小时在一台RTX 3090上训练,在2D-LLMs的2D先验知识的帮助下,使用四阶段训练策略进行模态对齐,并采用高效聚合特征的混合查询专家模块,以及低参数的微调方法LoRA和Norm微调,在3D对象分类和字幕任务上实现了具有显著较低训练成本的SOTA结果。
May, 2024
大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合不断进步,为理解和与物理空间互动提供了前所未有的能力。本文综述了使LLMs能够处理、理解和生成3D数据的方法,强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势,并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场(NeRFs)等各种3D数据表示,分析了它们与LLMs的整合在3D场景理解、字幕生成、问答和对话,以及基于LLMs的空间推理、规划和导航等任务中的应用,同时还对整合3D和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展,但也强调了利用3D-LLMs的全部潜力需要创新方法的必要性。因此,本文旨在为未来的研究规划一个探索和扩展3D-LLMs在理解和与复杂3D世界互动方面能力的道路。为了支持这项综述,我们建立了一个项目页面,其中整理和列出了与我们的主题相关的论文。
May, 2024
本研究针对当前3D理解领域中缺乏大规模3D-文本配对数据集的问题,提出了一种新任务:3D数据高效点语言理解。我们引入GreenPLM,通过利用更多文本数据来弥补3D数据的不足,使LLM能够在仅需少量3D点云和文本对的情况下,实现稳健的3D物体理解。实验结果表明,GreenPLM只需现有模型12%的3D训练数据便可达到优越的3D理解性能。
Aug, 2024