Sep, 2023
点绑定与点LLM:用于三维理解、生成和指令跟随的点云多模态对齐
Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D
Understanding, Generation, and Instruction Following
TL;DR我们引入了Point-Bind,这是一个将三维点云与二维图像、语言、音频和视频对齐的多模态模型。通过ImageBind的引导,我们构建了三维和多模态之间的联合嵌入空间,实现了许多有前景的应用,例如任意到三维生成、三维嵌入算术和三维开放世界理解。此外,我们还提出了Point-LLM,这是第一个遵循三维多模态指令的三维大型语言模型(LLM)。通过参数高效的微调技术,Point-LLM将Point-Bind的语义注入到预训练的LLM中,例如LLaMA,它不需要三维指令数据,但具有出色的三维和多模态问答能力。我们希望我们的工作可以为扩展三维点云到多模态应用的社区照亮一线。