Sep, 2024

LLaVA-3D:一个简单而有效的通路,赋能大规模多模态模型以具备3D意识

TL;DR本研究针对缺乏大规模3D视觉语言数据集和强大3D编码器的问题,提出了一种简单有效的框架LLaVA-3D。该方法结合了LLaVA的强大2D理解能力与3D Patch表示,实现在2D理解不受损的情况下,提升3D场景理解能力,实验结果显示LLaVA-3D在训练速度和性能上均超过现有的3D多模态模型。