Nov, 2023

LL3DA:面向全方位三维理解、推理和规划的视觉交互指令调整

TL;DRLL3DA 是一种大型语言 3D 助手,可以直接接收点云输入,并对文本指令和视觉提示进行回应,可以帮助大型多模态模型更好地理解人类互动,并在杂乱的 3D 场景中消除歧义。实验证明,LL3DA 在 3D 密集字幕和 3D 问答方面取得了显著成果,并超越了各种 3D 视觉语言模型。