Nov, 2023

LL3DA:面向全方位三维理解、推理和规划的视觉交互指令调整

TL;DRLL3DA是一种大型语言3D助手,可以直接接收点云输入,并对文本指令和视觉提示进行回应,可以帮助大型多模态模型更好地理解人类互动,并在杂乱的3D场景中消除歧义。实验证明,LL3DA在3D密集字幕和3D问答方面取得了显著成果,并超越了各种3D视觉语言模型。