May, 2024

Kestrel: 基于点定位的多模态部分感知 3D 视觉语义理解

TL;DRKestrel 是一种新颖的方法,为 3D MLLMs 赋予了部分感知的理解能力,并能够更好地解释和分割 3D 对象的各个部分。研究提出了两项新任务:局部感知点定位和局部感知点定位的字幕生成,并引入了用于学习和评估这些任务的数据集 3DCoMPaT-GRIN。实验证明 Kestrel 能够生成用户指定的分割掩码,这在现有的 3D MLLM 中尚不具备。因此,Kestrel 为评估 3D 对象的部分感知语言理解和分割定位能力建立了基准。