BriefGPT.xyz
May, 2024
通过提问实现三维视觉与语言理解的统一化
Unifying 3D Vision-Language Understanding via Promptable Queries
HTML
PDF
Ziyu Zhu, Zhuofan Zhang, Xiaojian Ma, Xuesong Niu, Yixin Chen...
TL;DR
通过统一各种三维场景表示方法,使用可提示的查询(Promptable Queries)解决低级实例分割至高级推理与规划等广泛的三维视觉语言任务的统一模型(PQ3D)。在十个多样化的三维视觉语言数据集上进行测试,PQ3D在这些任务中表现出令人印象深刻的性能,并在大多数基准测试中创造了新记录。
Abstract
A
unified model
for
3d vision-language
(3D-VL) understanding is expected to take various
scene representations
and perform a wide range of
→