Aug, 2023
3D-VisTA: 预训练的 Transformer 用于 3D 视觉和文本对齐
3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment
Ziyu Zhu, Xiaojian Ma, Yixin Chen, Zhidong Deng, Siyuan Huang...
TL;DR提出了 3D-VisTA,一个用于 3D 视觉和文本对齐的预训练 Transformer 模型,可轻松适应各种下游任务,通过在 ScanScribe 数据集上进行预训练,获得了在各种 3D-VL 任务上的最先进结果,同时展示了出色的数据效率。