Aug, 2023

3D-VisTA: 预训练的 Transformer 用于 3D 视觉和文本对齐

TL;DR提出了 3D-VisTA,一个用于 3D 视觉和文本对齐的预训练 Transformer 模型,可轻松适应各种下游任务,通过在 ScanScribe 数据集上进行预训练,获得了在各种 3D-VL 任务上的最先进结果,同时展示了出色的数据效率。