May, 2023
ULIP-2: 面向可伸缩的多模态 3D 预训练
ULIP-2: Towards Scalable Multimodal Pre-training For 3D Understanding
Le Xue, Ning Yu, Shu Zhang, Junnan Li, Roberto Martín-Martín...
TL;DRULIP-2 是一个用于 3D 表示学习的多模态预训练框架,它创建了包含图像、语言和 3D 点云的三模态三元组数据集,拥有更强的可扩展性和综合性,并利用大型语言模型自动生成全面的 3D 对象语言描述来提高多模态预训练的效果,并在 ModelNet40 和 ScanObjectNN 等数据集上取得了令人瞩目的结果。