May, 2023

基于物体对比学习的视觉 - 语言预训练技术在三维场景理解中的应用

TL;DR本文提出了一种 3D 视觉语言预训练框架 3DVLP,可以在 3D 视觉语言下游任务中有很好的表现,该框架考虑了场景中物体的关联性,提出了多个任务来实现对象级交叉对齐和区分,与任务特定方法相比具有更好的泛化性能。