Jul, 2024

VEON:词汇增补的占用预测

TL;DRVEON是一种通过将预测的三维占用网格与开放世界语义相结合来提供三维占用的方法,它将2D基础模型MiDaS和CLIP结合起来,在解决深度模糊问题、提高像素级精度和优化长尾问题的同时,实现了在Occ3D-nuScenes上达到15.14的mIoU,并能识别具有开放词汇类别的对象。