Jul, 2024

基于文本到图像扩散模型的开放词汇 3D 语义分割

TL;DR本文提出了一种名为Diff2Scene的新颖方法,利用大规模图像-文字对预训练的扩散模型以及敏感感知和几何感知的掩模,实现了开放词汇的3D语义分割和视觉定位任务,从而有效消除了任何标记的3D数据并能够准确地识别出3D场景中的物体、外观、材料、位置及其组成部分,并相较于现有方法在ScanNet200上取得了12%的显著提升。