May, 2023

DiffCLIP: 利用稳定扩散进行语言增强的 3D 分类

TL;DR本文提出了一种新的预训练框架 DiffCLIP,其结合稳定扩散和 ControlNet,以减小视觉分支中的域间差异,并引入了一种样式提示生成模块,用于少样本任务,在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上进行广泛实验,表明 DiffCLIP 具有强大的 3D 理解能力。使用稳定扩散和样式提示生成,DiffCLIP 在 ScanObjectNN 的 OBJ_BG 数据集上实现了 43.2%的零样本分类精度,这是最先进的技术水平,并且在 ModelNet10 上实现了 80.6%的零样本分类精度,这与最先进的技术水平相当。