Jul, 2024

通过双重去噪从 CLIP 学习稳健的 3D 表示

TL;DR本文探讨了一个关键但鲜为人知的问题:如何从预训练的视觉语言模型(如 CLIP)中学习到稳健且良好泛化的 3D 表示。我们提出了 Dual Denoising 框架,通过将基于去噪的代理任务与新颖的特征去噪网络相结合,从 CLIP 中学习鲁棒且良好泛化的 3D 表示。实验结果显示我们的模型能够在零样本设置下有效提高 3D 学习网络的表示学习性能和对抗鲁棒性。