Most state-of-the-art deep geometric learning single-view reconstruction
approaches rely on encoder-decoder architectures that output either shape
parametrizations or implicit representations. However, these repr
本文提出了一种新的框架,利用 Vision Transformer(ViT)和联合图像 - 文本表示模型 CLIP 的中间潜空间,用于单视图重建,通过学习从 ViT 和 CLIP 提取的深度特征与基础 3D 生成模型的潜在空间之间的映射来揭示 3D 形状的重建,且能够实现视角不受限和大遮挡情况下的 3D 形状重建。