Lift3D：将任何 2D 视觉模型升级为 3D 的零样本方法

CVPRMar, 2024

Lift3D：将任何 2D 视觉模型升级为 3D 的零样本方法

Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D

Mukund Varma T, Peihao Wang, Zhiwen Fan, Zhangyang Wang, Hao Su...

TL;DR将 2D 视觉模型扩展到 3D 数据是一个具有挑战性的任务，本文提出了 Lift3D 方法，通过训练预测基于 DINO 和 CLIP 的特征空间的未见视图，实现了在风格转换、超分辨率、开放词汇分割和图像上色等任务上的泛化性能优于专门针对这些任务的最先进方法。

Abstract

In recent years, there has been an explosion of 2d vision models for numerous tasks such as semantic segmentation, style transfer or scene editing, enabled by large-scale 2D image datasets. At the same time, there has been renewed interest in →

2d vision models 3d scene representations multi-view images extending 2d vision models lift3d method

发现论文，激发创造

Lift3D: 将 2D GAN 抬升至 3D 生成电辐射场以合成 3D 训练数据

本文提出了一种名为 Lift3D 的反转 2D-to-3D 生成框架来生成高分辨率且逼真的三维物体图像，并在自主驾驶数据集上进行了实验，结果表明，该数据生成框架可以有效提高三维物体探测器的性能。

Apr, 2023

3D-LFM：提升基础模型

本文介绍了一种基于 Transformer 的 3D Lifting Foundation Model (3D-LFM) 方法，通过利用变换器的置换等变性来处理 3D 数据中每个实例的不同点数，抵抗遮挡，并推广到未见过的类别，以实现 2D-3D 提取任务的卓越性能。

Dec, 2023

MV-CLIP：多视角 CLIP 用于零样本 3D 形状识别

通过视角选择和分层提示的策略，本研究旨在改进预训练模型在零样本三维形状识别中的信心，实现无需额外训练的令人印象深刻的分类准确性。

Nov, 2023

CLIP 引导的视觉 - 语言预训练用于 3D 场景问答

本文介绍了一种新颖的 3D 预训练视觉 - 语言方法，将来自 2D 图像的语言知识和视觉概念应用于 3D 世界的理解，使用流行的 CLIP 模型代入编码的 3D 场景特征以评估其 3D 世界推理能力，并在 3D 视觉问答下游任务中证明了该方法的优越性和可解释性。

Apr, 2023

NeuralLift-360: 将野外 2D 照片提升为带有 360° 观测的 3D 物体

本文提出一种名为 NeuralLift-360 的新框架，使用深度感知的神经辐射表示（NeRF）和去噪扩散模型学习场景，通过引入排名损失，可以使用自然图像进行粗略深度估计，这种技术可以缓解 3D 艺术家和 XR 设计师繁琐的工作流程，生成出高质量的 360 度 3D 对象，具有以下优点：自然图像合成、顶多的深度估计、一致的引导，大力打破现有基线模型！

Nov, 2022

Metric3D：基于单张图片的零样本度量三维预测

基于大规模数据训练和解决来自不同摄像机模型的度量歧义，实现了在野外图像中无需训练即可广义泛化的单视图度量深度模型，并在 7 个零样本基准测试上展现了领先表现。

Jul, 2023

使用语言视觉模型在移动 LiDAR 中进行建筑零击探测

最近的研究进展表明，语言视觉模型在二维计算机视觉任务方面已经超过了现有的最先进技术 (SOTA)，激发了将语言视觉模型应用于三维数据的尝试。然而，应用于点云的 LVM 面临着从三维数据提取特征的困难以及由于数据量大、采集和标注成本高导致数据集的可用性明显有限等挑战。为了解决这些问题，我们的研究旨在通过球面投影将 3D 数据转化为 2D，并尝试使用合成数据评估其在合成和真实数据之间弥合差距方面的效果。我们的方法表现出了高性能，准确率为 0.96，IoU 为 0.85，精确率为 0.92，召回率为 0.91，F1 分数为 0.92，验证了其潜力。然而，在未来的研究中仍需要解决遮挡问题和球面图像生成过程中多标签点的像素级重叠等挑战。

Apr, 2024

基于几何驱动的零样本三维点云理解聚合

通过利用点云的几何结构改进传输的视觉 - 语言模型，我们提出了首个无需训练的聚合技术，通过几何和语义的点级推理，在分类、部件分割和语义分割等三个任务中取得了新的技术优势。

Dec, 2023

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型，可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。

Jun, 2023

通过视觉基础模型实现无标签场景理解

该研究调查了使用视觉基础模型实现二维和三维场景理解的潜力，并提出了一个新的跨模式噪声监督方法，利用 CLIP 和 SAM 模型的优势共同训练二维和三维网络，实现了在不需要标记数据的情况下进行图像语义分割。

Jun, 2023