Lift3D:将任何 2D 视觉模型升级为 3D 的零样本方法
本文提出了一种名为 Lift3D 的反转 2D-to-3D 生成框架来生成高分辨率且逼真的三维物体图像,并在自主驾驶数据集上进行了实验,结果表明,该数据生成框架可以有效提高三维物体探测器的性能。
Apr, 2023
本文介绍了一种基于 Transformer 的 3D Lifting Foundation Model (3D-LFM) 方法,通过利用变换器的置换等变性来处理 3D 数据中每个实例的不同点数,抵抗遮挡,并推广到未见过的类别,以实现 2D-3D 提取任务的卓越性能。
Dec, 2023
通过视角选择和分层提示的策略,本研究旨在改进预训练模型在零样本三维形状识别中的信心,实现无需额外训练的令人印象深刻的分类准确性。
Nov, 2023
本文介绍了一种新颖的 3D 预训练视觉 - 语言方法,将来自 2D 图像的语言知识和视觉概念应用于 3D 世界的理解,使用流行的 CLIP 模型代入编码的 3D 场景特征以评估其 3D 世界推理能力,并在 3D 视觉问答下游任务中证明了该方法的优越性和可解释性。
Apr, 2023
本文提出一种名为 NeuralLift-360 的新框架,使用深度感知的神经辐射表示(NeRF)和去噪扩散模型学习场景,通过引入排名损失,可以使用自然图像进行粗略深度估计,这种技术可以缓解 3D 艺术家和 XR 设计师繁琐的工作流程,生成出高质量的 360 度 3D 对象,具有以下优点:自然图像合成、顶多的深度估计、一致的引导,大力打破现有基线模型!
Nov, 2022
基于大规模数据训练和解决来自不同摄像机模型的度量歧义,实现了在野外图像中无需训练即可广义泛化的单视图度量深度模型,并在 7 个零样本基准测试上展现了领先表现。
Jul, 2023
最近的研究进展表明,语言视觉模型在二维计算机视觉任务方面已经超过了现有的最先进技术 (SOTA),激发了将语言视觉模型应用于三维数据的尝试。然而,应用于点云的 LVM 面临着从三维数据提取特征的困难以及由于数据量大、采集和标注成本高导致数据集的可用性明显有限等挑战。为了解决这些问题,我们的研究旨在通过球面投影将 3D 数据转化为 2D,并尝试使用合成数据评估其在合成和真实数据之间弥合差距方面的效果。我们的方法表现出了高性能,准确率为 0.96,IoU 为 0.85,精确率为 0.92,召回率为 0.91,F1 分数为 0.92,验证了其潜力。然而,在未来的研究中仍需要解决遮挡问题和球面图像生成过程中多标签点的像素级重叠等挑战。
Apr, 2024
通过利用点云的几何结构改进传输的视觉 - 语言模型,我们提出了首个无需训练的聚合技术,通过几何和语义的点级推理,在分类、部件分割和语义分割等三个任务中取得了新的技术优势。
Dec, 2023
本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型,可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。
Jun, 2023
该研究调查了使用视觉基础模型实现二维和三维场景理解的潜力,并提出了一个新的跨模式噪声监督方法,利用 CLIP 和 SAM 模型的优势共同训练二维和三维网络,实现了在不需要标记数据的情况下进行图像语义分割。
Jun, 2023