3D-LFM:提升基础模型
将 2D 视觉模型扩展到 3D 数据是一个具有挑战性的任务,本文提出了 Lift3D 方法,通过训练预测基于 DINO 和 CLIP 的特征空间的未见视图,实现了在风格转换、超分辨率、开放词汇分割和图像上色等任务上的泛化性能优于专门针对这些任务的最先进方法。
Mar, 2024
深度学习技术用于估计人体姿势时,由于仅凭借 2D 姿势估计存在深度模糊问题,这篇论文提出了一种新的框架,通过利用图像特征和逐步学习的方法解决了泛化能力差的问题,并在多个数据集上取得了最先进的性能。
Dec, 2023
介绍了一种采用半监督学习方法,在没有 3D 地标数据集的情况下,通过直接提取(可见的)手工标记的 2D 地标,并确保更好的定义对齐,从而学习 3D 地标。该方法利用 3D 感知的生成对抗网络进行更好的多视角一致性学习,并利用实景多帧视频进行鲁棒的跨领域泛化。实证实验证明,该方法不仅在 2D-3D 地标之间实现了更好的定义对齐,还在 3DMM 标记和摄影测量基准数据集上优于其他监督学习的 3D 地标定位方法。
May, 2024
VFMM3D 利用 Vision Foundation Models (VFMs) 将单视图图像准确转换为 LiDAR 点云表示,生成富有前景信息的伪 LiDAR 数据,以此来进行单目三维目标检测并预测物体的三维坐标。
Apr, 2024
通过利用内在分解指导、瞬态 - 单模先验指导和视图增强来解决光照不一致、几何不对齐和视图稀疏等问题,我们提出了一种新的 3D 重构框架,该框架能够将多视图图像生成与神经网络基于体积有符号距离函数的单一图像到 3D 对象重建相结合。在各种数据集上评估我们的方法,并在定量和定性评估中展示了其卓越性能,从而在 3D 物体重建方面取得了显著的进展。与最新的最先进方法 Syncdreamer 相比,我们将 Chamfer 距离误差降低了约 36%,将 PSNR 提高了约 30%。
Jan, 2024
本文采用正交特征变换的方式将图像特征映射到三维空间,从而让我们能够在一个具有一致尺度和可推断真实距离的领域中全面考虑场景的空间配置,运用于端到端的深度学习架构中,在 KITTI 3D 物体基准测试上实现了最先进的性能。
Nov, 2018
介绍一种新颖的深度网络架构,实现了完整的特征点处理流程,包括检测、方向估计和特征描述,并展示了其在多个基准数据集上超过现有方法的性能表现,同时不需要重新训练。
Mar, 2016
最近的研究进展表明,语言视觉模型在二维计算机视觉任务方面已经超过了现有的最先进技术 (SOTA),激发了将语言视觉模型应用于三维数据的尝试。然而,应用于点云的 LVM 面临着从三维数据提取特征的困难以及由于数据量大、采集和标注成本高导致数据集的可用性明显有限等挑战。为了解决这些问题,我们的研究旨在通过球面投影将 3D 数据转化为 2D,并尝试使用合成数据评估其在合成和真实数据之间弥合差距方面的效果。我们的方法表现出了高性能,准确率为 0.96,IoU 为 0.85,精确率为 0.92,召回率为 0.91,F1 分数为 0.92,验证了其潜力。然而,在未来的研究中仍需要解决遮挡问题和球面图像生成过程中多标签点的像素级重叠等挑战。
Apr, 2024
该论文介绍了一种名为 Bridge3D 的创新方法,通过预训练使用基础模型的特征、语义掩码和说明来预训练 3D 模型,从而增强 3D 场景表示学习,包括使用基础模型的语义掩码来指导掩码和重建过程。此外,作者还介绍了一种新方法,使用基础模型生成高精度的物体级掩码和语义文本信息,进一步促进基础 2D 和文本表示向 3D 模型的知识转移。该方法在 3D 对象检测和语义分割任务中优于现有的最先进方法,在 ScanNet 数据集上的最佳结果超过之前的最优方法 PiMAE 5.3%。
May, 2023
通过可微分神经渲染,我们提出了一个新的通用方法来学习点云表示,实现了 3D 和 2D 之间的无缝集成,并在室内和室外场景中的多个任务中实现了卓越的性能和持续改进。
Oct, 2023