- 3D-MVP:用于机器人操纵的三维多视角预训练
提出了 3D-MVP,一种使用遮罩自编码器进行 3D 多视图预训练的新方法,通过在大规模 3D 数据集上使用遮罩自编码器对其视觉编码器进行预训练,评估了其在虚拟机器人操作任务中的性能并展示了超过基线的改进,同时在实际机器人平台上也取得了令人 - 乡村地形与电力输电系统的 3D 点云数据集 TS40K
我们提出了 TS40K,这是一个包含了超过 4 万千米欧洲农村地区电力传输系统的 3D 点云数据集,用于研究监督学习算法在 3D 场景理解中的性能和关键挑战,如 3D 语义分割和 3D 目标检测的综合分析。
- 基于参照标记的三维链接语言模型
在本研究中,我们提出了基于 3D 大型多模型(3D LMM)的 Grounded 3D-LLM 模型,在一个统一生成框架中探索了 3D 场景理解的潜力,通过使用场景引用标记作为特殊名词短语来参考 3D 场景,将 3D 视觉任务转化为语言格式 - 多模态高效数据驱动的自动驾驶三维场景理解
在自动驾驶中,高效利用数据对于推进 3D 场景理解至关重要。我们的研究在 LiDAR 语义分割上扩展了半监督学习,利用行驶场景的内在空间先验和多传感器互补来增强无标注数据集的有效性。我们引入了 LaserMix++,这是一个进化的框架,结合 - GOV-NeSF: 通用开放词汇神经语义领域
通过引入 Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF),我们提出了一种对 3D 场景进行泛化的隐式表示方法,显著提升了 2D 和 3D 开放词汇语义分割的性能 - 基于神经辐射场的视觉渲染方法综述
近年来,神经辐射场(NeRF)在计算机视觉和图形领域取得了显着进展,为解决 3D 场景理解、新视角合成、人体重建、机器人等关键任务提供了强有力的技术支持。本文对过去两年内关于 NeRF 的研究文献进行了深入分析,在详细阐述 NeRF 核心架 - Calib3D: 可靠的 3D 场景理解模型偏好校准
对现有的三维场景理解模型进行不确定性估计并评估其可靠性,发现在安全敏感的环境中,虽然现有模型在准确性方面表现出色,但却经常无法提供可靠的不确定性估计,这严重影响了它们的适用性。通过分析网络容量、LiDAR 表示、光栅化分辨率和三维数据增强技 - Agent3D-Zero:一种用于零样本三维理解的智能体
通过引入 Agent3D-Zero 框架,我们能够以零样本学习的方式处理三维场景理解问题,通过选择和分析一系列视点来促进三维理解,并利用自定义的视觉提示来增强模型的能力。大量实验证明了该框架在理解各种以前未见的三维环境方面的有效性。
- 通过解耦优化进行大规模点云语义分割的类别不平衡半监督学习
我们介绍了一种新的解耦优化框架,通过交替优化方式解决了现有基于半监督学习的方法中存在的严重训练偏差问题,主要是由于类别不平衡和点云数据的长尾分布导致了尾部类别分割的偏置预测。
- MM无监督结构光变换
我们提出了一种基于鲁棒的 Transformer 的单目 SfM 方法,能够同时预测单目像素级深度、自车的平移和旋转、相机的焦距和主点,并且通过在 KITTI 和 DDAD 数据集上的实验,展示了如何适应不同的视觉 Transformer - Diffusion-SS3D:半监督三维物体检测的扩散模型
通过扩散模型来提高伪标签的质量,以实现半监督三维物体检测,改进了现有方法的性能,获得了最先进的结果。
- 通过层次特征对齐预训练和区域感知微调的通用标签高效三维场景解析
通过使用预先训练的视觉 - 语言模型和无监督的区域级语义对比学习方案,本研究提出了一种通用且简单的框架,用于处理有限标记情况下的 3D 场景理解,从而在数据效率学习和开放世界少样本学习方面展现了有效性。
- 利用大规模预训练视觉基础模型进行高效标签的 3D 点云分割
通过采用大规模预训练模型、计算机视觉和 2D 任务,本研究提出了一种新的框架来解决 3D 点云分割任务,通过将 2D 语义分割预测投影到 3D 空间,并引入语义标签融合策略,实现了在扩展的数据集上的 3D 场景理解。
- SGRec3D: 自主学习的 3D 场景图通过对象级场景重建
提出了 SGRec3D,这是一种用于预先训练三维场景图预测的新方法,无需对象关系标签,可以利用大规模三维场景理解数据集进行训练。在细调期间只使用 10% 标记数据集便可优于未进行预先训练的模型。
- Chat-3D:数据高效调整大型语言模型,用于 3D 场景的通用对话
本文介绍了 Chat-3D,它通过将预训练的 3D 表示与先进的 LLM 的推理和对话能力相结合,实现了首个用于 3D 场景的通用对话系统。 Chat-3D 能够感知 3D 世界,具备理解各种 3D 场景指令、进行复杂的空间推理并将外部知识 - 从 2D 注释中估算一般的三维房间结构
通过 2D 分割遮罩提出一种新颖的方法,能够直接推导出 3D 结构元素的平面方程和空间范围,并将相邻元素在适当的接触边缘处连接,最终在 RealEstate10k 数据集上公开释放 2266 个高质量的 3D 房间布局标注。
- DORSal: 基于扩散的场景对象中心表征
本文通过引入扩散模型,提出了一种基于对象中心槽的 3D 场景生成框架 DORSal,具有良好的渲染效果和对象级别的场景编辑功能。
- Multi-CLIP:针对 3D 场景中问答任务的对比视觉语言预训练
本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型,可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。
- Point-GCC:通过几何 - 颜色对比实现通用自监督 3D 场景预训练
本论文提出了一种通过几何 - 颜色对比(Point-GCC)对点云进行 3D 场景预训练的通用框架,该框架在几何和颜色信息之间建立联系,并包括分层监督、新型深度聚类模块、体系结构不可知的后端等设计,实现了在各项数据集上的显著效果提升,包括 - CVPR基于遮挡形状预测的自监督 3D 场景理解预训练
本文介绍了 Masked Shape Prediction (MSP) 框架,它使用 3D 语义提示来预测掩码点,并引入了明确的形状上下文和隐式深度形状特征来帮助利用形状预测中的上下文提示。实验表明 MSP 可以提高下游任务的性能表现。