Mask3D:通过学习掩码的 3D 先验知识预训练 2D 视觉 Transformer
提出了一种名为 M$^{3}$3D 的新的预训练策略,该策略基于基于多模态遮蔽自编码器,可以利用三维先验和学习的跨模态表示,以增强颜色 - 深度数据之间的对应关系,并能在各种下游任务中提高性能。
Sep, 2023
探讨了利用几何约束来学习视角不变、几何感知表达,通过对 RGB-D 数据进行对比度学习,实现从 3D 先验信息到 2D 表达的迁移,并在语义分割、实例分割、室内物体检测中实现了显著提升。
Apr, 2021
我们提出了一种新颖的适用于任何点云模型的 3D 到 2D 生成预训练方法,通过交叉注意机制生成来自不同指示姿势的视图图像作为预训练方案,以精确监督帮助 3D 主干更好地理解点云的几何结构和立体关系,实验结果证明了我们提出的方法在提升架构导向方法性能方面的优越性,并在 Fine-tuning ScanObjectNN 分类和 ShapeNetPart 分割任务时实现了最先进的性能。
Jul, 2023
提出一种用于 3D 医学图像的新型预训练框架 “Mask in Mask(MiM)”,通过学习来自不同尺度的分层视觉标记的辨别性表示,在器官 / 病变 / 肿瘤分割和疾病分类等任务中展现出 MiM 相对于其他自我监督学习方法的优越性能,此外,大规模预训练数据集的扩展进一步提升了 MiM 在下游任务中的表现。
Apr, 2024
本文提出一种通用的视觉转换器(Visual Transformer),名为 Simple3D-Former,可用于高效地进行 2D 和 3D 任务的训练和预测,并且相比高度定制的 3D 特有设计实现了惊人的鲁棒性,同时利用大规模现实 2D 图像的预训练权重可免费提高 3D 任务的性能.
Sep, 2022
本文针对自监督学习在 3D 视觉中的应用,提出了一个统一的框架,并对各个不变性进行了全面的研究和比较。同时,文章还提出了一个简单而有效的对 3D 编码器和深度图编码器进行联合自对比学习的方法,并在下游任务中取得了显著的性能提升。
Jul, 2022
该论文介绍了一种名为 Bridge3D 的创新方法,通过预训练使用基础模型的特征、语义掩码和说明来预训练 3D 模型,从而增强 3D 场景表示学习,包括使用基础模型的语义掩码来指导掩码和重建过程。此外,作者还介绍了一种新方法,使用基础模型生成高精度的物体级掩码和语义文本信息,进一步促进基础 2D 和文本表示向 3D 模型的知识转移。该方法在 3D 对象检测和语义分割任务中优于现有的最先进方法,在 ScanNet 数据集上的最佳结果超过之前的最优方法 PiMAE 5.3%。
May, 2023
提出了 3D-MVP,一种使用遮罩自编码器进行 3D 多视图预训练的新方法,通过在大规模 3D 数据集上使用遮罩自编码器对其视觉编码器进行预训练,评估了其在虚拟机器人操作任务中的性能并展示了超过基线的改进,同时在实际机器人平台上也取得了令人期待的结果。
Jun, 2024
本研究提出了一种基于 3D Swin transformer 的预训练 3D backbone——Swin3D,并结合大型结构化数据集 Structured3D 进行了预训练。研究发现,在 3D 室内场景理解方面,Swin3D 先于所有现有技术,并表现出较好的普适性和优越性能,预训练 3D backbone 能够对 3D 识别任务产生巨大作用。
Apr, 2023
本文提出了一种基于 2D network 预训练的点云 3D 预训练新方法,通过引入多视角一致性损失,可有效防止 3D 特征丢失并在 3D 检测和语义分割等任务中实现最先进的性能。
Jun, 2023