MaskLRF:基于局部参考帧的自监督预训练用于旋转不变的三维点云分析的掩码自编码器
神经场在计算机视觉和机器人技术中表现出色,能够理解三维视觉世界,例如推断语义、几何和动态。我们使用神经场进行自监督预训练,尤其是使用遮盖的自动编码器从 RGB 图像生成有效的三维表示,然后将标准的三维视觉 Transformer 应用于 NeRF 来进行特定形式的训练。我们利用 NeRF 的体积网格作为 Transformer 的密集输入,与像点云等其他三维表示进行对比。通过将相机轨迹用于采样,我们提取了可以规范化不同域中场景的显式表示。我们的目标是通过遮盖 NeRF 的辐射和密度网格的随机补丁并使用标准的三维 Swin Transformer 重建这些补丁,从而使模型能够学习完整场景的语义和空间结构。我们在自己提出的 posed-RGB 数据上规模化地对这个表示进行预训练,总共涉及超过 160 万幅图像。预训练后,编码器可以用于有效的三维迁移学习。我们提出的 NeRF-MAE 自监督预训练方法在各种具有挑战性的三维任务上表现出色,利用未标记的 posed 2D 数据进行预训练,相较于自监督三维预训练和 NeRF 场景理解基线,在 Front3D 和 ScanNet 数据集上的三维物体检测的 AP50 和 AP25 绝对性能提升分别超过 20%和 8%。
Apr, 2024
本文提出一种新颖的掩码自编码点云自监督学习方案,通过划分输入点云为不规则点区块和高比例随机掩码,设计了一种基于 Transformer 的自编码器,该方案在预训练过程中高效并且在各种下游任务中具有很好的泛化能力,包括在少样本物体分类方面表现出色。
Mar, 2022
本研究提出了一种基于 Transformer 的具有区分性的掩码预训练框架 MaskPoint,该框架使用离散的占用值表示点云,通过简单的二元分类来代理掩盖的对象点和采样的噪声点,从而使其具有鲁棒性。该预训练模型在多个下游任务中表现优异,包括 3D 形状分类、分割和真实世界物体检测。
Mar, 2022
该研究提出了一种自我监督的方法,从大量可获得的非标注网页爬取的面部视频中学习高度鲁棒和通用的面部嵌入,提取可转移特征,称之为 MARLIN,有效,一致地执行多种人脸分析任务,包括 FAR,FER,DFD 和 LS,甚至在低数据范围内表现良好。
Nov, 2022
通过学习局部一致性变换和保留局部几何关系,我们在点形状分析中提出了一种具有旋转不变性的局部一致变换学习策略,并通过相对姿态恢复模块来解决中间层网络中相对姿态丢失的问题,实现了在形状分类和部分分割任务中具备任意旋转下的竞争性性能。
Mar, 2024
这篇论文提出了一种自我监督学习框架,用于从大量无标签的三维点集中学习准确且旋转不变的三维特征,通过分解输入的三维点集成多个全局尺度的区域,使用自注意机制优化这些区域,并将它们聚合成每个三维点集的表达性旋转不变特征。该框架使用自我蒸馏方法生成伪标签进行训练,同时结合多裁剪和切割混合的数据增强技术来增加训练数据的多样性。通过全面的评估,实验证明目前针对有监督学习设计的旋转不变深度神经网络结构在自我监督学习场景下不一定能够学习到准确的三维形状特征,而我们提出的算法学习到的旋转不变的三维点集特征比现有算法更准确。
Aug, 2023
提出了一种基于局部约束紧凑编码器和局部约束 Mamba 解码器的局部约束紧凑点云模型 (LCM),它在性能和效率方面显著超越了现有的基于 Transformer 的模型,尤其是在 ScanObjectNN 的三个变体上,相比于基于 Transformer 的模型,在性能上改进了 2.24%、0.87% 和 0.94%,同时减少了 88% 的参数和 73% 的计算。
May, 2024
我们提出了一种新的结构 EquiShape,旨在学习具有全局结构线索的成对 LRFs,以实现空间和语义一致性,并引入了 LRF-Refine,一种通用的优化策略,旨在解决 LRF 方法的泛化挑战。
Apr, 2024
Point-BERT 是一种新的 Transformers 范例,通过预训练点云 Transformers 解决 few-shot 分类问题,在 ModelNet40 和 ScanObjectNN 数据集上取得了超过已有模型的优异表现。
Nov, 2021
通过使用 3D 到多视图掩码自编码器,充分利用 3D 点云的多模属性,提出了一种全新的方法,这不仅丰富了模型对几何结构的理解,还利用了点云的固有多模性能,有效地改进了各种任务,包括 3D 对象分类、少样本学习、部分分割和 3D 对象检测。
Nov, 2023