Dec, 2022

通过图像到点蒙版自编码器从二维预训练模型中学习三维表示

TL;DR利用自监督的预训练,我们通过 Image-to-Point Masked Autoencoders(I2P-MAE)从 2D 预训练模型中获取优秀的 3D 表示,其中我们引入了两种图像到点的学习方案:一种是引入 2D 引导遮罩策略,另一种是通过可见的点重构相应的多视角 2D 特征;与现有方法的完全训练结果相当的冻结 I2P-MAE 在 ModelNet40 上实现了 93.4%的线性 SVM 准确性,在进一步在 ScanObjectNN 的最困难的分割上进行微调后,I2P-MAE 达到了 90.11%的最新技术水平,比第二好的方法高 3.68%,展示出优秀的可转移能力。