Large-scale self-supervised pre-trainingtransformer architecture have
significantly boosted the performance for various tasks in natural language
processing (NLP) and computer vision (CV). However, there is a la
本文探讨了将自监督预训练用于基于 transformers 的 3D 网格数据分析的学习范式,并首先将 Vision Transformer 适应到 3D 网格数据处理中,即 Mesh Transformer,并通过 MAE 的启发,在 3D 网格数据上进行自学习,提出了 MeshMAE 方法,可以提供 3D 网格分析任务的最新性能,并证明了我们方法中关键设计的有效性。
本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器,通过实现以两种核心设计为基础的 MAE 方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并 Transfer Learning 具有出色的性能。